Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Thứ 2, 24/03/2025 18:39
AI đang đánh cắp nội dung của bạn và các công ty AI đã xây dựng nên đế chế kinh doanh bằng cách thu thập dữ liệu web. Cloudflare, một dịch vụ mạng toàn cầu, đã nghĩ ra một kế hoạch mới để đối phó với vấn nạn này: "mê cung AI".

AI đang đánh cắp nội dung của bạn. Chúng ta đều biết các công ty AI đã xây dựng nên những doanh nghiệp trị giá hàng tỷ USD như thế nào – bằng cách cào dữ liệu web và sử dụng dữ liệu của bạn để huấn luyện chatbot. Việc cào dữ liệu web không phải là điều mới mẻ. Trước đây, các trang web có thể dựa vào các giao thức đơn giản như robots.txt để xác định những gì có thể và không thể được sử dụng bởi các trình thu thập thông tin web. Các hướng dẫn đó đã được các công ty thực hiện việc cào dữ liệu, chẳng hạn như xây dựng kết quả cho các công cụ tìm kiếm, tôn trọng. Tuy nhiên, các công ty AI lại không tuân thủ giao kèo xã hội này và phớt lờ các hướng dẫn đó.

one companys devious plan to sto
Chú thích ảnh

Cloudflare, một dịch vụ mạng toàn cầu giúp một số trang web lớn nhất thế giới phân phối nội dung đến người dùng, đã nghĩ ra một kế hoạch mới để đối phó với các trình cào dữ liệu web của các công ty AI. Ý tưởng này vừa xảo quyệt lại vừa khéo léo. Trong một bài đăng blog mới, Cloudflare đã chia sẻ cách họ đang "bẫy các bot cư xử sai trái trong một mê cung AI". Về cơ bản, các bot không tuân theo các quy tắc được đặt ra cho chúng thông qua các giao thức như robots.txt, một tệp văn bản đơn giản quy định những gì trình thu thập thông tin web được phép làm trên một trang web, sẽ bị can thiệp để làm lãng phí thời gian và tài nguyên của công ty phụ trách bot.

Cloudflare cho biết: "Nội dung do AI tạo ra đã bùng nổ… đồng thời, chúng tôi cũng chứng kiến ​​sự bùng nổ của các trình thu thập thông tin mới được các công ty AI sử dụng để cào dữ liệu cho việc huấn luyện mô hình. Các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng Cloudflare mỗi ngày, tương đương gần 1% tổng số yêu cầu web mà chúng tôi thấy." Cloudflare cho biết trước đây họ chỉ chặn các trình thu thập thông tin và cào dữ liệu web AI. Tuy nhiên, việc làm như vậy đã cảnh báo những người đứng sau các bot rằng quyền truy cập của họ đã bị từ chối, và kết quả là họ sẽ thay đổi chiến lược để tiếp tục các chiến dịch cào dữ liệu của mình.

Vì vậy, Cloudflare đã nảy ra ý tưởng xây dựng một "honeypot": một loạt các trang web giả được tạo bằng nội dung do AI tạo ra. Việc Cloudflare sử dụng nội dung do AI tạo ra để chống lại các trình cào dữ liệu web AI không chỉ đơn thuần là để hả hê. Khi AI huấn luyện trên nội dung do AI tạo ra, nó thực sự làm suy giảm chính mô hình AI. Ngành công nghiệp này thậm chí còn có một thuật ngữ cho nó: "model collapse" (sụp đổ mô hình). Cloudflare về cơ bản đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị trừng phạt vì đã làm như vậy.

Bài đăng của Cloudflare đi sâu vào các chi tiết kỹ thuật của việc xây dựng mê cung AI. Nhưng, ý chính của nó là Cloudflare đã nghĩ ra mọi thứ theo cách mà khách truy cập là con người sẽ không bao giờ nhìn thấy các trang honeypot do AI tạo ra này. Ngoài ra, con người sẽ nhận thấy "những điều vô nghĩa do AI tạo ra" trên các trang này. Tuy nhiên, các bot sẽ rơi xuống hang thỏ, lãng phí tài nguyên tính toán khi chúng đi sâu hơn và sâu hơn qua nhiều trang nội dung do AI tạo ra. Khách hàng của Cloudflare có thể lựa chọn sử dụng mê cung AI ngay bây giờ để bảo vệ nội dung của họ khỏi các trình cào dữ liệu web.

Ánh Viên
Cùng chuyên mục

5 tỷ sao biển bỗng dưng chết hàng loạt: Điều gì đang xảy ra dưới đáy biển Bắc Mỹ?

Thứ 2, 09/02/2026 00:00
Hơn một thập kỷ qua, các nhà khoa học chứng kiến hiện tượng chưa từng có trong lịch sử đại dương khi hàng tỷ con sao biển biến mất dọc bờ biển Bắc Mỹ.

Thấy người đàn ông ngồi chơi đàn, học sinh TP.HCM quay clip lại: Danh tính thật gây ngỡ ngàng!

Chủ nhật, 08/02/2026 22:27
Khoảnh khắc giản dị ấy lại nhanh chóng thu hút hàng nghìn lượt yêu thích và chia sẻ.

Hai anh Tây muốn thử món bún đậu mắm tôm "quốc hồn quốc túy" của người Việt, chịu đói nửa ngày vẫn chưa gọi xong

Chủ nhật, 08/02/2026 22:02
Chỉ với một món ăn quen thuộc như bún đậu mắm tôm, tiếng Việt cũng trở thành "thử thách khó nhằn" với không ít người nước ngoài.

"Tết anh chị biếu bố mẹ bao nhiêu?", câu trả lời của chị dâu khiến em chồng lập tức đăng bài bóc phốt

Chủ nhật, 08/02/2026 21:58
Chỉ vì khoản tiền biếu Tết tưởng nhỏ, người phụ nữ bỗng trở thành tâm điểm chỉ trích khi chuyện gia đình bị đưa lên mạng xã hội, kéo theo nhiều tổn thương khó hàn gắn.

Cảnh tượng lạ trên phố Hà Nội tối mưa rét 10 độ, xe máy xếp chật kín vỉa hè

Chủ nhật, 08/02/2026 21:40
Dù thời tiết mưa rét chỉ khoảng 10-12 độ C, người dân Hà Nội vẫn đổ về các phố thời trang như Chùa Bộc, Nguyễn Trãi (Hà Nội) mua sắm nhộn nhịp trước Tết Bính Ngọ, đặc biệt nhiều bạn trẻ tranh thủ sắm đồ sớm để kịp về quê đón năm mới.
     
Nổi bật trong ngày

Phá chuyên án xuyên quốc gia, bắt Trần Kim Tuyến sinh năm 1985, tịch thu hàng trăm cân vàng bạc

Chủ nhật, 08/02/2026 06:33
Đây là đường dây buôn lậu vàng bạc quy mô cực lớn.

Phở Tư Lùn Ấu Triệu bị xử phạt do vi phạm vệ sinh, an toàn thực phẩm

Chủ nhật, 08/02/2026 11:17
UBND phường Hoàn Kiếm (Hà Nội) vừa công bố danh sách 14 cơ sở vi phạm an toàn thực phẩm trong tháng 1/2026.

Công an TP.HCM bắt nhiều người sau khi kiểm tra một căn nhà

Chủ nhật, 08/02/2026 19:42
Các đối tượng bị bắt đều có tuổi đời rất trẻ.

Dàn hậu "đại chiến" thảm đỏ WeChoice Awards: Hương Giang mang kim cương lấp lánh, 1 nàng hậu khoe bụng bầu gây chú ý

Chủ nhật, 08/02/2026 06:34
Màn đọ sắc của dàn hậu Hương Giang, H'Hen Niê, Ngọc Châu, Thanh Thủy... đã khiến thảm đỏ WeChoice Awards nóng hơn bao giờ hết.

Cựu Á quân CKTG tiếp tục có hành động gây tranh cãi

Chủ nhật, 08/02/2026 12:32
Cộng đồng tranh cãi về hành động của Á quân CKTG một thời.
xe.nguoiduatin.vn