Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Thứ 2, 24/03/2025 18:39
AI đang đánh cắp nội dung của bạn và các công ty AI đã xây dựng nên đế chế kinh doanh bằng cách thu thập dữ liệu web. Cloudflare, một dịch vụ mạng toàn cầu, đã nghĩ ra một kế hoạch mới để đối phó với vấn nạn này: "mê cung AI".

AI đang đánh cắp nội dung của bạn. Chúng ta đều biết các công ty AI đã xây dựng nên những doanh nghiệp trị giá hàng tỷ USD như thế nào – bằng cách cào dữ liệu web và sử dụng dữ liệu của bạn để huấn luyện chatbot. Việc cào dữ liệu web không phải là điều mới mẻ. Trước đây, các trang web có thể dựa vào các giao thức đơn giản như robots.txt để xác định những gì có thể và không thể được sử dụng bởi các trình thu thập thông tin web. Các hướng dẫn đó đã được các công ty thực hiện việc cào dữ liệu, chẳng hạn như xây dựng kết quả cho các công cụ tìm kiếm, tôn trọng. Tuy nhiên, các công ty AI lại không tuân thủ giao kèo xã hội này và phớt lờ các hướng dẫn đó.

one companys devious plan to sto
Chú thích ảnh

Cloudflare, một dịch vụ mạng toàn cầu giúp một số trang web lớn nhất thế giới phân phối nội dung đến người dùng, đã nghĩ ra một kế hoạch mới để đối phó với các trình cào dữ liệu web của các công ty AI. Ý tưởng này vừa xảo quyệt lại vừa khéo léo. Trong một bài đăng blog mới, Cloudflare đã chia sẻ cách họ đang "bẫy các bot cư xử sai trái trong một mê cung AI". Về cơ bản, các bot không tuân theo các quy tắc được đặt ra cho chúng thông qua các giao thức như robots.txt, một tệp văn bản đơn giản quy định những gì trình thu thập thông tin web được phép làm trên một trang web, sẽ bị can thiệp để làm lãng phí thời gian và tài nguyên của công ty phụ trách bot.

Cloudflare cho biết: "Nội dung do AI tạo ra đã bùng nổ… đồng thời, chúng tôi cũng chứng kiến ​​sự bùng nổ của các trình thu thập thông tin mới được các công ty AI sử dụng để cào dữ liệu cho việc huấn luyện mô hình. Các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng Cloudflare mỗi ngày, tương đương gần 1% tổng số yêu cầu web mà chúng tôi thấy." Cloudflare cho biết trước đây họ chỉ chặn các trình thu thập thông tin và cào dữ liệu web AI. Tuy nhiên, việc làm như vậy đã cảnh báo những người đứng sau các bot rằng quyền truy cập của họ đã bị từ chối, và kết quả là họ sẽ thay đổi chiến lược để tiếp tục các chiến dịch cào dữ liệu của mình.

Vì vậy, Cloudflare đã nảy ra ý tưởng xây dựng một "honeypot": một loạt các trang web giả được tạo bằng nội dung do AI tạo ra. Việc Cloudflare sử dụng nội dung do AI tạo ra để chống lại các trình cào dữ liệu web AI không chỉ đơn thuần là để hả hê. Khi AI huấn luyện trên nội dung do AI tạo ra, nó thực sự làm suy giảm chính mô hình AI. Ngành công nghiệp này thậm chí còn có một thuật ngữ cho nó: "model collapse" (sụp đổ mô hình). Cloudflare về cơ bản đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị trừng phạt vì đã làm như vậy.

Bài đăng của Cloudflare đi sâu vào các chi tiết kỹ thuật của việc xây dựng mê cung AI. Nhưng, ý chính của nó là Cloudflare đã nghĩ ra mọi thứ theo cách mà khách truy cập là con người sẽ không bao giờ nhìn thấy các trang honeypot do AI tạo ra này. Ngoài ra, con người sẽ nhận thấy "những điều vô nghĩa do AI tạo ra" trên các trang này. Tuy nhiên, các bot sẽ rơi xuống hang thỏ, lãng phí tài nguyên tính toán khi chúng đi sâu hơn và sâu hơn qua nhiều trang nội dung do AI tạo ra. Khách hàng của Cloudflare có thể lựa chọn sử dụng mê cung AI ngay bây giờ để bảo vệ nội dung của họ khỏi các trình cào dữ liệu web.

Ánh Viên
Cùng chuyên mục

Người Việt tìm kiếm gì nhiều nhất trên Google năm 2025?

Thứ 6, 05/12/2025 13:21
Google vừa công bố danh sách "Một năm tìm kiếm - Year in search 2025" phản ánh những xu hướng, thông tin được người Việt quan tâm và tìm kiếm nhiều nhất.

Bắt giữ Nguyễn Thị Kiều Giang sinh năm 1995

Thứ 6, 05/12/2025 13:19
Nguyễn Thị Kiều Giang là đối tượng cướp dây chuyền vàng khoảng 1,5 lượng.

Audi Việt Nam ra mắt tới 7 mẫu xe ngay năm sau, có mẫu chưa từng xuất hiện, sẽ có showroom 'đặc biệt nhất ĐNÁ'

Thứ 6, 05/12/2025 13:17
Thương hiệu Audi tại Việt Nam trong năm tới sẽ có dải sản phẩm phong phú và mới mẻ. Trong khi hệ thống showroom cũng được mở rộng và nâng cấp.

Khó tin nhưng thật: Không chỉ rắn, 6 loài vật này có khả năng dự báo thiên tai, chuẩn xác không ngờ

Thứ 6, 05/12/2025 13:00
Nhiều loài vật tưởng chừng quen thuộc lại sở hữu khả năng phản ứng sớm trước thiên tai, đôi khi chính xác đến mức con người lẫn máy móc cũng phải bất ngờ.

Thiếu gia của tập đoàn Samsung thi đại học chỉ trả lời sai đúng 1 câu 

Thứ 6, 05/12/2025 12:16
Con trai của "đại công chúa Samsung" đạt thành tích sốc trong kỳ thi đại học Suneung nổi tiếng khắc nghiệt của Hàn Quốc.
     
Nổi bật trong ngày

3 cách hiệu quả nhất để rửa sạch thuốc trừ sâu khỏi rau quả

Thứ 5, 04/12/2025 08:00
Thuốc trừ sâu “bám dai” trên rau củ và trái cây, ngay cả với hàng hữu cơ. Tìm hiểu cách rửa sạch hiệu quả để bảo vệ sức khỏe trong bài viết dưới đây.

Người phụ nữ gửi tiết kiệm 3,7 tỷ đồng, 5 năm sau tài khoản còn 0 đồng liền kiện ngân hàng, tòa tuyên bố: 1 bên phải bồi thường 4,4 tỷ đồng

Thứ 5, 04/12/2025 08:53
Không chỉ mất sạch tiền tiết kiệm, người phụ nữ Trung Quốc còn hoang mang hơn khi bị tố là kẻ lừa đảo.

Phát hiện 719kg ma túy đá ngụy trang trong mâm xôi đen, FBI họp báo khẩn

Thứ 5, 04/12/2025 10:40
Vụ việc đang thu hút sự chú ý lớn tại Mỹ.

Cảnh báo thủ đoạn lừa đảo tinh vi ngay trước Tết Nguyên đán: Gặp 4 dấu hiệu này, lập tức báo công an

Thứ 5, 04/12/2025 13:59
Thời gian gần đây, tình trạng lừa đảo tuyển dụng dịp cận Tết qua mạng xã hội, nếu thấy xuất hiện 4 dấu hiệu nhận biết sau thì người dân cần cảnh giác và báo công an khi phát hiện nghi vấn.

Sợ bị 'đánh úp' dưới đáy biển, hai nước NATO tung hạm đội săn ngầm, đối đầu trực diện Nga ở Đại Tây Dương

Thứ 5, 04/12/2025 15:25
Anh và Na Uy sẽ cử hơn một chục tàu chiến đi săn tàu ngầm Nga và bảo vệ cơ sở hạ tầng quan trọng ở Bắc Đại Tây Dương trong các cuộc tuần tra mới trong những năm tới.
xe.nguoiduatin.vn