Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Thứ 2, 24/03/2025 18:39
AI đang đánh cắp nội dung của bạn và các công ty AI đã xây dựng nên đế chế kinh doanh bằng cách thu thập dữ liệu web. Cloudflare, một dịch vụ mạng toàn cầu, đã nghĩ ra một kế hoạch mới để đối phó với vấn nạn này: "mê cung AI".

AI đang đánh cắp nội dung của bạn. Chúng ta đều biết các công ty AI đã xây dựng nên những doanh nghiệp trị giá hàng tỷ USD như thế nào – bằng cách cào dữ liệu web và sử dụng dữ liệu của bạn để huấn luyện chatbot. Việc cào dữ liệu web không phải là điều mới mẻ. Trước đây, các trang web có thể dựa vào các giao thức đơn giản như robots.txt để xác định những gì có thể và không thể được sử dụng bởi các trình thu thập thông tin web. Các hướng dẫn đó đã được các công ty thực hiện việc cào dữ liệu, chẳng hạn như xây dựng kết quả cho các công cụ tìm kiếm, tôn trọng. Tuy nhiên, các công ty AI lại không tuân thủ giao kèo xã hội này và phớt lờ các hướng dẫn đó.

one companys devious plan to sto
Chú thích ảnh

Cloudflare, một dịch vụ mạng toàn cầu giúp một số trang web lớn nhất thế giới phân phối nội dung đến người dùng, đã nghĩ ra một kế hoạch mới để đối phó với các trình cào dữ liệu web của các công ty AI. Ý tưởng này vừa xảo quyệt lại vừa khéo léo. Trong một bài đăng blog mới, Cloudflare đã chia sẻ cách họ đang "bẫy các bot cư xử sai trái trong một mê cung AI". Về cơ bản, các bot không tuân theo các quy tắc được đặt ra cho chúng thông qua các giao thức như robots.txt, một tệp văn bản đơn giản quy định những gì trình thu thập thông tin web được phép làm trên một trang web, sẽ bị can thiệp để làm lãng phí thời gian và tài nguyên của công ty phụ trách bot.

Cloudflare cho biết: "Nội dung do AI tạo ra đã bùng nổ… đồng thời, chúng tôi cũng chứng kiến ​​sự bùng nổ của các trình thu thập thông tin mới được các công ty AI sử dụng để cào dữ liệu cho việc huấn luyện mô hình. Các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng Cloudflare mỗi ngày, tương đương gần 1% tổng số yêu cầu web mà chúng tôi thấy." Cloudflare cho biết trước đây họ chỉ chặn các trình thu thập thông tin và cào dữ liệu web AI. Tuy nhiên, việc làm như vậy đã cảnh báo những người đứng sau các bot rằng quyền truy cập của họ đã bị từ chối, và kết quả là họ sẽ thay đổi chiến lược để tiếp tục các chiến dịch cào dữ liệu của mình.

Vì vậy, Cloudflare đã nảy ra ý tưởng xây dựng một "honeypot": một loạt các trang web giả được tạo bằng nội dung do AI tạo ra. Việc Cloudflare sử dụng nội dung do AI tạo ra để chống lại các trình cào dữ liệu web AI không chỉ đơn thuần là để hả hê. Khi AI huấn luyện trên nội dung do AI tạo ra, nó thực sự làm suy giảm chính mô hình AI. Ngành công nghiệp này thậm chí còn có một thuật ngữ cho nó: "model collapse" (sụp đổ mô hình). Cloudflare về cơ bản đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị trừng phạt vì đã làm như vậy.

Bài đăng của Cloudflare đi sâu vào các chi tiết kỹ thuật của việc xây dựng mê cung AI. Nhưng, ý chính của nó là Cloudflare đã nghĩ ra mọi thứ theo cách mà khách truy cập là con người sẽ không bao giờ nhìn thấy các trang honeypot do AI tạo ra này. Ngoài ra, con người sẽ nhận thấy "những điều vô nghĩa do AI tạo ra" trên các trang này. Tuy nhiên, các bot sẽ rơi xuống hang thỏ, lãng phí tài nguyên tính toán khi chúng đi sâu hơn và sâu hơn qua nhiều trang nội dung do AI tạo ra. Khách hàng của Cloudflare có thể lựa chọn sử dụng mê cung AI ngay bây giờ để bảo vệ nội dung của họ khỏi các trình cào dữ liệu web.

Ánh Viên
Cùng chuyên mục

Siêu phẩm kinh dị Silent Hill f chính thức có manga, "cái kết mới" khiến fan phát cuồng

Thứ 5, 26/03/2026 16:40
Đúng nửa năm sau khi gieo rắc nỗi kinh hoàng trên hệ máy console, Silent Hill f chính thức công bố bản chuyển thể Manga.

Chainsaw Man chương 232: Sự trở lại của Power và cú "reset" gây tranh cãi nhất lịch sử manga

Thứ 5, 26/03/2026 16:30
Sau 8 năm làm mưa làm gió, Chainsaw Man đã chính thức khép lại ở chương 232 với một kịch bản không ai ngờ tới.

Tham vọng lớn từ Việt Nam: Lập liên minh cà phê toàn cầu, kéo thu nhập nông dân tăng 300%

Thứ 5, 26/03/2026 16:24
21 phái đoàn ngoại giao cùng xuất hiện tại Hà Nội để ký một tuyên bố mang tính biểu trưng, trong bối cảnh ngành cà phê toàn cầu đối mặt áp lực từ biến đổi khí hậu và biến động thị trường.

Harry Potter bản truyền hình tung trailer: Giáo sư Snape da màu gây tranh cãi, liệu có phá nát nguyên tác?

Thứ 5, 26/03/2026 16:20
Dự án truyền hình Harry Potter vừa tung trailer đầu tiên đã lập tức rơi vào tâm điểm tranh cãi.

Chiếc bánh kem dâu tây với vẻ ngoài kỳ lạ gây tranh cãi

Thứ 5, 26/03/2026 16:14
Từ một tình huống bình thường trong gia đình, người thì thấy đáng yêu, người lại cho rằng thiếu tinh tế.
     
Nổi bật trong ngày

Ra quyết định bắt tạm giam Lý Gia Thịnh, thu hồi toàn bộ 7 chiếc xe ô tô

Thứ 4, 25/03/2026 07:46
Đây là đối tượng chủ mưu trong vụ án "Lừa đảo chiếm đoạt tài sản" thông qua hình thức thuê xe ô tô tự lái rồi mang đi cầm cố, sau đó chiếm đoạt số tiền đặc biệt lớn.

Cày 1.000 phim Trung Quốc mới thấy 1 bộ là đỉnh cao đại nữ chủ: Nữ chính tài hoa xuất chúng, hay nhất 13 năm qua

Thứ 4, 25/03/2026 10:18
Tác phẩm "dạy" cho các diễn viên khác phải đóng "đại nữ chủ" như thế nào.

HLV Kim Sang-sik hé lộ màn kết hợp Xuân Son - Hoàng Hên, cơ hội của Văn Hậu trước trận gặp Bangladesh

Thứ 4, 25/03/2026 12:55
HLV Kim sang-sik chia sẻ về tình hình của tuyển Việt Nam trước trận đấu gặp đội tuyển Bangladesh.

Thu giữ 68 điện thoại, 80 chỉ vàng cùng hơn 21 tỷ đồng tiền mặt và bắt khẩn cấp 12 người tại 1 công trường bỏ hoang

Thứ 4, 25/03/2026 15:24
Cảnh sát triệt phá đường dây lừa đảo tinh vi và thu giữ số tài sản khủng.

Một đất nước cấm chơi Padel vì làm tăng tỷ lệ đồng tính nam?

Thứ 4, 25/03/2026 16:00
Tin giả “cấm padel vì tăng đồng tính nam” gây bão mạng: Sự thật phía sau khiến nhiều người ngỡ ngàng.
xe.nguoiduatin.vn