Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra

Thứ 2, 24/03/2025 18:39
AI đang đánh cắp nội dung của bạn và các công ty AI đã xây dựng nên đế chế kinh doanh bằng cách thu thập dữ liệu web. Cloudflare, một dịch vụ mạng toàn cầu, đã nghĩ ra một kế hoạch mới để đối phó với vấn nạn này: "mê cung AI".

AI đang đánh cắp nội dung của bạn. Chúng ta đều biết các công ty AI đã xây dựng nên những doanh nghiệp trị giá hàng tỷ USD như thế nào – bằng cách cào dữ liệu web và sử dụng dữ liệu của bạn để huấn luyện chatbot. Việc cào dữ liệu web không phải là điều mới mẻ. Trước đây, các trang web có thể dựa vào các giao thức đơn giản như robots.txt để xác định những gì có thể và không thể được sử dụng bởi các trình thu thập thông tin web. Các hướng dẫn đó đã được các công ty thực hiện việc cào dữ liệu, chẳng hạn như xây dựng kết quả cho các công cụ tìm kiếm, tôn trọng. Tuy nhiên, các công ty AI lại không tuân thủ giao kèo xã hội này và phớt lờ các hướng dẫn đó.

one companys devious plan to sto
Chú thích ảnh

Cloudflare, một dịch vụ mạng toàn cầu giúp một số trang web lớn nhất thế giới phân phối nội dung đến người dùng, đã nghĩ ra một kế hoạch mới để đối phó với các trình cào dữ liệu web của các công ty AI. Ý tưởng này vừa xảo quyệt lại vừa khéo léo. Trong một bài đăng blog mới, Cloudflare đã chia sẻ cách họ đang "bẫy các bot cư xử sai trái trong một mê cung AI". Về cơ bản, các bot không tuân theo các quy tắc được đặt ra cho chúng thông qua các giao thức như robots.txt, một tệp văn bản đơn giản quy định những gì trình thu thập thông tin web được phép làm trên một trang web, sẽ bị can thiệp để làm lãng phí thời gian và tài nguyên của công ty phụ trách bot.

Cloudflare cho biết: "Nội dung do AI tạo ra đã bùng nổ… đồng thời, chúng tôi cũng chứng kiến ​​sự bùng nổ của các trình thu thập thông tin mới được các công ty AI sử dụng để cào dữ liệu cho việc huấn luyện mô hình. Các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng Cloudflare mỗi ngày, tương đương gần 1% tổng số yêu cầu web mà chúng tôi thấy." Cloudflare cho biết trước đây họ chỉ chặn các trình thu thập thông tin và cào dữ liệu web AI. Tuy nhiên, việc làm như vậy đã cảnh báo những người đứng sau các bot rằng quyền truy cập của họ đã bị từ chối, và kết quả là họ sẽ thay đổi chiến lược để tiếp tục các chiến dịch cào dữ liệu của mình.

Vì vậy, Cloudflare đã nảy ra ý tưởng xây dựng một "honeypot": một loạt các trang web giả được tạo bằng nội dung do AI tạo ra. Việc Cloudflare sử dụng nội dung do AI tạo ra để chống lại các trình cào dữ liệu web AI không chỉ đơn thuần là để hả hê. Khi AI huấn luyện trên nội dung do AI tạo ra, nó thực sự làm suy giảm chính mô hình AI. Ngành công nghiệp này thậm chí còn có một thuật ngữ cho nó: "model collapse" (sụp đổ mô hình). Cloudflare về cơ bản đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị trừng phạt vì đã làm như vậy.

Bài đăng của Cloudflare đi sâu vào các chi tiết kỹ thuật của việc xây dựng mê cung AI. Nhưng, ý chính của nó là Cloudflare đã nghĩ ra mọi thứ theo cách mà khách truy cập là con người sẽ không bao giờ nhìn thấy các trang honeypot do AI tạo ra này. Ngoài ra, con người sẽ nhận thấy "những điều vô nghĩa do AI tạo ra" trên các trang này. Tuy nhiên, các bot sẽ rơi xuống hang thỏ, lãng phí tài nguyên tính toán khi chúng đi sâu hơn và sâu hơn qua nhiều trang nội dung do AI tạo ra. Khách hàng của Cloudflare có thể lựa chọn sử dụng mê cung AI ngay bây giờ để bảo vệ nội dung của họ khỏi các trình cào dữ liệu web.

Ánh Viên
Cùng chuyên mục

Loại quả ngon nhất thế giới của Việt Nam: Chỉ có ở Ninh Bình, vào mùa là hết sạch, phải đặt trước mới có

Thứ 5, 25/06/2026 00:00
Loại quả đặc biệt này từng xuất hiện trên mâm cỗ vua chúa và đến nay vẫn khiến nhiều người chờ đợi mỗi khi vào vụ.

Infographic: 10 mẹo tiết kiệm điện hiệu quả mùa nắng nóng, ai cũng phải biết

Thứ 4, 24/06/2026 23:33
Tiền điện tăng cao vào mùa nắng nóng là nỗi lo của nhiều gia đình. Tuy nhiên, chỉ với vài thay đổi nhỏ trong thói quen sinh hoạt hằng ngày, bạn hoàn toàn có thể giảm đáng kể hóa đơn điện mỗi tháng mà vẫn đảm bảo sự thoải mái cho cả gia đình.

Từ Game of Thrones: 3 kiểu lãnh đạo thất bại mà mọi tổ chức đều có

Thứ 4, 24/06/2026 22:55
Trong Game of Thrones, ba nhân vật thất bại ấn tượng nhất không phải những kẻ phản diện rõ ràng. Họ là những người có lý tưởng, có trí tuệ, có tầm nhìn nhưng cuối cùng đều kết thúc bi thảm theo những cách hoàn toàn khác nhau.

Lời khuyên cho những nhà đầu tư chứng khoán F0

Thứ 4, 24/06/2026 22:50
Trong bối cảnh ngày càng nhiều nhà đầu tư F0 bước vào thị trường chứng khoán nhưng thiếu nền tảng kiến thức, cuốn sách “200 Bài Học Vỡ Lòng Chứng Khoán Cho Nhà Đầu Tư F0 – Tập 1” của Cú Thông Thái được xem như cẩm nang nhập môn, giúp người mới xây dựng nền tảng kiến thức và tư duy đầu tư bài bản.

Xem phim Sex Education, tôi bật khóc nức nở: Sự cay nghiệt của mẹ năm ấy khiến tôi ám ảnh tâm lý suốt cuộc đời!

Thứ 4, 24/06/2026 22:49
Giá như những năm đó, mẹ dành cho tôi một cái ôm động viên, hiểu được rằng tôi cũng chỉ là một đứa trẻ "trung bình khá".
     
Nổi bật trong ngày

Bắt giữ Lê Nhật Đăng SN 2006

Thứ 4, 24/06/2026 07:57
Công an phường Kiến Hưng phát hiện, bắt giữ đối tượng Lê Nhật Đăng và bàn giao đối tượng cho Phòng cảnh sát hình sự để giải quyết.

Trẻ thiếu canxi thường phát ra 5 tín hiệu: Bệnh viện Nhi đồng 2 cảnh báo đừng chủ quan

Thứ 4, 24/06/2026 09:19
Dấu hiệu thiếu canxi ở bé thường rất dễ bị nhầm với những biểu hiện sinh lý thông thường, khiến ba mẹ dễ bỏ qua.

Phát hiện 47 hộp kem dưỡng da TRANNSINO’S CREAM tại hộ kinh doanh ở Đồng Nai: Cơ quan chức năng vào cuộc xác minh

Thứ 4, 24/06/2026 10:54
Ngày 18/6, lực lượng chức năng tại Đồng Nai phát hiện 47 hộp kem dưỡng da mang nhãn hiệu "TRANNSINO’S CREAM" có dấu hiệu giả mạo thương hiệu đã được bảo hộ cùng nhiều bao bì gạo ST25 nghi xâm phạm quyền sở hữu trí tuệ trong đợt cao điểm chống hàng giả.

6 tuyệt kỹ thần thông mạnh nhất trong Dragon Ball Super

Thứ 4, 24/06/2026 12:25
Từ những chiêu thức vật lý thô bạo cho đến các thần kỹ thao túng quy luật vũ trụ, Dragon Ball Super đã thực sự tạo nên một sân chơi của những vị thần.

Xem phim "Sex and the City", tôi hiểu vì sao mình từng khổ sở khi yêu: Tất cả là tại thói quen này

Thứ 4, 24/06/2026 14:29
Tôi từng nghĩ mình đau khổ vì gặp sai người. Nhưng sau khi xem Sex and the City, tôi nhận ra nguyên nhân thật sự lại nằm ở một thói quen rất quen thuộc: đặt hạnh phúc của mình vào tay người khác.
xe.nguoiduatin.vn