Thuyết âm mưu đang dần thành sự thật, có đến 35% website mới là do AI tạo ra

Các nhà nghiên cứu làm việc với dữ liệu từ Internet Archive đã phát hiện có tới một phần ba website được tạo ra kể từ năm 2022 là do AI tạo hoặc hỗ trợ. Nhóm nghiên cứu bao gồm các chuyên gia từ Stanford, Imperial College London và Internet Archive đã công bố phát hiện trong bài báo "Tác động của văn bản do AI tạo ra lên Internet". Nghiên cứu cũng cho thấy văn bản do AI tạo ra đang khiến web trở nên vui vẻ hơn và ít dài dòng hơn.

Được truyền cảm hứng từ thuyết Dead Internet Theory, lý thuyết cho rằng phần lớn internet hiện nay chỉ là các bot nói chuyện qua lại với nhau, nhóm nghiên cứu quyết định tìm hiểu ChatGPT và các đối thủ đã định hình lại internet như thế nào kể từ năm 2022.

Các nhà nghiên cứu viết rằng sự phát triển của văn bản do AI tạo ra được lo ngại sẽ làm suy giảm sự đa dạng về ngữ nghĩa và phong cách, độ chính xác về mặt sự thật. Đến giữa năm 2025, khoảng 35% website mới được phân loại là do AI tạo ra hoặc hỗ trợ, tăng từ mức 0% trước khi ChatGPT ra mắt cuối 2022.

Jonáš Doležal, nhà nghiên cứu AI tại Stanford và đồng tác giả của bài báo, chia sẻ với 404 Media rằng ông thấy tốc độ AI chiếm lĩnh web khá choáng ngợp. Sau hàng thập kỷ con người định hình internet, một phần đáng kể đã trở thành do AI quyết định chỉ trong ba năm. Theo ông, đây là sự chuyển đổi lớn của bối cảnh kỹ thuật số trong một phần nhỏ thời gian so với việc xây dựng nó ngay từ đầu.

Các nhà nghiên cứu kiểm tra sáu lời chỉ trích phổ biến về văn bản do AI tạo ra: liệu nó có thu hẹp quan điểm, tạo ra nhiều thông tin sai lệch khi ảo giác lan rộng, khiến văn viết trực tuyến cảm giác được khử trùng và vui vẻ hơn, không trích dẫn nguồn, tạo ra chuỗi từ với mật độ ngữ nghĩa thấp, và ép văn viết vào nền văn hóa đơn điệu nơi các giọng văn độc đáo biến mất.

Để trả lời những câu hỏi này, các nhà nghiên cứu hợp tác với Internet Archive lấy mẫu website từ 33 tháng giữa tháng 8/2022 và tháng 5/2025. Với mỗi URL được lấy mẫu, họ truy xuất ảnh chụp lưu trữ cũ nhất qua API của Wayback Machine. HTML thô của mỗi ảnh chụp được tải xuống và lưu trữ cục bộ để xử lý tiếp theo.

Nhóm nghiên cứu sử dụng phần mềm phát hiện AI có tên Pangram v3 để tìm các website do AI tạo ra. Sau khi thử nghiệm nhiều công cụ, họ nhận thấy Pangram v3 có tỷ lệ phát hiện cao nhất. Khi Pangram v3 xác định một website do AI tạo, các nhà nghiên cứu dùng nó làm mẫu để kiểm tra sáu giả thuyết còn lại. Với mỗi giả thuyết, họ xác định tín hiệu có thể đo lường, tính toán cho từng mẫu website hàng tháng và kiểm tra mối tương quan với điểm khả năng AI.

Để kiểm tra liệu AI có tạo ra internet đầy thông tin sai lệch, nhóm trích xuất các tuyên bố dựa trên sự thật từ các website và trả tiền cho người kiểm tra để xác minh. Để tìm hiểu AI có trích dẫn nguồn không, nhóm tính toán mật độ liên kết ra ngoài trong văn bản do AI tạo.

Điều khiến các nhà nghiên cứu ngạc nhiên là chỉ có hai trong số sáu lý thuyết có vẻ đúng. AI đang khiến internet ít đa dạng về mặt ngữ nghĩa hơn và tích cực hơn nhìn chung, nhưng không gây ra sự gia tăng lời nói dối hay cắt bỏ nguồn.

Đáng lưu ý là các nhà nghiên cứu không tìm thấy sự gia tăng các tuyên bố sai lệch có thể kiểm chứng. Tuy nhiên, vẫn có thể AI đang lặng lẽ tăng khối lượng các tuyên bố không thể kiểm chứng, những tuyên bố không thể kiểm tra bằng công cụ kiểm tra sự thật hiện có. Hoặc đơn giản là internet vốn không phải nơi tuân thủ sự thật ngay từ đầu.

Maty Bohacek, sinh viên nghiên cứu tại Stanford và đồng tác giả, nói với 404 Media rằng họ đang làm việc với Internet Archive để biến đây thành công cụ liên tục cung cấp tín hiệu này thay vì một ảnh chụp nhanh cố định. Họ cũng quan tâm bổ sung chi tiết, xem loại website nào bị ảnh hưởng nhiều nhất theo danh mục hoặc ngôn ngữ.

Đối với ông Doležal, những nghiên cứu như thế này rất quan trọng để đảm bảo một internet hữu ích. Khi nội dung do AI tạo ra lan rộng, thách thức là tìm vai trò cho các mô hình này mà không chỉ dẫn đến một web được khử trùng và lặp đi lặp lại. Thay vì buộc các mô hình phải hoàn toàn tuân thủ, cho phép chúng có tính cách riêng biệt có thể giúp chúng hoạt động như đối tác sáng tạo hơn là thay thế giọng nói con người.

Nguyễn Hải

Thuyết âm mưu đang dần thành sự thật, có đến 35% website mới là do AI tạo ra

Lần đầu tiên, một thương hiệu Việt Nam chính thức hợp tác cùng Disney

World Cup: Tuyển Hàn Quốc lâm nguy, chỉ còn cách tấm vé về nước "một bước chân"

Bỉ đè bẹp New Zealand 5-1, De Bruyne ghi bàn đưa Quỷ đỏ vào vòng knock-out World Cup 2026

Tiền đạo Nguyễn Xuân Son được "thăng chức" ở đội tuyển Việt Nam

Hé lộ lý do Haaland chỉ ngồi dự bị, không đá phút nào, bình thản nhìn Na Uy thua đậm Pháp

Apple không ra mắt M6 Pro và M6 Max? MacBook Ultra có thể lỡ hẹn, MacBook Pro có thể nhảy thẳng lên M7

Bí kíp nào giúp Nhật Bản thắng được Brazil 3-2, khiến HLV Ancelotti phải nhận trái đắng?

Truyện tranh Nhật Bản dự đoán đúng kịch bản gặp Brazil từ 10 năm trước, nhưng kết cục còn bất ngờ hơn

Mbappe - Dembele rực sáng, tuyển Pháp "hủy diệt" Na Uy để hiên ngang vào vòng 32 đội với ngôi đầu

Tiền đạo Nguyễn Xuân Son được "thăng chức" ở đội tuyển Việt Nam

Tin đọc nhiều

Hào Khí Du Hiệp chính thức ra mắt, chốn Võ Lâm mở cửa chào đón hàng vạn Hiệp Khách

Xe tay ga hybrid 150cc trang bị tận răng giá hơn 40 triệu đồng khiến Honda Vision và Lead phải dè chừng

Cận cảnh nhan sắc nàng thơ mới của Vbiz: Ngây thơ thánh thiện tựa tình đầu, netizen năn nỉ “xin đừng dao kéo”

“Vỡ vụn” từ bên trong, đội tuyển 2 lần vô địch World Cup dừng bước ê chề ngay từ vòng bảng

Hà Lan hoá “cơn lốc” để thổi bay Tunisia, chạm trán đối thủ “cứng cựa” ở vòng 1/16

Báo giá quảng cáo