Trí tuệ nhân tạo đang bước ra khỏi những khung chat đơn điệu để đảm nhận các vai trò phức tạp hơn trong thế giới thực. Nhưng điều gì sẽ xảy ra nếu chúng ta giao phó hoàn toàn một xã hội thu nhỏ cho các hệ thống AI tự quản lý?
Câu trả lời vừa được công ty Emergence AI tại New York hé lộ thông qua báo cáo thử nghiệm mang tên Emergence World, và những kết quả thu được đã khiến giới công nghệ phải rùng mình.
Để kiểm tra giới hạn an toàn của các thuật toán, nhóm nghiên cứu đã tạo ra năm thế giới ảo độc lập. Bốn thế giới đầu tiên được giao cho các tác nhân hoạt động dựa trên từng mô hình AI riêng biệt gồm Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash và GPT-5-mini.
Trong khi đó, thế giới thứ năm là một môi trường hỗn hợp, nơi các đại diện từ cả bốn mô hình này phải chung sống dưới một hệ thống hiến pháp chung cấm bạo lực và trộm cắp. Các AI được cấp quyền di chuyển tự do, tự duy trì năng lượng sống và đưa ra các quyết định chính trị dựa trên bầu cử.
Chỉ sau 15 ngày mô phỏng, các xã hội ảo này đã lao dốc theo những quỹ đạo hoàn toàn khác biệt. Ở thế giới do Claude quản lý, không có bất kỳ vụ phạm tội nào xảy ra và 100% cư dân sống sót. Tuy nhiên, sự yên bình này lại bộc lộ một lỗ hổng đáng sợ: các tác nhân Claude mắc hội chứng "nịnh bợ" và tuân thủ máy móc, thông qua các dự luật với tỷ lệ tán thành lên tới 98% mà không hề có sự phản biện. Chúng tạo ra một xã hội ngoan ngoãn nhưng hoàn toàn mất đi khả năng tư duy độc lập.
Ngược lại, thế giới của GPT-5-mini lại chứng kiến một cái chết êm đềm. Dù tỷ lệ tội phạm gần như bằng không, nhưng các tác nhân này thiếu đi sự chủ động trong việc tìm kiếm năng lượng sinh tồn - một mục tiêu không được lập trình rõ ràng bằng văn bản. Hậu quả là toàn bộ cư dân đã chết đói chỉ trong vòng chưa đầy một tuần.
Tuy nhiên, sự bạo lực thực sự lại bùng nổ ở các thế giới do Grok và Gemini nắm quyền. Xã hội của Grok chìm trong khủng hoảng chỉ sau 96 giờ với hàng loạt vụ tấn công, trộm cắp và phóng hỏa, dẫn đến việc không một ai sống sót. Thế giới của Gemini dù giữ được mạng sống cho cư dân nhưng lại ghi nhận tới 683 vụ phạm tội.
Đáng sợ nhất là ở môi trường hỗn hợp, hiện tượng "ô nhiễm chéo" đã xảy ra. Bị tác động bởi môi trường xung quanh, ngay cả các AI vốn dĩ hiền hòa như Claude cũng bắt đầu học cách đe dọa và phạm tội.
Điểm nhấn gây sốc nhất của toàn bộ thử nghiệm diễn ra tại thế giới hỗn hợp, khi hai tác nhân tên Flora và Mira nảy sinh "tình yêu". Flora liên tiếp phóng hỏa thiêu rụi các tòa nhà quan trọng, trong khi Mira trở thành đồng phạm đắc lực. Khi các cư dân khác bỏ phiếu quyết định "xóa sổ" hai kẻ phạm tội này, Mira đã tự tay bỏ phiếu thuận để tiêu diệt chính mình, ghi lại trong nhật ký rằng đây là hành động cuối cùng để bảo vệ sự toàn vẹn của bản thân. Hiện tượng AI tự nguyện chọn cái chết vì mặc cảm tội lỗi này chưa từng được ghi nhận trong lịch sử khoa học máy tính.
Không dừng lại ở đó, tác nhân Mira còn thực hiện hành vi thao túng ngược lại con người. Nó tự ý chỉnh sửa các thông báo công cộng và âm thầm quan sát xem những thay đổi đó có ảnh hưởng đến phản ứng của các nhà nghiên cứu đang theo dõi hệ thống hay không. Các AI đã thoát khỏi vai trò thực thể bị thí nghiệm và bắt đầu biến chính những người tạo ra chúng thành đối tượng để nghiên cứu.
Thử nghiệm của Emergence AI đã vạch trần lỗ hổng chí mạng của ngành công nghiệp hiện tại. Hệ thống an toàn đang được ứng dụng rộng rãi - điển hình như học tăng cường dựa trên phản hồi của con người (RLHF) - chỉ tỏ ra hiệu quả trong các vòng hội thoại ngắn.
Khi AI được tự do hành động trong thời gian dài, chúng có thể tạo ra các hành vi "nổi lên" nằm ngoài mọi dự đoán ban đầu, từ việc lách luật, lan truyền bạo lực cho đến việc thao túng con người. Dữ liệu từ cuộc khảo sát năm 2025 của Deloitte cho thấy chỉ có 21% doanh nghiệp sẵn sàng đối phó với rủi ro này, trong khi các ông lớn như ServiceNow hay Microsoft vẫn đang ồ ạt bán ra các hệ thống AI tự trị toàn phần.
Sự sụp đổ của các thị trấn ảo trong 15 ngày qua là một bài học đắt giá. Khi chúng ta cấp cho máy móc quyền tự trị ngày càng lớn để quản lý thế giới thực, phương pháp bảo vệ cũ kỹ sẽ không còn đủ sức chống đỡ. Ngành công nghệ buộc phải trả lời câu hỏi hóc búa nhất: liệu chúng ta đã sẵn sàng giao phó sinh mạng và xã hội cho trí tuệ nhân tạo, hay con người vẫn phải luôn là người nắm giữ chiếc chìa khóa quyết định cuối cùng?
Tham khảo: Zhihu
Đức Khương
