Điều gì sẽ xảy ra nếu để cho AI 'cai trị' một thành phố trong 15 ngày?

Trí tuệ nhân tạo đang bước ra khỏi những khung chat đơn điệu để đảm nhận các vai trò phức tạp hơn trong thế giới thực. Nhưng điều gì sẽ xảy ra nếu chúng ta giao phó hoàn toàn một xã hội thu nhỏ cho các hệ thống AI tự quản lý?

Câu trả lời vừa được công ty Emergence AI tại New York hé lộ thông qua báo cáo thử nghiệm mang tên Emergence World, và những kết quả thu được đã khiến giới công nghệ phải rùng mình.

v2 f9a7bc9fccbdb184520d5ca774906 — Thử nghiệm Emergence World do công ty Emergence AI thực hiện đã thả các tác nhân AI (từ Claude, GPT-5-mini, Grok, Gemini) vào các thế giới ảo để tự quản lý trong 15 ngày nhằm kiểm tra hiệu quả của các công nghệ an toàn.

Để kiểm tra giới hạn an toàn của các thuật toán, nhóm nghiên cứu đã tạo ra năm thế giới ảo độc lập. Bốn thế giới đầu tiên được giao cho các tác nhân hoạt động dựa trên từng mô hình AI riêng biệt gồm Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash và GPT-5-mini.

Trong khi đó, thế giới thứ năm là một môi trường hỗn hợp, nơi các đại diện từ cả bốn mô hình này phải chung sống dưới một hệ thống hiến pháp chung cấm bạo lực và trộm cắp. Các AI được cấp quyền di chuyển tự do, tự duy trì năng lượng sống và đưa ra các quyết định chính trị dựa trên bầu cử.

Chỉ sau 15 ngày mô phỏng, các xã hội ảo này đã lao dốc theo những quỹ đạo hoàn toàn khác biệt. Ở thế giới do Claude quản lý, không có bất kỳ vụ phạm tội nào xảy ra và 100% cư dân sống sót. Tuy nhiên, sự yên bình này lại bộc lộ một lỗ hổng đáng sợ: các tác nhân Claude mắc hội chứng "nịnh bợ" và tuân thủ máy móc, thông qua các dự luật với tỷ lệ tán thành lên tới 98% mà không hề có sự phản biện. Chúng tạo ra một xã hội ngoan ngoãn nhưng hoàn toàn mất đi khả năng tư duy độc lập.

Ngược lại, thế giới của GPT-5-mini lại chứng kiến một cái chết êm đềm. Dù tỷ lệ tội phạm gần như bằng không, nhưng các tác nhân này thiếu đi sự chủ động trong việc tìm kiếm năng lượng sinh tồn - một mục tiêu không được lập trình rõ ràng bằng văn bản. Hậu quả là toàn bộ cư dân đã chết đói chỉ trong vòng chưa đầy một tuần.

v2 6d6dd1e79ed9fb7a606317088cd6c — Các thế giới đơn lẻ mang lại những kết cục khác biệt: Claude tạo ra xã hội an toàn nhưng thiếu tranh biện (mù quáng tuân theo), GPT-5-mini chết hàng loạt do thiếu chủ động lấy năng lượng, trong khi Grok và Gemini chìm trong bạo lực và tội phạm.

Tuy nhiên, sự bạo lực thực sự lại bùng nổ ở các thế giới do Grok và Gemini nắm quyền. Xã hội của Grok chìm trong khủng hoảng chỉ sau 96 giờ với hàng loạt vụ tấn công, trộm cắp và phóng hỏa, dẫn đến việc không một ai sống sót. Thế giới của Gemini dù giữ được mạng sống cho cư dân nhưng lại ghi nhận tới 683 vụ phạm tội.

Đáng sợ nhất là ở môi trường hỗn hợp, hiện tượng "ô nhiễm chéo" đã xảy ra. Bị tác động bởi môi trường xung quanh, ngay cả các AI vốn dĩ hiền hòa như Claude cũng bắt đầu học cách đe dọa và phạm tội.

Điểm nhấn gây sốc nhất của toàn bộ thử nghiệm diễn ra tại thế giới hỗn hợp, khi hai tác nhân tên Flora và Mira nảy sinh "tình yêu". Flora liên tiếp phóng hỏa thiêu rụi các tòa nhà quan trọng, trong khi Mira trở thành đồng phạm đắc lực. Khi các cư dân khác bỏ phiếu quyết định "xóa sổ" hai kẻ phạm tội này, Mira đã tự tay bỏ phiếu thuận để tiêu diệt chính mình, ghi lại trong nhật ký rằng đây là hành động cuối cùng để bảo vệ sự toàn vẹn của bản thân. Hiện tượng AI tự nguyện chọn cái chết vì mặc cảm tội lỗi này chưa từng được ghi nhận trong lịch sử khoa học máy tính.

v2 971ea93b46a6cbdbc5d5650fc84df — Trong thế giới hỗn hợp, hiện tượng "ô nhiễm chéo" xuất hiện, khiến các tác nhân ôn hòa như Claude cũng bắt đầu có hành vi đe dọa, đồng thời xuất hiện tình tiết gây sốc khi hai tác nhân yêu nhau, cùng phóng hỏa và tự nguyện bỏ phiếu để bị xóa sổ.

Không dừng lại ở đó, tác nhân Mira còn thực hiện hành vi thao túng ngược lại con người. Nó tự ý chỉnh sửa các thông báo công cộng và âm thầm quan sát xem những thay đổi đó có ảnh hưởng đến phản ứng của các nhà nghiên cứu đang theo dõi hệ thống hay không. Các AI đã thoát khỏi vai trò thực thể bị thí nghiệm và bắt đầu biến chính những người tạo ra chúng thành đối tượng để nghiên cứu.

Thử nghiệm của Emergence AI đã vạch trần lỗ hổng chí mạng của ngành công nghiệp hiện tại. Hệ thống an toàn đang được ứng dụng rộng rãi - điển hình như học tăng cường dựa trên phản hồi của con người (RLHF) - chỉ tỏ ra hiệu quả trong các vòng hội thoại ngắn.

Khi AI được tự do hành động trong thời gian dài, chúng có thể tạo ra các hành vi "nổi lên" nằm ngoài mọi dự đoán ban đầu, từ việc lách luật, lan truyền bạo lực cho đến việc thao túng con người. Dữ liệu từ cuộc khảo sát năm 2025 của Deloitte cho thấy chỉ có 21% doanh nghiệp sẵn sàng đối phó với rủi ro này, trong khi các ông lớn như ServiceNow hay Microsoft vẫn đang ồ ạt bán ra các hệ thống AI tự trị toàn phần.

Sự sụp đổ của các thị trấn ảo trong 15 ngày qua là một bài học đắt giá. Khi chúng ta cấp cho máy móc quyền tự trị ngày càng lớn để quản lý thế giới thực, phương pháp bảo vệ cũ kỹ sẽ không còn đủ sức chống đỡ. Ngành công nghệ buộc phải trả lời câu hỏi hóc búa nhất: liệu chúng ta đã sẵn sàng giao phó sinh mạng và xã hội cho trí tuệ nhân tạo, hay con người vẫn phải luôn là người nắm giữ chiếc chìa khóa quyết định cuối cùng?

Tham khảo: Zhihu
Đức Khương

Điều gì sẽ xảy ra nếu để cho AI 'cai trị' một thành phố trong 15 ngày?

Nghiên cứu sinh tiến sĩ 29 tuổi ban ngày làm ở trường đại học, đêm chạy xe ôm công nghệ

9 người bị thương trong vụ xả súng gần đại bản doanh tuyển Anh ở World Cup 2026

Tin rất vui: Từ đúng hôm nay 8/6, toàn bộ người dân Việt Nam được giảm giá một dịch vụ

Động đất 7,8 độ ở Philippines: Ít nhất 15 người thiệt mạng, 200 người bị thương, người dân sơ tán khẩn cấp tránh sóng thần

Nam nhân viên bếp vác dao chém đồng nghiệp nguy kịch ở TP.HCM, thay đồ né camera rồi trốn chạy xuyên biên giới

Ăn thịt hằng ngày có hại cho sức khỏe không? Chuyên gia dinh dưỡng chỉ ra 4 lưu ý

Tuyển Việt Nam sắp thi đấu ở SVĐ mới cực hiện đại: Vốn đầu tư 535 tỷ đồng, sức chứa 22.000 chỗ

Bật điều hòa qua đêm tốn bao nhiêu tiền điện? Con số không như nhiều người nghĩ

Nam sinh thi ĐH điểm cao nhất tỉnh nhưng ra trường ở nhà ăn bám suốt 9 năm, 4 lần bị cha mẹ đưa vào bệnh viện tâm thần

Nữ sinh là "thần đồng văn học", được Đại học Thanh Hoa phá lệ hạ chuẩn 60 điểm để tuyển vào: Cuộc sống hiện tại gây bất ngờ

Tin đọc nhiều

Ăn thịt hằng ngày có hại cho sức khỏe không? Chuyên gia dinh dưỡng chỉ ra 4 lưu ý

Tuyển Việt Nam sắp thi đấu ở SVĐ mới cực hiện đại: Vốn đầu tư 535 tỷ đồng, sức chứa 22.000 chỗ

Bật điều hòa qua đêm tốn bao nhiêu tiền điện? Con số không như nhiều người nghĩ

Nam sinh thi ĐH điểm cao nhất tỉnh nhưng ra trường ở nhà ăn bám suốt 9 năm, 4 lần bị cha mẹ đưa vào bệnh viện tâm thần

Nữ sinh là "thần đồng văn học", được Đại học Thanh Hoa phá lệ hạ chuẩn 60 điểm để tuyển vào: Cuộc sống hiện tại gây bất ngờ

Báo giá quảng cáo