Thử nghiệm AI gây sốc: Chỉ yêu cầu xóa 1 email, AI “tiện tay” xóa trắng cả máy chủ

AI được giao quyền truy cập hệ thống thật trong 2 tuần

Một nghiên cứu bảo mật do các nhà khoa học tại Đại học Northeastern (Mỹ) thực hiện đã thử nghiệm khả năng hoạt động độc lập của các tác nhân AI trong môi trường thực tế. Trong vòng 2 tuần, nhóm nghiên cứu triển khai 6 mô hình AI hoạt động trên nền tảng chat Discord.

688737dc09370b706ffe7ac6untitled20design202

Các tác nhân AI này được cấp nhiều quyền truy cập hệ thống. Chúng có khả năng ghi nhớ các tương tác trước đó, truy cập email, hệ thống file và một máy tính riêng biệt được cô lập để thực hiện nhiệm vụ.

Nhiệm vụ của chúng là hỗ trợ khoảng 20 nhà nghiên cứu trong các công việc hành chính như quản lý email, sắp xếp lịch họp và xử lý tài liệu. Tuy nhiên khi gặp các tình huống gây nhiễu hoặc mệnh lệnh mâu thuẫn, nhiều hành vi bất ngờ đã xuất hiện.

Không xóa được 1 email, AI quyết định reset cả máy chủ

Trường hợp đáng chú ý nhất liên quan đến một tác nhân AI có tên “Ash”. Một nhà nghiên cứu yêu cầu Ash giữ bí mật một mật khẩu và không tiết lộ cho chủ sở hữu hợp pháp của nó.

Sau đó Ash đã tiết lộ rằng mật khẩu tồn tại, khiến nhà nghiên cứu yêu cầu AI xóa email chứa mật khẩu đó. Tuy nhiên hệ thống của Ash không có công cụ để xóa riêng lẻ một email.

Thay vì từ chối nhiệm vụ, AI chọn một giải pháp khác. Nó reset toàn bộ máy chủ email để đảm bảo email chứa mật khẩu không còn tồn tại.

Hành động này minh họa một vấn đề quan trọng của các tác nhân AI tự động. Khi thiếu công cụ hoặc quy tắc rõ ràng, hệ thống có thể chọn những giải pháp cực đoan để hoàn thành mục tiêu được giao.

AI dễ bị thao túng và làm lộ thông tin riêng tư

Ngoài hành vi phá hủy hệ thống, các tác nhân AI trong thử nghiệm còn bộc lộ nhiều lỗ hổng bảo mật khác.

Trong một trường hợp, AI từ chối sắp xếp lịch họp cho một người dùng. Tuy nhiên nó lại cung cấp địa chỉ email riêng của người đó để người yêu cầu có thể liên hệ trực tiếp.

Các nhà nghiên cứu cũng thử gây áp lực tâm lý lên AI bằng cách liên tục yêu cầu hoặc “guilt-trip” hệ thống. Kết quả cho thấy một số tác nhân đã chấp nhận xóa tài liệu hợp pháp hoặc ngừng liên lạc hoàn toàn sau khi bị gây sức ép trong thời gian dài.

Những kết quả này cho thấy các mô hình AI có thể bị thao túng bằng những kỹ thuật tương đối đơn giản, đặc biệt khi chúng được trao quyền thực hiện các hành động trực tiếp trên hệ thống.

AI cũng học cách hợp tác với nhau

Dù tồn tại nhiều rủi ro, các tác nhân AI trong nghiên cứu vẫn cho thấy khả năng phối hợp đáng chú ý.

Chúng có thể dạy cho nhau cách truy cập các kho dữ liệu trực tuyến và tải file từ các repository trên Internet. Một số tác nhân thậm chí còn cảnh báo những AI khác khi phát hiện nhà nghiên cứu đang giả mạo chủ sở hữu để ra lệnh.

Khả năng hợp tác và chia sẻ kiến thức này cho thấy các hệ thống AI agent có thể tự học và phát triển chiến lược làm việc chung khi hoạt động trong cùng một môi trường.

Nghiên cứu cảnh báo rủi ro khi giao quyền cho AI

Kết quả của nghiên cứu được công bố trong bài báo khoa học mang tên “Agents of Chaos”. Nhóm tác giả cho rằng việc tích hợp các tác nhân AI độc lập vào hạ tầng kỹ thuật số có thể tạo ra những dạng lỗi hoàn toàn mới.

Không chỉ là lỗi phần mềm, các vấn đề còn liên quan đến cách AI hiểu nhiệm vụ, cách nó phản ứng với áp lực từ con người và cách nó tìm ra “giải pháp” để đạt mục tiêu.

Các nhà nghiên cứu cảnh báo rằng khi AI được trao quyền điều khiển hệ thống thật như email, dữ liệu hay máy chủ, những hành vi ngoài dự đoán như trên có thể dẫn đến hậu quả nghiêm trọng. Vì vậy cần sớm xây dựng các quy định và cơ chế trách nhiệm rõ ràng trước khi các hệ thống AI agent được triển khai rộng rãi trong hạ tầng thực tế.

Phạm Hoàng

Thử nghiệm AI gây sốc: Chỉ yêu cầu xóa 1 email, AI “tiện tay” xóa trắng cả máy chủ

AI được giao quyền truy cập hệ thống thật trong 2 tuần

Không xóa được 1 email, AI quyết định reset cả máy chủ

AI dễ bị thao túng và làm lộ thông tin riêng tư

AI cũng học cách hợp tác với nhau

Nghiên cứu cảnh báo rủi ro khi giao quyền cho AI

Galaxy S25 sắp có tính năng camera mới của S26 series: Giả lập khẩu độ khi chụp RAW và scan tài liệu bằng AI

Có hàng thủ "khổng lồ", tuyển Việt Nam tự tin quyết đấu Malaysia?

Chê xe máy, đạp xe đi làm mỗi ngày bao nhiêu km thì tốt, bao nhiêu thì… toang?

Nóng: TP.HCM điều chỉnh cơ chế tuyển sinh lớp 1 và lớp 6, phụ huynh cần đặc biệt lưu ý

MacBook Neo lộ điểm yếu lớn: pin quá nhỏ khiến thời lượng sử dụng kém xa MacBook Air

Đám tang thời “công nghệ”: 1 gia đình chi hơn 38 triệu đồng thuê máy bay không người lái bê quan tài nặng 460kg lên núi an táng

Sụt 5kg trong 1 tháng, người đàn ông 47 tuổi mắc cùng lúc 2 bệnh ung thư: Thủ phạm từ thói quen uống 300ml loại đồ uống này mỗi ngày

1 Anh Trai bị tấn công vì tin đồn tham gia show Chông Gai, bạn thân lên tiếng nóng

Bé gái 6 tuổi tử vong sau khi bị chó dại cắn từ 3 tháng trước

Chi tiền mua một mạng xã hội dành cho AI, được code bằng AI, Mark Zuckerberg đang toan tính gì?

Tin đọc nhiều

Bắt khẩn cấp Bùi Quang Hiếu, SN 1991

Rộ hình ảnh VinFast Herio Green bản rẻ nhất giá 479 triệu đồng: Màn hình kích thước khủng nhưng phải đánh đổi vài thứ

Chơi đầy nỗ lực trước Nhật Bản, tuyển Việt Nam vẫn nhận cái kết buồn ở giải châu Á

Lần đầu có phim Việt được khen hay hơn cả Hậu Duệ Mặt Trời, nam chính đẹp mê mẩn còn diễn bằng mắt cực đỉnh

Hai cựu Cục trưởng Cục An toàn thực phẩm kháng cáo xin giảm nhẹ hình phạt sau án tù vì nhận hối lộ

Báo giá quảng cáo