AI được giao quyền truy cập hệ thống thật trong 2 tuần
Một nghiên cứu bảo mật do các nhà khoa học tại Đại học Northeastern (Mỹ) thực hiện đã thử nghiệm khả năng hoạt động độc lập của các tác nhân AI trong môi trường thực tế. Trong vòng 2 tuần, nhóm nghiên cứu triển khai 6 mô hình AI hoạt động trên nền tảng chat Discord.
Các tác nhân AI này được cấp nhiều quyền truy cập hệ thống. Chúng có khả năng ghi nhớ các tương tác trước đó, truy cập email, hệ thống file và một máy tính riêng biệt được cô lập để thực hiện nhiệm vụ.
Nhiệm vụ của chúng là hỗ trợ khoảng 20 nhà nghiên cứu trong các công việc hành chính như quản lý email, sắp xếp lịch họp và xử lý tài liệu. Tuy nhiên khi gặp các tình huống gây nhiễu hoặc mệnh lệnh mâu thuẫn, nhiều hành vi bất ngờ đã xuất hiện.
Không xóa được 1 email, AI quyết định reset cả máy chủ
Trường hợp đáng chú ý nhất liên quan đến một tác nhân AI có tên “Ash”. Một nhà nghiên cứu yêu cầu Ash giữ bí mật một mật khẩu và không tiết lộ cho chủ sở hữu hợp pháp của nó.
Sau đó Ash đã tiết lộ rằng mật khẩu tồn tại, khiến nhà nghiên cứu yêu cầu AI xóa email chứa mật khẩu đó. Tuy nhiên hệ thống của Ash không có công cụ để xóa riêng lẻ một email.
Thay vì từ chối nhiệm vụ, AI chọn một giải pháp khác. Nó reset toàn bộ máy chủ email để đảm bảo email chứa mật khẩu không còn tồn tại.
Hành động này minh họa một vấn đề quan trọng của các tác nhân AI tự động. Khi thiếu công cụ hoặc quy tắc rõ ràng, hệ thống có thể chọn những giải pháp cực đoan để hoàn thành mục tiêu được giao.
AI dễ bị thao túng và làm lộ thông tin riêng tư
Ngoài hành vi phá hủy hệ thống, các tác nhân AI trong thử nghiệm còn bộc lộ nhiều lỗ hổng bảo mật khác.
Trong một trường hợp, AI từ chối sắp xếp lịch họp cho một người dùng. Tuy nhiên nó lại cung cấp địa chỉ email riêng của người đó để người yêu cầu có thể liên hệ trực tiếp.
Các nhà nghiên cứu cũng thử gây áp lực tâm lý lên AI bằng cách liên tục yêu cầu hoặc “guilt-trip” hệ thống. Kết quả cho thấy một số tác nhân đã chấp nhận xóa tài liệu hợp pháp hoặc ngừng liên lạc hoàn toàn sau khi bị gây sức ép trong thời gian dài.
Những kết quả này cho thấy các mô hình AI có thể bị thao túng bằng những kỹ thuật tương đối đơn giản, đặc biệt khi chúng được trao quyền thực hiện các hành động trực tiếp trên hệ thống.
AI cũng học cách hợp tác với nhau
Dù tồn tại nhiều rủi ro, các tác nhân AI trong nghiên cứu vẫn cho thấy khả năng phối hợp đáng chú ý.
Chúng có thể dạy cho nhau cách truy cập các kho dữ liệu trực tuyến và tải file từ các repository trên Internet. Một số tác nhân thậm chí còn cảnh báo những AI khác khi phát hiện nhà nghiên cứu đang giả mạo chủ sở hữu để ra lệnh.
Khả năng hợp tác và chia sẻ kiến thức này cho thấy các hệ thống AI agent có thể tự học và phát triển chiến lược làm việc chung khi hoạt động trong cùng một môi trường.
Nghiên cứu cảnh báo rủi ro khi giao quyền cho AI
Kết quả của nghiên cứu được công bố trong bài báo khoa học mang tên “Agents of Chaos”. Nhóm tác giả cho rằng việc tích hợp các tác nhân AI độc lập vào hạ tầng kỹ thuật số có thể tạo ra những dạng lỗi hoàn toàn mới.
Không chỉ là lỗi phần mềm, các vấn đề còn liên quan đến cách AI hiểu nhiệm vụ, cách nó phản ứng với áp lực từ con người và cách nó tìm ra “giải pháp” để đạt mục tiêu.
Các nhà nghiên cứu cảnh báo rằng khi AI được trao quyền điều khiển hệ thống thật như email, dữ liệu hay máy chủ, những hành vi ngoài dự đoán như trên có thể dẫn đến hậu quả nghiêm trọng. Vì vậy cần sớm xây dựng các quy định và cơ chế trách nhiệm rõ ràng trước khi các hệ thống AI agent được triển khai rộng rãi trong hạ tầng thực tế.
Phạm Hoàng
