Một sự cố nội bộ tại nền tảng đám mây Amazon Web Services (AWS) vào tháng 12 năm 2025 đã khiến một hệ thống gián đoạn suốt 13 tiếng đồng hồ, sau khi một công cụ AI hỗ trợ lập trình tự động xóa và tái tạo môi trường vận hành.
Dù vậy, Amazon khẳng định nguyên nhân xuất phát từ quyền truy cập của con người, không phải do AI mất kiểm soát.
Theo thông tin được công bố, sự cố bắt đầu khi một kỹ sư AWS sử dụng AI agent lập trình có tên Kiro để xử lý một vấn đề kỹ thuật. Công cụ này được thiết kế để thực hiện các hành động dựa trên chỉ dẫn của người vận hành, bao gồm khả năng thao tác trực tiếp lên môi trường hệ thống.
Trong quá trình xử lý, Kiro đã quyết định “xóa và tái tạo môi trường” — một thao tác có thể được sử dụng khi cần khởi tạo lại cấu hình hoặc làm sạch hệ thống. Tuy nhiên, hành động này đã tác động trực tiếp tới AWS Cost Explorer tại một số khu vực ở Trung Quốc đại lục, khiến dịch vụ theo dõi và phân tích chi phí của khách hàng bị gián đoạn.
Thông thường, mọi thay đổi liên quan đến môi trường sản xuất của AWS phải trải qua quy trình phê duyệt hai người nhằm giảm thiểu rủi ro. Tuy nhiên, trong trường hợp này, kỹ sư liên quan được cấp quyền truy cập rộng hơn so với tiêu chuẩn thông thường. Điều đó đồng nghĩa với việc thay đổi có thể được triển khai mà không cần thêm một bước kiểm tra độc lập.
Khi môi trường bị xóa và tái tạo, hệ thống phụ thuộc vào đó ngừng hoạt động. Quá trình khôi phục kéo dài 13 tiếng đồng hồ trước khi dịch vụ trở lại bình thường. AWS mô tả đây là sự cố “rất hạn chế”, không ảnh hưởng diện rộng tới toàn bộ hạ tầng.
Một sự cố khác trong những tháng trước cũng liên quan đến công cụ lập trình Amazon Q Developer, nhưng Amazon cho biết vụ việc này không tác động đến các dịch vụ AWS hướng tới khách hàng.
Phản hồi về các sự cố, AWS nhấn mạnh rằng AI không tự ý hành động ngoài khuôn khổ được cấp quyền. Theo công ty, vấn đề nằm ở cấu hình quyền truy cập của người dùng, và tình huống tương tự hoàn toàn có thể xảy ra nếu thao tác bằng công cụ lập trình truyền thống. Amazon cho rằng việc AI xuất hiện trong chuỗi sự kiện chỉ là “trùng hợp”.
Dù vậy, một lãnh đạo cấp cao của AWS được dẫn lời nhận định các sự cố này “nhỏ nhưng hoàn toàn có thể lường trước”. Nội bộ công ty cũng xuất hiện ý kiến thận trọng khi AI ngày càng được trao quyền tương đương kỹ sư trong môi trường vận hành thực tế.
AWS hiện đóng góp khoảng 60% lợi nhuận hoạt động của Amazon, khiến độ ổn định hệ thống trở thành ưu tiên hàng đầu. Sau sự cố, công ty cho biết đã tăng cường các biện pháp bảo vệ, áp dụng rà soát đồng cấp bắt buộc và đẩy mạnh đào tạo nhân viên.
Song song đó, Amazon vẫn tiếp tục thúc đẩy việc sử dụng AI trong lập trình, đặt mục tiêu phần lớn kỹ sư áp dụng công cụ này thường xuyên. Tuy nhiên, sự cố kéo dài 13 giờ cho thấy khi AI được trao quyền hành động trực tiếp trên hệ thống sản xuất, một quyết định sai trong cấu hình hoặc kiểm soát truy cập có thể nhanh chóng biến thành gián đoạn thực tế.
Nguyễn Hải
