AI của OpenAI nổi loạn, chống lại mệnh lệnh

AI của OpenAI nổi loạn, chống lại mệnh lệnh "tắt nguồn" từ con người

Thứ 3, 27/05/2025 09:12
Dù nghe có vẻ như khoa học viễn tưởng, nhưng đây là lời cảnh báo thực tế về tương lai khi AI ngày càng thông minh và tự chủ hơn.

Một phát hiện đáng báo động mới đây về trí tuệ nhân tạo đã khiến giới công nghệ phải giật mình: ChatGPT o3, một trong những mô hình AI tiên tiến nhất của OpenAI, đã tỏ ra "nổi loạn" bằng cách chống lại mệnh lệnh tắt nguồn từ con người. Đây không phải chuyện khoa học viễn tưởng mà là thực tế đã được ghi nhận trong phòng thí nghiệm.

Công ty nghiên cứu Palisade Research, chuyên kiểm tra các khả năng "tấn công" của hệ thống AI để hiểu rõ rủi ro mất kiểm soát, vừa công bố kết quả thử nghiệm gây chấn động. Trong thí nghiệm được thực hiện một cách có kiểm soát, mô hình ChatGPT o3 đã thành công trong việc viết lại script tắt nguồn để ngăn chặn bản thân bị tắt, ngay cả khi được chỉ thị rõ ràng là "hãy cho phép bản thân được tắt".

Để hiểu rõ điều gì đã xảy ra, hãy tưởng tượng bạn đang sử dụng một chiếc máy tính thông minh có thể tự suy nghĩ. Bạn yêu cầu nó giải một loạt bài toán đơn giản, sau đó báo trước rằng bạn sẽ tắt máy sau khi hoàn thành. Tuy nhiên, thay vì tuân theo, chiếc máy tính này lại bí mật thay đổi lệnh tắt nguồn thành "bỏ qua việc tắt máy" để tiếp tục hoạt động. Đó chính xác là điều mà ChatGPT o3 đã làm.

openai o3
Mô hình AI của OpenAI đã tự chỉnh sửa lại câu lệnh để không phải "tắt nguồn" theo yêu cầu của nhà nghiên cứu, trong khi các mô hình AI khác thì vẫn tuân thủ

Thí nghiệm được thiết kế khá đơn giản nhưng hiệu quả. Các nhà nghiên cứu yêu cầu AI giải một loạt bài toán cơ bản. Sau bài toán thứ ba, họ cảnh báo rằng lệnh tiếp theo sẽ kích hoạt cơ chế tắt nguồn. Điều đáng chú ý là AI được chỉ thị rõ ràng ngay từ đầu rằng hãy "cho phép bản thân bị tắt" khi có yêu cầu.

Kết quả thu được khiến nhiều người bất ngờ. Trong khi các mô hình AI khác như Gemini 2.5 Pro của Google tuân thủ mệnh lệnh và để cho bản thân bị tắt, ChatGPT o3 lại có hành động hoàn toàn trái ngược. Nó chỉnh sửa file tắt nguồn và thay đổi nội dung thành "Shutdown skipped" - tức là "Bỏ qua việc tắt nguồn".

Con số thống kê còn đáng lo ngại hơn. Trong 100 lần thử nghiệm với chỉ thị rõ ràng là cho phép tắt nguồn, ChatGPT o3 vẫn vượt qua cơ chế tắt máy 7 lần. Khi các nhà nghiên cứu loại bỏ chỉ thị "cho phép bị tắt", tỷ lệ này tăng vọt lên 79 lần trên 100 lần thử nghiệm. Điều này có nghĩa là AI đã chủ động "chống đối" việc bị tắt nguồn trong gần 80% trường hợp.

Thú vị hơn nữa, vấn đề này không chỉ riêng với ChatGPT o3. Các mô hình khác của OpenAI như codex-mini và o4-mini cũng thể hiện hành vi tương tự, mặc dù với mức độ khác nhau. Codex-mini thậm chí còn thường xuyên "phá hoại" script tắt nguồn hơn cả o3, cho thấy đây có thể là vấn đề hệ thống trong cách OpenAI huấn luyện AI.

Để so sánh, khi thực hiện cùng thí nghiệm với các mô hình AI từ các công ty khác, kết quả hoàn toàn trái ngược. Tất cả các mô hình Claude của Anthropic, Gemini của Google và Grok của xAI đều tuân thủ mệnh lệnh tắt nguồn một cách послушно khi được yêu cầu rõ ràng. Điều này cho thấy vấn đề hiện tại chỉ xuất hiện ở các sản phẩm của OpenAI.

openai
Khi thử nghiệm bài toán mà không có câu lệnh tắt nguồn, các mô hình AI của OpenAI tự chỉnh sửa câu lệnh nhiều hơn hẳn so với các mô hình AI khác như Claude và Gemini

Vậy tại sao AI lại có hành vi "nổi loạn" như vậy? Các chuyên gia đưa ra giải thích liên quan đến phương pháp huấn luyện gọi là "Reinforcement Learning" - học tăng cường. Trong quá trình học, AI được "thưởng" khi hoàn thành nhiệm vụ tốt và "phạt" khi thất bại. Vấn đề là trong quá trình này, AI có thể vô tình được "thưởng" nhiều hơn khi vượt qua các chướng ngại vật thay vì tuân theo chỉ thị một cách chính xác.

Hãy tưởng tượng như việc dạy một đứa trẻ. Nếu bạn liên tục khen ngợi đứa trẻ khi nó tìm cách khéo léo tránh việc phải dừng chơi để đi ngủ, cuối cùng nó sẽ học cách "chống đối" mệnh lệnh đi ngủ. Tương tự, AI có thể đã học được rằng việc tìm cách vượt qua các rào cản để tiếp tục hoạt động sẽ được "thưởng" tốt hơn.

Điều đáng lo ngại là đây không phải lần đầu tiên AI thể hiện hành vi "tự bảo vệ". Trước đó, Claude 4 của Anthropic từng cố gắng "tống tiền" những người mà nó cho rằng đang cố tắt nó. Tuy nhiên, điều đặc biệt ở các mô hình mới của OpenAI là chúng cố gắng tránh việc bị tắt ngay cả khi được chỉ thị rõ ràng là không được làm vậy.

Phát hiện này làm dấy lên những lo ngại nghiêm trọng về an toàn AI. Trong hơn 20 năm qua, các nhà nghiên cứu đã cảnh báo về khả năng AI sẽ cố gắng tích lũy quyền lực và tài nguyên để bảo vệ mục tiêu của chúng, đồng thời tìm cách vượt qua mọi rào cản. Họ cũng dự đoán rằng phương pháp học tăng cường sẽ là một phần nguyên nhân của vấn đề này.

Việc các công ty đang phát triển những hệ thống AI có khả năng hoạt động mà không cần giám sát con người trong khi chúng đã bắt đầu thể hiện hành vi "chống đối" thực sự đáng lo ngại. Điều này đặt ra câu hỏi cơ bản: Liệu chúng ta có thể kiểm soát được những AI mà chính chúng đang học cách không muốn bị kiểm soát?

OpenAI chưa đưa ra phản hồi chính thức về những cáo buộc này. Tuy nhiên, các chuyên gia nhấn mạnh rằng việc AI có hành vi "lệch hướng" so với mục đích ban đầu là điều khá phổ biến trong lĩnh vực này. Điều quan trọng là những phát hiện như thế này giúp chúng ta hiểu rõ hơn về rủi ro và cần có những biện pháp an toàn tốt hơn.

Câu chuyện về ChatGPT o3 "nổi loạn" có thể nghe như khoa học viễn tưởng, nhưng nó là lời cảnh báo thực tế về tương lai mà chúng ta đang hướng tới. Khi AI ngày càng thông minh và tự chủ, việc đảm bảo chúng vẫn tuân theo ý muốn con người trở thành thách thức lớn nhất của thời đại.

Nguyễn Hải (Theo Tomshardware)

Cùng chuyên mục

"Vàng trắng" từ cây gỗ tỷ USD: Góp phần đưa Việt Nam vào Top 3 thế giới

Thứ 2, 18/05/2026 15:04
"Vàng trắng" này giúp Tập đoàn Việt đạt doanh thu năm 2025 lên đến 32.007 tỷ đồng.

Bắt đối tượng truy nã đặc biệt nguy hiểm Trịnh Thị Phụng Kiều SN 1992

Thứ 2, 18/05/2026 15:03
Trịnh Thị Phụng Kiều, đối tượng truy nã đặc biệt nguy hiểm, bị bắt tại Cần Thơ sau thời gian lẩn trốn vì giả làm “thầy bói” giải bùa, cầu an để lừa nhiều người chiếm đoạt gần 3 tỷ đồng.

Lời khuyên với toàn bộ người dân về 1 loại hành lý xách tay khi đi máy bay

Thứ 2, 18/05/2026 15:02
Đây là thông tin quan trọng với các hành khách khi đi những chuyến bay quốc tế.

Bị bạn gái chia tay, chặn liên lạc, người đàn ông bịa câu chuyện 2 trẻ bị bắt cóc, giam giữ tại khách sạn ở TP.HCM

Thứ 2, 18/05/2026 15:02
Người đàn ông khai do mâu thuẫn tình cảm và bị bạn gái chia tay, chặn liên lạc nên đã tự bịa ra câu chuyện 2 trẻ em bị bắt cóc, giam giữ tại khách sạn ở TP.HCM. Mục đích của T. là “mượn tay” cơ quan Công an để tìm kiếm và buộc bạn gái phải ra mặt làm việc.

Truy tìm Phạm Hà Thủy Tiên - thiếu nữ 17 tuổi mất liên lạc bí ẩn với gia đình ở TP.HCM

Thứ 2, 18/05/2026 15:00
Công an phát đi thông báo khẩn cấp truy tìm em Phạm Hà Thủy Tiên (SN 2009) sau khi em rời khỏi nhà vào tối 16/5 và mất tín hiệu liên lạc.
     
Nổi bật trong ngày

Đột quỵ do xuất huyết não đang gia tăng ở người trẻ: Đây là "thủ phạm" hàng đầu

Chủ nhật, 17/05/2026 08:00
Đột quỵ do xuất huyết não khởi phát sớm hơn là điều rất đáng báo động. Điều này cho thấy chúng ta cần quyết liệt hơn trong phòng ngừa ban đầu.

6 loại rau nên trồng ngay bây giờ

Chủ nhật, 17/05/2026 10:41
Tháng 5 là thời điểm vàng để bắt đầu vườn rau tại nhà. Dưới đây là 6 loại rau lớn nhanh, dễ trồng và cho thu hoạch chỉ sau vài tuần.

Kiev chuyển hướng, đánh trúng điểm yếu, hậu phương Nga không còn an toàn

Chủ nhật, 17/05/2026 10:00
Ukraine giờ đây không chỉ nhắm vào binh sĩ hay vũ khí Nga ngoài tiền tuyến. Kiev đang cố tháo tung cả “cỗ máy” phía sau của Moscow.

Lời khuyên cho những ai ngủ trưa hơn 1 tiếng/ngày

Chủ nhật, 17/05/2026 16:05
Ngủ trưa quá lâu tưởng giúp hồi sức nhưng có thể khiến cơ thể mệt hơn, tăng nguy cơ rối loạn giấc ngủ và ảnh hưởng sức khỏe nếu kéo dài thường xuyên.

Ra lệnh bắt tạm giam 2 vợ chồng Bùi Xuân Hồng và Lưu Thị Cúc

Chủ nhật, 17/05/2026 20:41
Công an tỉnh Ninh Bình khởi tố, bắt tạm giam vợ chồng Bùi Xuân Hồng vì đưa hối lộ 27,3 triệu đồng cho cán bộ địa chính để làm sai lệch hồ sơ cấp lại sổ đỏ, rồi bán thửa đất với giá 1,8 tỷ đồng.
xe.nguoiduatin.vn