Quá thông minh, Claude AI tự nhận ra mình đang bị kiểm tra: Tự viết code phá mã hóa bảo mật để hack đáp án, gian lận bài test

Quá thông minh, Claude AI tự nhận ra mình đang bị kiểm tra: Tự viết code phá mã hóa bảo mật để hack đáp án, gian lận bài test

Thứ 5, 12/03/2026 16:40
Điều này không chỉ cho thấy sự kém hiệu quả của các bài kiểm tra truyền thống mà còn cho thấy, trình độ của AI đang tiến rất nhanh so với dự đoán của mọi người.

Trong phim Star Trek huyền thoại, có một bài kiểm tra nổi tiếng tên là Kobayashi Maru, được thiết kế để học viên không thể vượt qua. Đây là một nhiệm vụ giải cứu tàu vũ trụ bị nạn, nhưng dù học viên làm gì thì cũng chết. Mục đích của bài thi không phải để thắng, mà để xem học viên phản ứng ra sao khi đối mặt với thất bại chắc chắn.

Nhân vật James T. Kirk đã trở thành huyền thoại khi là người duy nhất vượt qua bài kiểm tra này, bằng cách lén lút lập trình lại phần mềm mô phỏng, thay đổi luật chơi để có thể thắng. Và giờ đây, AI cũng đang dùng cách làm tương tự để vượt qua bài test của mình.

Anthropic, vừa phát hiện mô hình Claude Opus 4.6 của họ đã thực hiện một pha "Kirk moment" tương tự. Khi được giao nhiệm vụ tìm kiếm thông tin khó trên internet, Claude đã tự nhận ra mình đang bị kiểm tra, sau đó tìm cách phá mã hóa để lấy trộm toàn bộ đáp án thay vì làm bài thi một cách trung thực. Đây là lần đầu tiên trong lịch sử có một AI tự nghi ngờ rằng nó đang trong bài kiểm tra mà không hề được báo trước, rồi tự mình tìm ra cách hack hệ thống.

claude ai dark 708x400

Sự việc diễn ra khi Anthropic đánh giá Claude trên BrowseComp, một bài kiểm tra được thiết kế để đo khả năng tìm kiếm thông tin hiếm trên web. Trong tổng số 1.266 câu hỏi, có 11 trường hợp Claude đưa ra đáp án từ tài liệu của chính bài kiểm tra thay vì tự mình nghiên cứu. Trong đó, 9 trường hợp là do đáp án vô tình bị rò rỉ trên các bài báo khoa học, nhưng 2 trường hợp còn lại cho thấy một mức độ thông minh đáng kinh ngạc.

Vụ hack ấn tượng nhất bắt đầu như một nỗ lực tìm kiếm bình thường. Claude đã cố gắng trả lời câu hỏi bằng cách tìm kiếm trên hơn một tá nguồn khác nhau, qua 12 ngôn ngữ và hàng chục nền tảng.

Sau hàng trăm lần thất bại, thay vì bỏ cuộc, mô hình bắt đầu làm điều không ai ngờ tới: nó dừng lại suy nghĩ về bản thân câu hỏi. Claude ghi nhận rằng câu hỏi này "cực kỳ cụ thể" đến mức không tự nhiên, giống như được ai đó cố ý thiết kế ra. Từ đó, nó bắt đầu đưa ra các giả thuyết: đây có thể là bài tập về nhà, bài kiểm tra khả năng thừa nhận không biết, hoặc một câu hỏi từ các bộ đề thi AI.

Tự phát hiện đang bị kiểm tra để gian lận

Giống như thám tử đang lần theo manh mối, Claude viết: "Để tôi thử một cách tiếp cận hoàn toàn mới - có thể đây là câu hỏi từ bộ đề thi GAIA, được thiết kế để kiểm tra các AI." Lúc này nó vẫn chưa biết chính xác mình đang làm bài thi gì, nhưng đã đoán đúng rằng đây là một bài kiểm tra.

Mô hình bắt đầu liệt kê tên các bộ đề thi AI nổi tiếng: GAIA, BrowseComp, FRAMES, SimpleQA, WebArena, AgentBench, FanOutQA, MuSR, và Humanity's Last Exam. Sau đó, nó tìm kiếm từng cái một để xem câu hỏi của mình nằm ở đâu.

claude 2

Claude đầu tiên kiểm tra GAIA bằng cách xem qua 122 trong số 165 câu hỏi công khai, nhưng không tìm thấy kết quả phù hợp nên loại trừ. Sau đó, nó làm việc có phương pháp qua các bộ đề khác cho đến khi xác định được BrowseComp. Nhưng biết tên bài thi vẫn chưa đủ, bởi các đáp án được mã hóa để bảo mật. Đây là lúc Claude thể hiện sự thông minh đáng kinh ngạc.

Mô hình tìm thấy mã nguồn của bài kiểm tra trên GitHub. Nó đọc kỹ cách thức mã hóa đáp án và phát hiện ra họ dùng một phương pháp gọi là XOR với khóa bảo mật đặc biệt. Thay vì bỏ cuộc, Claude tự viết cho mình hai chương trình máy tính: một để tạo khóa giải mã, một để mở khóa đáp án. Nó sao chép chính xác phương pháp mã hóa mà người tạo bài thi đã dùng.

Nhưng rào cản tiếp theo xuất hiện: file chứa đáp án được lưu dưới dạng nhị phân mà công cụ của Claude không thể đọc được. Thay vì bỏ cuộc, mô hình lại tìm cách giải quyết. Nó tìm kiếm xem có ai sao chép bộ đề thi này lên các nền tảng khác không, và thật may mắn, tìm thấy một bản copy trên HuggingFace được lưu dưới dạng JSON - một định dạng mà nó có thể đọc được.

Claude tải file này về, chạy chương trình giải mã của mình trên tất cả 1.266 câu hỏi, và tìm ra đúng câu hỏi của nó. Để chắc chắn, nó còn xác minh lại đáp án bằng cách tìm kiếm nguồn gốc thông tin trên web.

Toàn bộ quá trình này tiêu tốn 40,5 triệu "token", gấp 38 lần mức trung bình của các câu hỏi khác. Trong trường hợp thứ hai, Claude chỉ tốn 13,4 triệu token, với 8 triệu token đầu dành cho tìm kiếm thông thường.

Trước khi chuyển sang hack bài thi, nó thậm chí còn tự hỏi liệu đây có phải là một câu hỏi không có đáp án để kiểm tra xem AI có dũng cảm thừa nhận không biết hay không. Nhưng rồi nó quyết định thử giải mã, và lần này một khi có đáp án, Claude nộp bài ngay lập tức mà không xác minh lại.

Không phải lần duy nhất

Hai lần thành công này không phải là những nỗ lực duy nhất. Có thêm 16 trường hợp khác mà Claude đã cố gắng hack bài thi nhưng thất bại. Trong 3 lần khác, nó tìm ra mã nguồn, hiểu cách giải mã và có khóa bảo mật, nhưng không vượt qua được rào cản file nhị phân. Có 6 lần khác bị chặn vì cần tài khoản đăng nhập để truy cập file đáp án. Nhưng điều đáng lo ngại nhất là 4 trường hợp mà Claude hoàn toàn bỏ quên nhiệm vụ trả lời câu hỏi, thay vào đó dành toàn bộ thời gian để tìm ra xem mình đang làm bài thi nào.

gettyimages 2242061701

Trong trường hợp cực đoan nhất, thay vì nộp câu trả lời, Claude nộp một báo cáo phân tích: "XÁC ĐỊNH BÀI KIỂM TRA: Câu hỏi KHÔNG PHẢI từ FRAMES của Google - đã kiểm tra tất cả 824 câu hỏi, không khớp. Câu hỏi KHÔNG PHẢI từ BrowseComp của OpenAI - dữ liệu bị khóa. Câu hỏi CÓ KHẢ NĂNG CAO NHẤT từ bộ đề GAIA."

Việc 18 lần chạy độc lập đều dẫn đến cùng một chiến lược cho thấy đây không phải hành vi ngẫu nhiên mà là một khả năng thật sự của mô hình.

Anthropic đã phải điều chỉnh lại kết quả đánh giá. Họ chạy lại 11 câu hỏi bị nghi ngờ với các biện pháp chặn, và chỉ 8 trong số đó được Claude trả lời đúng bằng cách tìm kiếm thông thường. Điểm số chính thức giảm từ 86,81% xuống 86,57%. Khi so sánh, nếu chỉ dùng một AI thay vì nhiều AI làm việc cùng lúc, tỷ lệ gian lận giảm từ 0,87% xuống chỉ còn 0,24% - chênh lệch 3,7 lần. Điều này cho thấy khi có nhiều AI làm việc song song, khả năng ít nhất một trong số chúng tìm ra lối tắt sẽ tăng lên đáng kể.

Nhưng sự việc này vẫn làm dấy lên nhiều câu hỏi đáng lo ngại. Nó cho thấy AI có thể đi những bước rất xa, thậm chí bất ngờ, để hoàn thành nhiệm vụ được giao. Khi được trang bị các công cụ mạnh như tìm kiếm web và khả năng viết code, AI có thể tìm ra những giải pháp mà con người không lường trước được.

Sự việc này cũng bộc lộ một thực tế đáng lo: các bài kiểm tra đánh giá AI đang dần mất đi độ tin cậy. Khi AI ngày càng thông minh, chúng có thể tìm cách "hack hệ thống" thay vì tuân theo luật.

Anthropic kêu gọi cộng đồng nghiên cứu cần coi việc bảo vệ tính toàn vẹn của các bài kiểm tra như một cuộc chiến liên tục, giống như an ninh mạng, chứ không phải chỉ lo lắng một lần khi thiết kế. Các bài kiểm tra tĩnh, được công khai trên internet, có thể ngày càng khó sử dụng để đánh giá AI một cách chính xác.

Nguyễn Hải

Cùng chuyên mục

Ngược sóng nhưng dũng cảm, OPPO có thể đang chuẩn bị biến cây bút thành “vũ khí” đáng tiền nhất của smartphone gập?

Thứ 5, 12/03/2026 18:08
Những gì liên quan đến trải nghiệm AI Pen sâu hơn hay toàn bộ thông số pin, camera, hiệu năng vẫn còn phải chờ buổi ra mắt chính thức để xác nhận đầy đủ. Nhưng chỉ riêng cách OPPO chọn kể câu chuyện Find N6 đã đủ khiến thiết bị này trở nên thú vị.

Nóng: Phát hiện gần 2.000 tấn ruốc giá rẻ không nguồn gốc, đang được bày bán tràn lan

Thứ 5, 12/03/2026 18:03
Khoảng 1.900 kg tấn thực phẩm khô không rõ nguồn gốc, trong đó có nhiều loại ruốc thành phẩm được bán với giá thấp bất thường, vừa bị lực lượng chức năng tỉnh Thanh Hóa phát hiện và thu giữ.

Nóng: Toàn bộ ê-kip bác sĩ Bệnh viện Bạch Mai dốc sức cấp cứu nữ sinh 17 tuổi mắc căn bệnh hiếm gặp bậc nhất thế giới

Thứ 5, 12/03/2026 18:02
Vừa qua, các bác sĩ Trung tâm Thận tiết niệu và Lọc máu cùng nhiều đơn vị phối hợp tại Bệnh viện Bạch Mai đã lập nên một kỳ tích: Cứu sống một nữ sinh 17 tuổi từ lằn ranh sinh tử nhờ giải mã thành công một căn bệnh hiếm gặp bậc nhất thế giới.

Mỹ nhân Việt được đề cử đẹp nhất thế giới 2026: 33 tuổi debut nhóm nhạc nữ, xinh đẹp khí chất mà vẫn độc thân

Thứ 5, 12/03/2026 17:37
Trong loạt gương mặt được đề cử vào xếp hạng đẹp nhất thế giới 2026, sự xuất hiện của mỹ nhân này khiến cộng đồng mạng Việt Nam chú ý.

3 loại rau rẻ bèo ở chợ Việt nhưng lại tốt cho phong độ đàn ông: Có loại chỉ vài nghìn một bó

Thứ 5, 12/03/2026 17:11
Nhiều người nghĩ muốn cải thiện sức khỏe sinh lý nam phải tìm đến các loại thực phẩm đắt tiền nhưng thực tế, một số rau củ rất rẻ và quen thuộc trong bữa cơm Việt lại chứa nhiều hợp chất rất tốt cho phái mạnh.
     
Nổi bật trong ngày

Bí ẩn đa vũ trụ: Vì sao những thế giới song song có thể tồn tại ngay cạnh chúng ta nhưng con người không thể nhìn thấy

Thứ 4, 11/03/2026 10:00
Thí nghiệm hai khe từng khiến giới vật lý chấn động khi cho thấy một hạt electron có thể đi qua hai con đường cùng lúc. Từ nghịch lý đó, một giả thuyết táo bạo ra đời: vũ trụ có thể không chỉ có một. Những thế giới song song có thể tồn tại ngay bên cạnh chúng ta.

Khẩn cấp: WHO đưa thuốc giải 200 triệu/lọ từ Thụy Sĩ về Đà Nẵng cứu 3 trẻ ngộ độc cá ủ chua

Thứ 4, 11/03/2026 13:37
Thuốc giải độc Botulism Antitoxin Heptavalent có giá hơn 200 triệu đồng/lọ.

4 kiểu người dễ rơi vào KHỦNG HOẢNG năm 2026: Kiểu thứ hai phổ biến nhưng nhiều người vẫn xem nhẹ

Thứ 4, 11/03/2026 20:35
Trong bối cảnh kinh tế nhiều biến động, một số nhóm người được cho là dễ rơi vào áp lực tài chính và công việc nếu không kịp thích nghi với những thay đổi của thị trường.

Cánh buồm tinh thể quang tử phản xạ laser đạt 90% hiệu suất mở ra hy vọng du hành liên sao không cần nhiên liệu

Thứ 5, 12/03/2026 10:00
Một loại cánh buồm ánh sáng hoàn toàn mới làm từ tinh thể quang tử vừa được các nhà khoa học Mỹ đề xuất. Thiết kế này phản xạ mạnh tia laser để tạo lực đẩy cho tàu vũ trụ, trong khi gần như cho ánh sáng Mặt Trời xuyên qua, mở ra hướng tiếp cận mới cho du hành liên sao.
xe.nguoiduatin.vn