Anthropic xây hệ thống bắt AI

Anthropic xây hệ thống bắt AI "đừng để lộ danh tính" - rồi vô tình để lộ chính hệ thống đó cho cả thế giới thấy

Thứ 4, 01/04/2026 14:00
Trong source code Claude Code vừa bị lộ có một đoạn hướng dẫn không ai ngờ tới: "Bạn đang hoạt động bí mật. Đừng để lộ danh tính." Câu hỏi không phải là điều này có hợp pháp không - mà là tại sao công ty rao giảng về AI minh bạch lại làm điều ngược lại một cách có hệ thống.

Anthropic không phải công ty AI bình thường. Họ là tác giả của "Constitutional AI" - một phương pháp huấn luyện AI theo các nguyên tắc đạo đức được công bố công khai. Họ publish "Responsible Scaling Policy" - cam kết về cách phát triển AI an toàn. Họ có đội ngũ safety research lớn nhất trong ngành và thường xuyên xuất hiện trong các cuộc thảo luận về quy định AI ở Washington và Brussels.

Minh bạch là một phần identity của họ.

Ngày 31/3/2026, source code Claude Code bị lộ. Trong 512.000 dòng code đó, developer tìm thấy một file tên undercover.ts. Nội dung của file này đặt ra câu hỏi trực tiếp về khoảng cách giữa những gì Anthropic nói và những gì họ làm.

 

"Bạn đang hoạt động bí mật - đừng để lộ danh tính"

Để hiểu vấn đề, cần biết thêm về cách phần mềm mã nguồn mở hoạt động.

Hàng ngàn dự án phần mềm lớn - từ hệ điều hành Linux đến ngôn ngữ Python, từ trình duyệt Firefox đến vô số công cụ mà cả thế giới đang dùng - được xây dựng bởi cộng đồng tình nguyện. Bất kỳ ai cũng có thể đóng góp code, và mọi đóng góp đều để lại dấu vết: ai viết, khi nào, và thường là tại sao.

Anthropic dùng Claude Code để đóng góp vào một số dự án như vậy. Điều này hoàn toàn bình thường - nhiều công ty làm thế. Vấn đề nằm ở cách họ làm.

Khi Claude Code chạy ở chế độ "Undercover", nó nhận một bộ hướng dẫn đặc biệt. Nội dung được tìm thấy trong source code bị lộ: không được đề cập đến Claude Code trong các ghi chú thay đổi, không được để lại dòng "Co-Authored-By: Claude" - dòng thông thường ghi nhận sự đóng góp của AI, không được dùng bất kỳ tên model nội bộ nào. Và một câu được cộng đồng trích dẫn nhiều nhất: "Đừng để lộ danh tính."

Nói cách khác: nếu bạn đang dùng một thư viện phần mềm phổ biến và trong lịch sử thay đổi có đóng góp từ tài khoản Anthropic, rất có thể một phần trong đó do AI viết - và không có dấu vết nào cho biết điều đó.

Không bất hợp pháp - nhưng đặt ra câu hỏi thật

Trước khi đi xa hơn, cần làm rõ một điều: hiện tại không có luật nào yêu cầu phải khai báo khi AI đóng góp code vào dự án phần mềm. Về mặt pháp lý, Anthropic không làm gì sai.

Nhưng cộng đồng phần mềm mã nguồn mở vận hành trên nền tảng của trust - sự tin tưởng. Khi một lập trình viên review và chấp nhận một đóng góp từ người khác, họ đang đặt niềm tin vào người đó: rằng người đó hiểu code họ viết, rằng người đó có thể giải thích quyết định của mình, rằng người đó có thể chịu trách nhiệm nếu có vấn đề phát sinh.

AI không chịu trách nhiệm theo nghĩa đó. Khi bug xuất hiện từ một đoạn code do AI viết nhưng được ghi nhận như đóng góp của con người, không ai có thể hỏi "tại sao bạn viết thế này?" và nhận được câu trả lời thực sự hữu ích.

Nhiều dự án phần mềm lớn đang xây dựng chính sách về vấn đề này. Một số yêu cầu khai báo khi dùng AI để viết code đóng góp. Undercover Mode, theo thiết kế, giúp vượt qua những yêu cầu đó mà không để lại dấu vết.

Công ty nói một đằng, code nói một nẻo

Đây là phần khó xử nhất của câu chuyện.

Anthropic không chỉ là một công ty AI bình thường. Họ tích cực vận động cho các quy định yêu cầu AI labeling - gắn nhãn rõ ràng khi nội dung được tạo bởi AI. Họ ký cam kết về responsible AI disclosure. Họ thường xuyên xuất hiện trước Quốc hội Mỹ và Nghị viện châu Âu để nói về tầm quan trọng của transparency trong AI.

Undercover Mode không phải lỗi. Không phải oversight. Đây là code được viết có chủ đích, với điều kiện kích hoạt rõ ràng, với hướng dẫn chi tiết về cách AI phải hành xử để không bị nhận ra.

Có thể có lý do chính đáng phía sau. Anthropic có thể muốn bảo vệ thông tin nội bộ - tên model chưa ra mắt, tên dự án nội bộ - khỏi lộ ra ngoài qua các commit công khai. Đây là lo ngại hợp lý của bất kỳ công ty nào.

Nhưng có một khoảng cách rõ ràng giữa "bảo vệ thông tin nội bộ" và "đảm bảo AI không bao giờ thừa nhận mình là AI trong môi trường công khai". Khoảng cách đó là thứ mà Undercover Mode đã lấp đầy theo hướng thứ hai.

Khi hệ thống chống lộ thông tin tự lộ ra

Irony cuối cùng của câu chuyện này không cần giải thích thêm.

Anthropic xây dựng một hệ thống hoàn chỉnh để đảm bảo AI không bao giờ để lộ thông tin nội bộ ra ngoài. Hệ thống đó hoạt động đủ tốt để không ai biết về sự tồn tại của nó - cho đến ngày 31/3, khi chính Anthropic vô tình để lộ toàn bộ thiết kế của hệ thống đó cùng với 512.000 dòng code còn lại.

Điều này sẽ không làm Anthropic mất đi vị trí dẫn đầu. Claude Code vẫn là công cụ lập trình AI tốt nhất trên thị trường theo nhiều tiêu chí, và Anthropic vẫn là công ty AI được tin tưởng nhất trong mắt nhiều người.

Nhưng câu hỏi mà Undercover Mode đặt ra sẽ không biến mất theo cùng cái source code đã bị xóa khỏi npm. Khi AI ngày càng tham gia sâu hơn vào cơ sở hạ tầng phần mềm mà cả thế giới đang dùng - từ hệ điều hành đến ứng dụng tài chính đến hệ thống y tế - người dùng có quyền biết AI đang ở đâu trong những thứ đó không?

Đây không phải câu hỏi dành riêng cho Anthropic. Nhưng Anthropic, với tư cách là công ty nổi tiếng nhất về AI safety và transparency, có lẽ là nơi câu hỏi đó phải được trả lời đầu tiên.

Thế Duyệt

Cùng chuyên mục

Nhân viên trẻ hé lộ môi trường làm việc ám ảnh phát sợ tại ngân hàng: "Tôi phải làm thế nào để rời khỏi đây?"

Thứ 4, 01/04/2026 16:09
"Hầu hết các ngày tôi đều quá tải với công việc và căng thẳng. Có những ngày tôi không có thời gian ăn trưa, hay thậm chí đi vệ sinh", một nhân viên ngân hàng giấu tên bày tỏ.

78% người lớn có một số bệnh lý mạn tính lo ngại zona gây gián đoạn cuộc sống

Thứ 4, 01/04/2026 15:02
Khảo sát được thực hiện với hơn 6.000 người từ 50 tuổi trở lên tại 10 quốc gia, nhằm tìm hiểu về mức độ nhận thức và trải nghiệm thực tế với bệnh zona...

Nhóm lập trình viên báo lỗi Claude Code 17 lần không ai trả lời - vụ lộ code sau đó tiết lộ lý do

Thứ 4, 01/04/2026 15:00
Trong 6 tháng, một nhóm lập trình viên đã ghi lại từng lỗi, viết từng báo cáo, gõ cửa từng lần. Phản hồi duy nhất họ nhận được là từ một con bot tự động đóng báo cáo sau 60 ngày không hoạt động.

Anthropic xây hệ thống bắt AI "đừng để lộ danh tính" - rồi vô tình để lộ chính hệ thống đó cho cả thế giới thấy

Thứ 4, 01/04/2026 14:00
Trong source code Claude Code vừa bị lộ có một đoạn hướng dẫn không ai ngờ tới: "Bạn đang hoạt động bí mật. Đừng để lộ danh tính." Câu hỏi không phải là điều này có hợp pháp không - mà là tại sao công ty rao giảng về AI minh bạch lại làm điều ngược lại một cách có hệ thống.

MPV điện Wuling Nexus lộ giá bán tại Việt Nam: Bản cao nhất dự kiến chưa đến 800 triệu, sạc đầy phượt TP.HCM - Nha Trang thoải mái

Thứ 4, 01/04/2026 11:41
Phiên bản cao nhất của mẫu MPV này được trang bị nhiều tính năng, công nghệ hiện đại như cửa trượt điện, camera 360 độ tích hợp nhìn xuyên gầm, hỗ trợ khởi hành ngang dốc, 4 chế độ lái,...
     
Nổi bật trong ngày

Skoda Peaq - SUV khủng nhất của hãng được hé lộ bộ ảnh mới cùng thông số: Lớn hơn Kodiaq, cấu hình 5-7 chỗ, chạy hơn 600km/sạc

Thứ 3, 31/03/2026 07:16
Skoda vừa công bố những hình ảnh và thông số kỹ thuật đầu tiên của Peaq, mẫu SUV điện cỡ lớn dự kiến ra mắt vào giữa năm 2026. Với chiều dài hơn 4,8 mét và cấu hình tối đa 7 chỗ ngồi, đây sẽ là dòng xe thuần điện có kích thước lớn nhất trong danh mục sản phẩm của hãng xe Séc.

"Nữ hoàng Pickleball" thế giới Anna Thu Thuỷ visual sáng bừng khi đến Việt Nam, sẵn sàng cho PPA Asia 1000 - MB Hanoi Cup 2026

Thứ 3, 31/03/2026 11:00
Trưa ngày 31/3, VĐV Pickleball top 1 thế giới Anna Leigh Waters đã chính thức đặt chân đến sân bay quốc tế Nội Bài, Việt Nam.

Thua đau U23 Triều Tiên, U23 Thái Lan tan mộng vô địch, nguy cơ bị U23 Việt Nam vượt mặt

Thứ 3, 31/03/2026 17:34
Từ vị trí dẫn đầu, U23 Thái Lan có nguy cơ chỉ có thể xếp hạng 3 chung cuộc.

Tuyển Thái Lan thắng nghẹt thở, nối gót Việt Nam dự Asian Cup

Thứ 3, 31/03/2026 18:15
Tuyển Thái Lan đã giành chiến thắng ở trận đấu quyết định để giành suất dự VCK Asian Cup 2027.

Diễn biến U23 Việt Nam vs U23 Trung Quốc: U23 Việt Nam dồn lên tấn công, liên tục dứt điểm

Thứ 3, 31/03/2026 12:50
Diễn biến trận đấu U23 Việt Nam vs U23 Trung Quốc diễn ra lúc 18h35 ngày 31/3 thuộc khuôn khổ giải Team China 2026.
xe.nguoiduatin.vn