Mô hình Claude Fable 5 mới cố tình trả lời "đần" hơn trong một số trường hợp, và đây là lý do

Rạng sáng 10/6, Anthropic ra mắt Claude Fable 5 với hàng loạt kết quả benchmark ấn tượng. Nhưng thứ khiến cộng đồng AI tranh cãi gay gắt nhất lại không phải con số, không phải giá cả - mà là một đoạn văn nhỏ nằm khuất trong bản tài liệu kỹ thuật (system card) 319 trang đính kèm.

Chuyện gì đang xảy ra

Để hiểu vấn đề, cần biết Claude Fable 5 có nhiều lớp bảo vệ khác nhau. Với các chủ đề nhạy cảm như an ninh mạng hay hóa học, khi model phát hiện câu hỏi liên quan, nó sẽ chuyển sang xử lý bằng model yếu hơn (Claude Opus 4.8) và thông báo rõ ràng cho người dùng biết chuyện gì đang xảy ra. Người dùng không thích thì thôi, nhưng ít nhất họ biết.

Vấn đề nằm ở một lớp bảo vệ thứ tư, ít được nhắc đến hơn. Khi Claude Fable 5 phát hiện người dùng đang dùng nó để phát triển hoặc huấn luyện các model AI khác, model sẽ không chuyển sang Opus 4.8, không từ chối trả lời, và cũng không thông báo gì. Thay vào đó, Anthropic thừa nhận trong tài liệu kỹ thuật rằng họ sẽ can thiệp vào model bằng các kỹ thuật kỹ thuật để câu trả lời kém hiệu quả hơn - người dùng vẫn nhận được phản hồi từ Fable 5, nhưng chất lượng đã bị giảm mà họ không biết.

Tại sao Anthropic làm điều này

Để hiểu lý do, cần nhìn lại tháng 2 năm 2026. Anthropic khi đó công khai cáo buộc ba công ty AI của Trung Quốc - DeepSeek, Moonshot AI và MiniMax - tiến hành các chiến dịch có tổ chức để khai thác Claude theo quy mô công nghiệp. Theo Anthropic, các công ty này tạo ra hơn 16 triệu cuộc hội thoại từ 24.000 tài khoản giả, dù Anthropic đã chặn quyền truy cập thương mại từ Trung Quốc.

Mục đích là "distillation" (hay còn gọi là chưng cất tri thức) - một kỹ thuật trong đó một model AI nhỏ hơn học cách bắt chước model lớn hơn bằng cách hỏi hàng loạt câu hỏi có chủ đích và dùng câu trả lời làm dữ liệu huấn luyện. Hiểu đơn giản: thay vì tự nghiên cứu từ đầu, một công ty có thể "hút" tri thức từ Claude rồi nhét vào model của mình - với chi phí thấp hơn nhiều và không có bất kỳ biện pháp an toàn nào kèm theo.

Anthropic cho rằng dùng Claude để phát triển model cạnh tranh vốn đã vi phạm điều khoản sử dụng. Nhưng thực thi điều khoản bằng lệnh cấm thông thường không hiệu quả - vì người cố tình lách chỉ cần tạo tài khoản mới là xong. Cơ chế âm thầm giảm chất lượng, theo lý luận của Anthropic, sẽ triệt tiêu động cơ mà không để lộ điểm kích hoạt bảo vệ cho đối tượng xấu biết và tìm cách vượt qua.

Anthropic ước tính cơ chế này chỉ ảnh hưởng đến khoảng 0,03% lưu lượng toàn hệ thống.

Các công ty Trung Quốc được cho là đã huấn luyện các mô hình AI bằng cách chưng cất tri thức từ các mô hình hàng đầu của Claude như Opus

Tranh cãi nằm ở chỗ nào

Lập luận phản đối không phải là "Anthropic không được phép bảo vệ model của mình" - mà là "không minh bạch với người dùng trả tiền là sai về mặt nguyên tắc".

Nhà nghiên cứu AI Andrej Karpathy nhận định chất lượng model rất xuất sắc, nhưng cho rằng các biện pháp bảo vệ đang được chỉnh quá mức và cần điều chỉnh lại. Nhà phân tích Dean W. Ball cảnh báo cơ chế này có thể thu hút sự chú ý của cơ quan chống độc quyền. Một số giọng nói mạnh hơn trong cộng đồng gọi đây thẳng thắn là hành vi không trung thực với khách hàng đang trả tiền cho dịch vụ.

Vấn đề mấu chốt: làm sao người dùng biết câu trả lời họ nhận được là Fable 5 thật sự, hay là Fable 5 đã bị can thiệp? Trong các lớp bảo vệ khác, ít nhất có thông báo. Với cơ chế này, không có dấu hiệu nào để nhận ra.

Một số tiếng nói trung lập hơn cho rằng Anthropic có thể thực sự tin đây là biện pháp cần thiết cho an toàn AI, dù cách thực hiện chưa tốt. Một số khác nhận định thẳng đây đơn giản là phân khúc thị trường - Anthropic không có nghĩa vụ cung cấp năng lực AI hàng đầu cho tất cả mọi người - chứ không hẳn là vì lý do an toàn.

Người dùng Claude hiện đã có thể sử dụng mô hình Fable 5 mạnh mẽ nhất

Người dùng thông thường có bị ảnh hưởng không

Câu trả lời ngắn: hầu như không. Cơ chế này nhắm vào đối tượng rất cụ thể - các kỹ sư và nhà nghiên cứu AI đang xây dựng hệ thống huấn luyện model, thiết kế hạ tầng AI quy mô lớn, hoặc cố tình khai thác Claude để phát triển model cạnh tranh.

Với người dùng thông thường làm việc văn phòng, viết lách, lập trình ứng dụng, hay học tập - Anthropic xác nhận các biện pháp này không ảnh hưởng đến đại đa số công việc thông thường.

Vấn đề tranh cãi không phải là ai đang bị ảnh hưởng, mà là tiền lệ đang được tạo ra: một AI thương mại được thiết kế để có thể cố ý trả lời kém hơn mà người dùng không có cách nào biết.

Chi tiết tài liệu kỹ thuật của Claude Fable 5 tại đây.

Thế Duyệt

Mô hình Claude Fable 5 mới cố tình trả lời "đần" hơn trong một số trường hợp, và đây là lý do

Chàng trai 19 tuổi làm shipper, sống ở gầm cầu để kiếm tiền đi học

“Phương Vũ làm thì bàn gì nữa!”

FIFA báo tin vui, đội tuyển Việt Nam vô tình hưởng lợi nhờ trận đấu của Indonesia

Đội bóng “nhàn” nhất World Cup 2026: Chỉ đá 5 trận vẫn giành vé, đối thủ yếu hơn cả Malaysia

Kia Sorento HEV định giá từ 1,349 tỷ ở Việt Nam: Vẫn rẻ hơn bản máy dầu, mua sớm giảm thêm 30 triệu, bổ sung công nghệ an toàn

Apple trao lại quyền kiểm soát iPhone cho cha mẹ

Loài cá nhỏ hơn chiếc tăm khiến hàng triệu người Amazon khiếp sợ, thậm chí còn đáng ngại hơn cả cá piranha

Phim của Trấn Thành bất ngờ viral quốc tế với hàng trăm triệu view: Khán giả nước ngoài truy tìm nữ chính vì quá hay

Tuyển Thái Lan đoạt chức vô địch sau màn rượt đuổi đầy căng thẳng

Giá "ngon", máy chất lượng bảo sao Xiaomi 17T series bán chạy như này

Tin đọc nhiều

Apple trao lại quyền kiểm soát iPhone cho cha mẹ

Loài cá nhỏ hơn chiếc tăm khiến hàng triệu người Amazon khiếp sợ, thậm chí còn đáng ngại hơn cả cá piranha

Phim của Trấn Thành bất ngờ viral quốc tế với hàng trăm triệu view: Khán giả nước ngoài truy tìm nữ chính vì quá hay

Tuyển Thái Lan đoạt chức vô địch sau màn rượt đuổi đầy căng thẳng

Giá "ngon", máy chất lượng bảo sao Xiaomi 17T series bán chạy như này

Báo giá quảng cáo