Anthropic thừa nhận Claude thật sự

Anthropic thừa nhận Claude thật sự "ngốc hơn" suốt 47 ngày: 3 lỗi kỹ thuật chồng chéo mà chính đội ngũ cũng không tái hiện được

Thứ 6, 24/04/2026 14:29
Dù phủ nhận việc mô hình AI của mình bị cố tình làm yếu đi, Anthropic thừa nhận rằng trí thông minh của Claude đã suy gảim trong một thời gian dài vì những lỗi kỹ thuật của hệ thống.

Anthropic vừa công bố một bản phân tích sự cố chi tiết, chính thức xác nhận rằng Claude Code thật sự "ngốc hơn" trong khoảng thời gian từ 4 tháng 3 đến 20 tháng 4, tương đương 47 ngày liên tục.

Công ty phủ nhận cáo buộc cố tình làm suy giảm mô hình AI, mà thay vào đó thừa nhận có ba lỗi kỹ thuật riêng biệt ở tầng sản phẩm đã chồng chéo lên nhau, tạo ra một hiện tượng suy giảm chất lượng mà ngay cả đội ngũ nội bộ cũng không thể tái hiện được trong giai đoạn đầu điều tra. Tất cả 3 lỗi này đã được khắc phục hoàn toàn kể từ ngày 20 tháng 4.

69ea8759a98bc8fdc096e28c

Các lỗi kỹ thuật của Claude

Lỗi đầu tiên xuất hiện sớm nhất vào ngày 4 tháng 3, khi Anthropic hạ mức suy luận mặc định của Claude Code từ "cao" xuống "trung bình" nhằm giảm độ trễ. Trước đó, một số người dùng phàn nàn rằng ở chế độ suy luận cao, Claude đôi khi suy nghĩ quá lâu, khiến giao diện trông như bị đơ và tiêu tốn hạn mức sử dụng không cần thiết.

Về mặt lý thuyết, mức trung bình đạt được độ thông minh thấp hơn một chút nhưng độ trễ giảm đáng kể cho phần lớn các tác vụ. Tuy nhiên, đây là một đánh đổi sai lầm. Người dùng phát hiện ngay lập tức và bắt đầu báo cáo về điều này. Sau khi nghe phản hồi từ nhiều khách hàng, công ty đảo ngược quyết định này vào ngày 7 tháng 4, đưa tất cả người dùng trở về mức suy luận cao nhất.

Lỗi thứ hai nghiêm trọng hơn nhiều, xuất hiện vào ngày 26 tháng 3 khi Anthropic triển khai một cải tiến liên quan đến bộ nhớ đệm. Bình thường, Claude giữ lại quá trình suy luận trong lịch sử hội thoại để nhớ lý do đưa ra các quyết định.

Ý tưởng ban đầu là nếu phiên làm việc ngừng hoạt động quá một giờ, hệ thống sẽ xóa các phần suy luận cũ để giảm chi phí. Nhưng một lỗi trong cách triển khai khiến việc xóa này xảy ra sau mỗi lượt trong phần còn lại của phiên, thay vì chỉ một lần.

Hệ quả là Claude liên tục quên đi lý do tại sao nó đưa ra các lựa chọn trước đó, dẫn đến hiện tượng "hay quên", "lặp lại" và "đưa ra các quyết định kỳ lạ" như người dùng mô tả. Hệ quả phụ còn khiến hạn mức sử dụng cạn kiệt nhanh hơn bình thường.

Điều khiến lỗi này khó phát hiện là có hai thử nghiệm không liên quan đang chạy song song đã che dấu vấn đề. Lỗi nằm ở giao điểm giữa nhiều hệ thống phức tạp, vượt qua nhiều lớp kiểm tra tự động và thủ công. Phải mất hơn một tuần để phát hiện và xác nhận nguyên nhân. Lỗi này được sửa vào ngày 10 tháng 4.

anthropic claude

Lỗi thứ ba xuất hiện muộn nhất, vào ngày 16 tháng 4, khi Anthropic thêm một hướng dẫn vào lệnh hệ thống để giảm độ dài dòng. Phiên bản mới có xu hướng rất nhiều lời, khiến nó thông minh hơn với các bài toán khó nhưng cũng tạo ra nhiều từ hơn.

Trong quá trình chuẩn bị, đội ngũ đã thêm một dòng lệnh: "Giữ văn bản giữa các thao tác ở mức dưới 25 từ. Giữ phản hồi cuối cùng dưới 100 từ trừ khi tác vụ yêu cầu chi tiết hơn." Sau nhiều tuần kiểm tra nội bộ và không thấy suy giảm trên bộ đánh giá họ chạy, đội ngũ cảm thấy tự tin và triển khai thay đổi này. Tuy nhiên, khi chạy kiểm tra với bộ đánh giá rộng hơn trong quá trình điều tra, kết quả cho thấy sụt 3% chất lượng lập trình. Họ lập tức hoàn tác thay đổi này vào ngày 20 tháng 4.

Tại sao các lỗi này khó phát hiện?

15165431 7a7dbd65 7b85 45fa 97d9 f4a6a64dab9f

Lý do tại sao ba lỗi này tổng hợp lại tạo thành một vấn đề cực kỳ khó chẩn đoán là vì mỗi thay đổi ảnh hưởng đến một nhóm người dùng khác nhau theo lịch trình khác nhau. Hiệu ứng tổng hợp trông giống như suy giảm rộng, không nhất quán và ngẫu nhiên.

Trong khi Anthropic bắt đầu điều tra các báo cáo từ đầu tháng 3, ban đầu chúng khó phân biệt với biến động bình thường trong phản hồi người dùng, và cả việc sử dụng nội bộ lẫn các bài đánh giá ban đầu đều không tái hiện được các vấn đề đã xác định.

Một chi tiết đáng chú ý là khi Anthropic dùng công cụ kiểm tra code tự động với phiên bản mới nhất để phân tích lại những đoạn code gây ra lỗi, phiên bản mới tìm ra được vấn đề còn phiên bản cũ thì không. Điều này cho thấy mức độ tinh vi của những lỗi này, đến nỗi ngay cả chính công cụ AI của họ cũng cần phải được nâng cấp mới phát hiện ra.

Để tránh các vấn đề tương tự, Anthropic cam kết đảm bảo một tỷ lệ lớn hơn nhân viên nội bộ sử dụng đúng phiên bản công khai của Claude Code thay vì phiên bản dùng để thử nghiệm tính năng mới, cải thiện công cụ kiểm tra code và triển khai phiên bản cải tiến này cho khách hàng.

Công ty cũng bổ sung kiểm soát chặt chẽ hơn đối với các thay đổi lệnh hệ thống, chạy bộ đánh giá rộng cho mọi thay đổi, và xây dựng công cụ mới để dễ dàng kiểm tra và rà soát các thay đổi hơn. Tính đến ngày 23 tháng 4, Anthropic đã làm mới hạn mức sử dụng cho toàn bộ người dùng đăng ký như một hình thức bồi thường.

Nguyễn Hải

Cùng chuyên mục

Tác giả "Sentenced to Be a Hero" gây sốc: Ý tưởng manga đến từ... siêu phẩm game không chiến Ace Combat 7

Thứ 6, 24/04/2026 15:50
Ít ai ngờ rằng thế giới giả tưởng đen tối của Sentenced to Be a Hero lại có tiền thân từ những nhiệm vụ cảm tử của một phi đội tù nhân trong trò chơi mô phỏng máy bay nổi tiếng.

Lộ phương án Mỹ "trừng phạt" NATO trong email nội bộ của Lầu Năm Góc: 1 nước sẽ bị đình chỉ tư cách?

Thứ 6, 24/04/2026 15:49
Các quan chức chính quyền Mỹ nhấn mạnh rằng NATO không thể là con đường một chiều.

Hàng triệu người dùng lưu ý, Zalo chính thức chặn 1 tính năng này, ai cũng cần nắm rõ

Thứ 6, 24/04/2026 15:49
Một thay đổi nhỏ nhưng đáng chú ý vừa được Zalo triển khai đang thu hút sự quan tâm của người dùng.

Lời khuyên cho các gia đình đang sử dụng máy lạnh, máy giặt, Tivi kết nối WiFi

Thứ 6, 24/04/2026 15:48
Từ Tivi, máy lạnh đến máy giặt, nhiều thiết bị gia dụng nay đã được kết nối WiFi và trở thành một phần quen thuộc trong gia đình của nhiều người Việt.

Hệ thống phòng không Krona của Nga tiếp tục là "món hời" mà mọi quốc gia khao khát?

Thứ 6, 24/04/2026 15:45
Đây là kết quả của quá trình hiện đại hóa sâu rộng các hệ thống phòng không hiện có, được tinh chỉnh để thích nghi với thực tế khốc liệt tại Ukraine cũng như "cơn cuồng nộ" tại khu vực Trung Đông.
     
Nổi bật trong ngày

Tiểu thư Harper nhà Beckham thất thần mỏi mệt, xuống sắc thấy rõ khi để mặt mộc, bước ra từ xế hộp sang chảnh

Thứ 5, 23/04/2026 06:49
Tẩy đi lớp makeup dày cộp, Harper Beckham lộ mặt mộc khác lạ, tiểu thư sang chảnh nay trông buồn bã thế!

3 quy định mới nhất về đăng ký thường trú, tạm trú, tất cả người dân cần nắm rõ

Thứ 5, 23/04/2026 09:47
Nghị định 58 của Chính phủ đã sửa đổi, bổ sung Nghị định 154 về đăng ký cư trú, xóa đăng ký thường trú và tạm trú với nhiều quy định mới, cụ thể như sau:

Lời khuyên dành cho những người đi du lịch bằng tàu hỏa

Thứ 5, 23/04/2026 11:04
Trong bối cảnh du lịch nội địa phục hồi mạnh mẽ, tàu hỏa đang trở lại như một lựa chọn được nhiều người yêu thích nhờ chi phí hợp lý, an toàn và trải nghiệm ngắm cảnh độc đáo. Tuy nhiên, để có một hành trình thuận lợi, hành khách cần nắm rõ những lưu ý quan trọng.

"Huyền thoại" Bạch Hổ lớn nhất Việt Nam khiến thế giới ngỡ ngàng: Niềm tin vững chắc với Liên Xô!

Thứ 5, 23/04/2026 12:33
Bạch Hổ sở hữu "kho báu lỏng" được thế giới săn đón.

Moon Geun Young trượt chân ngã đi khám ra bệnh quái ác: Bị chẩn đoán sai, trốn trong hầm gửi xe khóc nức nở 1 mình

Thứ 5, 23/04/2026 14:04
Tình cảnh của Moon Geun Young khiến cho công chúng không thể cầm được nước mắt.
xe.nguoiduatin.vn