Phân tích hơn 200.000 đoạn hội thoại, nhà nghiên cứu phát hiện bí mật đáng sợ của ChatGPT và Gemini

Phân tích hơn 200.000 đoạn hội thoại, nhà nghiên cứu phát hiện bí mật đáng sợ của ChatGPT và Gemini

Thứ 3, 24/02/2026 02:55
Không chỉ ChatGPT và Gemini, các mô hình AI còn lại cũng mắc một nhược điểm chí mạng tương tự nhau.

Một nghiên cứu quy mô lớn vừa được công bố bởi các nhà khoa học từ Microsoft Research và Salesforce Research đã xác nhận điều mà nhiều người dùng AI từng nghi ngờ nhưng chưa có bằng chứng rõ ràng: tất cả các mô hình ngôn ngữ lớn hiện nay đều hoạt động kém hơn đáng kể khi cuộc trò chuyện kéo dài qua nhiều lượt.

Nhóm nghiên cứu đã phân tích hơn 200.000 đoạn hội thoại mô phỏng trên 15 mô hình AI hàng đầu, bao gồm GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet và Deepseek-R1, và không tìm thấy bất kỳ ngoại lệ nào.

Kết quả đo được rất cụ thể: hiệu suất trung bình của các mô hình sụt giảm 39% khi chuyển từ hội thoại một lượt sang hội thoại nhiều lượt trên cùng một tập tác vụ. Những cái tên vốn được xem là đỉnh cao của trí tuệ nhân tạo cũng không thoát khỏi quy luật này.

1sdi9pmzrdtgnnjd1cz hlq

GPT-4.1 giảm từ 96,6% xuống còn 72,6%, trong khi Gemini 2.5 Pro giảm từ 97,4% xuống 68,1%. Các con số này được tính trung bình trên 6 loại tác vụ khác nhau, từ lập trình, truy vấn cơ sở dữ liệu, toán học cho đến tóm tắt văn bản.

Điều đáng chú ý hơn là cách nhóm nghiên cứu phân tích nguyên nhân của sự sụt giảm này. Họ chia hiện tượng thành hai thành phần riêng biệt: năng lực thực sự của mô hình chỉ giảm 16%, nhưng độ bất ổn định - tức là khoảng cách giữa kết quả tốt nhất và tệ nhất trong cùng một tình huống - tăng vọt đến 112%.

Nói cách khác, các mô hình AI về lý thuyết vẫn có khả năng giải quyết vấn đề, nhưng chúng trở nên cực kỳ thất thường. Người dùng không thể biết lần này mô hình sẽ trả lời đúng hay sai, dù câu hỏi hoàn toàn giống nhau.

Cơ chế gây ra hiện tượng này được các nhà nghiên cứu đặt tên là "lost in conversation" — tạm dịch là "lạc lối trong hội thoại". Vấn đề không phải là mô hình quên thông tin, mà là chúng đưa ra giả định quá sớm.

Ngay từ lượt thứ hai hoặc thứ ba của cuộc trò chuyện, khi người dùng chưa cung cấp đủ thông tin, mô hình đã vội vàng tạo ra một câu trả lời hoàn chỉnh dựa trên những suy đoán của chính mình. Một khi đã làm vậy, chúng xem đầu ra trước đó như một nền tảng đúng và tiếp tục xây dựng lên đó.

14u05helywjfx3pcnbsserg

Khi người dùng bổ sung thêm thông tin ở các lượt sau, thay vì cập nhật lại từ đầu, mô hình cố gắng điều chỉnh câu trả lời cũ, dẫn đến những phản hồi ngày càng phình to, rối rắm và sai lệch hơn. Nghiên cứu gọi đây là hiệu ứng "answer bloat": câu trả lời trong hội thoại nhiều lượt có thể dài hơn 20% đến 300% so với câu trả lời trong hội thoại một lượt, nhưng chất lượng lại thấp hơn.

Nguyên nhân gốc rễ của vấn đề nằm ở cách các mô hình này được xây dựng. Gần như toàn bộ dữ liệu huấn luyện của chúng dựa trên hội thoại một lượt: câu hỏi rõ ràng, câu trả lời hoàn chỉnh. Trong thực tế, người dùng thường bắt đầu với yêu cầu mơ hồ, bổ sung dần thông tin qua nhiều lượt, đôi khi quay lại sửa yêu cầu ban đầu.

Sự chênh lệch giữa môi trường huấn luyện và môi trường sử dụng thực tế chính là lỗ hổng mà chưa có mô hình nào vá được. Đáng chú ý, ngay cả hai mô hình suy luận trong thử nghiệm là o3 và Deepseek-R1, vốn được thiết kế để "suy nghĩ" nhiều hơn trước khi trả lời, cũng suy giảm theo cách tương tự. Việc tăng thêm tính toán ở bước suy luận không giúp mô hình xử lý tốt hơn với hội thoại nhiều lượt thiếu thông tin.

llms main

Nhóm nghiên cứu cũng thử nghiệm một số giải pháp. Các phương pháp phổ biến như mở rộng cửa sổ ngữ cảnh, chain-of-thought prompting hay tóm tắt cuộc trò chuyện đều không giải quyết được vấn đề cốt lõi.

Phương pháp duy nhất cho kết quả khả quan là "concat-and-retry": thu thập toàn bộ thông tin qua các lượt hội thoại, sau đó gộp tất cả lại thành một yêu cầu duy nhất và bắt đầu một cuộc trò chuyện mới hoàn toàn. Cách làm này đưa độ chính xác trở lại trên 90%, gần bằng mức hiệu suất ban đầu.

Phát hiện này có ý nghĩa trực tiếp với người dùng hàng ngày. Nếu cuộc trò chuyện với AI đang đi theo hướng không như mong muốn, việc cố gắng giải thích thêm trong cùng một cửa sổ chat thường kém hiệu quả hơn so với việc bắt đầu một cuộc hội thoại mới với toàn bộ thông tin được trình bày ngay từ đầu.

Đây không phải là mẹo vặt hay lỗi giao diện, mà là giới hạn kiến trúc hiện tại của các hệ thống AI. Các nhà nghiên cứu kêu gọi các tổ chức phát triển AI cần ưu tiên cải thiện độ tin cậy trong hội thoại nhiều lượt, không chỉ tập trung vào việc nâng cao năng lực xử lý tác vụ đơn lẻ như hiện nay.

Nguyễn Hải

Cùng chuyên mục

Cộng đồng lo ngại ChatGPT tốn điện, tốn nước, CEO Sam Altman phản bác: "Ăn thua gì so với con người"

Thứ 3, 24/02/2026 04:08
Ông cho rằng so với AI, con người còn tiêu tốn năng lượng gấp nhiều lần để đạt tới trí thông minh như hiện tại, chưa kể tới quá trình tiến hóa hàng tỷ năm qua.

Phân tích hơn 200.000 đoạn hội thoại, nhà nghiên cứu phát hiện bí mật đáng sợ của ChatGPT và Gemini

Thứ 3, 24/02/2026 02:55
Không chỉ ChatGPT và Gemini, các mô hình AI còn lại cũng mắc một nhược điểm chí mạng tương tự nhau.

Giải Đông Nam Á: Tuyển Việt Nam lấy trọn 3 điểm, Thái Lan đưa Indonesia "trở về mặt đất"?

Thứ 3, 24/02/2026 01:00
Tuyển Việt Nam bước vào hành trình giải Đông Nam Á.

Việt Nam có bao nhiêu trai xinh gái đẹp đều dồn hết vào phim giờ vàng này rồi: Visual thượng thừa, không thể cưỡng nổi

Thứ 3, 24/02/2026 00:00
Bộ phim vừa lên sóng đã nhận được những đánh giá tích cực của khán giả với dàn diễn viên trẻ có ngoại hình nổi bật nhất.

Cư dân mạng rủ nhau "soi lại tổ tiên" bằng code: Một dự án gia phả đang khiến cộng đồng vừa tải về vừa... hỏi hỗ trợ đa thê!

Thứ 3, 24/02/2026 00:00
Từ một web làm cho gia đình dùng, Gia Phả OS bất ngờ thành món đồ được xin link liên tục. Người thì tải về lập phả hệ, người hỏi chuyện bảo mật, người quan tâm nhất lại là… có hỗ trợ một người nhiều vợ hay không.
     
Nổi bật trong ngày

Thiết bị "iPhone killer" đầu tiên của OpenAI lộ giá bán và thiết kế

Thứ 2, 23/02/2026 07:04
Và theo kế hoạch của OpenAI, hệ sinh thái phần cứng của công ty không chỉ có một mà còn nhiều thiết bị khác nữa trong tương lai.

Tưởng chỉ có Xiaomi 17 Ultra, hoá ra tối 28/2 còn cả rổ đồ chơi mới đang chờ lên sóng

Thứ 2, 23/02/2026 09:00
Flagship hợp tác Leica chưa đủ, Xiaomi còn chuẩn bị tung tai nghe chống ồn 55dB, pin từ tính mỏng dính và một chiếc “AirTag phiên bản nhà làm”.

Xiaomi có loa giá 800k mà chất lượng xứng đáng 2 triệu: Công suất 30W, thiết kế nhỏ gọn, pin tốt, đầy đủ tính năng

Thứ 2, 23/02/2026 18:02
Từng nằm ở phân khúc khoảng 2 triệu đồng khá chật vật cạnh tranh, Xiaomi Sound Outdoor nay được nhiều shop online giảm còn khoảng 800.000đ, khiến mẫu loa 30W này trở thành lựa chọn nổi bật trong tầm giá dưới 1 triệu đồng.

Tuyển Việt Nam có trận đấu bất ngờ trước đại chiến Malaysia

Thứ 2, 23/02/2026 07:06
ĐT Việt Nam vừa xác định đối thủ giao hữu chuẩn bị cho trận “chung kết” bảng F gặp Malaysia tại vòng loại Asian Cup 2027.

Dương Quốc Hoàng vô địch trên đất Mỹ nhờ màn trình diễn đẳng cấp

Thứ 2, 23/02/2026 10:33
Chạm trán một đối thủ nặng ký nhưng cơ thủ Dương Quốc Hoàng vẫn giành chiến thắng đầy ấn tượng ở trận chung kết để lên ngôi vô địch giải Premier League Pool 2026.
xe.nguoiduatin.vn