AI Trung Quốc bị chê dốt toán: Hỏi 13,8 và 13,11 số nào lớn hơn, nghe câu trả lời "chỉ muốn độn thổ"

Thứ 7, 27/07/2024 10:50
Bất chấp có những nguồn lực khổng lồ đằng sau, các mô hình AI đã được chứng minh là gặp khó khăn ngay cả với kiến thức toán học cơ bản.

Làn sóng chatbot trí tuệ nhân tạo (AI) bùng nổ ở Trung Quốc đã mang đến cho người dùng nhiều cách tạo nội dung mới - bao gồm âm thanh, viết mã, hình ảnh, mô phỏng, video và văn bản chuẩn ngữ pháp - để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu đó đã dẫn đến sự phát triển của hơn 200 mô hình ngôn ngữ lớn (LLM), công nghệ hỗ trợ các dịch vụ AI tạo sinh (GenAI) như ChatGPT. LLM là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo nội dung bằng cách sử dụng các tập dữ liệu rất lớn.

Bất chấp những nguồn lực khổng lồ đằng sau các chatbot, các mô hình AI đã được chứng minh là gặp khó khăn ngay cả với kiến thức toán học cơ bản khi được cư dân mạng thử nghiệm với màn bình chọn trong chương trình truyền hình thực tế Singer 2024 của Trung Quốc.

AI Trung Quốc bị chê dốt toán: Hỏi 13,8 và 13,11 số nào lớn hơn, nghe câu trả lời "chỉ muốn độn thổ"- Ảnh 1.

AI "dốt toán"

Trong chương trình tuần trước, nghệ sĩ Trung Quốc Tôn Nam nhận được 13,8% phiếu bầu trực tuyến, vượt qua ca sĩ người Mỹ Chanté Moore, người nhận được 13,11% phiếu bầu. Một số cư dân mạng đã tỏ ý chế giễu bảng xếp hạng khi đùa rằng con số Moore nhận được là lớn hơn mà vẫn thua (thực tế là ám chỉ ca sĩ Mỹ hay hơn nhưng lại thua cuộc).

Một người bình luận gợi ý nên so sánh hai con số trên bằng AI. Nhưng kết quả đưa ra đã gây bất ngờ. Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai khi cho rằng 13,11% lớn hơn 13,8%.

Về sau, hai chatbot này đã tự sửa lỗi cũng như xin lỗi người dùng về đáp án thiếu chính xác, giải thích lỗi sai là do áp dụng cái gọi là phương pháp tiếp cận chuỗi suy nghĩ – một phương pháp lý luận trong đó ứng dụng AI được hướng dẫn từng bước qua một vấn đề.

Cùng câu hỏi tương tự, mô hình Qwen LLM của Alibaba Group Holding phải sử dụng cả Python Code Interpreter để tính toán câu trả lời, trong khi Ernie Bot của Baidu phải thực hiện sáu bước để có được câu trả lời đúng.

Ngược lại, Doubao LLM của ByteDance đã phản hồi trực tiếp bằng cách đưa ra một ví dụ minh họa: "Nếu bạn có 9,90 USD và 9,11 USD, rõ ràng 9,90 USD là nhiều tiền hơn".

Wu Yiquan, một nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu, giải thích về việc các mô hình AI gặp sai sót về kiến thức toán: "Thạc sĩ luật thì chẳng ai giỏi toán - điều này rất phổ biến".

AI Trung Quốc bị chê dốt toán: Hỏi 13,8 và 13,11 số nào lớn hơn, nghe câu trả lời "chỉ muốn độn thổ"- Ảnh 3.

Theo Wu, GenAI không sở hữu khả năng toán học và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu đào tạo. Ông cho biết một số LLM hoạt động tốt trong các bài kiểm tra toán có thể là do "nhiễm dữ liệu", nghĩa là thuật toán ghi nhớ các câu trả lời đã có sẵn trong dữ liệu đào tạo.

"Thế giới AI được mã hóa - số, từ, dấu câu và khoảng trắng đều được xử lý như nhau. Do đó, bất kỳ thay đổi nào trong câu lệnh đều có thể ảnh hưởng đáng kể đến kết quả", Wu giải thích.

Vấn đề chung của AI

Vấn đề toán học nêu trên cho thấy công nghệ AI phát triển quá nhanh nhưng chưa hoàn thiện, không chỉ ở Trung Quốc mà còn ở nhiều nơi khác trên thế giới.

Theo Zheng Ge, giáo sư luật công tại Đại học Giao thông Thượng Hải, đây là tình huống có thể khiến Trung Quốc phải gác lại nỗ lực xây dựng luật AI thống nhất toàn quốc.

Zheng cho biết: "Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI thống nhất toàn quốc có thể chưa phù hợp vì công nghệ này đang phát triển quá nhanh".

"Kiểm tra so sánh số" cho các mô hình AI đã trở nên phổ biến sau khi nhà nghiên cứu Bill Yuchen Lin của Viện Allen và kỹ sư tiên tiến Riley Goodside của công ty công nghệ Scale AI nêu bật những thiếu sót cơ bản về toán học của công nghệ này trên nền tảng truyền thông xã hội X.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, ngay cả các LLM tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet và Mistral AI đều trả lời là 9,11.

Trong bài đăng trên X, Goodside cho biết ông không có ý định hạ thấp chương trình LLM, nhưng muốn giúp mọi người hiểu và khắc phục những sai sót của chúng.

"Những vấn đề liên quan đến giải toán kém trong LLM hiện đã được giảm thiểu rất tốt, nhưng còn rất nhiều lỗi gây ngỡ ngàng cho người dùng", ông viết. "Chúng ta nên sẵn sàng cho việc chúng sẽ còn sai ở nhiều lĩnh vực khác nữa".

Mạnh Kiên

Cùng chuyên mục

Người dân tích trữ cho bão Yagi: Vì sao 2 loại rau củ giàu dinh dưỡng này bị ‘bỏ rơi’?

Chủ nhật, 08/09/2024 06:45
Hình ảnh 2 loại rau củ tại siêu thị bị "ngó lơ"trong khi các mặt hàng khác gần như “cháy hàng” không chỉ gây thắc mắc cho cộng đồng mạng mà còn đặt ra nhiều câu hỏi về tâm lý tiêu dùng và quan niệm ăn uống của người Việt trong những ngày thiên tai.

Chồng nạn nhân bị cây đè tử vong ở Hà Nội: "Tôi dặn vợ nếu mưa to quá thì mai hãy về"

Thứ 7, 07/09/2024 22:03
Khi được báo vợ và em trai gặp tai nạn, anh Linh vẫn mong là có sự nhầm lẫn. Nhưng khi tới bệnh viện, người chồng đau xót nhận tin vợ đã không qua khỏi.

Mang "bụng bia" vào sân, Rooney vẫn trình diễn tuyệt kỹ khiến các đàn em tại MU phải ngước nhìn

Thứ 7, 07/09/2024 21:54
Dù đã giải nghệ khá lâu, Rooney vẫn giữ được phẩm chất kỹ thuật đặc biệt.

Khi có gió to nên đóng hay mở cửa kính: Rất nhiều người đang hiểu sai

Thứ 7, 07/09/2024 21:34
Xử lý đúng sẽ giúp hạn chế được thiệt hại về tài sản trong nhà vào những ngày mưa bão đi kèm gió lớn.

Tìm ra mối liên hệ bất ngờ giữa tính cách và tuổi thọ: Người hướng nội hay hướng ngoại, ai có khả năng sống thọ hơn?

Thứ 7, 07/09/2024 21:00
Một số nghiên cứu đã chỉ ra mối liên hệ giữa tính cách và tuổi thọ, cho thấy phần lớn người sống thọ đều mang nhiều đặc điểm như lạc quan, cởi mở, thích kết nối mối quan hệ xã hội…
     
Nổi bật trong ngày

Game thủ Việt đua nhau mua Black Myth: Wukong "offline" với mức giá... siêu rẻ

Thứ 7, 07/09/2024 10:10
Rất nhiều người đang lựa chọn sử dụng Black Myth: Wukong phiên bản "offline" với mức giá rất phải chăng này.

140 triệu người xem "kính chiếu yêu" bóc Triệu Lộ Tư "dao kéo", Lưu Diệc Phi lão hoá ở sự kiện xa xỉ

Thứ 7, 07/09/2024 14:55
Không hẹn mà gặp, cả Lưu Diệc Phi và Triệu Lộ Tư đều bị "kính chiếu yêu" cam thường hé lộ nhan sắc thật khác với ảnh tự đăng.

VFF từng phải hoãn trận Việt Nam – Thái Lan vì trận mưa lụt lịch sử 16 năm trước

Thứ 7, 07/09/2024 20:55
Trận đấu giữa tuyển Việt Nam và Thái Lan ban đầu dự kiến diễn ra vào ngày 1/11/2008. Tuy nhiên do ảnh hưởng của mưa lớn và ngập lụt, VFF phải lùi lịch lại đến 2 tuần sau.

Cấm 100.000 tài khoản hack cheat mỗi tháng, bom tấn một thời vẫn bị tàn phá nặng nề, sắp sụp đổ "nối gót" PUBG

Thứ 7, 07/09/2024 10:20
Sau PUBG, lại chuẩn bị có thêm một tựa game sinh tồn nữa bị tàn phá nặng nề bởi vấn nạn hack cheat.

Thịt, rau để được trong tủ lạnh bao lâu? Nhiều người mua về tích trữ nhưng không hề biết

Thứ 7, 07/09/2024 15:10
Thực tế việc tích trữ quá nhiều, quá lâu lượng rau, thịt trong tủ lạnh không hề tốt như một số người vẫn nghĩ.
xe.nguoiduatin.vn