Dùng 20 năm kiến thức, nhà toán học tạo ra bài toán AI không thể giải, ChatGPT 5.4 phá giải ở lần chạy thứ 11

Dùng 20 năm kiến thức, nhà toán học tạo ra bài toán AI không thể giải, ChatGPT 5.4 phá giải ở lần chạy thứ 11

Thứ 5, 19/03/2026 15:35
ChatGPT phiên bản mới không chỉ giải được bài toán này mà còn giúp nhà toán học phát hiện một lỗ hổng trong nghiên cứu khác của mình, điều ông chưa từng nghĩ đến trước đây.

Bartosz Naskręcki không phải người ngoài. Ông là Phó Khoa Toán và Khoa học Máy tính tại Đại học Adam Mickiewicz ở Poznań, Ba Lan, đồng thời là một trong 5 nhà toán học châu Âu được mời đóng góp bài toán cho FrontierMath, bộ kiểm tra toán học khó nhất từng được xây dựng để đánh giá AI.

Tám tháng trước, ông đứng ra tuyên bố công khai: AI chỉ là máy tính nâng cao, không hơn không kém. Tư duy toán học thật sự đòi hỏi sự sáng tạo, trực giác và khả năng kết nối những khái niệm tưởng chừng không liên quan, thứ mà theo ông, máy móc vẫn chưa thể làm được.

Để chứng minh điều đó, ông không dừng lại ở lời nói. Ông xây dựng một bài toán Tier 4 trong FrontierMath, loại bài toán khó nhất trong bộ kiểm tra, dựa trên 20 năm tích lũy kiến thức về lý thuyết Galois, hình học đại số và số học. Ông đã tự chứng minh kết quả cụ thể trong một bài báo chưa công bố từ tám năm trước, sau đó cố tình "gia cố" thêm trước khi nộp vào FrontierMath để tăng độ khó.

gettyimages 958259766

Ông còn kiểm tra trước với o4-mini-high, model AI mạnh nhất thời điểm đó, và chỉ nộp bài toán sau khi chắc chắn rằng AI không thể giải được. Hãy hình dung một thợ khóa lành nghề mất hai thập kỷ chế tạo ổ khóa, rồi còn thêm chốt vào sau khi thấy chuyên gia phá khóa giỏi nhất thế giới bó tay.

Epoch AI, tổ chức quản lý FrontierMath, đã chạy GPT-5.4 phiên bản xhigh trên bài toán của ông Naskręcki tổng cộng 11 lần độc lập. Mười lần đầu thất bại hoàn toàn, mỗi lần tiếp cận theo một hướng khác nhau nhưng đều không tìm được bước đột phá then chốt.

Đến lần thứ 11, model tìm ra điều mà ông Naskręcki mô tả là "một pattern rất đẹp" giữa số học và hình học của bài toán, rồi dùng một thủ thuật tổng hợp tinh tế để tránh né phần toán học phức tạp nhất.

Toàn bộ 11 lần chạy tiêu tốn từ 5 đến 15 triệu token suy luận, tương đương một phiên nghiên cứu kéo dài nhiều giờ liên tục. Ông Naskręcki xác nhận đây là toán học hợp lệ, không phải lách luật: "Đây không phải thủ thuật tệ. Tôi thấy lời giải tổng thể rất ấn tượng."

Đây là bước đi thứ 37 đối với nhà Toán học

Phản ứng của ông sau đó mới là điều đáng chú ý nhất. Không có sự do dự, không có cách diễn đạt vòng vo. Ông gọi GPT-5.4 là "Move 37" cá nhân của mình, nhắc đến khoảnh khắc lịch sử năm 2016 khi AlphaGo đánh nước cờ thứ 37 trong ván cờ vây với Lee Sedol, một nước đi mà ngay cả các kỳ thủ chuyên nghiệp phải dừng lại nghiên cứu vì nó chứa đựng hiểu biết chiến lược thật sự chứ không chỉ là chiến thắng kỹ thuật.

chatgpt 54

Ông Naskręcki đang nói điều tương tự về GPT-5.4: không phải AI thắng, mà là AI tìm ra thứ gì đó toán học thật sự thú vị mà ông, với 20 năm kinh nghiệm trong lĩnh vực đó, thấy đáng học hỏi.

Sự đảo ngược lập trường của ông Naskręcki không chỉ đáng chú ý đối với bản thân ông mà còn đối với cả ngành trí tuệ nhân tạo. Khi FrontierMath ra mắt cuối năm 2024, các model AI giỏi nhất giải được chưa đến 2% bài toán khó nhất.

Terence Tao, nhà toán học được xem là vĩ đại nhất còn sống, nhận xét các bài toán này là "cực kỳ khó" và dự đoán AI sẽ còn bất lực trong nhiều năm tới. Một chuyên gia khác ước tính một số bài toán có thể ngăn cản khả năng giải đáp của AI đến 50 năm.

Thực tế diễn ra khác hẳn: chỉ trong 16 tháng, GPT-5.4 Pro đạt 50% ở các Tier 1-3 và 38% ở Tier 4, gần như gấp đôi so với GPT-5.2 chỉ vài tháng trước đó. Tính tổng cộng, 42% trong số 48 bài toán Tier 4 đã được giải ít nhất một lần, trong khi con số này gần như bằng 0 khi bộ kiểm tra vừa ra mắt.

chatgpt 54 3
Mất 11 chạy độc lập với nhau, ChatGPT 5.4 mới giải được bài toán hóc búa trên

Tuy nhiên, sự trung thực đòi hỏi phải nhắc đến một giới hạn quan trọng. Cùng thời điểm GPT-5.4 lập kỷ lục trên FrontierMath, Epoch AI cũng thử model này với bộ "FrontierMath: Open Problems", tập hợp các bài toán toán học chưa có lời giải thật sự mà chính các nhà toán học chuyên nghiệp cũng chưa giải được.

Kết quả: GPT-5.4 giải được 0 bài. Điều AI đang làm được là hạ gục những bài toán mà một tiến sĩ toán học cần cả tháng để hiểu cách tiếp cận. Điều AI không làm được là những bài toán chưa ai trên đời giải được. Ranh giới đó vẫn còn nguyên.

Điều ông Naskręcki nói sau khi bị "đánh bại" cũng quan trọng không kém bản thân sự kiện đó. Ông không rút lui vào những lời cảnh báo dè dặt. Ông nói: "Tôi cảm thấy tuyệt vời khi làm việc với các model này như đồng nghiệp ngang hàng, nhưng tôi là người dẫn dắt ý tưởng."

Cùng ngày GPT-5.4 giải bài toán tích lũy 20 năm kiến thức của ông, ông dùng chính model đó để phát hiện một lỗ hổng trong một nghiên cứu khác mà ông đang phát triển, công việc có thể tốn vài tháng nếu làm thủ công. Đây là kịch bản mà trước đó chính ông đã từng dự đoán trong các cuộc phỏng vấn: lãnh địa cuối cùng của nhà toán học sẽ là tạo ra những ý tưởng toán học mới và táo bạo. Sự khác biệt bây giờ là ông đang sống bên trong giai đoạn chuyển tiếp đó thay vì lý thuyết hóa từ xa.

Nguyễn Hải

Cùng chuyên mục

Bác sĩ cảnh báo: Xuất hiện 'nốt ruồi' ở bàn tay, quanh miệng có thể là dấu hiệu của BỆNH HIỂM NGHÈO

Thứ 5, 19/03/2026 17:02
Hội chứng Peutz–Jeghers – căn bệnh ít gặp nhưng tiềm ẩn nguy cơ ung thư rất cao nếu không được phát hiện và theo dõi kịp thời.

6 điện thoại nhỏ gọn hợp làm máy phụ: Màn hình từ 3 inch, vỏ siêu bền, pin trâu, camera tầm nhiệt đủ cả

Thứ 5, 19/03/2026 16:50
Giữa xu hướng smartphone ngày càng lớn và mạnh, vẫn có một nhóm thiết bị đi theo hướng ngược lại: nhỏ gọn, tối giản và phục vụ những nhu cầu rất cụ thể như làm máy phụ, giảm phụ thuộc điện thoại hoặc dùng trong môi trường đặc thù.

Tưởng sạch nhưng lại… bẩn hơn: Vì sao robot lau nhà khiến nhà có mùi tanh tanh?

Thứ 5, 19/03/2026 16:36
Dùng robot lau nhà không ít người rơi vào tình huống khá khó hiểu sàn nhà nhìn sạch hơn nhưng không gian lại xuất hiện mùi tanh tanh, ẩm nhẹ, thậm chí hơi hôi.

Lương 80 triệu đồng, giữa tháng đã “nhẵn túi: Bi kịch trớ trêu của những người “giàu tài sản, nghèo tiền mặt”

Thứ 5, 19/03/2026 16:01
Thu nhập cao, sở hữu nhà ở nội đô và thêm một bất động sản để tích lũy từng là “công thức thành đạt” quen thuộc của cư dân đô thị. Nhưng bước sang năm 2026, phía sau những bảng tài sản ấn tượng ấy, không ít người lại đối mặt với thực tế kém hào nhoáng: Giàu tài sản, nghèo tiền mặt.

Bé gái 12 tuổi dùng tiền lì xì mua lại cửa hàng văn phòng phẩm, thuê mẹ làm nhân viên: Bắt đầu hồi vốn sau 2 tháng

Thứ 5, 19/03/2026 15:51
Một bé gái 12 tuổi ở Trung Quốc gây chú ý khi dùng tiền lì xì tích cóp để mua lại một cửa hàng văn phòng phẩm, đồng thời thuê chính mẹ mình quản lý.
     
Nổi bật trong ngày

Chuyên gia cảnh báo: Hơn 90% người Việt Nam trưởng thành mang sẵn virus này, cứ 3 người thì có 1 người phát bệnh

Thứ 4, 18/03/2026 10:15
Điều đáng lo là khi hệ miễn dịch suy yếu hoặc mắc các bệnh mạn tính, virus này có thể tái hoạt bất cứ lúc nào, khiến cứ 3 người lớn lại có 1 người phát bệnh, thậm chí đối mặt với nhiều biến chứng kéo dài.

Nhờ AI, Trung Quốc tìm ra cách "xuất khẩu điện" không dây sang Mỹ: lãi gấp 20 lần mà không thể bị đánh thuế

Thứ 4, 18/03/2026 15:56
Nhờ lợi thế về điện giá rẻ và các mô hình AI gọn nhẹ, Trung Quốc đang xuất khẩu một mặt hàng đặc biệt vào thị trường Mỹ mà không công cụ thuế quan nào có thể cản được.

Châu Bùi: Binz mang lại cảm giác an toàn tuyệt đối, niềm tin xây dựng qua những cảm nhận rất bản năng

Thứ 5, 19/03/2026 00:44
Tại cuộc trò chuyện này, Châu Bùi chia sẻ thẳng thắn về hành trình chuẩn bị cho vai trò ca sĩ, cách cô đối diện với những so sánh từ dư luận và cả mối quan hệ đặc biệt với Binz.

Apple cảnh báo khẩn: Hàng trăm triệu iPhone có thể bị xâm nhập, đánh cắp dữ liệu chỉ vì một cú chạm

Thứ 5, 19/03/2026 11:32
Hàng triệu người dùng iPhone trên toàn cầu đang được cảnh báo khẩn cấp cập nhật phần mềm, sau khi các chuyên gia an ninh mạng phát hiện một chiến dịch tấn công tinh vi có khả năng xâm nhập và đánh cắp dữ liệu cá nhân.

Du lịch 2026 đảo chiều: 81% người Việt chọn “đi xanh”, 43% săn khách sạn bền vững

Thứ 4, 18/03/2026 10:18
Du lịch không còn đơn thuần là nghỉ dưỡng hay khám phá, mà đang dần trở thành một “lựa chọn có trách nhiệm”. Khảo sát mới nhất của Agoda cho thấy, xu hướng du lịch xanh đang tăng tốc mạnh mẽ tại Việt Nam, khi ngày càng nhiều du khách ưu tiên yếu tố bền vững, từ nơi lưu trú đến cách chi tiêu trong mỗi chuyến đi.
xe.nguoiduatin.vn