Bartosz Naskręcki không phải người ngoài. Ông là Phó Khoa Toán và Khoa học Máy tính tại Đại học Adam Mickiewicz ở Poznań, Ba Lan, đồng thời là một trong 5 nhà toán học châu Âu được mời đóng góp bài toán cho FrontierMath, bộ kiểm tra toán học khó nhất từng được xây dựng để đánh giá AI.
Tám tháng trước, ông đứng ra tuyên bố công khai: AI chỉ là máy tính nâng cao, không hơn không kém. Tư duy toán học thật sự đòi hỏi sự sáng tạo, trực giác và khả năng kết nối những khái niệm tưởng chừng không liên quan, thứ mà theo ông, máy móc vẫn chưa thể làm được.
Để chứng minh điều đó, ông không dừng lại ở lời nói. Ông xây dựng một bài toán Tier 4 trong FrontierMath, loại bài toán khó nhất trong bộ kiểm tra, dựa trên 20 năm tích lũy kiến thức về lý thuyết Galois, hình học đại số và số học. Ông đã tự chứng minh kết quả cụ thể trong một bài báo chưa công bố từ tám năm trước, sau đó cố tình "gia cố" thêm trước khi nộp vào FrontierMath để tăng độ khó.
Ông còn kiểm tra trước với o4-mini-high, model AI mạnh nhất thời điểm đó, và chỉ nộp bài toán sau khi chắc chắn rằng AI không thể giải được. Hãy hình dung một thợ khóa lành nghề mất hai thập kỷ chế tạo ổ khóa, rồi còn thêm chốt vào sau khi thấy chuyên gia phá khóa giỏi nhất thế giới bó tay.
Epoch AI, tổ chức quản lý FrontierMath, đã chạy GPT-5.4 phiên bản xhigh trên bài toán của ông Naskręcki tổng cộng 11 lần độc lập. Mười lần đầu thất bại hoàn toàn, mỗi lần tiếp cận theo một hướng khác nhau nhưng đều không tìm được bước đột phá then chốt.
Đến lần thứ 11, model tìm ra điều mà ông Naskręcki mô tả là "một pattern rất đẹp" giữa số học và hình học của bài toán, rồi dùng một thủ thuật tổng hợp tinh tế để tránh né phần toán học phức tạp nhất.
Toàn bộ 11 lần chạy tiêu tốn từ 5 đến 15 triệu token suy luận, tương đương một phiên nghiên cứu kéo dài nhiều giờ liên tục. Ông Naskręcki xác nhận đây là toán học hợp lệ, không phải lách luật: "Đây không phải thủ thuật tệ. Tôi thấy lời giải tổng thể rất ấn tượng."
Đây là bước đi thứ 37 đối với nhà Toán học
Phản ứng của ông sau đó mới là điều đáng chú ý nhất. Không có sự do dự, không có cách diễn đạt vòng vo. Ông gọi GPT-5.4 là "Move 37" cá nhân của mình, nhắc đến khoảnh khắc lịch sử năm 2016 khi AlphaGo đánh nước cờ thứ 37 trong ván cờ vây với Lee Sedol, một nước đi mà ngay cả các kỳ thủ chuyên nghiệp phải dừng lại nghiên cứu vì nó chứa đựng hiểu biết chiến lược thật sự chứ không chỉ là chiến thắng kỹ thuật.
Ông Naskręcki đang nói điều tương tự về GPT-5.4: không phải AI thắng, mà là AI tìm ra thứ gì đó toán học thật sự thú vị mà ông, với 20 năm kinh nghiệm trong lĩnh vực đó, thấy đáng học hỏi.
Sự đảo ngược lập trường của ông Naskręcki không chỉ đáng chú ý đối với bản thân ông mà còn đối với cả ngành trí tuệ nhân tạo. Khi FrontierMath ra mắt cuối năm 2024, các model AI giỏi nhất giải được chưa đến 2% bài toán khó nhất.
Terence Tao, nhà toán học được xem là vĩ đại nhất còn sống, nhận xét các bài toán này là "cực kỳ khó" và dự đoán AI sẽ còn bất lực trong nhiều năm tới. Một chuyên gia khác ước tính một số bài toán có thể ngăn cản khả năng giải đáp của AI đến 50 năm.
Thực tế diễn ra khác hẳn: chỉ trong 16 tháng, GPT-5.4 Pro đạt 50% ở các Tier 1-3 và 38% ở Tier 4, gần như gấp đôi so với GPT-5.2 chỉ vài tháng trước đó. Tính tổng cộng, 42% trong số 48 bài toán Tier 4 đã được giải ít nhất một lần, trong khi con số này gần như bằng 0 khi bộ kiểm tra vừa ra mắt.
Tuy nhiên, sự trung thực đòi hỏi phải nhắc đến một giới hạn quan trọng. Cùng thời điểm GPT-5.4 lập kỷ lục trên FrontierMath, Epoch AI cũng thử model này với bộ "FrontierMath: Open Problems", tập hợp các bài toán toán học chưa có lời giải thật sự mà chính các nhà toán học chuyên nghiệp cũng chưa giải được.
Kết quả: GPT-5.4 giải được 0 bài. Điều AI đang làm được là hạ gục những bài toán mà một tiến sĩ toán học cần cả tháng để hiểu cách tiếp cận. Điều AI không làm được là những bài toán chưa ai trên đời giải được. Ranh giới đó vẫn còn nguyên.
Điều ông Naskręcki nói sau khi bị "đánh bại" cũng quan trọng không kém bản thân sự kiện đó. Ông không rút lui vào những lời cảnh báo dè dặt. Ông nói: "Tôi cảm thấy tuyệt vời khi làm việc với các model này như đồng nghiệp ngang hàng, nhưng tôi là người dẫn dắt ý tưởng."
Cùng ngày GPT-5.4 giải bài toán tích lũy 20 năm kiến thức của ông, ông dùng chính model đó để phát hiện một lỗ hổng trong một nghiên cứu khác mà ông đang phát triển, công việc có thể tốn vài tháng nếu làm thủ công. Đây là kịch bản mà trước đó chính ông đã từng dự đoán trong các cuộc phỏng vấn: lãnh địa cuối cùng của nhà toán học sẽ là tạo ra những ý tưởng toán học mới và táo bạo. Sự khác biệt bây giờ là ông đang sống bên trong giai đoạn chuyển tiếp đó thay vì lý thuyết hóa từ xa.
Nguyễn Hải
