YouTuber PewDiePie tự train AI, tuyên bố vượt GPT-4 nhưng lại

YouTuber PewDiePie tự train AI, tuyên bố vượt GPT-4 nhưng lại "quay xe" vì lý do ngớ ngẩn

Chủ nhật, 01/03/2026 18:00
YouTuber nổi tiếng cho biết mô hình AI do anh tự fine-tune từng đạt 19,6% và tuyên bố vượt GPT-4, nhưng sau đó phải hủy kết quả vì "nhiễm" dữ liệu benchmark. Sau nhiều lần huấn luyện lại và sửa lỗi, điểm số cuối cùng đạt 39,1%.

Streamer PewDiePie vừa công bố chi tiết hành trình tự huấn luyện một mô hình AI trong nhiều tháng, với mục tiêu cải thiện khả năng lập trình. Theo chia sẻ trong video mới nhất, mô hình do anh tinh chỉnh có thời điểm vượt qua GPT-4 trên một bài benchmark lập trình, trước khi chính anh phát hiện kết quả bị sai lệch do trùng dữ liệu huấn luyện.

 

Không xây dựng AI từ con số 0, PewDiePie thừa nhận anh chỉ fine-tune một mô hình ngôn ngữ lớn có sẵn, cụ thể là phiên bản 32B của Qwen 2.5. Mục tiêu của anh không phải cạnh tranh thương mại mà để học cách huấn luyện AI và hiểu rõ quy trình phía sau.

Benchmark mà anh sử dụng có tên Aider Polyglot, một bài kiểm tra đánh giá khả năng lập trình ở nhiều ngôn ngữ khác nhau. Theo lời PewDiePie, các mô hình hàng đầu như DeepSeek 2.5 hay Llama 4 Maverick chỉ đạt khoảng hơn 18% ở định dạng diff format. Mô hình ban đầu anh chọn để huấn luyện chỉ đạt 8%, và khi đổi sang định dạng khác có thể lên 16%.

Từ đây, anh bắt đầu quá trình thu thập và xử lý dữ liệu. PewDiePie cho biết đã tổng hợp khoảng 100.000 mẫu dữ liệu theo dạng bài toán - lời giải, kết hợp dữ liệu công khai, dữ liệu từ GitHub và cả dữ liệu tổng hợp do AI mạnh hơn tạo ra. Tuy nhiên, anh cũng thừa nhận dữ liệu tổng hợp có rủi ro vì AI có thể tạo ra lời giải trông đúng nhưng thực chất sai.

Sau nhiều tháng chuẩn bị, lần huấn luyện đầu tiên khiến mô hình còn tệ hơn ban đầu. Anh phát hiện vấn đề nằm ở bộ kiểm thử và dữ liệu nhiễu. Sau khi sửa lại, điểm số ổn định quanh mức 16%, tương đương trần hiệu suất trước đó.

Để cải thiện thêm, PewDiePie bổ sung dữ liệu có phần "reasoning", tức buộc mô hình phải viết ra các bước suy nghĩ trước khi đưa ra lời giải. Đây là kỹ thuật thường giúp AI xử lý bài toán phức tạp tốt hơn. Sau khi fine-tune thêm khoảng 15.000 mẫu reasoning, điểm số ban đầu đạt 17%, nhưng do benchmark có yếu tố ngẫu nhiên, anh tiếp tục chạy lại nhiều lần.

Ở một lần chạy, mô hình đạt 19,6%. PewDiePie tuyên bố đã vượt GPT-4 ở thời điểm tháng 11. Tuy nhiên, ngay sau đó anh phát hiện mình chưa kiểm tra hiện tượng benchmark contamination - tức dữ liệu huấn luyện có thể trùng với câu hỏi trong bộ kiểm tra. Sau khi rà soát lại, anh xác nhận có một phần dữ liệu bị trùng và quyết định hủy kết quả.

Thiết bị được PewDiePie dùng để train AI

Không dừng lại, PewDiePie huấn luyện lại trên toàn bộ tập dữ liệu và đồng thời phát hiện trước đó mình đã fine-tune nhầm phiên bản thường thay vì phiên bản chuyên lập trình của Qwen 2.5. Khi chuyển sang bản coder chuyên biệt, kết quả ban đầu thậm chí rơi xuống 4,4%. Sau khi điều chỉnh và huấn luyện lại, điểm số tăng lên 25%.

Một phát hiện khác cho thấy benchmark chưa chạy đầy đủ các phần như C++ và JavaScript. Sau khi sửa lại bài test, mô hình đạt 36%. Tiếp tục hậu huấn luyện thêm 1.500 mẫu trong 5 epoch, điểm số cuối cùng đạt 39,1%.

Dù vậy, PewDiePie cũng thừa nhận ngay sau khi hoàn thành, phiên bản Qwen 3 đã ra mắt và đạt khoảng 40% trên cùng benchmark, đồng nghĩa mô hình của anh vẫn chưa vượt qua thế hệ mới nhất.

Toàn bộ quá trình không chỉ gặp lỗi phần mềm mà còn nhiều sự cố phần cứng. Anh cho biết từng làm cháy dây nguồn do hệ thống tiêu thụ hơn 2.000 W, một GPU bị hỏng và máy tính liên tục gặp lỗi do cấu hình tự lắp ghép để đáp ứng tải tính toán cao.

PewDiePie nhấn mạnh rằng đạt điểm cao ở một benchmark không đồng nghĩa với năng lực toàn diện. Anh cho biết cần kiểm tra thêm trên các bài test khác như SWE-bench trước khi cân nhắc chia sẻ mô hình công khai. Với anh, dự án này chủ yếu là hành trình học hỏi thông qua thất bại và thử nghiệm, thay vì tạo ra một sản phẩm cạnh tranh trực tiếp với các công ty AI lớn.

Thế Duyệt

Cùng chuyên mục

HIEUTHUHAI hoá tổng tài tại Bangkok

Chủ nhật, 01/03/2026 21:47
Sự liên tục trong các hoạt động quốc tế giúp anh dần định hình vị trí ổn định hơn trong bức tranh giao thoa giữa âm nhạc và thời trang.

Nóng tại MWC 2026: HONOR bắt tay ARRI, biến trải nghiệm nhiếp ảnh trên smartphone trở nên “cực wow”

Chủ nhật, 01/03/2026 21:24
Ngày 1/3/2026 tại Barcelona (Tây Ban Nha), HONOR công bố hợp tác chiến lược với ARRI, đưa các tiêu chuẩn hình ảnh điện ảnh chuyên nghiệp vào smartphone.

30 tuổi tiết kiệm được gần 1,9 tỷ đồng, cô gái chỉ ra 2 ĐIỀU khiến nhiều người phải giật mình, thấm thía

Chủ nhật, 01/03/2026 19:38
Trước khi bước sang tuổi 30, một cô gái chia sẻ bản thân đã tiết kiệm được số tiền lớn là thành quả của gần 10 năm kỷ luật chi tiêu.

Mẹ dành dụm cả đời tích 31kg vàng, con trai lén bán thu về 21 tỷ đồng: Sự thật phía sau khiến cả gia đình hoảng loạn

Chủ nhật, 01/03/2026 19:37
Tích cóp suốt nhiều năm, người phụ nữ không ngờ toàn bộ vàng của mình lại bị chính con trai ruột bán sạch.

Xuân Son ghi bàn, HLV Kim Sang-sik đón tin vui trước trận quyết định của ĐT Việt Nam

Chủ nhật, 01/03/2026 19:18
HLV Kim Sang-sik có thể phần nào yên tâm sau khi xem giò tiền đạo Nguyễn Xuân Son.
     
Nổi bật trong ngày

Đội trưởng Thái Lan nói một câu, chỉ thẳng vấn đề lớn của tuyển Việt Nam

Thứ 7, 28/02/2026 09:22
Trước thềm bán kết futsal nữ Đông Nam Á 2026, đội trưởng ĐT Thái Lan chỉ rõ nhân tố nguy hiểm nhất bên phía tuyển Việt Nam, nhấn mạnh sự thận trọng và quyết tâm cao từ đội chủ nhà.

Đầu năm vừa cháy tàu, vừa lật thuyền: Lưu ngay 5 nguyên tắc “sống còn” khi đi sông nước để không hoảng loạn nếu có sự cố

Thứ 7, 28/02/2026 18:47
Chỉ trong những ngày đầu năm mới, khi nhu cầu du xuân, lễ hội và di chuyển bằng đường thủy tăng cao, hàng loạt sự cố tàu, thuyền liên tiếp xảy ra. Gióng lên hồi chuông cảnh báo về mức độ rủi ro khi tham gia giao thông sông nước.

Chạy 4.000km/tháng, chủ xe VinFast VF 3: ‘Xe điện giờ tiện như xe xăng, đã thử cung Hà Nội-Huế ngon lành’

Chủ nhật, 01/03/2026 06:00
Không còn xem xe điện là xu hướng mới mẻ hay điều phải đắn đo, anh Phạm Ngọc Hải chọn VinFast VF 3 như một phương tiện đi lại hằng ngày nhờ được miễn phí sạc, linh hoạt trong phố đến trải nghiệm chạy đường dài.

Xuân Son ném chai nước & mối lo lớn cho ĐT Việt Nam

Thứ 7, 28/02/2026 10:17
Nguyễn Xuân Son đang có phong độ không như ý tại CLB Nam Định, thậm chí điều ấy khiến anh dường như mất kiểm soát. Đó là điều đáng lo cho ĐT Việt Nam khi đại chiến với Malaysia đã tới gần.

Ra mắt máy tính bảng Xiaomi chip Snapdragon 8 Elite cực mạnh, màn hình 3.2K 144Hz, pin 9.200mAh, giá rẻ hơn cả iPad Air

Thứ 7, 28/02/2026 20:00
Dòng tablet mới của Xiaomi gồm hai phiên bản Pad 8 và Pad 8 Pro, hỗ trợ chế độ làm việc đa cửa sổ, phụ kiện bàn phím và bút, giá từ 11,99 triệu đồng.
xe.nguoiduatin.vn