Startup AI Trung Quốc làm choáng váng thế giới: Ra mắt mô hình AI mới, mạnh ngang ChatGPT, có thể chấm dứt cơn khát GPU NVIDIA cao cấp của Trung Quốc

Startup AI Trung Quốc làm choáng váng thế giới: Ra mắt mô hình AI mới, mạnh ngang ChatGPT, có thể chấm dứt cơn khát GPU NVIDIA cao cấp của Trung Quốc

Thứ 2, 30/12/2024 12:38
Quan trọng hơn, mô hình AI này có thể được huấn luyện mà không cần đến các GPU cao cấp của NVIDIA, vốn bị cấm xuất khẩu sang Trung Quốc.

Trong một bước tiến ấn tượng, DeepSeek, công ty khởi nghiệp có trụ sở tại Hàng Châu, Trung Quốc, đã trình làng mô hình ngôn ngữ lớn (LLM) mới mang tên DeepSeek V3. Điều đáng chú ý là mô hình này đã vượt qua các đối thủ nặng ký của Meta Platforms và OpenAI trong những bài kiểm tra hiệu năng, cho dù có chi phí huấn luyện thấp hơn đáng kể.

Trong một bài đăng trên WeChat vào thứ Năm, DeepSeek tiết lộ rằng mô hình DeepSeek V3 mới sở hữu 671 tỷ tham số và chỉ mất khoảng 2 tháng để huấn luyện với chi phí 5,58 triệu USD, sử dụng ít tài nguyên tính toán hơn đáng kể so với các mô hình được phát triển bởi các công ty công nghệ lớn hơn. Các mô hình LLM là công nghệ nền tảng cho các công cụ AI tạo sinh như ChatGPT. Trong AI, số lượng tham số cao đóng vai trò quan trọng, cho phép LLM thích ứng với các mẫu dữ liệu phức tạp hơn và đưa ra dự đoán chính xác hơn.

68461dd2 b454 42e5 b281 e62fe7bf65c133f5c6da
DeepSeek, startup AI mới nổi của Trung Quốc 

Ngay cả Andrej Karpathy, nhà khoa học máy tính và là thành viên nhóm sáng lập OpenAI, đã bày tỏ sự ngạc nhiên trước báo cáo kỹ thuật về mô hình AI mới của DeepSeek. Trong một bài đăng trên nền tảng X, ông viết: "DeepSeek làm cho nó trông dễ dàng với việc phát hành một LLM hàng đầu với ngân sách huấn luyện gần như không đáng kể."

Đáng chú ý, mô hình V3 được huấn luyện với chỉ 2,78 triệu giờ GPU, tức là tổng thời gian sử dụng bộ xử lý đồ họa để huấn luyện một LLM. Hơn thế nữa quá trình này sử dụng GPU H800 của NVIDIA, vốn được thiết kế riêng cho Trung Quốc và có hiệu năng thấp hơn.

Con số này thấp hơn đáng kể so với 30,8 triệu giờ GPU mà Llama 3.1 của Meta cần để huấn luyện trên GPU H100 tiên tiến hơn của NVIDIA, loại chip vốn không được phép xuất khẩu sang Trung Quốc.

screenshot2024 12 27at10741pm
Kích thước của DeepSeek V3 ngang ngửa với các mô hình AI hàng đầu thế giới hiện nay, nhưng chi phí huấn luyện thấp hơn đáng kể

Báo cáo kỹ thuật về V3 cho thấy LLM này vượt trội hơn Llama 3.1 của Meta và Qwen 2.5 của Alibaba Group Holding trong một loạt các bài kiểm tra đánh giá khả năng hiểu và tạo văn bản, kiến thức chuyên gia, lập trình và giải quyết vấn đề toán học.

Bên cạnh đó, kết quả benchmark của V3 cũng cho thấy nó có thể sánh ngang với mô hình GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic, các mô hình AI hàng đầu thế giới hiện nay.

Sự ra đời của DeepSeek V3 cho thấy các công ty AI Trung Quốc đã tiến bộ như thế nào, bất chấp các lệnh trừng phạt của Mỹ đã chặn quyền truy cập của họ vào các bán dẫn tiên tiến được sử dụng để huấn luyện mô hình. Bằng cách tận dụng kiến trúc mới được thiết kế để đạt được hiệu quả chi phí trong quá trình huấn luyện, DeepSeek đã chứng minh rằng việc phát triển một LLM mạnh mẽ không nhất thiết phải đòi hỏi nguồn vốn khổng lồ như các công ty lớn thường đầu tư.

nvidiah800nvlink80g8gpunvlink8mo dunnividamaychuh800
Việc huấn luyện V3 được thực hiện hoàn toàn trên GPU H800 của NVIDIA, GPU được phép xuất khẩu sang Trung Quốc 

DeepSeek được tách ra từ High-Flyer Quant vào tháng 7 năm ngoái, công ty sử dụng AI để vận hành một trong những quỹ đầu cơ định lượng lớn nhất ở Trung Quốc. High-Flyer đã chi 200 triệu nhân dân tệ (27,4 triệu USD) để phát triển cụm AI Fire Flyer I trong giai đoạn 2019-2020, và sau đó chi thêm 1 tỷ nhân dân tệ để xây dựng Fire-Flyer II.

Trong một thông báo vào tháng 4 năm ngoái, High-Flyer cho biết mục tiêu phát triển của DeepSeek là tạo ra "AI sẽ mang lại lợi ích cho toàn nhân loại". Trước đó, DeepSeek đã ra mắt một loạt các mô hình AI, được các nhà phát triển sử dụng để xây dựng các ứng dụng của bên thứ ba, cũng như chatbot của riêng mình.

Với DeepSeek V3, công ty khởi nghiệp Trung Quốc đã chứng tỏ rằng việc phát triển các mô hình AI tiên tiến không còn là sân chơi riêng của các gã khổng lồ công nghệ. Thành tích này hứa hẹn sẽ thúc đẩy sự cạnh tranh và đổi mới trong ngành, đồng thời mở ra cơ hội cho các công ty nhỏ hơn tham gia vào cuộc đua AI. Điều này cũng đặt ra câu hỏi về vai trò của Trung Quốc trong tương lai của AI, khi quốc gia này đang nỗ lực vượt qua các rào cản để trở thành một cường quốc về công nghệ.

Nguyễn Hải

Cùng chuyên mục

Rộ tin HLV Thái Lan bị sa thải sau trận thua, bạn của HLV Kim Sang-sik lên thay thế

Thứ 6, 19/12/2025 08:19
Có thông tin cho rằng HLV Thawatchai Damrong-Ongtrakul đã phải chia tay U22 Thái Lan sau thất bại ở chung kết SEA Games, và người được bổ nhiệm thay thế là một nhà cầm quân từ Hàn Quốc.

Top 5 sedan bán chạy nhất 11 tháng đầu năm: Bảng xếp hạng tổng dần định hình, Vios vững ngôi đầu, 4/5 cái tên thuộc phân khúc B, không có hạng D

Thứ 6, 19/12/2025 08:03
Toyota Vios đang dẫn đầu bảng xếp hạng sedan bán chạy năm 2025, bỏ xa đối thủ đứng thứ 2 là Honda City khoảng cách lên tới 2.238 chiếc

DIỄN BIẾN SEA Games ngày 19/12: Việt Nam bùng nổ sau chức vô địch của đội U22, vượt qua Indonesia??

Thứ 6, 19/12/2025 07:56
Ngày 19/12, ngày thi đấu cuối cùng của hầu hết các môn thi đấu tại SEA Games 33, đoàn thể thao Việt Nam bước vào cuộc tổng lực với hiệu ứng HCV U22.

Nissan Gravite - MPV hoàn toàn mới nhỏ hơn cả Xpander có thêm nhiều hình ảnh chính thức, hé lộ ‘vỏ Nhật ruột châu Âu’

Thứ 6, 19/12/2025 07:06
Nissan hé lộ Gravite, mẫu minivan 7 chỗ giá rẻ, thực chất phát triển từ Renault Triber. Xe hướng tới nhóm khách gia đình, dùng động cơ xăng nhỏ.

Khoảnh khắc U22 Việt Nam vô địch, Quốc ca Việt Nam vang lên đầy tự hào tại SEA Games

Thứ 6, 19/12/2025 06:57
U22 Việt Nam vô địch, Quốc ca Việt Nam vang lên đầy tự hào tại SEA Games
     
Nổi bật trong ngày

HLV Mai Đức Chung rưng rưng, tuyển Việt Nam uất nghẹn lên nhận HCB SEA Games

Thứ 5, 18/12/2025 05:51
Thất bại tại trận chung kết SEA Games khiến tuyển nữ Việt Nam không kìm được cảm xúc cay đắng khi phải nhận HCB.

Hoá ra đây là lý do Xiaomi và POCO chọn hợp tác với Bose: Vì một lý do mà ai cũng muốn!

Thứ 5, 18/12/2025 12:00
Tại sự kiện ra mắt sản phẩm mới ở Bali, đại diện POCO đã lý giải lý do họ bắt tay với Bose để xử lý âm thanh cho F-series.

“Thiết kế hệ thống quan trọng hơn doanh thu” – Triết lý tăng trưởng của CEO Đinh Xuân Trung giúp tái định vị thương hiệu, tạo doanh thu bứt phá

Thứ 5, 18/12/2025 16:46
“Khách hàng có thể quên một chiến dịch, nhưng họ sẽ nhớ cảm giác được đón tiếp, được chăm sóc, và được chạm vào tinh thần của nơi này. Vì vậy, giữ vững trải nghiệm khách hàng là giữ vững sự phát triển của doanh nghiệp”, CEO Đinh Xuân Trung bày tỏ.

Mini PC nhỏ bằng 1/4 máy thường nhưng dùng Intel Core i9 14900F, chơi game thoải mái, RAM đến 64GB, SSD đến 4TB

Thứ 5, 18/12/2025 21:36
Mẫu mini PC mới từ msecore nhắm tới người dùng cần hiệu năng chơi game cao trong không gian gọn nhẹ, với CPU Intel Core i9 thế hệ mới, GPU Nvidia RTX dòng 50, bộ nhớ lớn và hệ thống tản nhiệt nhiều quạt.

Ngược dòng thần thánh trước Thái Lan, Việt Nam cùng thấy Kim Sang-sik chói sáng, vô địch SEA Games 33

Thứ 5, 18/12/2025 14:59
Bị Thái Lan dẫn trước đến 2 bàn trong hiệp một, khó ai ngờ U22 Việt Nam của thầy Kim Sang-sik lại lật ngược được thế trận và chiến thắng, vô địch SEA Games 33.
xe.nguoiduatin.vn