Google ra mắt Gemini 3: Tiêu chuẩn mới về trí tuệ AI, tiến gần thêm một bước hướng tới AGI

Google ra mắt Gemini 3: Tiêu chuẩn mới về trí tuệ AI, tiến gần thêm một bước hướng tới AGI

Thứ 4, 19/11/2025 11:32
Không chỉ vượt trội hơn đối thủ các chỉ số đo lường, Gemini 3 mới của Google đang cho thấy khả năng hiểu và mô phỏng thế giới thực tốt hơn nhiều so với trước đây.

Hôm nay, Google chính thức công bố Gemini 3 Pro, đánh dấu một bước tiến quan trọng trên con đường tiến tới trí tuệ nhân tạo tổng quát AGI. Theo ông Demis Hassabis, Giám đốc điều hành Google DeepMind, và ông Koray Kavukcuoglu, Giám đốc công nghệ của Google DeepMind, đây là model AI mạnh nhất thế giới hiện nay về khả năng hiểu đa phương thức, đồng thời là model agentic và coding xuất sắc nhất mà Google từng xây dựng.

Về mặt kiến trúc, Gemini 3 Pro được xây dựng trên nền tảng mô hình hỗn hợp chuyên gia thưa MoE và kiến trúc Transformer, hoàn toàn được huấn luyện trên chip TPU của Google. Điều đáng chú ý là model này vượt trội hơn hẳn phiên bản Gemini 2.5 Pro trên mọi benchmark AI quan trọng.

gemini 3model blogheader darkwidth 1200format webp
Chú thích ảnh

Điểm số cao vượt trội

Tại bảng xếp hạng LMArena, Gemini 3 Pro đã chiếm vị trí đầu bảng với điểm số đột phá 1501 Elo, bỏ xa các đối thủ. Model cũng thể hiện khả năng suy luận ở trình độ tiến sĩ với 37.5% điểm trên bài kiểm tra khó Humanity's Last Exam khi không sử dụng bất kỳ công cụ nào, vượt xa GPT-5.1 của OpenAI chỉ đạt 26.5%.

Trên benchmark GPQA Diamond, Gemini 3 Pro đạt 91.9%, còn ở MathArena Apex, model lập kỷ lục mới với 23.4%. Những con số này chứng minh Gemini 3 Pro có khả năng giải quyết các vấn đề phức tạp trong nhiều lĩnh vực như khoa học và toán học với độ tin cậy cao.

gemini3tablefinalhletoolson
Chú thích ảnh

Ngoài khả năng xử lý văn bản, Gemini 3 Pro còn định nghĩa lại chuẩn mực về suy luận đa phương thức với 81% trên MMMU-Pro và 87.6% trên Video-MMMU. Model cũng đạt 72.1% trên SimpleQA Verified, cho thấy tiến bộ đáng kể về độ chính xác thực tế.

Đặc biệt, mỗi phản hồi của model đều thông minh, súc tích và trực tiếp, thay vì dùng lời lẽ sáo rỗng hay nịnh nọt. Gemini 3 Pro đưa ra những nhận định chân thực, nói với người dùng điều họ cần nghe chứ không phải điều họ muốn nghe, hoạt động như một đối tác tư duy thực sự.

Bên cạnh phiên bản chuẩn, Google còn giới thiệu Gemini 3 Deep Think, chế độ suy luận nâng cao đưa khả năng của Gemini 3 lên một tầm cao mới. Trong thử nghiệm, Gemini 3 Deep Think vượt qua cả thành tích ấn tượng của Gemini 3 Pro với 41% trên Humanity's Last Exam và 93.8% trên GPQA Diamond.

Gemini 3 - Tiêu chuẩn mới về trí tuệ nhân tạo

Đặc biệt, model đạt 45.1% chưa từng có trên ARC-AGI-2, chứng minh khả năng giải quyết các thách thức hoàn toàn mới. Con số này cho thấy Gemini 3 Deep Think có thể xử lý những vấn đề đòi hỏi suy luận sâu và khả năng thích ứng cao.

Khả năng hiểu được bối cảnh trong thế giới thực

Gemini 3 được thiết kế ngay từ đầu để tổng hợp thông tin về bất kỳ chủ đề nào qua nhiều phương thức bao gồm văn bản, hình ảnh, video, âm thanh và code. Với cửa sổ ngữ cảnh lên tới một triệu token, model có thể xử lý khối lượng thông tin khổng lồ cùng lúc.

Chẳng hạn, người dùng có thể yêu cầu Gemini 3 giải mã và dịch các công thức nấu ăn viết tay bằng nhiều ngôn ngữ khác nhau thành sách dạy nấu ăn gia đình có thể chia sẻ. Hoặc khi muốn học một chủ đề mới, người dùng có thể cung cấp các bài báo học thuật, video bài giảng dài hoặc hướng dẫn, và model sẽ tạo code cho flashcard tương tác, hình ảnh trực quan hoặc các định dạng khác giúp người học nắm vững kiến thức.

Đối với các nhà phát triển, Gemini 3 thực hiện lời hứa đưa bất kỳ ý tưởng nào thành hiện thực. Model xuất sắc trong việc tạo code ngay lập tức và xử lý các prompt phức tạp để render giao diện web phong phú và tương tác hơn.

Gemini 3 có thể đọc hiểu một tài liệu về RNA và minh họa nó trong thế giới thực

Trên bảng xếp hạng WebDev Arena, Gemini 3 dẫn đầu với 1487 điểm Elo. Model cũng đạt 54.2% trên Terminal-Bench 2.0 kiểm tra khả năng sử dụng công cụ để điều khiển máy tính qua terminal, và vượt xa Gemini 2.5 Pro trên SWE-bench Verified với 76.2%.

Con số 76.2% này gần ngang bằng GPT-5.1 đạt 76.3%, cho thấy sự cạnh tranh gay gắt giữa các model hàng đầu. Tuy nhiên, Claude Sonnet 4.5 của Anthropic vẫn dẫn đầu benchmark này với 77.2%, chứng tỏ cuộc đua về khả năng coding vẫn còn rất căng thẳng.

Cùng với việc model ngày càng thông minh hơn, Google cũng đang định hình lại toàn bộ trải nghiệm phát triển cho các lập trình viên. Hôm nay, công ty giới thiệu Google Antigravity, nền tảng phát triển agentic mới cho phép các developer làm việc ở cấp độ cao hơn, định hướng theo nhiệm vụ.

Sử dụng chế độ Tác nhân để tự động lập trình một ứng dụng theo dõi chuyến bay

Sử dụng khả năng suy luận nâng cao, sử dụng công cụ và coding agentic của Gemini 3, Google Antigravity chuyển đổi sự hỗ trợ của AI từ một công cụ trong bộ công cụ của developer thành một đối tác tích cực. Các agent trong Google Antigravity có quyền truy cập trực tiếp vào editor, terminal và trình duyệt.

Điều này cho phép các agent tự động lập kế hoạch và thực thi các tác vụ phần mềm phức tạp từ đầu đến cuối đồng thời thay mặt người dùng, đồng thời tự xác thực code của mình. Ngoài Gemini 3 Pro, Google Antigravity còn tích hợp model Gemini 2.5 Computer Use mới nhất để điều khiển trình duyệt và model chỉnh sửa hình ảnh hàng đầu Nano Banana.

Về khả năng lập kế hoạch, Gemini 3 đã chứng minh tiến bộ đáng kể bằng cách dẫn đầu bảng xếp hạng Vending-Bench 2. Benchmark này kiểm tra khả năng hoạch định dài hạn thông qua việc quản lý doanh nghiệp máy bán hàng tự động mô phỏng.

Nâng cao khả năng an toàn

Gemini 3 Pro duy trì việc sử dụng công cụ và ra quyết định nhất quán trong suốt một năm hoạt động mô phỏng, mang lại lợi nhuận cao hơn mà không lạc hướng khỏi nhiệm vụ. Điều này có nghĩa model có thể giúp người dùng hoàn thành công việc tốt hơn trong cuộc sống hàng ngày.

Bằng cách kết hợp suy luận sâu hơn với khả năng sử dụng công cụ cải thiện và nhất quán hơn, Gemini 3 có thể thực hiện hành động thay mặt người dùng. Model điều hướng các quy trình làm việc phức tạp nhiều bước từ đầu đến cuối như đặt dịch vụ địa phương hoặc sắp xếp hộp thư đến.

07119112025googlegemini3pro

Về mặt an toàn, Gemini 3 là model bảo mật nhất của Google và đã trải qua bộ đánh giá an toàn toàn diện nhất trong số các model AI của Google từ trước đến nay. Model giảm thiểu tính nịnh nọt, tăng khả năng chống lại các cuộc tấn công prompt injection và cải thiện bảo vệ chống lại việc lạm dụng qua các cuộc tấn công mạng.

Ngoài thử nghiệm nội bộ theo Khung An toàn Tiên phong của công ty, Google còn hợp tác với các chuyên gia hàng đầu thế giới. Công ty cung cấp quyền truy cập sớm cho các tổ chức như UK AISI, và nhận đánh giá độc lập từ các chuyên gia ngành như Apollo, Vaultis và Dreadnode.

Kể từ hôm nay, Gemini 3 bắt đầu triển khai cho mọi người qua ứng dụng Gemini, cho thuê bao Google AI Pro và Ultra trong AI Mode trên Google Search. Model cũng có sẵn cho các nhà phát triển qua Gemini API trong AI Studio, nền tảng Google Antigravity và Gemini CLI, cũng như cho doanh nghiệp qua Vertex AI và Gemini Enterprise.

Riêng chế độ Gemini 3 Deep Think, Google đang dành thêm thời gian cho các đánh giá an toàn và phản hồi từ các chuyên gia kiểm tra trước khi cung cấp cho thuê bao Google AI Ultra trong những tuần tới. Google cũng dự định phát hành thêm các model trong dòng Gemini 3 sớm để người dùng có thể làm được nhiều hơn với AI.

Nguyễn Hải

Cùng chuyên mục

“Phố núi” Gia Lai đăng cai Năm Du lịch Quốc gia 2026: Tổ chức 244 sự kiện xuyên năm, mục tiêu 18,5 triệu lượt khách

Chủ nhật, 15/03/2026 09:31
Sau khi hợp nhất với Bình Định, Gia Lai bước vào giai đoạn mới với dấu mốc lần đầu đăng cai Năm Du lịch Quốc gia 2026.

Anker ra mắt loa Bluetooth di động soundcore Boom Go 3i: nhỏ gọn, có đèn LED "chill chill", công suất 15W, pin 24 giờ, giá từ 1,29 triệu đồng

Chủ nhật, 15/03/2026 09:10
Anker vừa giới thiệu mẫu loa Bluetooth di động soundcore Boom Go 3i tại thị trường Việt Nam, hướng đến nhóm người dùng cần một thiết bị âm thanh nhỏ gọn nhưng đủ mạnh để sử dụng trong nhiều bối cảnh khác nhau, từ nghe nhạc cá nhân, làm việc, đến các chuyến dã ngoại ngoài trời.

Trước nguy cơ bị xử thua, HLV Malaysia hé lộ “bí kíp” đấu tuyển Việt Nam

Chủ nhật, 15/03/2026 07:50
HLV Peter Cklamovski vẫn rất tự tin trước trận lượt về vòng loại Asian Cup gặp tuyển Việt Nam, cho dù vắng 7 ngôi sao nhập tịch trong đội hình.

Thực tế khắc nghiệt khi con người làm thuê cho AI: Hơn 600.000 người đăng ký, trung bình 60 người tranh nhau một công việc

Chủ nhật, 15/03/2026 07:38
Ý tưởng về việc AI thuê con người làm các công việc trong thế giới thực thay cho mình có vẻ thú vị, nhưng hóa ra thực tế lại khắc nghiệt hơn tưởng tượng.

Hoa hậu Kỳ Duyên bán Range Rover Velar sau gần 6 năm: Xe đi 64.000 km, giá chỉ khoảng một nửa lúc mua

Chủ nhật, 15/03/2026 07:27
Sau gần 6 năm sử dụng, hoa hậu Nguyễn Cao Kỳ Duyên rao bán chiếc Range Rover Velar từng có giá niêm yết 5,4 tỷ đồng. Xe đã đi khoảng 64.000 km nhưng nhiều chi tiết ngoại thất và nội thất khiến nhiều người bất ngờ,
     
Nổi bật trong ngày

Tỏa sáng ở Nhật Bản, hai ngôi sao Việt Nam đối đầu nghẹt thở

Thứ 7, 14/03/2026 08:33
Hai tuyển thủ bóng chuyền Việt Nam Trần Thị Thanh Thúy và Trần Thị Bích Thủy sắp đối đầu với nhau lần đầu tiên tại Nhật Bản, tạo nên màn so tài lịch sử đáng chờ đợi.

Tự tin bành trướng, CĐV Trung Quốc muốn đội nhà "đè bẹp" tuyển Việt Nam 4 bàn không gỡ

Thứ 7, 14/03/2026 19:37
NHM Trung Quốc từng có giai đoạn rất ngán ngại bóng đá Việt Nam. Nhưng sau khi U23 Trung Quốc thắng U23 Việt Nam 3-0 ở bán kết U23 châu Á 2026, họ đã tự tin hơn nhiều.

Một thay đổi nhỏ trên Claude vừa khiến Google và OpenAI phải đau đầu

Thứ 7, 14/03/2026 07:00
Anthropic chính thức đưa cửa sổ ngữ cảnh (context window) 1 triệu token ra phiên bản chính thức trên cả Opus 4.6 và Sonnet 4.6, đồng thời xóa hoàn toàn khoản phụ phí mà lập trình viên từng phải trả khi xử lý các prompt dài.

Mất 7 cầu thủ "nhập lậu", Malaysia toan tính gì khi tái đấu ĐT Việt Nam?

Thứ 7, 14/03/2026 20:00
Lực lượng ĐT Malaysia có thể sẽ thay đổi lớn khi đấu ĐT Việt Nam vào ngày 31/3 tới, sau khi 7 cầu thủ nhập tịch bị cấm thi đấu vì bê bối giấy tờ.

Áo chống nắng đang bị mua theo cảm tính, còn người tiêu dùng thì rối bời trong “ma trận” áo chống UV

Thứ 7, 14/03/2026 08:38
Giữa một thị trường dày đặc lời hứa về “ngăn UV” và “mặc không nóng”, điều cần thiết không phải thêm lựa chọn, điều người tiêu dùng cần là một tiêu chí đủ rõ để nhận ra đâu mới là trang phục chống UV thực sự hiệu quả, dễ mặc và đáng tin.
xe.nguoiduatin.vn