Apple đạt được đột phá trong AI tạo sinh: ra mắt mô hình AI mới giúp xóa nhòa khoảng cách giữa hình ảnh và văn bản

Chủ nhật, 17/03/2024 19:39
Mô hình ngôn ngữ MM1 mới của Apple có thể hiểu được nội dung, đối tượng, chủ thể và bối cảnh của một bức ảnh để trả lời các câu hỏi liên quan.

Apple đang âm thầm tiến nhanh hơn trong lĩnh vực trí tuệ nhân tạo tạo sinh khi vừa đạt được bước đột phá mới của mình, mô hình ngôn ngữ lớn đa phương tiện MM1. Bước tiến này được mô tả trong tài liệu nghiên cứu mới có tên "MM1: Phương pháp, Phân tích & Hiểu biết từ Việc Huấn luyện trước các mô hình ngôn ngữ lớn Đa phương tiện", cho thấy các khả năng ấn tượng đối với việc nhận diện hình ảnh và suy luận dựa trên ngôn ngữ tự nhiên.

Mô hình MM1 sẽ có 3 kích thước bao gồm 3 tỷ, 7 tỷ và 30 tỷ tham số. Các nhà nghiên cứu đã sử dụng những mô hình này để thực hiện thí nghiệm, xác định các yếu tố then chốt ảnh hưởng đến hiệu suất. Điều thú vị là khác với các bộ dữ liệu được huấn luyện trước khác, đối với MM1, độ phân giải và số lượng thẻ gắn vào hình ảnh có ảnh hưởng lớn đến hiệu quả hoạt động của mô hình, lớn hơn nhiều so với các kết nối ngôn ngữ và hình ảnh.

Apple đạt được đột phá trong AI tạo sinh: ra mắt mô hình AI mới giúp xóa nhòa khoảng cách giữa hình ảnh và văn bản- Ảnh 1.

Nhóm nghiên cứu đã xây dựng MM1 một cách tỉ mỉ khi sử dụng kiến trúc "Mixture of Experts" và phương pháp "Top-2 Gating". Cách tiếp cận này không chỉ mang lại kết quả xuất sắc trong các phép đo benchmark huấn luyện trước mà còn chuyển hóa thành hiệu suất mạnh mẽ đối với các phép đo benchmark đa phương tiện hiện có. Ngay cả sau khi được tinh chỉnh cho các nhiệm vụ cụ thể, các mô hình MM1 vẫn duy trì hiệu suất rất đáng kể.

"Chúng tôi chứng minh rằng đối với việc đào tạo trước đối với các mô hình đa phương thức quy mô lớn, việc sử dụng kết hợp tỉ mỉ các dữ liệu chú thích hình ảnh, văn bản hình ảnh xen kẽ và chỉ thuần văn bản là rất quan trọng để đạt được kết quả chụp vài ảnh hiện đại trên nhiều điểm chuẩn," Các nhà nghiên cứu giải thích. Bằng cách đào tạo các mô hình trên một tập dữ liệu đa dạng bao gồm thông tin ngôn ngữ và hình ảnh, các mô hình MM1 có thể thực hiện xuất sắc các nhiệm vụ như chú thích hình ảnh, trả lời câu hỏi bằng hình ảnh và suy luận ngôn ngữ tự nhiên.

Apple đạt được đột phá trong AI tạo sinh: ra mắt mô hình AI mới giúp xóa nhòa khoảng cách giữa hình ảnh và văn bản- Ảnh 2.

Nhờ vào bộ dữ liệu đa phương tiện quy mô lớn được huấn luyện trước, mô hình MM1 của Apple có thể hiểu được nội dung của bức ảnh, ví dụ đếm được số lượng đối tượng trong hình ảnh, thực hiện được phép tính.

Apple đạt được đột phá trong AI tạo sinh: ra mắt mô hình AI mới giúp xóa nhòa khoảng cách giữa hình ảnh và văn bản- Ảnh 3.

Mô hình MM1 có thể đọc được phần văn bản, con số trong hình ảnh

Các thử nghiệm đã tiết lộ rằng các mô hình MM1-3B-Chat và MM1-7B-Chat vượt trội so với hầu hết các đối thủ cùng kích cỡ trên thị trường. Các mô hình này đặc biệt nổi bật trong các nhiệm vụ như VQAv2 (trả lời câu hỏi dựa trên hình ảnh và văn bản), TextVQA (trả lời câu hỏi dựa trên văn bản về một hình ảnh), và ScienceQA (trả lời câu hỏi khoa học).

Điều đáng ngạc nhiên là dù phiên bản lớn nhất của mô hình MM1 chỉ có 30 tỷ tham số nhưng lại thể hiện tốt khả năng học tập theo ngữ cảnh, cho phép nó thực hiện lý luận nhiều bước đối với hàng loạt hình ảnh đầu vào bằng cách sử dụng lời nhắc "chuỗi suy nghĩ". Điều này chỉ ra tiềm năng cho thấy các mô hình đa phương thức lớn hơn có thể giải quyết các vấn đề phức tạp, có kết thúc mở, thường phải có sự hiểu biết và tạo ra ngôn ngữ có căn cứ.

Apple đạt được đột phá trong AI tạo sinh: ra mắt mô hình AI mới giúp xóa nhòa khoảng cách giữa hình ảnh và văn bản- Ảnh 4.

Thậm chí mô hình còn cho thấy khả năng hiểu được bối cảnh trong hình ảnh, trả lời được các câu hỏi về cảm giác của người xem đối với những hình ảnh đó.

Tuy nhiên, hiệu suất tổng thể của MM1 chưa thực sự vượt qua được mô hình Gemini của Google hoặc GPT-4V của OpenAI. Mặc dù MM1 chưa phải là người dẫn đầu tuyệt đối, nó vẫn là một bước tiến lớn của Apple trong lĩnh vực trí tuệ nhân tạo tạo sinh. Đầu năm nay, công ty cũng đã mua lại DarwinAI, một startup ứng dụng AI trong hoạt động kiểm tra chất lượng của quy trình sản xuất, giúp nâng cao chất lượng sản phẩm.

Ngoài ra, trước đó nhiều nguồn tin cho biết Apple đang nghiên cứu một framework mô hình ngôn ngữ lớn có tên là "Ajax" cũng như một chatbot có tên nội bộ là "Apple GPT". Mục tiêu là tích hợp các công nghệ này vào Siri, Messages, Apple Music cũng như các ứng dụng và dịch vụ khác.

Apple có lịch sử là người theo sau hiệu quả thay vì người tiên phong trong các bước ngoặt công nghệ lớn. Nhưng với AI có thể sẽ biến đổi mọi khía cạnh của thế giới số, sức ép duy trì vị thế cạnh tranh cho Apple là rất lớn. Việc công bố MM1 cho thấy Apple có tài năng và nguồn lực để tạo ra những tiến bộ mới, nhưng vẫn cần thời gian để biết được liệu nhà sản xuất iPhone có bắt kịp các đối thủ đi trước hay không.

Nguyễn Hải

Cùng chuyên mục

Bé trai Hà Nội mang khối u khổng lồ như "mai rùa" đến gặp bác sĩ: Sau 7 năm lần đầu tiên đứng thẳng như bao bạn bè trang lứa

Thứ 6, 19/06/2026 16:58
Từ một đứa trẻ phải sống chung với khối u hắc tố khổng lồ sần sùi, đè nặng trên lưng như một chiếc "mai rùa" khiến N.V.T (7 tuổi, Hà Nội) không thể đứng thẳng. Sau 6 lần đại phẫu kiên trì, cậu bé 7 tuổi ấy lần đầu tiên trong đời tự tin đứng thẳng.

Người đàn ông đi qua nhiều quốc gia và nhận về một “tài sản” kỳ lạ: Không phải tiền nhưng ai cũng muốn có

Thứ 6, 19/06/2026 16:54
Nhiều người mơ về một ngày có thể tạm gác công việc để đi đây đó. Andreas Graf đã biến điều đó thành hiện thực. Người đàn ông Áo rời bỏ cuộc sống ổn định, lên đường đạp xe qua khoảng 50 quốc gia trong gần 4 năm và nhận về những điều mà anh cho rằng tiền bạc khó có thể mang lại.

Tài khoản bất ngờ nhận 137,763 triệu đồng lúc 23h45, chàng trai ở Hàn Quốc lập tức gọi về Việt Nam: Người cha rút toàn bộ tiền mặt giao cho công an

Thứ 6, 19/06/2026 16:44
Phát hiện tài khoản bất ngờ nhận hơn 137 triệu đồng từ người lạ khi đang làm việc tại Hàn Quốc, anh Phạm Văn Lực đã chủ động trình báo và giao nộp toàn bộ số tiền cho công an để xác minh, tìm chủ sở hữu hợp pháp.

Lịch thi đấu World Cup 2026 ngày 20/6 mới nhất: Brazil tìm lại vị thế, Mỹ quyết đấu Australia

Thứ 6, 19/06/2026 16:39
Cập nhật thông tin lịch thi đấu World Cup 2026 ngày 20/6.

Rúng động World Cup: Hakimi nhận tin hầu toà vì cáo buộc hiếp dâm ngay lúc Maroc chuẩn bị đấu Scotland

Thứ 6, 19/06/2026 16:33
Achraf Hakimi sẽ bị xét xử về tội hiếp dâm.
     
Nổi bật trong ngày

MG chuẩn bị hé lộ xe mới: Đèn LED kiểu ma trận, cánh gió sau cỡ lớn, đối thủ mới của Geely EX2 và BYD Dolphin

Thứ 5, 18/06/2026 06:00
Mẫu xe này sẽ được hãng xe Trung Quốc giới thiệu vào đầu tháng 6 tại sự kiện Goodwood Festival of Speed.

Messi khóc vì bố ốm nặng

Thứ 5, 18/06/2026 08:53
Lý do Messi bật khóc nức nở ngay trên sân sau khi lập siêu phẩm cho Argentina ở World Cup.

Thi hành lệnh bắt tạm giam Thái Huy Phong SN 1976

Thứ 5, 18/06/2026 10:40
Công an TP Cần Thơ vừa ra quyết định khởi tố, bắt tạm giam đối tượng lừa đảo bằng thủ đoạn mạo danh cán bộ cơ quan thuộc Bộ Quốc phòng.

Berserk hé lộ bí mật lớn nhất về thân thế của Guts, ngang hàng với Griffith

Thứ 5, 18/06/2026 12:20
Berserk chương 384 thực sự là một cột mốc lịch sử, mở ra một kỷ nguyên mới cho hành trình phục hận của Kiếm Sĩ Đen!

Người phụ nữ bị câm, điếc mất tích bí ẩn nhiều ngày, người mẹ già khóc ròng cầu cứu

Thứ 5, 18/06/2026 15:09
Người phụ nữ câm điếc 38 tuổi ở xã Dầu Tiếng, TP.HCM rời nhà từ ngày 14/6 đến nay chưa trở về, công an đang phát thông báo tìm kiếm và kêu gọi người dân cung cấp thông tin.
xe.nguoiduatin.vn