Công nghệ này sẽ “nhìn thấy” và hiểu các tham chiếu về các thực thể hiện diện trên màn hình cũng như bối cảnh của chúng. Mục tiêu chính của phương pháp này là cho phép tương tác tự nhiên hơn với trợ lý giọng nói.
Với tên gọi ReALM, mô hình AI của Apple sử dụng mô hình ngôn ngữ lớn để chuyển đổi các tác vụ tham chiếu đến độ phân giải phức tạp thành một vấn đề mô hình hóa ngôn ngữ thuần túy. Công ty cho biết: “Khả năng hiểu ngữ cảnh, bao gồm cả tài liệu tham khảo, là điều cần thiết đối với trợ lý đàm thoại. Điều này cho phép người dùng đặt câu hỏi về những gì họ nhìn thấy trên màn hình, trở thành một bước quan trọng để đảm bảo trải nghiệm rảnh tay thực sự với trợ lý giọng nói”.
Như nhóm Apple giải thích, mục tiêu là cung cấp cho AI các công cụ cho phép nó đọc và hiểu bối cảnh của những gì người dùng đang nhìn thấy trên màn hình. Điều này cho phép tương tác đơn giản và hiệu quả hơn, giúp người dùng không phải mô tả bằng văn bản hoặc giọng nói mọi thứ họ đang nhìn thấy.
Các tác giả của mô hình AI này khá tự tin vào tiềm năng mà họ đạt được, thậm chí báo cáo rằng ReALM có khả năng hoạt động tốt hơn mô hình GTP-4 mà ChatGPT sử dụng trong loại nhiệm vụ này. Tuy nhiên, họ thừa nhận rằng vẫn còn một số hạn chế đối với công nghệ, đặc biệt với những tài liệu tham khảo trực quan phức tạp hơn như phân biệt một số hình ảnh.
Để khắc phục hạn chế này, Apple có thể sẽ phải áp dụng những kỹ thuật phức tạp hơn. Một trong số đó sẽ bao gồm hỗ trợ đa phương thức để AI của công ty có thể tương tác với các phương pháp giới thiệu thông tin khác nhau.
Được biết, đây là bước quan trọng để Apple bước vào thế giới AI. Công ty hiện đang gặp bất lợi so với các đối thủ chính do chưa tích hợp công nghệ này vào sản phẩm của mình. CEO Tim Cook của Apple từng tuyên bố sẽ tiết lộ thêm về chủ đề này vào cuối năm nay. Với việc hội nghị WWDC diễn ra vào đầu tháng 6, đây có thể là sân khấu được hãng lựa chọn để trình bày công việc của mình trong lĩnh vực này.
Thái An