AI dịch trực tiếp khi người dùng đang nói
Google vừa công bố Gemini 3.5 Live Translate, mô hình dịch giọng nói theo thời gian thực mới sẽ được triển khai trên Google Translate dành cho Android và iOS trước khi mở rộng sang Google Meet trong thời gian tới.
Khác với nhiều hệ thống dịch thuật hiện nay vốn phải chờ người dùng nói hết một câu rồi mới xử lý, Gemini 3.5 Live Translate có thể dịch liên tục trong lúc cuộc trò chuyện đang diễn ra. Điều này giúp giảm đáng kể độ trễ và tạo cảm giác giao tiếp tự nhiên hơn giữa những người sử dụng các ngôn ngữ khác nhau.
Theo Google, hệ thống có khả năng tự động nhận diện hơn 70 ngôn ngữ mà không cần người dùng lựa chọn thủ công trước khi bắt đầu hội thoại. Công ty cho biết nền tảng mới còn được thiết kế để hoạt động hiệu quả trong nhiều môi trường khác nhau, kể cả những nơi có tiếng ồn nền.
Điểm đáng chú ý nhất nằm ở khả năng tái tạo cách thể hiện của người nói. Thay vì chỉ đọc lại nội dung bằng một giọng máy đơn điệu, bản dịch được tạo ra với mục tiêu giữ lại ngữ điệu, tốc độ nói và cao độ tương tự giọng gốc. Trong các video minh họa được Google công bố, người nghe vẫn có thể cảm nhận được sắc thái cảm xúc của người nói dù nội dung đã được chuyển sang ngôn ngữ khác.
Hướng tới các cuộc họp đa ngôn ngữ trên Google Meet
Google cho biết Gemini 3.5 Live Translate sẽ sớm được đưa lên Google Meet. Khi đó, khả năng dịch thời gian thực của nền tảng họp trực tuyến này sẽ được mở rộng đáng kể.
Theo hãng, Google Meet hiện hỗ trợ dịch giữa 5 ngôn ngữ chính. Sau khi tích hợp Gemini 3.5 Live Translate, con số này sẽ tăng lên hơn 70 ngôn ngữ, cho phép tạo ra hơn 2.000 tổ hợp dịch khác nhau trong cùng một cuộc họp.
Google cũng xác nhận chương trình thử nghiệm riêng tư sẽ được triển khai cho một số khách hàng doanh nghiệp sử dụng Google Workspace trong tháng 6, trước khi mở rộng phạm vi cung cấp trong năm nay.
Dù vậy, Google hiện vẫn chưa công bố danh sách đầy đủ các ngôn ngữ được hỗ trợ. Vì thế, chưa có thông tin xác thực cho thấy tiếng Việt có nằm trong nhóm hơn 70 ngôn ngữ được triển khai ngay từ giai đoạn đầu hay không. Đây là một trong những chi tiết được nhiều người dùng quan tâm khi Google bắt đầu đưa công nghệ dịch giọng nói thế hệ mới này lên các sản phẩm của mình.
Nếu những gì Google trình diễn được tái hiện trong thực tế, Gemini 3.5 Live Translate có thể giúp giảm đáng kể rào cản ngôn ngữ trong các cuộc trò chuyện, cuộc gọi hay hội nghị trực tuyến, đặc biệt ở những tình huống đòi hỏi trao đổi liên tục thay vì dịch từng câu như trước đây.
Phạm Hoàng
