Meta phát hành mô hình AI có khả năng dịch lời nói gần 100 ngôn ngữ

Công ty cho biết trong một bài đăng trên blog rằng mô hình SeamlessM4T của họ có thể hỗ trợ dịch giữa văn bản và lời nói ở gần 100 ngôn ngữ, cũng như dịch toàn bộ lời nói sang giọng nói cho 35 ngôn ngữ, kết hợp công nghệ mà trước đây chỉ có ở các mô hình riêng biệt.

Giám đốc điều hành Mark Zuckerberg cho biết ông hình dung ra những công cụ như vậy tạo điều kiện thuận lợi cho sự tương tác giữa những người dùng từ khắp nơi trên thế giới trong "siêu vũ trụ", tập hợp các thế giới ảo được kết nối với nhau mà ông đang đặt cược vào tương lai của công ty.

Bài đăng trên blog cho biết Meta đang cung cấp mô hình này cho công chúng với mục đích sử dụng phi thương mại.

meta ai seamlessm4t speech translation transcription model — Mô hình SeamlessM4T của Meta cho phép dịch lời nói giữa hàng chục ngôn ngữ khác nhau.

Công ty truyền thông xã hội lớn nhất thế giới đã phát hành một loạt mô hình AI hầu hết miễn phí trong năm nay, bao gồm cả mô hình ngôn ngữ lớn có tên Llama, đặt ra thách thức nghiêm trọng đối với các mô hình độc quyền được bán bởi OpenAI do Microsoft hậu thuẫn và Google của Alphabet .

Zuckerberg cho biết một hệ sinh thái AI mở hoạt động có lợi cho Meta, vì công ty có thể thu được nhiều lợi ích hơn bằng cách tìm nguồn cung ứng hiệu quả từ cộng đồng để tạo ra các công cụ hướng tới người tiêu dùng cho các nền tảng xã hội của mình thay vì tính phí truy cập vào các mô hình.

Tuy nhiên, Meta phải đối mặt với các câu hỏi pháp lý tương tự như phần còn lại của ngành xung quanh dữ liệu đào tạo được sử dụng để tạo ra các mô hình của mình.

Vào tháng 7, nhà văn kiêm kịch sĩ Sarah Silverman và hai tác giả khác đã đệ đơn kiện vi phạm bản quyền chống lại cả Meta và OpenAI, cáo buộc các công ty sử dụng sách của họ làm dữ liệu đào tạo mà không được phép.

Đối với mô hình SeamlessM4T, các nhà nghiên cứu của Meta cho biết trong một tài liệu nghiên cứu rằng họ đã thu thập dữ liệu đào tạo âm thanh từ 4 triệu giờ "âm thanh thô có nguồn gốc từ kho lưu trữ dữ liệu web được thu thập dữ liệu có sẵn công khai" mà không chỉ định kho lưu trữ nào.

Người phát ngôn của Meta đã không trả lời các câu hỏi về nguồn gốc của dữ liệu âm thanh.

Diễm Vỹ