Theo Reuters, Meta đã sử dụng các bài đăng công khai trên Facebook và Instagram để đào tạo các phần của trợ lý ảo Meta AI mới của mình. Trong một cuộc phỏng vấn, Giám đốc điều hành chính sách hàng đầu của công ty đảm bảo với Reuters rằng họ loại trừ các bài đăng riêng tư được chia sẻ riêng với gia đình và bạn bè để tôn trọng quyền riêng tư của người dùng.
Nick Clegg, Chủ tịch phụ trách các vấn đề toàn cầu của Meta, đã chia sẻ rằng các cuộc trò chuyện riêng tư trên dịch vụ nhắn tin cũng nằm ngoài bảng dữ liệu đào tạo. Meta đã thực hiện các bước để lọc thông tin riêng tư khỏi các tập dữ liệu công khai được sử dụng. Clegg nhấn mạnh rằng Meta "đã cố gắng loại trừ các tập dữ liệu có nhiều thông tin cá nhân". Clegg cũng nói rằng "phần lớn" dữ liệu được Meta sử dụng để đào tạo đã được công khai. Các dữ liệu khác như của LinkedIn đã bị bỏ qua do lo ngại về quyền riêng tư của người dùng.
Chia sẻ của Clegg được đưa ra trong bối cảnh sự chỉ trích đang nhắm vào các công ty công nghệ, bao gồm Meta, OpenAI và Google vì đã sử dụng thông tin được thu thập trên internet mà không có sự cho phép thích hợp để đào tạo các mô hình AI của họ. Những mô hình này sử dụng lượng dữ liệu khổng lồ để tóm tắt thông tin và tạo ra hình ảnh.
Meta đã phát triển trợ lý này bằng cách sử dụng mô hình tùy chỉnh dựa trên mô hình ngôn ngữ lớn Llama 2, được phát hành công khai vào tháng 7 và một mô hình mới có tên Emu, được thiết kế để tạo hình ảnh theo lời nhắc bằng văn bản. Sản phẩm này được thiết lập để tạo ra văn bản, âm thanh và hình ảnh, truy cập thông tin theo thời gian thực thông qua quan hệ đối tác với công cụ tìm kiếm Bing của Microsoft.
Các bài đăng công khai trên Facebook và Instagram, chứa cả văn bản và ảnh, đóng một vai trò trong việc đào tạo Meta AI. Emu tập trung vào việc tạo hình ảnh, trong khi các chức năng trò chuyện dựa trên Llama 2, được cải tiến với các bộ dữ liệu có chú thích và có sẵn công khai. Clegg nói rằng các hạn chế về an toàn đã được thực hiện để ngăn chặn việc tạo ra những hình ảnh chân thực về các nhân vật của công chúng.
Giải quyết những lo ngại về tài liệu có bản quyền, Clegg dự đoán các vụ kiện tụng có thể xảy ra, đặc biệt là về việc liệu nội dung sáng tạo có thuộc học thuyết sử dụng hợp lý hiện có hay không. Trong khi Meta tin là như vậy, Clegg thừa nhận điều này có thể diễn ra trong các cuộc chiến pháp lý.
Thành Đô