Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ

Thứ 2, 08/04/2024 16:29
Đây cũng là thách thức khó khăn mà toàn ngành AI đang gặp phải khi phát triển các công cụ AI mới.

Trong khi mọi người đều đang hân hoan nói về các công cụ AI mới với khả năng thay đổi cuộc sống con người như thế nào trong tương lai, có một vấn đề mà mọi người đang bỏ qua, đó là nguồn gốc của những bộ dữ liệu làm nên các tính năng tuyệt vời này. Mới đây, một báo cáo của New York Times đã tiết lộ phần nào góc khuất của vấn đề này cũng như cách OpenAI tạo ra các tính năng hấp dẫn cho những công cụ AI của mình.

Mở đầu câu chuyện cho biết, OpenAI vào thời điểm năm 2021 đã trở nên cạn kiệt và vô cùng thèm khát dữ liệu, vì vậy đã phát triển nên một mô hình AI biên dịch âm thanh có tên Whisper để vượt qua trở ngại này. Mô hình này sau đó đã biên dịch hơn 1 triệu giờ các video trên YouTube – bao gồm cả để huấn luyện cho GPT-4, mô hình ngôn ngữ lớn tiên tiến nhất của họ lúc đó.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 1.

Theo báo cáo của New York Times, cho dù lúc đó OpenAI – bao gồm cả chủ tịch Greg Brockman – biết rằng điều này có thể gây ra các rắc rối pháp lý nhưng vẫn tiếp tục sử dụng nó vì cho rằng điều là phù hợp với mục đích sử dụng hợp lý.

Trả lời yêu cầu bình luận của The Verge, đại diện OpenAI Lindsay Held cho biết trong email rằng, công ty tinh chỉnh các bộ dữ liệu "duy nhất" cho mỗi mô hình AI của họ để "giúp chúng hiểu được thế giới hơn" và duy trì khả năng cạnh tranh trong nghiên cứu trên toàn cầu. Held cho biết, công ty sử dụng "nhiều nguồn dữ liệu khác nhau bao gồm cả các dữ liệu công khai và các dữ liệu không công khai của nhiều đối tác", đồng thời họ cũng đang xem xét việc tạo ra dữ liệu tổng hợp cho riêng mình.

Trong khi đó, là công ty sở hữu nền tảng YouTube, Google cho rằng, công ty đã biết về "các báo cáo chưa được xác nhận" về hoạt động của OpenAI, cũng như bổ sung rằng "cả file robots.txt và Điều khoản Dịch vụ của chúng tôi đều cấm việc thu thập và tải xuống nội dung YouTube". Trước đó, CEO YouTube, Neal Mohan cũng cho rằng nhiều khả năng OpenAI đã sử dụng YouTube để huấn luyện cho AI tạo sinh video Sora.

Chính vì vậy, đại diện Google Matt Bryant cho biết, công ty đang tiến hành "các biện pháp kỹ thuật và pháp lý" để ngăn chặn việc sử dụng trái phép dữ liệu "khi chúng tôi có bằng chứng kỹ thuật và pháp lý rõ ràng để làm điều đó".

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 2.

Không chỉ OpenAI, chính Google cũng khai thác các video YouTube làm nguồn dữ liệu huấn luyện cho AI của mình.

Báo cáo của NYT cho biết, không chỉ OpenAI, chính Google cũng thu thập các bản biên dịch âm thanh từ YouTube. Ông Bryant cho biết, Google đã huấn luyện một số mô hình của mình bằng dữ liệu từ "nội dung trên YouTube, theo như thỏa thuận giữa chúng tôi với các nhà sáng tạo nội dung YouTube".

Cũng rơi vào tình cảnh tương tự như các đối thủ khác là hãng Meta, khi dù nắm trong tay nhiều mạng xã hội lớn nhất hành tinh cũng gặp nhiều hạn chế về việc có được nguồn dữ liệu chất lượng. Báo cáo của New York Times cho biết, nhóm AI của Meta đã thảo luận về việc tìm cách sử dụng bất hợp pháp các tài liệu có bản quyền trong nỗ lực để bắt kịp OpenAI.

Về phần Meta, sau khi họ xem qua "gần như toàn bộ các tài liệu bằng tiếng Anh bao gồm sách, tiểu luận, thơ ca và báo chí có sẵn trên internet", đã cân nhắc thực hiện các bước đi như trả tiền mua giấy phép xuất bản sách hoặc mua lại một nhà xuất bản lớn. Các động thái này cho thấy, rõ ràng công ty cũng bị giới hạn bởi nguồn dữ liệu của người dùng sau vụ bê bối Cambridge Analytica.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 3.

Báo cáo cho thấy, toàn bộ ngành AI, bao gồm cả các công ty lớn như Google, OpenAI và Meta đều đang vật lộn với việc thiếu hụt dữ liệu. Thậm chí một báo cáo khác của Wall Street Journal cho thấy, nhiều khả năng toàn bộ nguồn dữ liệu trên internet sẽ bị các công ty tiêu thụ hết vào năm 2028, gây nên một thách thức nghiêm trọng cho toàn bộ ngành AI.

Một giải pháp khả thi vào lúc này là việc huấn luyện các mô hình AI dựa trên dữ liệu "tổng hợp" được tạo ra bởi chính các mô hình của họ - hay còn được gọi là kỹ thuật "học tập theo chương trình giáo dục", bao gồm việc cung cấp cho các mô hình này dữ liệu chất lượng cao được sắp xếp theo thứ tự phù hợp. Các nhà nghiên cứu hy vọng rằng các dữ liệu này có thể sử dụng để tạo ra "các kết nối thông minh hơn giữa những ý tưởng" đồng thời tiêu thụ ít thông tin hơn, tuy nhiên các cách tiếp cận này vẫn chưa được chứng minh trong thực tế.

Chính vì vậy, cho đến giờ, lựa chọn phổ biến của nhiều công ty khác là sử dụng bất kỳ dữ liệu nào họ có được, cho dù được phép hay không. Với hàng loạt vụ kiện liên quan đến việc sử dụng dữ liệu vào năm ngoái, đây rõ ràng là một lựa chọn không dễ dàng gì cho họ.

Nguyễn Hải

Cùng chuyên mục

Theo dõi ngôi nhà hoang không người ở nhưng đêm nào cũng sáng đèn, còn có khói trắng tỏa nghi ngút: Cảnh sát bắt giữ nhóm nghi phạm gồm 9 nam và 1 nữ, hành vi lừa đảo diễn ra sau 23h

Thứ 5, 09/05/2024 22:28
Thủ đoạn lừa đảo của nhóm đối tượng này vô cùng tinh vi, thường chỉ diễn ra vào ban đêm khi người dân xung quanh không còn thức.

HLV Shin Tae-yong nhận thẻ đỏ, U23 Indonesia tạo ra hình ảnh gây tranh cãi ở trận tranh vé Olympic

Thứ 5, 09/05/2024 22:21
U23 Indonesia đã không thể làm nên bất ngờ trong trận play-off tranh vé Olympic với U23 Guinea.

Bùi Thanh Hương học cưỡi ngựa, hé lộ cách thoát khỏi nỗi sợ hãi

Thứ 5, 09/05/2024 22:05
Bùi Thanh Hương nhận được nhiều lời khen ngợi ở bộ ảnh mới. Ở tuổi 42, cô được nhận xét là vẫn trẻ đẹp như thời đôi mươi.

Việt Nam có 1 loại lá thơm mát, pha với nước thành "thuốc" hạ đường huyết tự nhiên, giàu vitamin A lại rất ít calo, cực tốt cho tiêu hóa

Thứ 5, 09/05/2024 21:59
Đây là loại lá gia vị rất quen thuộc với người Việt, được dùng phổ biến trong các bữa cơm gia đình.

Vừa đi đánh ghen bắt tại trận chồng và bồ nhí về, tôi được bố chồng gọi vào cho 3 tỷ kèm 2 điều kiện

Thứ 5, 09/05/2024 21:41
Đánh ghen xong, trong đầu tôi trống rỗng, về nhà định tắm rửa, ngủ một giấc cho đỡ mệt thì bất ngờ bố chồng gọi sang nói chuyện.
     
Nổi bật trong ngày

Chênh đúng 9 triệu, Toyota Corolla Cross 'base' hơn thua 'SUV quốc dân' Mazda CX-5 Premium ở từng trang bị công nghệ nhỏ

Thứ 4, 08/05/2024 06:52
Mặc dù có kích thước nhỏ hơn, Toyota Corolla Cross lại có giá bán khởi điểm cao hơn nhiều so với các mẫu xe hạng C, trong đó có Mazda CX-5.

Xôn xao clip ẩu đả ở cửa quán bar, thanh niên cầm vật nghi giống súng lao vào cuộc xô xát

Thứ 4, 08/05/2024 08:45
Thanh niên cùng nhóm 3-5 người xúm vào đấm, đá một người đàn ông. Theo tìm hiểu, hai bên đã có mâu thuẫn từ trước đó.

Con đường lịch sử ở trung tâm Hà Nội sẽ được mở rộng gấp đôi, đi 2 tầng, tổng mức đầu tư 21.000 tỷ đồng

Thứ 4, 08/05/2024 10:06
Một trong những cung đường có bề dày văn hóa lịch sử bậc nhất Thủ đô sẽ được rót 21.000 tỷ đồng để mở rộng.

VCS bất ngờ sở hữu thành tích "một 9 một 10" với một khu vực Major tại đấu trường quốc tế

Thứ 4, 08/05/2024 11:07
"Thành tích" của VCS không thua kém khu vực này là bao.

Clip người đàn ông dùng vật cứng vụt tới tấp vào đầu đối phương, máu chảy đầm đìa: Hé lộ nguồn cơn?

Thứ 4, 08/05/2024 12:01
Mặc dù đối phương đã bị thương vùng đầu, chảy nhiều máu nhưng người đàn ông còn lại không dừng tay.
xe.nguoiduatin.vn