Dữ liệu đào tạo AI của Đan Mạch chủ yếu dựa trên diễn đàn trực tuyến về ngựa

Dữ liệu đào tạo AI của Đan Mạch chủ yếu dựa trên diễn đàn trực tuyến về ngựa

Chủ nhật, 24/09/2023 07:34
Heste-Nettet là một diễn đàn trực tuyến được mở ra với chủ đề liên quan đến ngựa, tuy nhiên những dữ liệu của nó đã được sử dụng hiệu quả để đào tạo AI ở Đan Mạch.

Vào năm 2021, một nhóm các nhà nghiên cứu muốn xây dựng một bộ dữ liệu bằng tiếng Đan Mạch để đào tạo trí tuệ nhân tạo – nhưng họ gặp phải một số vấn đề. Rất nhiều dữ liệu ở Đan Mạch, chẳng hạn như các bài báo, có bản quyền khá chặt chẽ.

Các nhà nghiên cứu có quyền truy cập vào các văn bản như mã số thuế của Đan Mạch, nhưng họ biết những cuốn sách khô khan đó không thể hiện rõ ràng cách người Đan Mạch thực sự viết hoặc nói.

Vì vậy, họ chuyển sang giải pháp duy nhất ở Đan Mạch: heste-nettet.dk .

Heste-Nettet, dịch ra là “mạng lưới ngựa”, là một diễn đàn web của Đan Mạch được thành lập vào năm 1997 để những người cưỡi ngựa, người chăn nuôi và những người đam mê ngựa khác thảo luận về ngựa. Nó cũng tình cờ trở thành một trong những diễn đàn trực tuyến đầu tiên của Đan Mạch và trọng tâm của các cuộc thảo luận nhanh chóng mở rộng sang nhiều chủ đề khác ngoài những con ngựa: những tình huống khó xử trong các mối quan hệ, lời khuyên của bác sĩ nhi khoa, các bài toán trung học, một người nên đun sôi nhẹ trứng trong bao nhiêu phút.

ai dan mach
AI của Đan Mạch được đào tạo dựa trên nguồn dữ liệu của website về ngựa.

Thực tế tất cả người Đan Mạch đều biết đến Heste-Nettet. Thông thường, khi tìm kiếm một câu hỏi bằng tiếng Đan Mạch trên Google, người tìm kiếm sẽ kết thúc trên diễn đàn này. Đó là nơi “mọi câu hỏi có thể có trong vũ trụ đều đã được hỏi - và được trả lời”, một người dùng viết trên Reddit. “Nó giống như câu trả lời của Yahoo nhưng tốt hơn. Hầu hết mọi người sử dụng Heste-Nettet thay vì Wikipedia.”

Sự mở rộng của Heste-Nettet phản ánh cách các diễn đàn internet sơ khai khác trong thời đại tiền truyền thông xã hội phát triển từ các chủ đề thích hợp thành kho lưu trữ Hỏi & Đáp cho mục đích chung. Các website khác ít tập trung vào ngựa hơn bao gồm Bodybuilding.com và Stackoverflow.com.

Các mô hình ngôn ngữ lớn, cho phép những thứ như ChatGPT tương tác một cách trôi chảy như vậy, đang ngày càng phổ biến và mạnh mẽ hơn và bất kỳ ai hy vọng phát triển các phiên bản ngôn ngữ không phải tiếng Anh sẽ cần phải tìm Heste-Nettets của riêng mình để có được dữ liệu cần thiết.

Ngày nay, Heste-Nettet duy trì tính thẩm mỹ Web 1.0 rõ rệt. Trang đầu của nó có các bài đăng về găng tay cưỡi ngựa tốt nhất cho mùa thu, những con ngựa giống sẵn sàng để sinh sản và những con ngựa cái có sẵn để mua.

Các bài đăng của Heste-Nettet chiếm 22% tập dữ liệu của Đan Mạch, khiến nó trở thành nguồn tài liệu lớn nhất trong những gì dường như là lựa chọn hàng đầu cho dữ liệu đào tạo AI bằng ngôn ngữ. Leon Derczynski, giáo sư khoa học máy tính ở Copenhagen, người đứng đầu dự án, cho biết cả Reddit và X (trước đây là Twitter) đều không cung cấp khối lượng văn bản thông thường bằng tiếng Đan Mạch cần thiết để đào tạo AI. “Chúng tôi chỉ còn lại Heste-Nettet.”

Derczynski cho biết, từ góc nhìn của một nhà nghiên cứu, cuộc trò chuyện liên quan đến ngựa và không liên quan đến ngựa là “rất phong phú” và bao gồm cả tiếng lóng thông thường.

Anh Nguyễn

Bình luận tiêu biểu (0)

Sắp xếp theo lượt thích | Sắp xếp theo ngày
Chưa có bình luận. Hãy là người đầu tiên bình luận bài viết này.
Cùng tác giả

Honda chi hơn 1 tỷ USD để nâng cấp các nhà máy ở Mỹ

Thứ 6, 18/03/2022 16:00
Chi nhánh sản xuất tại Canada của Honda Motor Co sẽ đầu tư 1,38 tỷ đô la Canada (1,09 tỷ USD) trong vòng 6 năm để nâng cấp các nhà máy của mình ở Ontario khi hãng chuẩn bị sản xuất chiếc SUV hybrid mới cho Bắc Mỹ.
    Xem thêm
Cùng chuyên mục

VNPT ra mắt gói cước Internet tốc độ tối thiểu 300Mbps

Thứ 3, 01/04/2025 15:12
Từ 1/4/2025, tất cả các gói cước Internet mới của VNPT sẽ được cung cấp với tốc độ tối thiểu 300Mbps, gấp gần 2 lần so với tốc độ trung bình của Internet Việt Nam hiện nay, thiết lập dấu mốc tốc độ tối thiểu mới cao nhất trong các nhà cung cấp hiện tại.

Thương vụ thoái vốn của TikTok sẽ được “chốt kèo” sớm trước ngày 5/4

Thứ 2, 31/03/2025 18:51
Tổng thống Mỹ Donald Trump cho biết, thỏa thuận với công ty mẹ của TikTok tại Trung Quốc là ByteDance để bán ứng dụng sẽ đạt được trước thời hạn vào thứ Bảy tuần này (5/4).

BlackBerry có hy vọng hồi sinh

Chủ nhật, 30/03/2025 12:04
Sau khi “giấc mơ” điện thoại Blackberry hỗ trợ 5G kết thúc, thương hiệu huyền thoại một thời đã biến mất một thời gian dài cho đến gần đây. Một số nguồn tin cho thấy, một công ty khởi nghiệp tại Anh đang tìm cách đưa Blackberry trở lại thị trường điện thoại thông minh.

OpenAI phải hoàn tất quá trình chuyển đổi vì lợi nhuận vào cuối năm mới có thể huy động đủ 40 tỷ USD

Chủ nhật, 30/03/2025 10:59
OpenAI phải chuyển đổi thành công ty vì lợi nhuận vào cuối năm nay để đảm bảo nhận được toàn bộ khoản tài trợ 40 tỷ USD do SoftBank dẫn đầu.

Redmi Note 14 5G chính thức ra mắt thị trường Việt, giá gần 7,3 triệu đồng

Thứ 7, 29/03/2025 13:11
Xiaomi vừa chính thức ra mắt Redmi Note 14 5G tại thị trường Việt Nam. Phiên bản mới thuộc Redmi Note 14 Series, sở hữu camera AI 108MP sắc nét, vi xử lý Dimensity 7025-Ultra hiệu năng cao và độ bền ấn tượng. Sản phẩm bắt đầu mở bán từ 29/3/2025 với giá bán 7.290.000 đồng.
    Xem thêm
Nổi bật trong ngày

VNPT ra mắt gói cước Internet tốc độ tối thiểu 300Mbps

Thứ 3, 01/04/2025 15:12
Từ 1/4/2025, tất cả các gói cước Internet mới của VNPT sẽ được cung cấp với tốc độ tối thiểu 300Mbps, gấp gần 2 lần so với tốc độ trung bình của Internet Việt Nam hiện nay, thiết lập dấu mốc tốc độ tối thiểu mới cao nhất trong các nhà cung cấp hiện tại.
xe.nguoiduatin.vn