Không cần hàng tỷ USD nghiên cứu, chỉ cần 28 triệu câu hỏi: Đây là cách một công ty Trung Quốc có thể

Không cần hàng tỷ USD nghiên cứu, chỉ cần 28 triệu câu hỏi: Đây là cách một công ty Trung Quốc có thể "sao chép" Claude mà không đụng vào một dòng code nào

Chủ nhật, 28/06/2026 14:00
Kỹ thuật mà Alibaba bị tố dùng để sao chép Claude không phải hack hay đánh cắp code - nó là một phương pháp học máy hoàn toàn hợp lệ, chỉ bị coi là tấn công khi thực hiện trái phép ở quy mô công nghiệp.

Đầu năm 2026, ba tên tuổi lần lượt bị cáo buộc thực hiện cùng một hành vi trên các model AI lớn nhất thế giới: DeepSeek, Moonshot AI và MiniMax bị Anthropic tố cáo hồi tháng 2; Google tiếp tục công bố phát hiện chiến dịch tương tự nhắm vào Gemini chỉ 11 ngày sau; rồi tháng 6, đến lượt Alibaba với quy mô còn lớn hơn tất cả cộng lại. Kỹ thuật tất cả đều dùng có cùng một cái tên: distillation, hay chưng cất model AI.

Vậy thực ra chưng cất là gì, tại sao nó lại là mối đe dọa với hàng tỷ USD đầu tư nghiên cứu AI, và tại sao các hãng lớn như Anthropic và Google gần như không thể ngăn chặn hoàn toàn?

Kỹ thuật xuất phát từ nghiên cứu hàn lâm, không phải tội phạm

Chưng cất, hay đầy đủ hơn là chưng cất tri thức, là kỹ thuật nén model AI được nhà nghiên cứu Geoffrey Hinton và cộng sự mô tả từ năm 2015. Ý tưởng cốt lõi rất đơn giản: thay vì train một model nhỏ từ đầu với dữ liệu thô, hãy để nó "học từ" một model lớn đã được train sẵn.

Trong hệ thống này, model lớn đóng vai "thầy giáo" (teacher model), còn model nhỏ hơn đóng vai "học sinh" (student model). Thầy giáo nhận câu hỏi và trả lời - học sinh quan sát, ghi lại cặp câu hỏi-trả lời đó và dùng để tự train. Sau đủ nhiều lần lặp lại, học sinh dần học được cách phản hồi tương tự thầy giáo, kể cả với những câu hỏi chưa từng gặp.

Kỹ thuật này không chỉ hợp pháp mà còn rất phổ biến. Google thậm chí cung cấp dịch vụ chưng cất trên nền tảng đám mây của mình. Phần lớn các model AI nhỏ gọn chạy trên điện thoại ngày nay đều được tạo ra theo cách tương tự.

Từ học thuật thành vũ khí cạnh tranh

Ranh giới giữa "chưng cất hợp lệ" và "chưng cất tấn công" nằm ở hai yếu tố: sự cho phép và quy mô.

Khi một công ty dùng model của chính mình làm thầy giáo để train model nhỏ hơn - hợp lệ. Khi một công ty dùng API công khai của đối thủ, trả phí đàng hoàng nhưng với mục đích thu thập dữ liệu training theo quy mô công nghiệp - đó là vi phạm điều khoản sử dụng của gần như tất cả các nhà cung cấp AI lớn.

Vấn đề về quy mô quan trọng vì nó quyết định giá trị của dữ liệu thu được. Một lập trình viên thử nghiệm Claude với vài trăm câu lệnh mỗi ngày không thể tạo ra tập dữ liệu đủ lớn để train bất cứ thứ gì có nghĩa. Nhưng 28,8 triệu cuộc hội thoại trong 44 ngày - con số Alibaba bị tố thực hiện - là một câu chuyện khác hoàn toàn.

Sơ đồ minh họa "tấn công chưng cất" - thầy giáo là model lớn, học sinh là model đang được train, mũi tên biểu thị dòng chảy dữ liệu

Đặc biệt, các chiến dịch này không hỏi ngẫu nhiên. Theo mô tả của Anthropic hồi tháng 2/2026, Moonshot AI tập trung cụ thể vào khả năng suy luận agentic và "tool use" (tức model tự biết cần phải sử dụng công cụ gì để thực hiện tác vụ), đây là những năng lực đắt giá nhất, khó train nhất, và cũng là thứ làm Claude Code có giá trị thương mại. MiniMax thì tiến hành "thu thập diện rộng" (broad-spectrum extraction), hỏi cực kỳ rộng để lập bản đồ toàn bộ năng lực của Claude.

Tại sao không thể ngăn chặn hoàn toàn

Đây là nghịch lý cốt lõi: model AI nào càng dễ truy cập, càng hữu ích cho người dùng thông thường, thì càng dễ bị khai thác theo cách này.

Anthropic mô tả ba lớp phòng thủ đang triển khai: nhận diện hành vi bất thường (behavioral fingerprinting) để phát hiện các prompt có dấu hiệu chưng cất, siết chặt xác minh tài khoản tại các kênh hay bị lợi dụng như chương trình giáo dục và startup, và điều chỉnh đầu ra của model để giảm "giá trị chiết xuất" mà không ảnh hưởng đến người dùng thực.

Nhưng theo Erik Cambria, giáo sư AI tại Đại học Công nghệ Nanyang (Singapore), ranh giới giữa dùng hợp lệ và tấn công chưng cất "thường rất mờ nhạt". Một lập trình viên chạy 50.000 câu hỏi để test hiệu năng model không khác gì về mặt kỹ thuật so với một lab AI thu thập dữ liệu training - sự khác biệt nằm ở ý định, và ý định không thể đọc được từ log API.

 

Google thậm chí thừa nhận điều này một cách thẳng thắn hơn: "Mặc dù đã có cơ chế phát hiện và chặn, các model AI lớn về cơ bản vẫn dễ bị distillation vì chúng mở cho bất kỳ ai trên internet."

Distillation và tiền đang đặt ra câu hỏi lớn

John Hultquist, nhà phân tích chính của Google Threat Intelligence Group, đưa ra một kịch bản đáng lo ngại hơn tất cả những gì đã xảy ra: "Giả sử model AI của bạn được train trên 100 năm bí quyết kinh doanh. Về lý thuyết, kẻ tấn công có thể chưng cất phần đó ra."

Điều đó có nghĩa là rủi ro không chỉ dừng lại ở các hãng AI lớn. Bất kỳ công ty nào xây dựng model riêng trên dữ liệu độc quyền - hồ sơ y tế, chiến lược tài chính, bí quyết sản xuất - đều đang phải đối mặt với một vector tấn công mà phòng thủ truyền thống không được thiết kế để xử lý.

Trong khi Anthropic và Google đang xây dựng thêm lớp phòng thủ, toàn bộ ngành đang chứng kiến một xu hướng rõ ràng: kể từ khi DeepSeek R1 ra mắt đầu năm 2025 và được nhiều người tin rằng được phát triển một phần nhờ distillation từ các model Mỹ, kỹ thuật này đã trở thành công cụ cạnh tranh địa chính trị trong ngành AI - không còn đơn thuần là học thuật hay kỹ thuật nén model thuần túy nữa.

Cùng chuyên mục

Son Heung-min cúi đầu, cả Hàn Quốc nổi giận: World Cup kết thúc bằng một cuộc thanh trừng?

Chủ nhật, 28/06/2026 15:48
Hình ảnh Son Heung-min cúi đầu trên sân Monterrey có lẽ sẽ còn ám ảnh người hâm mộ Hàn Quốc trong nhiều năm nữa. Đó không chỉ là khoảnh khắc một đội bóng bị loại khỏi World Cup 2026, mà còn là biểu tượng cho sự sụp đổ của cả một chiến dịch được đặt rất nhiều kỳ vọng.

Vào đây xem bóng hồng nóng nhất World Cup 2026: Chụp cùng 2 con mà như 3 chị em, thiên thần lộ thân phận rồi

Chủ nhật, 28/06/2026 15:30
Mỹ nhân này như một thiên thần với nhan sắc không tàn phai theo thời gian.

Từ 94% cơ hội đi tiếp đến bị loại sớm: Bi kịch mang tên Hàn Quốc tại World Cup 2026

Chủ nhật, 28/06/2026 15:27
Việc bị loại ngay sau vòng bảng World Cup 2026 thực sự là “thảm hoạ” với tuyển Hàn Quốc, khiến người hâm mộ bóng đá nước này không khỏi tức giận và thất vọng.

World Cup 2026: Bóng đá châu Á “mèo lại hoàn mèo”, châu Phi lập cột mốc chưa từng có

Chủ nhật, 28/06/2026 15:20
Sau lượt trận đầu tiên World Cup 2026, bóng đá châu Á được kỳ vọng sẽ có một giải đấu bùng nổ. Nhưng sau vòng bảng, mọi thứ lại đi về đúng với những gì vẫn thường thấy nhiều năm qua.

Điện thoại Android cứu người trước động đất

Chủ nhật, 28/06/2026 14:00
Mạng lưới hàng tỷ điện thoại Android đã gửi cảnh báo đến người dùng Venezuela vài giây trước trận động đất 7,5 độ - trận lớn nhất nước này trong hơn 100 năm.
     
Nổi bật trong ngày

Mazda CX-5 thế hệ mới nhận hơn 10.000 đơn đặt hàng tại quê nhà chỉ sau 1 tháng: Gấp gần 7 lần kỳ vọng, bản hybrid được trông chờ

Thứ 7, 27/06/2026 05:50
Không chạy theo xu hướng điện hóa ngay lập tức, Mazda CX-5 mới vẫn ghi nhận doanh số đặt hàng vượt kế hoạch nhiều lần.

Bỉ đè bẹp New Zealand 5-1, De Bruyne ghi bàn đưa Quỷ đỏ vào vòng knock-out World Cup 2026

Thứ 7, 27/06/2026 12:13
Sau vòng bảng không ít chật vật, ĐT Bỉ đã chính thức giành vé vào vòng 1/16 World Cup 2026 với chiến thắng rực rỡ trước New Zealand trong trận đấu diễn ra vào 10h sáng 27/6 (giờ Việt Nam).

Phim Hàn cuốn đến nỗi xem không dám chớp mắt: Nam chính đã đẹp còn điên, twist chồng twist càng đoán càng sai

Chủ nhật, 28/06/2026 01:48
Màn trình diễn xuất thần của nam chính đã biến 6 tập phim trở thành một bữa tiệc giật gân khó đoán, xứng đáng để theo dõi.

Ảnh: Không thể ngăn cản Messi, vào sân từ ghế dự bị cũng lập kỉ lục, ăn mừng cực cảm xúc

Chủ nhật, 28/06/2026 11:27
Dù chỉ vào sân từ băng ghế dự bị trong hiệp hai, Lionel Messi vẫn trở thành tâm điểm của trận đấu giữa Argentina và Jordan ở lượt trận cuối bảng J World Cup 2026.

Hyundai Santa Fe facelift lộ ảnh dựng bản EREV: Thiết kế có thể lột xác, hướng đến vẻ hiện đại hơn

Thứ 7, 27/06/2026 08:40
Hyundai Santa Fe facelift tiếp tục lộ diện qua bản dựng mới với nhiều thay đổi ở thiết kế và nhiều khả năng sẽ lần đầu có phiên bản EREV.
xe.nguoiduatin.vn