Google công bố thuật toán mới, nén bộ nhớ AI xuống 6 lần: cổ phiếu chip nhớ lập tức lao dốc

Google vừa thả một quả bom vào thị trường chip nhớ. Hôm qua, gã khổng lồ công nghệ công bố nghiên cứu TurboQuant, một thuật toán nén có khả năng giảm lượng bộ nhớ cần thiết để chạy các model ngôn ngữ lớn xuống 6 lần mà không mất độ chính xác.

Phản ứng từ thị trường tài chính đến gần như tức thì. Cổ phiếu của các nhà cung cấp chip nhớ và lưu trữ lớn đồng loạt lao dốc trong phiên giao dịch sáng thứ Tư: Micron Technology giảm 4%, Western Digital tụt 4,4%, Seagate Technology rớt 5,6%, và Sandisk chìm sâu 6,5%.

Để hiểu tại sao một bài nghiên cứu học thuật lại có thể gây ra cơn địa chấn như vậy, cần phải hiểu vấn đề mà TurboQuant đang giải quyết.

3e0be485 23b7 4d1a aee6 5d493b13dede2816x1536

Mỗi khi bạn trò chuyện với ChatGPT hay bất kỳ AI nào, model phải nhớ mọi thứ bạn đã nói trong cuộc hội thoại. Bộ nhớ đó được gọi là "key-value cache" hay KV cache. Càng trò chuyện dài, bộ nhớ cache càng lớn, và chi phí vận hành càng đắt đỏ. Đây chính là nút thắt lớn nhất trong AI hiện nay.

Con số thực tế còn kinh hoàng hơn nhiều người tưởng. Một cuộc trò chuyện 128.000 từ trên một model lớn ngốn tới 40GB bộ nhớ GPU chỉ cho một người dùng duy nhất. Nhân con số đó lên hàng nghìn người dùng và bạn đang đốt hàng triệu USD chi phí tính toán để xử lý lại cùng một dữ liệu nhiều lần.

Đây chính là lý do tại sao toàn bộ ngành công nghiệp chip nhớ đã đặt cược tương lai của họ vào việc vấn đề này không bao giờ được giải quyết. Micron đã bán hết HBM memory đến hết năm 2026, SK Hynix ký hợp đồng cung cấp cho NVIDIA trước nhiều năm. Ngành dự báo nhu cầu HBM tăng 70% năm qua năm cho năm 2026.

Thuật toán làm thay đổi cả ngành phần cứng

TurboQuant phá vỡ hoàn toàn phương trình đó. Thuật toán này nén bộ nhớ cache xuống chỉ còn 3 bits mỗi giá trị, so với mức tiêu chuẩn ngành là 32 bits, đồng nghĩa với việc giảm gần 11 lần.

heq847vxwaaygbp — Với thuật toán mới của Google, bộ nhớ dược nén xuống 6 lần, trong khi tốc độ xử lý tăng gấp 8 lần

Trong khi đó, các phương pháp nén trước đây đều phải đánh đổi: nén bộ nhớ thì mất chất lượng. Các kỹ sư chấp nhận thỏa hiệp đó vì không có lựa chọn nào khác. TurboQuant xóa bỏ hoàn toàn sự đánh đổi này. Các nhà phát triển độc lập đã test trong vài giờ và nhận được kết quả khớp chính xác với output sử dụng bộ nhớ đầy đủ. Không có sự suy giảm chất lượng nào cả.

Cơ chế hoạt động của TurboQuant khá tinh vi nhưng có thể hiểu đơn giản như sau. Google lấy một danh sách dài các con số đại diện cho bộ nhớ của model và xoay nó một chút, giống như xoay một đống đồ vật để chúng xếp gọn hơn trong hộp. Điều này làm cho các con số dễ lưu trữ hơn ở dạng độ chính xác rất thấp, do đó mỗi con số sử dụng ít bits hơn nhiều trong khi vẫn giữ hầu hết các mẫu hữu ích.

Bước thứ hai là một quy trình làm sạch sửa chữa một phần biến dạng do nén mạnh đó gây ra, để model vẫn có thể tìm thấy thông tin quá khứ chính xác thay vì bị nhầm lẫn bởi phiên bản được lưu trữ thô hơn.

Nguy cơ đối với ngành chip nhớ

Điều đặc biệt nguy hiểm đối với ngành chip nhớ là TurboQuant không cần huấn luyện lại hay tinh chỉnh model. Nó có thể được cài đặt ngay vào các hệ thống AI hiện có mà không cần sửa đổi gì. Google đã test nó trên ba model AI lớn và năm benchmark khác nhau, kết quả đều khớp hoặc vượt trội.

gettyimages 5227825622e16d0bafill 580x387

Thuật toán này đã đang chạy bên trong Gemini, và các nhà phát triển đang chuyển nó sang Apple Silicon. Điều này có nghĩa là các model AI từng cần một workstation 10.000 USD giờ có thể chạy trên MacBook. Các tác nhân AI hoạt động liên tục trở nên rẻ hơn đáng kể để vận hành. Các model open-source quá lớn đối với phần cứng tiêu dùng đột nhiên trở nên khả thi.

Google cũng tuyên bố hiệu suất nhanh hơn tới 8 lần trên H100 cho một số thao tác chính, vì vậy đây không chỉ là về tiết kiệm bộ nhớ mà còn về di chuyển dữ liệu với ít ma sát hơn.

Mặc dù vậy, đợt bán tháo cổ phiếu các công ty chip nhớ dường như cho thấy phản ứng quá mức vì những thành công trong phòng thí nghiệm không tự động trở thành triển khai toàn ngành và nhu cầu AI vẫn đang chạm tới giới hạn cung cứng. Trong ngắn hạn, các cổ phiếu chip nhớ vẫn ổn vì hợp đồng đã ký, doanh thu đã khóa, không có gì phát nổ trong quý này.

Tuy nhiên, Google vừa chứng minh rằng nút thắt phần cứng đắt nhất trong AI có thể được hóa giải bằng phần mềm. Tuy vậy, thuật toán này sẽ không bao giờ thay thế được phần cứng của bạn, chúng chỉ khiến nó trở nên ít quan trọng hơn mà thôi. Và đó chính xác là điều Google vừa làm với ngành công nghiệp chip nhớ trị giá hàng tỷ USD.

Nguyễn Hải

Google công bố thuật toán mới, nén bộ nhớ AI xuống 6 lần: cổ phiếu chip nhớ lập tức lao dốc

Hành trình Từ Trái Tim ngày 3: Dàn mỹ nhân Kỳ Duyên, Hoàng Yến Chibi hội tụ, sinh viên mãn nhãn cùng siêu xe

Đan Trường mất sạch dữ liệu iPhone vì nhập sai mật khẩu nhiều lần: cẩn thận với tính năng "Xóa dữ liệu" trên iPhone

Top những điểm khiến Galaxy A37, A57 5G nổi bật hơn hẳn các sản phẩm cùng phân khúc

Cầm 18 triệu đi mua Asus ROG Ally X và Steam Deck OLED: Game thủ nên lựa chọn thiết bị nào giữa cơn "bão giá" này?

Từ màn hình CRT đến Smartphone: Cuộc sống của game thủ 8x và 9x ngày trước đã thay đổi như thế nào?

Tuyển Trung Quốc thắng luân lưu nghẹt thở, “đe doạ” Indonesia ở giải tranh vé World Cup

Phó mặc suy nghĩ cho AI, hàng ngàn người trẻ đang “thuê não” dùng, để máy móc quyết định thay mọi việc

Trước khi bị công an kiểm tra ngày 25/3, Bảo Tín Minh Châu từng bị phạt 2,64 tỷ đồng: Vì sao?

Xiaomi bán loa soundbar kèm subwoofer không dây giá khoảng 2.9 triệu đồng, hỗ trợ Bluetooth 5.3, USB-C

Asian Cup bất ngờ "có biến", kế hoạch của đội tuyển Việt Nam chịu ảnh hưởng

Tin đọc nhiều

Người đàn ông Trung Quốc biến thú cưng thành “động cơ sống”, cảnh tượng trên đường khiến mạng xã hội phẫn nộ

U23 Việt Nam 1-1 U23 Triều Tiên: Chân sút nhà bầu Đức lập công

Quán net xưa, tiếng Chaos rơi và những đêm trắng ở Lorencia: Ký ức MU Online còn lại gì sau 20 năm?

Diễn viên Hà Nhuận Đông giàu khủng khiếp

Lộ diện bến đỗ mới của Casemiro: Rời Man Utd, sang Trung Đông hay tái ngộ Messi?

Báo giá quảng cáo