Cho đến hiện tại, các GPU hiệu năng cao của Nvidia vẫn đang là một trong các bộ xử lý được săn lùng gắt gao nhất thế giới để đáp ứng nhu cầu huấn luyện và vận hành các mô hình AI đang bùng nổ trên toàn cầu. Tuy nhiên, một màn trình diễn mới đây của Groq, một công ty chip AI đã gây sốt trên Internet, khi hiệu năng và tốc độ của nó đang khiến các mô hình nổi tiếng hiện tại như ChatGPT, Gemini hay Grok (của ông Elon Musk) như những ông già chậm chạp.
Theo clip trình diễn được đăng tải trên nền tảng X, chỉ trong một vài giây, Groq đã tạo ra hàng trăm từ ngữ cho câu trả lời, kèm với các nguồn thông tin tham chiếu. Trong một clip demo khác, nhà sáng lập và là CEO công ty, Jonathon Ross đã cho người dẫn chương trình của CNN có thể đối thoại theo thời gian thực với một chatbot AI ở cách xa nửa vòng trái đất, ngay trên chương trình truyền hình trực tiếp.
Chỉ trong chưa đến 3 giây, chatbot chạy trên chip AI của Groq đã có thể sản sinh ra một câu trả lời dài với các nguồn thông tin đối chiếu. Thậm chí theo người dùng Matt Shumer, 3/4 thời gian nói trên là tìm kiếm thông tin còn việc, chứ không phải để sản sinh ra câu trả lời.
Điều này đặc biệt quan trọng. Mặc dù ChatGPT, Gemini hay nhiều chatbot khác nổi tiếng về khả năng xử lý đa dạng và thông minh của mình, hầu hết các tác vụ của nó đều được chạy trên nền đám mây internet, vì vậy độ trễ và khả năng xử lý khiến chúng không thể xử lý các tác vụ trong thời gian thực. Thế nhưng với bộ xử lý của Groq, tốc độ của chúng trở nên hoàn toàn khác biệt và có thể đáp ứng được việc sử dụng trong thời gian thực.
Điểm mấu chốt là Groq tạo ra chip AI được gọi là các bộ xử lý ngôn ngữ, các LPU (Language Processing Unit), và tuyên bố chúng nhanh hơn hẳn các GPU (Graphics Processing Unit) của Nvidia. Hiện tại các GPU của Nvidia đang được xem là tiêu chuẩn hàng đầu thế giới để chạy các mô hình AI, nhưng kết quả ban đầu cho thấy các LPU của Groq có thể đánh bại chúng về tốc độ.
Đừng nhầm lẫn Groq với một chatbot như ChatGPT, Gemini hay các mô hình AI khác. Thay vào đó, nó hoạt động như một "inference engine" (engine suy luận) giúp các chatbot này chạy cực kỳ nhanh, chứ không thay thế hoàn toàn chúng. Trên trang web của Groq, bạn có thể thử nghiệm các chatbot khác nhau và xem chúng chạy nhanh như thế nào khi sử dụng LPU của Groq.
Theo một thử nghiệm độc lập Artificial Analysis mới được công bố gần đây, Groq tạo ra 247 token/giây so với chỉ 18 token/giây của Microsoft - vốn đang chạy trên các GPU của Nvidia. Điều này có nghĩa ChatGPT có thể chạy nhanh hơn 13 lần nếu sử dụng chip của Groq.
Bước nhảy vọt về tốc độ này sẽ khiến các chatbot AI như ChatGPT, Gemini trở nên hữu ích hơn. Hạn chế hiện tại của các chatbot AI là chúng không thể theo kịp tốc độ nói của con người trong thời gian thực, khiến cho các cuộc trò chuyện đôi khi có cảm giác giống như robot.
Điều này cũng là lý do tại sao nhiều hãng công nghệ còn tìm cách tích hợp các chip AI chuyên dụng vào bộ xử lý smartphone – như Galaxy S24 của Samsung và Pixel 8 của Google – để có thể thực hiện các tác vụ AI tạo sinh ngay trên thiết bị thay vì để các nền tảng đám mây xử lý chúng.
Trong buổi giới thiệu Gemini, Google còn bị cáo buộc giả mạo bản demo của chatbot này để khiến nó trông như thể có thể đối thoại với người dùng đa phương thức theo thời gian thực, trong khi thực tế thì không phải vậy. Nhưng với tốc độ vượt trội của Groq, những video như vậy có thể trở thành hiện thực.
Trước khi thành lập Groq, Ross là đồng sáng lập bộ phận chip AI của Google, chịu trách nhiệm phát triển các chip tiên tiến để huấn luyện các mô hình AI. Với các chip LPU, Ross cho biết Groq đã vượt qua hai điểm nghẽn của các mô hình ngôn ngữ lớn (LLM) mà GPU và CPU thường gặp phải: mật độ tính toán và băng thông bộ nhớ.
Dù Groq đang nhận được rất nhiều sự chú ý nhờ tốc độ vượt trội của nó, khả năng mở rộng của chip AI này so với các GPU của Nvidia hoặc TPU của Google vẫn là một dấu hỏi. Các bộ xử lý do Nvidia và Google đã trở thành tiêu chuẩn của ngành AI nhờ tên tuổi và kinh nghiệm hoạt động lâu năm. Một công ty chip AI mới nổi dù thu hút được sự chú ý từ công chúng vẫn sẽ cần một thời gian dài nữa để có thể kiểm chứng được các cam kết của mình.
Tuy nhiên, điều đó có thể đến sớm hơn mong đợi khi cơn khát chip AI đang trở thành tiêu điểm trên toàn cầu. Không chỉ về nguồn cung mà cả về công nghệ chip. Một trong những nỗ lực mới đây nhất để bắt kịp nhu cầu về chip AI đến từ CEO OpenAI, Sam Altman, khi ông đang tìm cách huy động hơn 7.000 tỷ USD để gia tăng nhảy vọt sản lượng chip AI trên toàn cầu, thay vì lệ thuộc hoàn toàn vào Nvidia như hiện tại.