Khi chúng ta hướng tới năm 2024, hãy cùng khám phá các xu hướng AI có tính sáng tạo hàng đầu:
Sự xuất hiện của các mô hình AI đa phương thức
GPT4 của OpenAI, LLama 2 của Meta và Mistral đều là ví dụ về những tiến bộ trong các mô hình ngôn ngữ lớn. Công nghệ này vượt xa văn bản với các mô hình AI đa phương thức, cho phép người dùng trộn và kết hợp nội dung dựa trên văn bản, âm thanh, hình ảnh và video để nhắc nhở và tạo nội dung mới. Cách tiếp cận này bao gồm việc kết hợp dữ liệu, chẳng hạn như hình ảnh, văn bản và giọng nói, với các thuật toán nâng cao để đưa ra dự đoán và tạo ra kết quả.
Vào năm 2024, AI đa phương thức dự kiến sẽ phát triển đáng kể, mở ra sự thay đổi về khả năng AI tổng hợp. Các mô hình này đang phát triển vượt ra ngoài các chức năng chế độ đơn truyền thống, kết hợp các loại dữ liệu đa dạng như hình ảnh, ngôn ngữ và âm thanh. Kết quả của quá trình chuyển đổi sang các mô hình đa phương thức này là AI sẽ trở nên trực quan và năng động hơn.
GPT4-V đã được những người đăng ký ChatGPT Plus ưa chuộng nhờ khả năng đa phương thức. Vào năm 2024, chúng ta có thể mong đợi sự trỗi dậy của các mô hình mở như Trợ lý Ngôn ngữ Lớn và Tầm nhìn hoặc LLava.
Các mô hình ngôn ngữ nhỏ có khả năng và mạnh mẽ
Nếu 2023 là năm của các mô hình ngôn ngữ lớn thì năm 2024 sẽ chứng kiến sức mạnh của các mô hình ngôn ngữ nhỏ. LLM được đào tạo trên các bộ dữ liệu lớn như Common Crawl và The Pile. Hàng terabyte dữ liệu bao gồm các bộ dữ liệu này được trích xuất từ hàng tỷ trang web có thể truy cập công khai. Mặc dù dữ liệu thực sự có lợi trong việc dạy LLM tạo ra nội dung có ý nghĩa và dự đoán từ tiếp theo, nhưng tính chất ồn ào của nó bắt nguồn từ nền tảng của nó dựa trên nội dung Internet chung.
Mặt khác, các mô hình ngôn ngữ nhỏ được đào tạo trên các bộ dữ liệu hạn chế hơn nhưng vẫn bao gồm các nguồn chất lượng cao như sách giáo khoa, tạp chí và nội dung có thẩm quyền. Những mô hình này nhỏ hơn về số lượng tham số cũng như yêu cầu về bộ nhớ và lưu trữ, cho phép chúng chạy trên phần cứng ít tốn kém hơn và ít tốn kém hơn. SLM tạo ra nội dung có chất lượng tương đương với một số đối tác lớn hơn của chúng mặc dù quy mô chỉ bằng một phần nhỏ so với LLM.
PHI-2 và Mistral 7B của Microsoft là hai SLM đầy hứa hẹn sẽ cung cấp năng lượng cho thế hệ ứng dụng AI tổng hợp tiếp theo.
Sự trỗi dậy của các đại lý tự trị
Các tác nhân tự trị đại diện cho một chiến lược đổi mới để xây dựng các mô hình AI tổng quát. Các tác nhân này là các chương trình phần mềm tự trị được thiết kế để hoàn thành một mục tiêu cụ thể. Khi xem xét AI tổng quát, khả năng các tác nhân tự trị tạo ra nội dung không có sự can thiệp của con người sẽ vượt qua các hạn chế liên quan đến kỹ thuật nhắc nhở thông thường.
Các thuật toán nâng cao và kỹ thuật học máy được sử dụng để phát triển các tác nhân tự trị. Các tác nhân này sử dụng dữ liệu để tìm hiểu, thích ứng với các tình huống mới và đưa ra quyết định mà không cần nhiều sự can thiệp của con người. Ví dụ, OpenAI đã tạo ra các công cụ sử dụng hiệu quả các tác nhân tự trị, cho thấy sự tiến bộ đáng kể trong lĩnh vực trí tuệ nhân tạo.
AI đa phương thức, kết hợp nhiều kỹ thuật AI khác nhau như xử lý ngôn ngữ tự nhiên, thị giác máy tính và học máy, rất quan trọng trong việc phát triển các tác nhân tự trị. Nó có thể đưa ra dự đoán, thực hiện hành động và tương tác phù hợp hơn bằng cách phân tích các loại dữ liệu khác nhau cùng lúc và áp dụng bối cảnh hiện tại.
Các khung như LangChain và LlamaIndex là một số công cụ phổ biến được sử dụng để xây dựng các tác nhân dựa trên LLM. Vào năm 2024, chúng ta sẽ thấy các khuôn khổ mới tận dụng AI đa phương thức.
Mô hình mở sẽ có thể so sánh được với các mô hình độc quyền
Vào năm 2024, các mô hình AI mở, có tính tổng hợp dự kiến sẽ phát triển đáng kể, với một số dự đoán cho thấy chúng sẽ có thể so sánh với các mô hình độc quyền. Mặt khác, việc so sánh giữa các mô hình mở và độc quyền rất phức tạp và phụ thuộc vào nhiều yếu tố, bao gồm các trường hợp sử dụng cụ thể, tài nguyên phát triển và dữ liệu được sử dụng để đào tạo các mô hình.
Llama 2 70B, Falcon 180B của Meta và Mixtral-8x7B của Mistral AI trở nên cực kỳ phổ biến vào năm 2023, với hiệu suất tương đương với các mẫu độc quyền như GPT 3.5, Claude 2 và Jurrasic.
Trong tương lai, khoảng cách giữa các mô hình mở và mô hình độc quyền sẽ được thu hẹp, cung cấp cho doanh nghiệp một lựa chọn tuyệt vời để lưu trữ các mô hình AI tổng hợp trong môi trường kết hợp hoặc tại chỗ.
Vào năm 2024, phiên bản tiếp theo của các mô hình từ Meta, Mistral và có thể cả những người mới tham gia sẽ được phát hành dưới dạng các lựa chọn thay thế khả thi cho các mô hình độc quyền có sẵn dưới dạng API.
Cloud Native trở thành chìa khóa cho GenAI tại chỗ
Kubernetes đã là môi trường ưa thích để lưu trữ các mô hình AI tổng quát. Những người chơi chính như Hugging Face, OpenAI và Google dự kiến sẽ tận dụng cơ sở hạ tầng gốc đám mây do Kubernetes cung cấp để cung cấp các nền tảng AI tổng quát.
Các công cụ như Suy luận tạo văn bản từ Ôm mặt, Ray Serve từ AnyScale và vLLM đã hỗ trợ chạy suy luận mô hình trong vùng chứa. Vào năm 2024, chúng ta sẽ chứng kiến sự trưởng thành của các framework, công cụ và nền tảng chạy trên Kubernetes để quản lý toàn bộ vòng đời của các mô hình nền tảng. Người dùng sẽ có thể đào tạo trước, tinh chỉnh, triển khai và mở rộng quy mô các mô hình tổng quát một cách hiệu quả.
Những người tham gia hệ sinh thái gốc đám mây quan trọng sẽ cung cấp kiến trúc tham chiếu, các biện pháp thực hành tốt nhất và tối ưu hóa để chạy AI tổng hợp trên cơ sở hạ tầng gốc đám mây. LLMOps sẽ được mở rộng để hỗ trợ quy trình làm việc gốc trên nền tảng đám mây tích hợp.
Nam Lê (Theo Forbes)