OpenAI chính thức tích hợp khả năng tạo sinh hình ảnh tiên tiến trực tiếp vào nền tảng ChatGPT, bắt đầu từ hôm nay (26/3). Tính năng mang tên "Images in ChatGPT" này khai thác sức mạnh của mô hình GPT-4o mới nhất, cho phép người dùng biến ý tưởng thành hình ảnh ngay trong cửa sổ trò chuyện quen thuộc.
Đợt triển khai ban đầu này tập trung hoàn toàn vào việc tạo ảnh và sẽ có mặt trên mọi cấp độ tài khoản, từ Plus, Pro, Team cho đến cả người dùng miễn phí. Theo Taya Christianson, phát ngôn viên của OpenAI chia sẻ với The Verge, giới hạn sử dụng cho tài khoản miễn phí sẽ tương tự như DALL-E trước đây, dù con số cụ thể chưa được công bố và "có thể thay đổi theo thời gian tùy thuộc vào nhu cầu". Trước đó, theo FAQ của ChatGPT, người dùng miễn phí có thể tạo khoảng "ba hình ảnh mỗi ngày với DALL·E 3". Về phần DALL-E, bà Christianson trấn an rằng những "người hâm mộ" mô hình này vẫn có thể truy cập nó qua ChatGPT như trước đây.
"Mô hình này là một bước nhảy vọt so với các phiên bản trước," Gabriel Goh, trưởng nhóm nghiên cứu, khẳng định với The Verge. Ông cho biết đội ngũ đã sử dụng nền tảng "đa phương thức" (omnimodal) của GPT-4o - một mô hình có khả năng xử lý và tạo ra nhiều loại dữ liệu như văn bản, hình ảnh, âm thanh và video - để xây dựng tính năng này.

Một trong những cải tiến đáng kể nhất mà ông Goh nhấn mạnh là khả năng "liên kết thuộc tính" (binding). Thuật ngữ này mô tả mức độ chính xác mà AI duy trì mối quan hệ giữa các đối tượng và đặc điểm của chúng trong ảnh. Ví dụ, một mô hình có khả năng liên kết kém, khi được yêu cầu tạo ra một ngôi sao màu xanh dương và một hình tam giác màu đỏ, có thể lại tạo ra ngôi sao đỏ và không có hình tam giác nào. Ông Goh giải thích rằng hầu hết các mô hình tạo ảnh hiện tại đều gặp khó khăn với vấn đề này, thường xuyên nhầm lẫn màu sắc và hình dạng khi phải xử lý nhiều đối tượng (thường khoảng 5-8). Tuy nhiên, công cụ tạo ảnh mới này có thể liên kết chính xác thuộc tính cho 15 đến 20 đối tượng mà không bị rối loạn, thể hiện sự cải thiện vượt bậc về độ chính xác và tin cậy.

Người dùng cũng sẽ nhận thấy sự tiến bộ rõ rệt trong việc tái tạo văn bản (text rendering). Giờ đây, việc tạo ra hình ảnh chứa văn bản mạch lạc, không lỗi chính tả trở nên dễ dàng hơn rất nhiều – một vấn đề cố hữu khiến văn bản trong ảnh do AI tạo ra trước đây thường bị méo mó, khó đọc. Ông Goh thừa nhận việc tái tạo văn bản chuẩn xác là một thách thức lớn. "Đây là một quá trình lặp đi lặp lại mất nhiều tháng trời để đạt được kết quả tốt," ông nói. Dù chưa hoàn hảo tuyệt đối, đặc biệt với các dòng chữ siêu nhỏ, nhưng đội ngũ đã đạt đến mức chất lượng văn bản "ổn định và có thể sử dụng được".

Sự khác biệt về kỹ thuật cũng có thể đóng góp vào những cải tiến này. Hệ thống mới sử dụng phương pháp "tự hồi quy" (autoregressive) - tạo ảnh tuần tự từ trái sang phải, từ trên xuống dưới, tương tự cách viết văn bản - thay vì kỹ thuật "khuếch tán" (diffusion) mà hầu hết các trình tạo ảnh khác (như DALL-E) sử dụng để tạo toàn bộ ảnh cùng lúc. Ông Goh suy đoán chính điều này đã mang lại cho "Images in ChatGPT" khả năng liên kết thuộc tính và tái tạo văn bản vượt trội.
Tuy nhiên, có một sự đánh đổi: hệ thống mới cần nhiều thời gian hơn để tạo ra hình ảnh. Dù vậy, OpenAI cho rằng đây là sự đánh đổi xứng đáng. "Mặc dù chúng tôi chắc chắn còn dư địa để cải thiện độ trễ... chất lượng của những hình ảnh này, khả năng của chúng, kiến thức thế giới mà chúng mang lại, thực sự bù đắp cho vài giây chờ đợi thêm," bà Shannon nhận định.

Trước những lo ngại về an toàn – đề cập đến các vụ deepfake nhạy cảm của người nổi tiếng hay việc các mô hình AI khác bị lạm dụng – đội ngũ OpenAI nhấn mạnh hệ thống mới tích hợp các biện pháp bảo vệ mạnh mẽ. Bà Shannon khẳng định công cụ này ngăn chặn việc xóa watermark, chặn tạo deepfake tình dục và từ chối các yêu cầu tạo nội dung xâm hại trẻ em (CSAM).
Đáng chú ý, hệ thống tạo ảnh mới của OpenAI không tự động gắn watermark hình ảnh để chỉ ra rằng chúng được tạo bởi AI. Thay vào đó, bà Shannon giải thích: "Tất cả hình ảnh được tạo ra sẽ bao gồm siêu dữ liệu C2PA tiêu chuẩn để đánh dấu chúng được tạo bởi OpenAI" và công ty "sẽ có các công cụ nội bộ để tra cứu hình ảnh."
"Cuối cùng, không có hệ thống nào là hoàn hảo cho loại hình này, nhưng chúng tôi liên tục cải thiện các biện pháp bảo vệ và xem đây là điểm khởi đầu," bà Shannon nói thêm. "Một điều chắc chắn về tất cả hình ảnh được tạo từ ChatGPT là người dùng sở hữu chúng và được tự do sử dụng trong giới hạn chính sách của chúng tôi." Sự ra đời của "Images in ChatGPT" đánh dấu một bước tiến quan trọng, hứa hẹn mở ra những chân trời sáng tạo mới ngay trong giao diện trò chuyện thông minh quen thuộc.
Nguyễn Nghĩa
Bình luận tiêu biểu (0)