ByteDance, công ty mẹ của TikTok, đang khiến giới công nghệ và truyền thông chú ý mạnh mẽ với Seedance 2.0 – phiên bản mới nhất của mô hình tạo video bằng trí tuệ nhân tạo. Không chỉ gây ấn tượng về chất lượng hình ảnh và chuyển động, Seedance 2.0 còn được đánh giá là một bước tiến lớn trong khả năng kiểm soát sáng tạo, đến mức làm lung lay quan niệm lâu nay rằng “chỉ cần nhìn là biết video do AI tạo ra”.
Điểm khác biệt cốt lõi của Seedance 2.0 nằm ở cách ByteDance tiếp cận bài toán tạo video. Thay vì chỉ dựa vào mô tả bằng văn bản, mô hình này hỗ trợ đồng thời bốn loại đầu vào gồm chữ viết, hình ảnh, video và âm thanh trong cùng một quy trình. Cách tiếp cận đa mô thức này cho phép người dùng chủ động định hình kết quả cuối cùng, từ bố cục khung hình, đặc điểm nhân vật cho đến nhịp điệu chuyển động và cảm xúc tổng thể của video.
Một điểm nhấn được nhiều người trong ngành chú ý là quy trình “reference-first”, tức lấy tham chiếu làm trung tâm. Hình ảnh tham chiếu có thể được dùng để cố định bố cục và chi tiết nhân vật; video tham chiếu giúp tái tạo ngôn ngữ máy quay, các chuyển động phức tạp và nhịp điệu hiệu ứng; trong khi âm thanh tham chiếu định hình tiết tấu và “vibe” của toàn bộ cảnh quay. Đáng chú ý, Seedance 2.0 còn có thể tạo ra video kèm hiệu ứng âm thanh và nhạc nền tích hợp, thay vì chỉ xử lý phần hình ảnh.
Seedance 2.0 cũng được thiết kế để vượt qua giới hạn của những clip AI rời rạc. Mô hình này hỗ trợ kéo dài video mượt mà và duy trì tính liên tục giữa các cảnh, cho phép người dùng “quay tiếp” một cảnh đã có thay vì phải tạo lại từ đầu. Bên cạnh đó, các công cụ chỉnh sửa như thay thế nhân vật, cắt gọn, hay thêm phân đoạn mới trên video sẵn có cho thấy ranh giới giữa tạo nội dung và hậu kỳ đang ngày càng mờ nhạt.
Về mặt kỹ thuật, ByteDance công bố rõ các giới hạn của Seedance 2.0: người dùng có thể đưa vào tối đa 9 hình ảnh, 3 video với tổng thời lượng không quá 15 giây, và 3 file âm thanh cũng trong giới hạn 15 giây; tổng số file đầu vào không vượt quá 12, và video đầu ra dài từ 4 đến 15 giây. Việc sử dụng các thẻ như @image, @video hay @audio để chỉ định vai trò từng tài nguyên cho thấy mô hình này hướng tới người dùng có nhu cầu kiểm soát chi tiết quy trình sáng tạo.
Những mô tả trải nghiệm ban đầu cho thấy chất lượng hình ảnh và chuyển động của Seedance 2.0 là yếu tố khiến nhiều người “choáng váng”. Chuyển động được đánh giá là mượt và tự nhiên hơn, giảm cảm giác cứng hay “robot” thường thấy ở video AI. Biểu cảm khuôn mặt, ánh mắt và các cử động nhỏ được tái hiện tinh tế, trong khi các chi tiết vật lý như nếp nhăn vải hay hiệu ứng đổ bóng trên trang phục được xử lý thuyết phục. Chính những yếu tố này khiến ranh giới giữa video AI và video quay thật trở nên khó phân biệt hơn.
Tác động của Seedance 2.0 không chỉ dừng ở công nghệ. Sau khi ByteDance ra mắt mô hình này, cổ phiếu của nhiều công ty truyền thông và ứng dụng AI tại Trung Quốc đã tăng mạnh, phản ánh sự hào hứng của giới đầu tư trước các sản phẩm AI nội địa có tiềm năng ứng dụng cao. Một số nhà phân tích thậm chí cho rằng Seedance 2.0 có thể đánh dấu một “thời điểm bước ngoặt” cho AI trong lĩnh vực phim ảnh và truyền hình, khi chất lượng và khả năng kiểm soát đã đạt đến một ngưỡng mới.
Seedance 2.0 hiện đã có thể sử dụng trong hệ sinh thái Dreamina AI, dù ByteDance chưa chính thức công bố hay quảng bá rộng rãi. Theo các thông tin được chia sẻ, phiên bản này dự kiến sẽ được giới thiệu chính thức trong thời gian tới. Dù còn cần thêm thời gian để đánh giá toàn diện, Seedance 2.0 đang cho thấy vì sao câu nói “nhìn là biết AI” ngày càng trở nên lỗi thời trong kỷ nguyên nội dung do trí tuệ nhân tạo tạo ra.
Nguyễn Hải
