AI Tạo Video Như Thật: Các Mô Hình Mới Nhất

Thị trường AI tạo video từ văn bản và hình ảnh đang chứng kiến sự trỗi dậy mạnh mẽ trong nửa đầu năm nay, với sự ra mắt và nâng cấp của nhiều công cụ sở hữu tính năng và chất lượng vượt trội. Mặc dù Sora của OpenAI đã mở đầu xu hướng này từ tháng 2 năm ngoái, nhưng sự cạnh tranh thực sự bắt đầu nóng lên khi các “ông lớn” công nghệ liên tục giới thiệu những sản phẩm mới.

Đối thủ OpenAI ra mô hình AI tạo video
Runway Gen-4: Phim Ngắn và Cảnh Quay AI Ấn Tượng. Ảnh: Internet

Một trong những cái tên đáng chú ý nhất là Seedance 1.0 của ByteDance, ra mắt vào ngày 18/6. Nhiều chuyên gia đánh giá đây là công cụ AI tạo video từ văn bản và hình ảnh mạnh mẽ nhất hiện nay. Seedance 1.0 cho phép người dùng chuyển đổi các câu lệnh đơn giản thành những đoạn phim chất lượng cao một cách dễ dàng. ByteDance cho biết, họ đã tìm ra phương pháp tách biệt thông tin về không gian và thời gian trong video bằng cách “mã hóa” vị trí, giúp AI học hỏi từ chữ viết và hình ảnh, từ đó tối ưu hóa để tạo ra các cảnh quay mượt mà. Nền tảng Artificial Analysis nhận định Seedance 1.0 vượt trội hơn Veo 3 của Google, Sora của OpenAI và Kling 2.0 của Kuaishou trong việc chuyển đổi văn bản và ảnh thành video. Mặc dù Seedance 1.0 giới hạn độ dài video ở mức 5 giây, ngắn hơn so với 8 giây của Veo 3, nhưng thời gian sản xuất video lại nhanh hơn, chỉ khoảng 40 giây. Tuy nhiên, một điểm trừ của công cụ này là chưa có tính năng tạo âm thanh đồng bộ với nội dung.

Midjourney ra AI tạo video cạnh tranh Veo 3, Sora
Midjourney V1: Video Được Tạo Từ AI. Ảnh: Internet

Bên cạnh Seedance 1.0, Midjourney cũng trình làng phiên bản V1 vào ngày 19/6, được đánh giá cao về độ chân thực, tính sáng tạo và chi phí hợp lý. Tương tự Seedance 1.0, mỗi video tạo ra từ Midjourney V1 cũng có độ dài 5 giây, nhưng người dùng có thể tạo thêm bốn lần, mỗi lần bốn giây, nâng tổng độ dài video lên đến 21 giây. Midjourney V1 được phát hành qua Discord và website với ba gói dịch vụ khác nhau, từ Basic (10 USD/tháng) đến Mega (120 USD/tháng). Theo TechCrunch, video tạo từ mô hình này có độ sáng tạo cao và “hiểu” ý đồ của người dùng chỉ sau vài câu lệnh. Tuy nhiên, tốc độ tạo video của Midjourney V1 chưa thực sự nhanh và chi phí tạo video cũng cao hơn khoảng 8 lần so với tạo ảnh thông thường.

Loạt AI tạo video từ ảnh như thật
Video Tạo Từ Seedance 1.0 Của ByteDance. Ảnh: Internet

Runway cũng không chịu kém cạnh khi giới thiệu Gen 4 vào đầu tháng 4. Runway khẳng định Gen 4 có khả năng tạo ra các cảnh và nhân vật nhất quán, điều mà các mô hình AI trước đây chưa làm được. Bằng cách sử dụng tài liệu tham khảo trực quan kết hợp với câu lệnh hướng dẫn, Gen-4 cho phép người dùng tạo ra hình ảnh và video với phong cách, chủ đề và địa điểm thống nhất, đồng thời kiểm soát được câu chuyện. Gen-4 có thể tái hiện chính xác nhân vật, địa điểm, sau đó ghép các cảnh quay từ nhiều góc nhìn và vị trí khác nhau theo ý muốn của người dùng. Kết quả là các cảnh trở nên liền mạch và giữ nguyên phong cách, tâm trạng và các yếu tố điện ảnh đặc trưng của từng khung hình. Hiện tại, Gen-4 đang được triển khai cho người dùng trả phí và các doanh nghiệp.

Kuaishou cũng tham gia vào cuộc đua này với Kling AI 2.0, ra mắt vào tháng 4. Kuaishou tự tin giới thiệu đây là mô hình video “mạnh nhất thế giới”. Theo Phó chủ tịch Kuaishou, Gai Kun, Kling AI 2.0 được nâng cấp với các khả năng như theo sát hướng dẫn của người dùng, hiểu nhanh, chất lượng hình ảnh và chuyển động cao, cảm giác chân thực và thẩm mỹ. Phiên bản đầu tiên của Kling AI được giới thiệu vào đầu năm ngoái, sau khi Sora của OpenAI ra mắt. Gai Kun cho biết, Kling hiện có hơn 22 triệu người dùng trên toàn cầu, đã tạo ra hơn 168 triệu video và 344 triệu hình ảnh.

Google cũng không đứng ngoài cuộc chơi khi giới thiệu Veo 3. So với các phiên bản trước, Veo 3 được bổ sung khả năng kết hợp âm thanh với hình ảnh, bao gồm cả lời thoại giữa các nhân vật. Theo CNBC, đây là một điểm khác biệt quan trọng, bởi hầu hết các công cụ khác trên thị trường chủ yếu cung cấp video không có âm thanh hoặc chỉ có nhạc nền. Người dùng có thể sử dụng Veo 3 độc lập hoặc thông qua ứng dụng làm phim AI Flow. Veo 3 sử dụng AI tạo ảnh từ văn bản Imagen và Gemini để tạo ra các đoạn clip dài 8 giây từ lời nhắc, ảnh hoặc video. Flow cũng đi kèm với bộ công cụ xây dựng cảnh, cho phép người dùng ghép các đoạn phim, tinh chỉnh thành một đoạn nội dung liền mạch.

Sự phát triển nhanh chóng của các công cụ AI tạo video từ văn bản và hình ảnh cho thấy tiềm năng to lớn của lĩnh vực này trong tương lai. Với sự cạnh tranh ngày càng gay gắt, chúng ta có thể kỳ vọng vào những bước tiến vượt bậc hơn nữa về chất lượng, tính năng và khả năng ứng dụng của các công cụ này trong thời gian tới.

Admin


Nguồn: VnExpress

Leave a Reply

Your email address will not be published. Required fields are marked *