Người dùng sẽ sớm chứng kiến VideoPoet và hậu duệ của nó tạo ra những video chân thực đến kinh ngạc .
Kích hoạt bức tranh Mona Lisa theo hai hướng dẫn: “Một người phụ nữ quay lại nhìn vào camera” và “Một người phụ nữ ngáp”.
Khi làn sóng tạo văn bản trí tuệ nhân tạo đang trên đà ổn định với các sản phẩm ngày càng hoàn thiện thì một làn sóng mới mang tên “Mô hình tạo video AI” đang bắt đầu nở rộ. Tuy nhiên, những mô hình này gặp khó khăn lớn trong việc tạo ra hàng loạt chuyển động có ý nghĩa đối với người xem.
Theo thời gian, những mô hình này sẽ học hỏi được nhiều hơn, từ đó cho ra đời những sản phẩm thực tế và chất lượng hơn. Cái hay của chúng nằm ở chỗ quá trình tạo ra sản phẩm khá đơn giản, chỉ cần khéo léo ra lệnh cho AI tạo ra video hoặc các sản phẩm tương tự. Bên cạnh mô hình AI đa năng, nó có thể tạo video từ lệnh, tạo video từ ảnh hoặc tạo kiểu cho video, v.v.
Hiện tại, phần mềm Sora của OpenAI đang thu hút sự chú ý của công chúng khi tung ra hàng loạt video do AI tạo ra chân thực đến bất ngờ, nhưng họ không đơn độc trên hành trình nghiên cứu trí tuệ nhân tạo. Google cũng sở hữu dự án tương tự của riêng mình mang tên VideoPoet, dự án này đã được phát triển được một thời gian và cũng có những sản phẩm rất ấn tượng.
Video hướng dẫn: “Hai chú gấu trúc chơi bài”.
Video hướng dẫn: “Những chú ngựa phi nước đại trên nền bức tranh Đêm đầy sao của van Gogh”.
Theo xác nhận của các nhà nghiên cứu của Google, hình ảnh đầu vào có thể được làm động để tạo chuyển động, VideoPoet cũng có thể tự động điền vào những nội dung còn thiếu (ví dụ: khôi phục video gốc) hoặc tạo thêm nội dung. cho video.
Trong nhiệm vụ cách điệu, mô hình AI sử dụng video mô tả chiều sâu và hiệu ứng quang học, có thể hiển thị chuyển động, sau đó vẽ thêm nội dung lên trên để tạo kiểu theo hướng dẫn của người dùng. . Dưới đây là sản phẩm sau khi cách điệu một video cũng ra đời từ mô hình AI của Google.
Hướng dẫn các video (từ trái qua phải): “Wombat đeo kính râm cầm bóng chuyền trên bãi biển”; “Gấu bông trượt băng trên mặt hồ đóng băng”; “Một con sư tử kim loại gầm lên trong ánh sáng của lò rèn”.
Dựa trên 1 giây cuối cùng của video, mô hình AI có thể tạo video dài hơn bằng cách dự đoán nội dung nào có thể xảy ra trong giây tiếp theo. Lặp lại quá trình này, VideoPoet không chỉ có thể mở rộng video một cách dễ dàng mà còn giữ nguyên hình dạng của các đối tượng xuất hiện trong clip ngắn.
Video từ hướng dẫn: ” Một phi hành gia bắt đầu nhảy múa trên sao Hỏa. Sau đó pháo hoa rực rỡ nổ tung từ phía sau.”
VideoPoet cũng có khả năng tạo ra âm thanh . Với các đoạn clip dài 2 giây, AI cố gắng dự đoán âm thanh mà không cần hướng dẫn bằng văn bản. Điều này cho phép tạo video và âm thanh từ một mẫu duy nhất.
Tạo âm thanh từ nội dung đánh trống của gấu bông.
Tạo âm thanh từ nội dung mèo chơi piano.
Thông qua VideoPoet, Google chứng tỏ chất lượng cực kỳ cạnh tranh của các mô hình ngôn ngữ lớn không chỉ sản xuất nội dung văn bản mà còn tạo ra những video bắt mắt, chân thực.
Kết quả cho thấy tiềm năng đầy hứa hẹn của các mô hình ngôn ngữ lớn trong lĩnh vực tạo video. Trong tương lai, các loại mô hình AI này có thể tạo ra nội dung dựa trên nhiều hướng dẫn đầu vào khác nhau, chẳng hạn như sử dụng văn bản để tạo âm thanh, tạo video từ lời nói, tự động mô tả video và nhiều ứng dụng khác. .
- Decode Sora – AI tạo video lan truyền của OpenAI
- AI Genie – Câu trả lời của Google dành cho Sora: AI tạo ra trò chơi 2D của riêng mình chỉ bằng một dấu nhắc hình ảnh!
- AI có thể tái tạo chính xác hơn 80% hình ảnh trong não người