Decode Sora - AI tạo video lan truyền của OpenAI

Sora không tạo video bằng cách ghép nhiều ảnh lại với nhau mà hiển thị các pixel theo thời gian thực dựa trên sự hiểu biết về chuyển động vật lý .

Sora của OpenAI được giới chuyên môn đánh giá là công cụ AI cho ra những thước phim có chất lượng tốt nhất hiện nay. ABC News đánh giá : “Sora đánh dấu bước nhảy vọt trong lĩnh vực chuyển đổi văn bản thành video” .

Trong khi đó, Time cho biết trước khi Sora xuất hiện, thế giới đã có những mẫu AI làm video như Runway và Pika. Tuy nhiên, điểm yếu của họ là chất lượng video kém và thời lượng ngắn. Trong khi đó, Sora có thể tạo ra những video dài 60 giây với bối cảnh phức tạp nhưng vẫn đảm bảo độ mượt mà, logic dù vẫn còn một số lỗi.

Video do Sora tạo từ dòng chữ: Đàn máy bay giấy bay qua rừng rậm, len lỏi quanh những tán cây như thể đang di cư. (Nguồn: OpenAI).

Mục Lục Bài Viết

Bước đột phá của OpenAI

OpenAI chưa tiết lộ mô hình tạo video từ văn bản cho công chúng. Trong phần mô tả, công ty cũng đề cập rất ít về công nghệ đằng sau nó và nguồn dữ liệu được sử dụng để đào tạo.

Công ty đằng sau ChatGPT cho biết : “Sora sử dụng mô hình khuếch tán, tạo video bằng cách bắt đầu bằng một video có độ phân giải thấp, nhiễu, sau đó loại bỏ nhiễu qua nhiều bước cho đến khi đầu ra đạt yêu cầu” . về cách Sora làm việc. Nhờ đó, AI này có khả năng tạo toàn bộ video cùng một lúc thay vì các đoạn ngắn và kết hợp chúng như các công cụ khác. Thuật toán cho phép mô hình dự đoán nhiều khung hình cùng lúc để đảm bảo chủ thể vẫn nguyên vẹn trong khi các chi tiết khác được tái tạo.

Khám Phá Thêm: Dự án dẫn nước Nam Bắc: Siêu dự án Trung Quốc hàng chục tỷ USD, "sông nhân tạo" duy nhất trên Trái đất

Mô phỏng cách Sora tạo video bằng cách loại bỏ nhiễu thông qua thuật toán. (Nguồn: Trung bình).

Theo OpenAI, Sora được xây dựng dựa trên nghiên cứu trước đây về AI tạo hình ảnh Dall-E và tạo văn bản ChatGPT. Tuy nhiên, Tiến sĩ Jim Fan, nhà nghiên cứu AI cấp cao tại Nvidia, nhận xét: “Nếu bạn vẫn nghĩ Sora chỉ là một món đồ chơi sáng tạo như Dall-E thì hãy nghĩ lại. Đó là một mô hình vật lý”. tìm hiểu các hệ thống dựa trên dữ liệu có thể mô phỏng cả thế giới thực và ảo.

Ông lưu ý rằng Sora là một mô hình máy biến áp khuếch tán từ đầu đến cuối. Bí mật của nó nằm ở khả năng hiểu sâu sắc văn bản trước khi chuyển đổi nó thành dạng trực quan 3D. Từ đây, mô hình tiếp tục đưa ra dự đoán dựa trên các quy tắc chuyển động vật lý để biến đổi từng pixel cho video một cách chính xác nhất có thể.

“Trình mô phỏng của Sora không chỉ dựa trên dữ liệu đã học, nó còn có thể tự đào tạo, tìm ra kết quả chính xác nhất để tiếp tục sáng tác”, Fan phân tích. Ông nói, điều khiến Sora trở nên khác biệt là nó không tạo ra video bằng cách tập hợp một chuỗi các hình ảnh rời rạc mà hiển thị các tập hợp pixel theo thời gian thực.

Sora tung ra 5 video cùng lúc dựa trên yêu cầu miêu tả cảnh quay với 5 góc nhìn. Tác giả Bill Peebles cho biết ông không can thiệp mà AI đã tự động ghép lại đoạn video hoàn chỉnh.

Điều này khiến giới chuyên môn liên tưởng đến mô hình AI giải toán Olympic của 3 bác sĩ gốc Việt được công bố trên tạp chí khoa học Nature vào tháng trước. Trong phần mô tả hoạt động kỹ thuật của Sora, OpenAI cũng khẳng định mô hình tạo video này sẽ làm nền tảng để AI hiểu và mô phỏng thế giới thực.

Khám Phá Thêm: NASA công bố những hình ảnh chưa từng thấy về Sao Thiên Vương

“Chúng tôi tin rằng đây sẽ là một cột mốc quan trọng để đạt được AGI”, OpenAI tuyên bố.

Điểm yếu của Sora

Theo Medium , việc tổng hợp văn bản thành video là một nhiệm vụ đầy thách thức vì nó đòi hỏi AI phải hiểu ý nghĩa và bối cảnh của văn bản cũng như các khía cạnh khác của hình ảnh, video và chuyển động vật lý. Một trong những lý do OpenAI giới hạn Sora trong một nhóm thử nghiệm nhỏ là vì nó vẫn còn một số hạn chế.

OpenAI thừa nhận : “Sora có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp. Nó có thể không hiểu đúng các tuyên bố về nguyên nhân và kết quả” .

Ví dụ: công ty Sora có thể tạo video về một người đang cắn một chiếc bánh quy, nhưng khi đó chiếc bánh quy vẫn còn nguyên vẹn và không có vết cắn. Nó cũng có thể gây nhầm lẫn các chi tiết trái, phải, trước và sau, ví dụ như hình ảnh một người đàn ông đang chạy lùi trên máy chạy bộ.

Sora tạo ra hình ảnh một người đàn ông đang chạy lùi trên máy tập thể dục. (Nguồn: OpenAI).

Tuy nhiên, theo các nhà phân tích, mối quan tâm lớn nhất của Sora nằm ở sự đột phá của OpenAI. Các video được tạo ra chân thực đến mức nhiều người lo ngại mô hình này có thể bị lạm dụng để phát tán nội dung sai sự thật, vi phạm quyền riêng tư, phân biệt chủng tộc và thậm chí ảnh hưởng đến kết quả của các cuộc tranh luận. bỏ phiếu. Dù cấm sử dụng Sora để tạo nội dung xấu nhưng công ty vẫn chưa tìm ra cách nhận biết hình ảnh nào do AI tạo ra và hình ảnh nào là thật để gắn nhãn, phân loại.

Khám Phá Thêm: Nữ hoàng 'được vạn người mê' của Bhutan đăng ảnh xinh đẹp, dịu dàng mừng sinh nhật

Fred Havemeyer, người đứng đầu bộ phận nghiên cứu AI của Macquarie, cho rằng khả năng đáng kinh ngạc của Sora sẽ gây ra nhiều mối lo ngại liên quan đến đạo đức và tác động xã hội . Theo ông, tác động tiêu cực của AI sẽ là chủ đề được tranh luận nhiều nhất vào năm 2024 và Sora là phát súng mở màn.

Theo New York Times , OpenAI vẫn cẩn thận che giấu thông tin về nguồn gốc của nội dung dùng để đào tạo Sora và bao nhiêu phần trăm trong đó có bản quyền. “Có thể họ muốn giữ bí mật để duy trì lợi thế cạnh tranh nhưng cũng có thể họ sợ bị kiện liên quan đến bản quyền, tương tự như rắc rối mà ChatGPT đang gặp phải”, trang này viết.

Tuy nhiên, giới phân tích đều đồng ý rằng Sora đang mở ra một kỷ nguyên mới về sáng tạo video bằng AI, tương tự như cách ChatGPT xuất hiện. Khi chính thức được thương mại hóa, nó có thể tác động trực tiếp đến ngành công nghiệp điện ảnh, truyền thông và thiết kế trò chơi.

Reece Hayden, nhà phân tích cấp cao tại ABI Research, cho biết trên CBS News rằng trong tương lai, AI như Sora thậm chí sẽ thay đổi mô hình hoạt động của các nền tảng như Netflix khi người dùng có thể chỉnh sửa phần kết của câu chuyện. Hoặc tạo phim của riêng bạn chỉ bằng những dòng văn bản.