撰稿:Alrin,日期:2024-02-23

https://openai.com/sora

在這個視頻影音當道的年代,人手一支手機,影音顯然比文字更容易吸收,而製作影音就需要許多的短片素材,蒐集素材一直都是辛苦的前置工作。

如果你常常關注 AI 相關的新聞,應該有聽過最近熱搜的一個關鍵字,就是 OpenAI 的新模型 Sora。Sora 就像當初的 GPT 一樣,是 OpenAI 手上發展的大型模型的其中一個;不過 OpenAI 現在發展的模型中,大多是文字或影像生成,而這個 Sora 模型就是能用文字描述就能生成 Video Clip。

雖然說網路上也有一堆號稱可以由文字直接生成影片的技術(例如:Pika.art、RunwayML),不過,這次的發表是由大廠 OpenAI 來推出新的模型,想必是蠻值得期待一下的。

Sora 的特色

Sora 可以根據文字提示創建逼真的影片,再一次引起廣泛關注。

Sora 的開發團隊相關在 2/15 的部落格文章中表示,Sora 是一個文字生成影片的模型,具有對語言的深刻理解,可以生成表達充滿活力的情感的引人注目的角色。

「Sora 能夠產生具有多個角色、特定類型的運動以及主題和背景的準確細節的複雜場景。」

團隊補充,該模型不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的存在方式。

在生成模型的領域中,我們見識了從 GAN 到自回歸和擴散模型等多種方法,它們各有其優點和限制。而 Sora 現在引入了範式轉變,采用新的建模技術和靈活性,能夠應對各種不同的持續時間、寬高比和解析度。

Sora 將 diffusion 和 transformer 架構結合,創建了 diffusion transformer model,並能夠提供以下功能: