撰稿：Alrin，日期：2024-02-23

在這個視頻影音當道的年代，人手一支手機，影音顯然比文字更容易吸收，而製作影音就需要許多的短片素材，蒐集素材一直都是辛苦的前置工作。

如果你常常關注 AI 相關的新聞，應該有聽過最近熱搜的一個關鍵字，就是 OpenAI 的新模型 Sora。Sora 就像當初的 GPT 一樣，是 OpenAI 手上發展的大型模型的其中一個；不過 OpenAI 現在發展的模型中，大多是文字或影像生成，而這個 Sora 模型就是能用文字描述就能生成 Video Clip。

雖然說網路上也有一堆號稱可以由文字直接生成影片的技術（例如：Pika.art、RunwayML），不過，這次的發表是由大廠 OpenAI 來推出新的模型，想必是蠻值得期待一下的。

Sora 的特色

Sora 可以根據文字提示創建逼真的影片，再一次引起廣泛關注。

Sora 的開發團隊相關在 2/15 的部落格文章中表示，Sora 是一個文字生成影片的模型，具有對語言的深刻理解，可以生成表達充滿活力的情感的引人注目的角色。

「Sora 能夠產生具有多個角色、特定類型的運動以及主題和背景的準確細節的複雜場景。」

團隊補充，該模型不僅了解用戶在提示中提出的要求，還了解這些東西在物理世界中的存在方式。

在生成模型的領域中，我們見識了從 GAN 到自回歸和擴散模型等多種方法，它們各有其優點和限制。而 Sora 現在引入了範式轉變，采用新的建模技術和靈活性，能夠應對各種不同的持續時間、寬高比和解析度。

Sora 將 diffusion 和 transformer 架構結合，創建了 diffusion transformer model，並能夠提供以下功能：

文字轉影片：如我們所見
影像到影片：為靜態影像帶來生動感
影片到影片：將影片風格轉換為其他內容
及時延長影片：向前和向後
創造無縫循環：平鋪影片看起來永無止境
影像生成：靜止影像如電影一般（最大2048 x 2048）
產生任何格式的影片：從1920 x 1080到1080 x 1920，以及其中所有格式
模擬虛擬世界：如《我的世界》和其他電玩遊戲