網(wǎng)友評分:
5分
北京大學(xué)、北京郵電大學(xué)和快手科技聯(lián)合開源了一款名為Pyramid Flow的高清視頻生成模型。Pyramid Flow能根據(jù)文本描述制作長達(dá)10秒、分辨率為1280×768、每秒24幀的視頻。Pyramid Flow采用了金字塔流匹配算法,優(yōu)化了視頻生成的效率和質(zhì)量。這一算法將視頻生成過程分解為多個階段,每個階段對應(yīng)著不同的分辨率。在推理階段,Pyramid Flow模型能夠以相當(dāng)快的速度生成視頻。具體來說,它可以在56秒內(nèi)生成一段時長為5秒、分辨率為384p的視頻,這一速度與市面上許多全序列擴(kuò)散模型相當(dāng),甚至更快。
一、金字塔流匹配算法:高質(zhì)量AI視頻新技術(shù),逐層提高分辨率
文生視頻領(lǐng)域有一個非常難的技術(shù)挑戰(zhàn),就是如何有效地處理和生成高維度的視頻數(shù)據(jù)。
針對這一技術(shù)挑戰(zhàn),研發(fā)團(tuán)隊提出了金字塔流匹配算法。
金字塔流匹配算法的核心思想是將視頻生成過程分解為多個階段來有效處理高維度的視頻數(shù)據(jù)。這些階段從低分辨率開始,逐步升級到高分辨率,從而逐步提升視頻的清晰度。
這個過程就像是先畫一個簡單的草圖,然后一點(diǎn)點(diǎn)地加上顏色和細(xì)節(jié),直到畫出一幅完整的畫。
金字塔流匹配算法:視頻的生成是在不同的分辨率層次上逐步進(jìn)行的(圖源:arxiv論文截圖)
二、開源數(shù)據(jù)集訓(xùn)練,生成5-10秒高清視頻
模型通過分階段的方式生成視頻,大大減少了計算成本。
生成的視頻展示
與傳統(tǒng)的擴(kuò)散模型相比,金字塔流匹配算法將token數(shù)量減少了4倍。
生成的視頻展示
據(jù)官網(wǎng)介紹,該模型可以在768p分辨率和每秒24幀的條件下生成5至10秒的視頻,并且是基于開源數(shù)據(jù)集進(jìn)行訓(xùn)練的。
生成的視頻展示
具體來說,Pyramid Flow在訓(xùn)練時用到的數(shù)據(jù)集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。
1、LAION-5B:一個用于多模態(tài)AI研究的大型數(shù)據(jù)集。
2、CC-12M:一個由網(wǎng)絡(luò)爬蟲收集的圖像文本對的數(shù)據(jù)集。
3、SA-1B:具有高質(zhì)量、無模糊圖像的數(shù)據(jù)集。
4、WebVid-10M和OpenVid-1M:兩個被廣泛用于文本到視頻生成的視頻數(shù)據(jù)集。
三、寬松許可,開源商業(yè)用途,輕松實現(xiàn)視頻微調(diào)
開源的AI視頻生成工具,它允許用戶用在商業(yè)項目里,但須保留版權(quán)聲明。
生成的視頻展示
通過使用,用戶可以免費(fèi)調(diào)整視頻細(xì)節(jié),這項功能對于電影制片廠來說很有吸引力。
電影制片廠可以通過使用來提高視頻制作效率、降低視頻制作成本,并探索新的視頻創(chuàng)意工具。
不過,要想充分利用好這一模型,電影制片廠還需要具備一定的開發(fā)人才和計算資源。
目前,Pyramid Flow缺乏像Runway Gen-3 Alpha這樣的模型所具備的一些高級微調(diào)功能,比如精確控制攝像機(jī)角度、關(guān)鍵幀和人體姿態(tài)等電影元素。
標(biāo)簽: Pyramid Flow
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 daaijiaoyu.cn.All rights reserved.
浙ICP備2024132706號-1 浙公網(wǎng)安備33038102330474號