拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實驚艷
機器之心報道
編輯:小舟
【資料圖】
隨著 ChatGPT、GPT-4、LLaMa 等模型的問世,人們越來越關(guān)注生成式模型的發(fā)展。相比于日漸成熟的文本生成和圖像生成,視頻、語音等模態(tài)的 AI 生成還面臨著較大的挑戰(zhàn)。
現(xiàn)有可控視頻生成工作主要存在兩個問題:首先,大多數(shù)現(xiàn)有工作基于文本、圖像或軌跡來控制視頻的生成,無法實現(xiàn)視頻的細粒度控制;其次,軌跡控制研究仍處于早期階段,大多數(shù)實驗都是在 Human3.6M 等簡單數(shù)據(jù)集上進行的,這種約束限制了模型有效處理開放域圖像和復(fù)雜彎曲軌跡的能力。
基于此,來自中國科學(xué)技術(shù)大學(xué)、微軟亞研和北京大學(xué)的研究者提出了一種基于開放域擴散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時間三個角度實現(xiàn)了對視頻內(nèi)容的細粒度控制。本文共一作殷晟明、吳晨飛,通訊作者段楠。
論文地址:https://arxiv.org/abs/2308.08089
以拖動(drag)的方式給出運動軌跡,DragNUWA 就能讓圖像中的物體對象按照該軌跡移動位置,并且可以直接生成連貫的視頻。例如,讓兩個滑滑板的小男孩按要求路線滑行:
還可以「變換」靜態(tài)景物圖像的相機位置和角度:
方法簡介
該研究認為文本、圖像、軌跡這三種類型的控制是缺一不可的,因為它們各自有助于從語義、空間和時間角度控制視頻內(nèi)容。如下圖 1 所示,僅文本和圖像的組合不足以傳達視頻中存在的復(fù)雜運動細節(jié),這可以用軌跡信息來補充;僅圖像和軌跡組合無法充分表征視頻中的未來物體,文本控制可以彌補這一點;在表達抽象概念時,僅依賴軌跡和文本可能會導(dǎo)致歧義,圖像控制可以提供必要的區(qū)別。
DragNUWA 是一種端到端的視頻生成模型,它無縫集成了三個基本控件 —— 文本、圖像和軌跡,提供強大且用戶友好的可控性,從語義、空間和時間角度對視頻內(nèi)容進行細粒度控制。
為了解決當(dāng)前研究中有限的開放域軌跡控制問題,該研究重點關(guān)注三個方面的軌跡建模:
使用軌跡采樣器(Trajectory Sampler,TS)在訓(xùn)練期間直接從開放域視頻流中采樣軌跡,用于實現(xiàn)任意軌跡的開放域控制; 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構(gòu)每個塊內(nèi)的文本和圖像深度集成,用于控制不同粒度的軌跡; 采用自適應(yīng)訓(xùn)練(Adaptive Training,AT)策略,以密集流為初始條件來穩(wěn)定視頻生成,然后在稀疏軌跡上進行訓(xùn)練以適應(yīng)模型,最終生成穩(wěn)定且連貫的視頻。實驗及結(jié)果
該研究用大量實驗來驗證 DragNUWA 的有效性,實驗結(jié)果展示了其在視頻合成細粒度控制方面的卓越性能。
與現(xiàn)有專注于文本或圖像控制的研究不同,DragNUWA 主要強調(diào)建模軌跡控制。為了驗證軌跡控制的有效性,該研究從相機運動和復(fù)雜軌跡兩個方面測試了 DragNUWA。
如下圖 4 所示,DragNUWA 雖然沒有明確地對相機運動進行建模,但它從開放域軌跡的建模中學(xué)習(xí)了各種相機運動。
為了評估 DragNUWA 對復(fù)雜運動的精確建模能力,該研究使用相同的圖像和文本對各種復(fù)雜的拖動(drag)軌跡進行了測試。如下圖 5 所示,實驗結(jié)果表明 DragNUWA 能夠可靠地控制復(fù)雜運動。
此外,DragNUWA 雖然主要強調(diào)軌跡控制建模,但也融合了文本和圖像控制。研究團隊認為,文本、圖像和軌跡分別對應(yīng)視頻的三個基本控制方面:語義、空間和時間。下圖 6 通過展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說明了這些控制條件的必要性。
感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容
關(guān)鍵詞:
相關(guān)閱讀
-
拖拽下圖像就能生成視頻,中科大、微軟...
現(xiàn)有可控視頻生成工作主要存在兩個問題:首先,大多數(shù)現(xiàn)有工作基于文本 -
ai頂部屬性欄不見了怎么調(diào)出來 ai頂部...
ai是一種應(yīng)用于出版、多媒體和在線圖像的工業(yè)標(biāo)準(zhǔn)矢量插畫的軟件,然而 -
美債收益率飆至16年來新高!全球央行年...
在本周杰克遜霍爾全球央行年會開幕前,由于擔(dān)心美聯(lián)儲主席鮑威爾保持甚 -
《大征服者2:戰(zhàn)國時代》開發(fā)者日志(一...
當(dāng)我們考慮做“日本戰(zhàn)國時代”主題的游戲的時候,其實也是有過顧慮... -
三亞濟南七夕“攜手”,探索經(jīng)濟發(fā)展新天地
8月22日恰逢我國傳統(tǒng)七夕節(jié),我國首個科創(chuàng)金融改革試驗區(qū)濟南、我國改 -
遼寧省出臺食品安全工作重大事項督促落...
為進一步建立更為嚴(yán)格的食品安全工作責(zé)任制和責(zé)任追究制度,防范食品安 -
港股逆勢反彈 分析人士:底部仍未確立
8月23日,在A股繼續(xù)走低的背景下,港股市場迎來逆勢反彈。其中,恒生指 -
國內(nèi)成品油再上調(diào) 加滿一箱50升92號汽...
8月23日24時,國內(nèi)成品油價格微幅上調(diào)。據(jù)國家發(fā)改委消息,國內(nèi)汽、柴 -
深圳地鐵4號線著火?官方回應(yīng)來了
據(jù)港鐵深圳官方微博消息,8月22日上午8時10分左右,地鐵4號線往福田口 -
(經(jīng)濟觀察)為何8月中國房貸利率之“錨...
中新社北京8月21日電 (記者 龐無忌)21日最新公布的8月中國貸款市 -
華能清遠燃機熱電一期2×120MW工程相關(guān)...
中國華能集團有限公司電子商務(wù)平臺發(fā)布華能清遠燃機熱電一期(2×120MW -
新萊福(301323.SZ):正在進行透明射線防...
格隆匯8月23日丨有投資者向新萊福301323SZ提問公司的防輻射服主要應(yīng)用 -
電池概念股早盤普跌,電池ETF基金連跌8天
24小時財經(jīng)資訊平臺,依托新銳財經(jīng)日報《每日經(jīng)濟新聞》(NationalBusin -
降費降傭多措并舉 頭部券商在行動
日前,證監(jiān)會發(fā)布了一攬子活躍資本市場的政策舉措,包括將降低證券交易 -
瑞豐銀行2023年上半年凈利7.3億 同比增加16.8%
挖貝網(wǎng)2023年8月22日,瑞豐銀行(601528)近日發(fā)布2023年半年度報,報告 -
科笛-B(02487):局部外用利多卡因丁卡因...
智通財經(jīng)APP訊,科笛-B(02487)發(fā)布公告,CU-30101,一種用于皮膚表皮手 -
六年間山東取消各類實體證明1560余類 ...
海報新聞記者梁雯濟南報道“法治是最好的營商環(huán)境。”8月22日上午,... -
宣城廣德:深融長三角 養(yǎng)老發(fā)展“可圈...
近年來,宣城廣德市緊抓長三角一體化發(fā)展機遇,深化長三角區(qū)域養(yǎng)老服務(wù) -
c和a的區(qū)別 數(shù)學(xué)c和a的區(qū)別
基金c和a的區(qū)別:1、基金a不會收取投資者的銷售服務(wù)費,基金c會收取;2 -
河南省首筆“節(jié)水貸”落地
【大河財立方記者席韶陽通訊員鄭薇常雙雙】近日,河南省水利廳舉辦...