博客專欄

EEPW首頁 > 博客 > 加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（1）

加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（1）

發(fā)布人：機器之心時間：2023-03-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

從文本生成圖像，再到給視頻加特效，下一個 AIGC 爆發(fā)點要出現(xiàn)了嗎？

相信很多人已經(jīng)領(lǐng)會過生成式 AI 技術(shù)的魅力，特別是在經(jīng)歷了 2022 年的 AIGC 爆發(fā)之后。以 Stable Diffusion 為代表的文本到圖像生成技術(shù)一度風(fēng)靡全球，無數(shù)用戶涌入，借助 AI 之筆表達(dá)自己的藝術(shù)想象……

相比于圖像編輯，視頻編輯是一個更具有挑戰(zhàn)性的議題，它需要合成新的動作，而不僅僅是修改視覺外觀，此外還需要保持時間上的一致性。

在這條賽道上探索的公司也不少。前段時間，谷歌發(fā)布的 Dreamix 以將文本條件視頻擴散模型（video diffusion model, VDM）應(yīng)用于視頻編輯。

近日，曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個新的人工智能模型「Gen-1」，該模型通過應(yīng)用文本 prompt 或參考圖像指定的任何風(fēng)格，可將現(xiàn)有視頻轉(zhuǎn)化為新視頻。

論文鏈接：https://arxiv.org/pdf/2302.03011.pdf

項目主頁：https://research.runwayml.com/gen1

2021 年，Runway 與慕尼黑大學(xué)的研究人員合作，建立了 Stable Diffusion 的第一個版本。隨后英國的一家初創(chuàng)公司 Stability AI 介入，資助了在更多數(shù)據(jù)上訓(xùn)練模型所需的計算費用。2022 年，Stability AI 將 Stable Diffusion 納入主流，將其從一個研究項目轉(zhuǎn)變?yōu)橐粋€全球現(xiàn)象。

Runway 表示，希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務(wù)。

「我們已經(jīng)看到圖像生成模型的大爆炸，」Runway 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Cristóbal Valenzuela 說?！肝艺娴南嘈牛?023 年將是視頻之年?！?/span>

具體來說，Gen-1 支持幾種編輯模式：

1、風(fēng)格化。將任何圖像或 prompt 的風(fēng)格轉(zhuǎn)移到視頻的每一幀。

2、故事板。將模型變成完全風(fēng)格化和動畫的渲染。

3、遮罩。分離視頻中的主題并使用簡單的文本 prompt 對其進(jìn)行修改。

4、渲染。通過應(yīng)用輸入圖像或 prompt，將無紋理渲染變成逼真的輸出。

5、定制化。通過自定義模型以獲得更高保真度的結(jié)果，釋放 Gen-1 的全部功能。

在該公司官方網(wǎng)站上發(fā)布的 demo 中，展示了 Gen-1 如何絲滑地更改視頻風(fēng)格，來看幾個示例。

比如將「街道上的人」變成「粘土木偶」，只需要一行 prompt：

或者將「堆放在桌上的書」變成「夜晚的城市景觀」：

從「雪地上的奔跑」到「月球漫步」：

年輕女孩，竟然秒變古代先哲：

論文細(xì)節(jié)

視覺特效和視頻編輯在當(dāng)代媒體領(lǐng)域無處不在。隨著以視頻為中心的平臺的普及，對更直觀、性能更強的視頻編輯工具的需求也在增加。然而，由于視頻數(shù)據(jù)的時間性，在這種格式下的編輯仍然是復(fù)雜和耗時的。最先進(jìn)的機器學(xué)習(xí)模型在改善編輯過程方面顯示出了巨大的前景，但很多方法不得不在時間一致性和空間細(xì)節(jié)之間取得平衡。

由于引入了在大規(guī)模數(shù)據(jù)集上訓(xùn)練的擴散模型，用于圖像合成的生成方法最近在質(zhì)量和受歡迎程度上經(jīng)歷了一個快速增長階段。一些文本條件模型，如 DALL-E 2 和 Stable Diffusion，使新手只需輸入一個文本 prompt 就能生成詳細(xì)的圖像。潛在擴散模型提供了有效的方法，通過在感知壓縮的空間中進(jìn)行合成來生成圖像。

在本論文中，研究者提出了一個可控的結(jié)構(gòu)和內(nèi)容感知的視頻擴散模型，該模型是在未加字幕的視頻和配對的文本 - 圖像數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。研究者選擇用單目深度估計來表征結(jié)構(gòu)，用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)預(yù)測的嵌入來表征內(nèi)容。

該方法在其生成過程中提供了幾種強大的控制模式：首先，與圖像合成模型類似，研究者訓(xùn)練模型使推斷出的視頻內(nèi)容，如其外觀或風(fēng)格，與用戶提供的圖像或文本 prompt 相匹配（圖 1）。其次，受擴散過程的啟發(fā)，研究者對結(jié)構(gòu)表征應(yīng)用了一個信息掩蔽過程，以便能夠選擇模型對給定結(jié)構(gòu)的支持程度。最后，研究者通過一個自定義的指導(dǎo)方法來調(diào)整推理過程，該方法受到無分類指導(dǎo)的啟發(fā)，以實現(xiàn)對生成片段的時間一致性的控制。

總體來說，本研究的亮點如下：

通過在預(yù)訓(xùn)練圖像模型中引入時間層，并在圖像和視頻上進(jìn)行聯(lián)合訓(xùn)練，將潛在擴散模型擴展到了視頻生成領(lǐng)域；
提出了一個結(jié)構(gòu)和內(nèi)容感知的模型，在樣本圖像或文本的指導(dǎo)下修改視頻。編輯工作完全是在推理時間內(nèi)進(jìn)行的，不需要額外對每個視頻進(jìn)行訓(xùn)練或預(yù)處理；
展示了對時間、內(nèi)容和結(jié)構(gòu)一致性的完全控制。該研究首次表明，對圖像和視頻數(shù)據(jù)的聯(lián)合訓(xùn)練能夠讓推理時間控制時間的一致性。對于結(jié)構(gòu)的一致性，在表征中不同的細(xì)節(jié)水平上進(jìn)行訓(xùn)練，可以在推理過程中選擇所需的設(shè)置；
在一項用戶研究中，本文的方法比其他幾種方法更受歡迎；
通過對一小部分圖像進(jìn)行微調(diào)，可以進(jìn)一步定制訓(xùn)練過的模型，以生成更準(zhǔn)確的特定主體的視頻。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點

更多>>

技術(shù)專區(qū)

關(guān)閉

熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

博客專欄

加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（1）

相關(guān)推薦

技術(shù)專區(qū)