推出“中文版Sora”？字節(jié)跳動回應(yīng)

來源：數(shù)據(jù)觀綜合時間：2024-02-21 16:23:48 作者：

　　繼 ChatGPT 這一現(xiàn)象級的應(yīng)用推出一年之后，當(dāng)?shù)貢r間2月15日，美國開放人工智能研究中心 OpenAI 正式發(fā)布了旗下首款視頻生成模型 Sora，再次在全球掀起了人工智能關(guān)注浪潮。

　　據(jù)報道，OpenAI 推出的文生視頻大模型 Sora 可通過快速文本提示創(chuàng)建“逼真”和“富有想象力”的 60 秒視頻，還可以在單個生成視頻中創(chuàng)建多個鏡頭，準確保留角色和視覺風(fēng)格。OpenAI 表示，將為視覺藝術(shù)家、設(shè)計師和電影制作人提供 Sora 訪問權(quán)限。

　　近日，有消息稱，在 Sora 引爆文生視頻賽道之前，國內(nèi)的字節(jié)跳動也推出了一款顛覆性視頻模型——Boximator。與 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通過文本精準控制生成視頻中人物或物體的動作。

　　對此，字節(jié)跳動相關(guān)人士向媒體回應(yīng)稱，Boximator 是視頻生成領(lǐng)域控制對象運動的技術(shù)方法研究項目，目前還無法作為完善的產(chǎn)品落地，距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。

　　值得注意的是，字節(jié)跳動在AI及大模型技術(shù)領(lǐng)域的動作顯得比較低調(diào)。迄今為止，字節(jié)跳動旗下的豆包、扣子和Cici等AI產(chǎn)品并沒有進行大規(guī)模的宣傳推廣，字節(jié)跳動官方也沒有公開其在AI領(lǐng)域的研發(fā)路線和戰(zhàn)略布局。

　　Boximator模型讓視頻動作控制不再是夢

　　據(jù)介紹，Boximator 是一款創(chuàng)新的視頻生成模型，它能夠通過簡單的文本描述精確控制視頻中的人物和物體動作。

　　這意味著，只需輸入比如“下雨天，大風(fēng)把一位女生的雨傘吹走了”這樣的文本，Boximator就能生成出相應(yīng)場景的視頻，展現(xiàn)女生追趕雨傘的動態(tài)過程。這種能力在以往的視頻生成模型中是難以見到的，如Gen-2、Pink1.0等模型雖然在視頻生成領(lǐng)域有所成就，但在精準動作控制方面仍有局限。

論文地址：https://arxiv.org/abs/2402.01566

項目地址：https://boximator.github.io/

　　Boximator之所以能夠?qū)崿F(xiàn)如此精準的動作控制，歸功于其獨特的“軟框”和“硬框”約束方法。硬框約束允許模型精確定義目標(biāo)對象的邊界框，確保對象在視頻的后續(xù)幀中能夠被精準定位。軟框約束則定義了一個對象可能存在的區(qū)域，允許對象在這個區(qū)域內(nèi)自由移動，增加了視頻的自然性和流暢性。

　　控制模塊的設(shè)計也是Boximator成功的關(guān)鍵。它結(jié)合了框編碼器和自注意力層，通過深度學(xué)習(xí)技術(shù)精確地將文本描述轉(zhuǎn)化為視頻幀中的視覺元素?？蚓幋a器負責(zé)將框的坐標(biāo)、ID、類型等信息編碼成控制向量，自注意力層則負責(zé)學(xué)習(xí)框控制向量與視頻幀視覺向量之間的關(guān)系，實現(xiàn)對視頻內(nèi)容的精準控制。

　　Boximator在多個實驗中展示了其卓越的動作控制能力。通過與其他模型的對比，Boximator在視頻質(zhì)量、框與對象對齊精度方面均顯示出優(yōu)越性。更令人興奮的是，Boximator還能作為插件，幫助現(xiàn)有的視頻生成模型提升生成質(zhì)量，拓寬了其應(yīng)用范圍。

　　此外，Boximator的成功也為未來的視頻內(nèi)容創(chuàng)作提供了新的思路。例如，在電影制作、游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域，Boximator都有著巨大的應(yīng)用潛力。它能夠大幅度降低視頻制作的難度和成本，加速創(chuàng)意內(nèi)容的產(chǎn)生和迭代，為創(chuàng)作者提供更多自由發(fā)揮的空間。

　　據(jù)了解，為獲得視頻訓(xùn)練數(shù)據(jù)，研究人員從WebVid-10M數(shù)據(jù)集中，過濾出110萬段動態(tài)明顯的視頻片段，并自動為其注釋了220萬個對象的邊界框。并在PixelDance和ModelScope這兩個模型上訓(xùn)練了Boximator。

　　實驗數(shù)據(jù)顯示，Boximator在保持原模型視頻質(zhì)量,具有非常強大的動作控制能力。同時可以作為一種插件，幫助現(xiàn)有視頻擴散模型提升生成質(zhì)量。

　　在MSR-VTT數(shù)據(jù)集上,無論是視頻質(zhì)量還是框與對象對齊精度方面,Boximator都優(yōu)于原模型。在人類評估中,Boximator生成的視頻也在質(zhì)量和運動控制上明顯超過原模型。

　　字節(jié)跳動的研究人員表示，目前該模型處于研發(fā)階段，預(yù)計2-3個月內(nèi)發(fā)布測試網(wǎng)站。

　　字節(jié)跳動加速文生視頻布局

　　值得注意的是，在Sora問世一周前，字節(jié)跳動宣布了一項人事變動，原抖音集團CEO張楠宣布，自己已經(jīng)辭去集團CEO一職，未來把精力聚焦在剪映的發(fā)展上。字節(jié)跳動CEO梁汝波表示，感謝張楠過去帶領(lǐng)中國信息平臺業(yè)務(wù)做出的貢獻和突破，期待她在新崗位上再接再厲。

　　剪映是字節(jié)跳動推出的核心視頻剪輯產(chǎn)品。在AI的應(yīng)用方面，剪映早就推出語音識別/生成、文本生成、虛擬人生成、AI配音等基礎(chǔ)AI功能，還持續(xù)推出智能摳圖、主題特效、視頻轉(zhuǎn)手繪、圖文成片、智能裁剪等進階功能。

　　張楠認為，AI圖像生成技術(shù)正在給內(nèi)容創(chuàng)作工具行業(yè)帶來巨大的變化和可能性。

　　她在內(nèi)部信中表示，“我知道這會是一條很長的路，而且會有很多激烈的競爭，也會碰到技術(shù)不確定性帶來的很多挑戰(zhàn)和試錯。但夢想總還是應(yīng)該有的，如果不極致地試一次，未來該多遺憾呢?！?/p>

　　張楠于2014年加入字節(jié)跳動。2016 年她帶領(lǐng)團隊，從0到1推出了抖音等產(chǎn)品。2018年，抖音成為中國最受歡迎的短視頻產(chǎn)品之一。2020年，張楠出任抖音集團CEO。

　　接近剪映的人士透露，過去一年，張楠已經(jīng)把絕大多數(shù)精力傾斜到剪映相關(guān)業(yè)務(wù)上，并親自帶隊尋求在AI輔助創(chuàng)作上有所突破，即將推出一個AI生圖和視頻的產(chǎn)品。

　　公開信息顯示，過去三年里剪映相關(guān)產(chǎn)品高速發(fā)展，截至2021年，剪映的月活用戶已經(jīng)突破1億，是國內(nèi)最大的移動視頻編輯產(chǎn)品。

　　數(shù)據(jù)顯示，剪映的月活用戶在2021年就已經(jīng)突破1億，成為國內(nèi)最大的移動視頻編輯產(chǎn)品。同時，剪映海外版CapCut 2020年4月推出，但迄今其用戶量已超過5億人次，月活逾2億，去年9月CapCut上的用戶總支出突破1億美元。

　　在對標(biāo)Sora方面，不少業(yè)內(nèi)觀察人士對剪映寄予厚望。但字節(jié)跳動方面未回應(yīng)Boximator模型是否后續(xù)會應(yīng)用于剪映中。

　　"中國版的Sora"在哪？

　　英偉達高級科學(xué)家Jim Fan評論認為，2022年是影像之年，2023是聲波之年，而2024是視頻之年。

　　在Sora出現(xiàn)之前，谷歌的Imagen和Meta的“做個視頻（Make-A-Video）”已經(jīng)發(fā)布了相當(dāng)長一段時間。就在上月底，谷歌還新發(fā)布了AI視頻大模型Lumiere，該大模型同樣可以通過聯(lián)合空間和時間采樣來實現(xiàn)生成，并且也顯著增加了生成視頻的持續(xù)時長和質(zhì)量，甚至可以將靜止圖像轉(zhuǎn)換為動態(tài)視頻。

　　中國的AI大模型同樣早已在文生視頻賽道布局。去年3月，阿里達摩院就放出了“文本生成視頻大模型”，并在開源模型平臺上對外測試。百度文心一言則在正式發(fā)布的支持多模態(tài)文本生成視頻能力基礎(chǔ)上，在去年8月又上線了文本轉(zhuǎn)視頻原生插件。

　　不過，這些AI大模型生成的視頻與Sora相比還有一定差距，一方面是體現(xiàn)在持續(xù)時長上，絕大多數(shù)視頻時長還在4-10秒左右，其連貫性也有所不足。另一方面是鏡頭的組合，絕大多數(shù)視頻都是單鏡頭；而Sora已實現(xiàn)了在一個視頻里面，多角度鏡頭的組合。例如，在剪影動畫中，視頻從一只狼對著月亮嚎叫，直到它找到狼群，切換了不同景別的多個鏡頭。

　　隨OpenAI、谷歌等紛紛推出各自的文生視頻模型，東方證券在研報中提到，國內(nèi)領(lǐng)先廠商已入局，其中，?？低?、大華股份、螢石網(wǎng)絡(luò)等視頻分析行業(yè)領(lǐng)先廠商紛紛投入到多模態(tài)大模型研究和行業(yè)應(yīng)用落地進程。

　　具體來看，?？低暚F(xiàn)已處于多模態(tài)大模型的研發(fā)階段，包括視覺、語音、文本等多模態(tài)信號的融合訓(xùn)練及處理。大華股份于23年10月發(fā)布“星漢大模型”，該模型融合點云、語音、圖像等輸入，構(gòu)建了多模態(tài)融合的行業(yè)視覺大模型。值得一提的是，信雅達憑借“天才女兒”設(shè)立Pika的消息刺激曾在去年11月30日至12月7日錄得6連板，公司表示，其已圍繞圖像識別、 AI 定制化建模等能力開展深入研究。

　　此外，據(jù)財聯(lián)社不完全統(tǒng)計，包括萬興科技、博匯科技、易點天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個月以來在互動平臺披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

　　隨著文生圖、圖片對話技術(shù)的成熟，文生視頻已成為多模態(tài)大模型下一步發(fā)展的重點。展望2024年，機構(gòu)人士認為，大模型領(lǐng)域的競爭將進一步白熱化，多模態(tài)大模型將成為生成式AI的重點發(fā)展方向，并有望推動本輪AI行情進一步擴散。

　　在國盛證券看來，AI文生視頻是多模態(tài)應(yīng)用的下一站。文生視頻即根據(jù)給定的文字提示直接生成視頻。隨著文生視頻技術(shù)的日趨成熟和廣泛應(yīng)用，或?qū)楫?dāng)下熱門的短劇市場帶來變數(shù)。該技術(shù)有望極大降低短劇制作的綜合成本，為解決“重制作而輕創(chuàng)作”的共性問題提供解決方案，短劇制作的重心有望回歸高質(zhì)量劇本創(chuàng)作。

　　中信證券表示，多模態(tài)大模型算法的突破將帶來自動駕駛、機器人等技術(shù)的革命性進步，持續(xù)看好本輪生成式AI浪潮對科技產(chǎn)業(yè)的長周期影響和改變，繼續(xù)關(guān)注算力、算法、數(shù)據(jù)、應(yīng)用等環(huán)節(jié)的領(lǐng)先廠商。

　　東吳證券判斷，多模態(tài)是AI商業(yè)宏圖的起點，有望真正為企業(yè)降本增效，且企業(yè)可將節(jié)省下來的成本用于提高產(chǎn)品、服務(wù)質(zhì)量或者技術(shù)創(chuàng)新，推動生產(chǎn)力進一步提升；同時，也可能出現(xiàn)新的、空間更大的用戶生成內(nèi)容平臺。

責(zé)任編輯：張薇

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

推出“中文版Sora”？字節(jié)跳動回應(yīng)

推出“中文版Sora”？字節(jié)跳動回應(yīng)