精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 資訊正文

推出“中文版Sora”?字節(jié)跳動回應(yīng)

  繼 ChatGPT 這一現(xiàn)象級的應(yīng)用推出一年之后,當(dāng)?shù)貢r間2月15日,美國開放人工智能研究中心 OpenAI 正式發(fā)布了旗下首款視頻生成模型 Sora,再次在全球掀起了人工智能關(guān)注浪潮。

  據(jù)報道,OpenAI 推出的文生視頻大模型 Sora 可通過快速文本提示創(chuàng)建“逼真”和“富有想象力”的 60 秒視頻,還可以在單個生成視頻中創(chuàng)建多個鏡頭,準確保留角色和視覺風(fēng)格。OpenAI 表示,將為視覺藝術(shù)家、設(shè)計師和電影制作人提供 Sora 訪問權(quán)限。

  近日,有消息稱,在 Sora 引爆文生視頻賽道之前,國內(nèi)的字節(jié)跳動也推出了一款顛覆性視頻模型——Boximator。與 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通過文本精準控制生成視頻中人物或物體的動作。

  對此,字節(jié)跳動相關(guān)人士向媒體回應(yīng)稱,Boximator 是視頻生成領(lǐng)域控制對象運動的技術(shù)方法研究項目,目前還無法作為完善的產(chǎn)品落地,距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。

  值得注意的是,字節(jié)跳動在AI及大模型技術(shù)領(lǐng)域的動作顯得比較低調(diào)。迄今為止,字節(jié)跳動旗下的豆包、扣子和Cici等AI產(chǎn)品并沒有進行大規(guī)模的宣傳推廣,字節(jié)跳動官方也沒有公開其在AI領(lǐng)域的研發(fā)路線和戰(zhàn)略布局。

  Boximator模型讓視頻動作控制不再是夢

  據(jù)介紹,Boximator 是一款創(chuàng)新的視頻生成模型,它能夠通過簡單的文本描述精確控制視頻中的人物和物體動作。

  這意味著,只需輸入比如“下雨天,大風(fēng)把一位女生的雨傘吹走了”這樣的文本,Boximator就能生成出相應(yīng)場景的視頻,展現(xiàn)女生追趕雨傘的動態(tài)過程。這種能力在以往的視頻生成模型中是難以見到的,如Gen-2、Pink1.0等模型雖然在視頻生成領(lǐng)域有所成就,但在精準動作控制方面仍有局限。

論文地址:https://arxiv.org/abs/2402.01566

項目地址:https://boximator.github.io/

  Boximator之所以能夠?qū)崿F(xiàn)如此精準的動作控制,歸功于其獨特的“軟框”和“硬框”約束方法。硬框約束允許模型精確定義目標(biāo)對象的邊界框,確保對象在視頻的后續(xù)幀中能夠被精準定位。軟框約束則定義了一個對象可能存在的區(qū)域,允許對象在這個區(qū)域內(nèi)自由移動,增加了視頻的自然性和流暢性。

  控制模塊的設(shè)計也是Boximator成功的關(guān)鍵。它結(jié)合了框編碼器和自注意力層,通過深度學(xué)習(xí)技術(shù)精確地將文本描述轉(zhuǎn)化為視頻幀中的視覺元素??蚓幋a器負責(zé)將框的坐標(biāo)、ID、類型等信息編碼成控制向量,自注意力層則負責(zé)學(xué)習(xí)框控制向量與視頻幀視覺向量之間的關(guān)系,實現(xiàn)對視頻內(nèi)容的精準控制。

  Boximator在多個實驗中展示了其卓越的動作控制能力。通過與其他模型的對比,Boximator在視頻質(zhì)量、框與對象對齊精度方面均顯示出優(yōu)越性。更令人興奮的是,Boximator還能作為插件,幫助現(xiàn)有的視頻生成模型提升生成質(zhì)量,拓寬了其應(yīng)用范圍。

  此外,Boximator的成功也為未來的視頻內(nèi)容創(chuàng)作提供了新的思路。例如,在電影制作、游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域,Boximator都有著巨大的應(yīng)用潛力。它能夠大幅度降低視頻制作的難度和成本,加速創(chuàng)意內(nèi)容的產(chǎn)生和迭代,為創(chuàng)作者提供更多自由發(fā)揮的空間。

  據(jù)了解,為獲得視頻訓(xùn)練數(shù)據(jù),研究人員從WebVid-10M數(shù)據(jù)集中,過濾出110萬段動態(tài)明顯的視頻片段,并自動為其注釋了220萬個對象的邊界框。并在PixelDance和ModelScope這兩個模型上訓(xùn)練了Boximator。

  實驗數(shù)據(jù)顯示,Boximator在保持原模型視頻質(zhì)量,具有非常強大的動作控制能力。同時可以作為一種插件,幫助現(xiàn)有視頻擴散模型提升生成質(zhì)量。

  在MSR-VTT數(shù)據(jù)集上,無論是視頻質(zhì)量還是框與對象對齊精度方面,Boximator都優(yōu)于原模型。在人類評估中,Boximator生成的視頻也在質(zhì)量和運動控制上明顯超過原模型。

  字節(jié)跳動的研究人員表示,目前該模型處于研發(fā)階段,預(yù)計2-3個月內(nèi)發(fā)布測試網(wǎng)站。

  字節(jié)跳動加速文生視頻布局

  值得注意的是,在Sora問世一周前,字節(jié)跳動宣布了一項人事變動,原抖音集團CEO張楠宣布,自己已經(jīng)辭去集團CEO一職,未來把精力聚焦在剪映的發(fā)展上。字節(jié)跳動CEO梁汝波表示,感謝張楠過去帶領(lǐng)中國信息平臺業(yè)務(wù)做出的貢獻和突破,期待她在新崗位上再接再厲。

  剪映是字節(jié)跳動推出的核心視頻剪輯產(chǎn)品。在AI的應(yīng)用方面,剪映早就推出語音識別/生成、文本生成、虛擬人生成、AI配音等基礎(chǔ)AI功能,還持續(xù)推出智能摳圖、主題特效、視頻轉(zhuǎn)手繪、圖文成片、智能裁剪等進階功能。

  張楠認為,AI圖像生成技術(shù)正在給內(nèi)容創(chuàng)作工具行業(yè)帶來巨大的變化和可能性。

  她在內(nèi)部信中表示,“我知道這會是一條很長的路,而且會有很多激烈的競爭,也會碰到技術(shù)不確定性帶來的很多挑戰(zhàn)和試錯。但夢想總還是應(yīng)該有的,如果不極致地試一次,未來該多遺憾呢?!?/p>

  張楠于2014年加入字節(jié)跳動。2016 年她帶領(lǐng)團隊,從0到1推出了抖音等產(chǎn)品。2018年,抖音成為中國最受歡迎的短視頻產(chǎn)品之一。2020年,張楠出任抖音集團CEO。

  接近剪映的人士透露,過去一年,張楠已經(jīng)把絕大多數(shù)精力傾斜到剪映相關(guān)業(yè)務(wù)上,并親自帶隊尋求在AI輔助創(chuàng)作上有所突破,即將推出一個AI生圖和視頻的產(chǎn)品。

  公開信息顯示,過去三年里剪映相關(guān)產(chǎn)品高速發(fā)展,截至2021年,剪映的月活用戶已經(jīng)突破1億,是國內(nèi)最大的移動視頻編輯產(chǎn)品。

  數(shù)據(jù)顯示,剪映的月活用戶在2021年就已經(jīng)突破1億,成為國內(nèi)最大的移動視頻編輯產(chǎn)品。同時,剪映海外版CapCut 2020年4月推出,但迄今其用戶量已超過5億人次,月活逾2億,去年9月CapCut上的用戶總支出突破1億美元。

  在對標(biāo)Sora方面,不少業(yè)內(nèi)觀察人士對剪映寄予厚望。但字節(jié)跳動方面未回應(yīng)Boximator模型是否后續(xù)會應(yīng)用于剪映中。

  "中國版的Sora"在哪?

  英偉達高級科學(xué)家Jim Fan評論認為,2022年是影像之年,2023是聲波之年,而2024是視頻之年。

  在Sora出現(xiàn)之前,谷歌的Imagen和Meta的“做個視頻(Make-A-Video)”已經(jīng)發(fā)布了相當(dāng)長一段時間。就在上月底,谷歌還新發(fā)布了AI視頻大模型Lumiere,該大模型同樣可以通過聯(lián)合空間和時間采樣來實現(xiàn)生成,并且也顯著增加了生成視頻的持續(xù)時長和質(zhì)量,甚至可以將靜止圖像轉(zhuǎn)換為動態(tài)視頻。

  中國的AI大模型同樣早已在文生視頻賽道布局。去年3月,阿里達摩院就放出了“文本生成視頻大模型”,并在開源模型平臺上對外測試。百度文心一言則在正式發(fā)布的支持多模態(tài)文本生成視頻能力基礎(chǔ)上,在去年8月又上線了文本轉(zhuǎn)視頻原生插件。

  不過,這些AI大模型生成的視頻與Sora相比還有一定差距,一方面是體現(xiàn)在持續(xù)時長上,絕大多數(shù)視頻時長還在4-10秒左右,其連貫性也有所不足。另一方面是鏡頭的組合,絕大多數(shù)視頻都是單鏡頭;而Sora已實現(xiàn)了在一個視頻里面,多角度鏡頭的組合。例如,在剪影動畫中,視頻從一只狼對著月亮嚎叫,直到它找到狼群,切換了不同景別的多個鏡頭。

  隨OpenAI、谷歌等紛紛推出各自的文生視頻模型,東方證券在研報中提到,國內(nèi)領(lǐng)先廠商已入局,其中,??低?、大華股份、螢石網(wǎng)絡(luò)等視頻分析行業(yè)領(lǐng)先廠商紛紛投入到多模態(tài)大模型研究和行業(yè)應(yīng)用落地進程。

  具體來看,??低暚F(xiàn)已處于多模態(tài)大模型的研發(fā)階段,包括視覺、語音、文本等多模態(tài)信號的融合訓(xùn)練及處理。大華股份于23年10月發(fā)布“星漢大模型”,該模型融合點云、語音、圖像等輸入,構(gòu)建了多模態(tài)融合的行業(yè)視覺大模型。值得一提的是,信雅達憑借“天才女兒”設(shè)立Pika的消息刺激曾在去年11月30日至12月7日錄得6連板,公司表示,其已圍繞圖像識別、 AI 定制化建模等能力開展深入研究。

  此外,據(jù)財聯(lián)社不完全統(tǒng)計,包括萬興科技、博匯科技、易點天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個月以來在互動平臺披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

  隨著文生圖、圖片對話技術(shù)的成熟,文生視頻已成為多模態(tài)大模型下一步發(fā)展的重點。展望2024年,機構(gòu)人士認為,大模型領(lǐng)域的競爭將進一步白熱化,多模態(tài)大模型將成為生成式AI的重點發(fā)展方向,并有望推動本輪AI行情進一步擴散。

  在國盛證券看來,AI文生視頻是多模態(tài)應(yīng)用的下一站。文生視頻即根據(jù)給定的文字提示直接生成視頻。隨著文生視頻技術(shù)的日趨成熟和廣泛應(yīng)用,或?qū)楫?dāng)下熱門的短劇市場帶來變數(shù)。該技術(shù)有望極大降低短劇制作的綜合成本,為解決“重制作而輕創(chuàng)作”的共性問題提供解決方案,短劇制作的重心有望回歸高質(zhì)量劇本創(chuàng)作。

  中信證券表示,多模態(tài)大模型算法的突破將帶來自動駕駛、機器人等技術(shù)的革命性進步,持續(xù)看好本輪生成式AI浪潮對科技產(chǎn)業(yè)的長周期影響和改變,繼續(xù)關(guān)注算力、算法、數(shù)據(jù)、應(yīng)用等環(huán)節(jié)的領(lǐng)先廠商。

  東吳證券判斷,多模態(tài)是AI商業(yè)宏圖的起點,有望真正為企業(yè)降本增效,且企業(yè)可將節(jié)省下來的成本用于提高產(chǎn)品、服務(wù)質(zhì)量或者技術(shù)創(chuàng)新,推動生產(chǎn)力進一步提升;同時,也可能出現(xiàn)新的、空間更大的用戶生成內(nèi)容平臺。

責(zé)任編輯:張薇

分享: