來源:華院數(shù)據(jù) 時(shí)間:2021-01-15 16:10:02 作者:
OpenAI開發(fā)的GPT-3模型可用自然語(yǔ)言指導(dǎo)神經(jīng)網(wǎng)絡(luò)完成各種文本生成任務(wù),Image GPT模型則可用同類型神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量的圖像。在不斷加深對(duì)這二者的研究之后,研究人員發(fā)現(xiàn),自然語(yǔ)言與視覺圖像之間的二次元壁可打破。
和GPT-3一樣,DALL·E也是基于Transformer的語(yǔ)言模型,它同時(shí)接受文本和圖像數(shù)據(jù)并以單一數(shù)據(jù)流(1280個(gè)tokens)形式輸入,使用極大似然的方法訓(xùn)練模型來生成所有的tokens,這種訓(xùn)練流程不僅可以使得DALL-E能生成一個(gè)圖像,而且可以以與文本提示一致的方式,重新生成能夠延伸到現(xiàn)有圖像右下角任何矩形區(qū)域。
研究小組發(fā)現(xiàn),生成模型的工作可能對(duì)社會(huì)產(chǎn)生深遠(yuǎn)影響,他們計(jì)劃對(duì)DALL類的語(yǔ)言模型如何與社會(huì)問題關(guān)聯(lián)進(jìn)行分析,比如,經(jīng)濟(jì)影響、語(yǔ)言模型輸出是否存在偏見、以及該技術(shù)一直存在的道德挑戰(zhàn)。
除此之外,DALL·E可以自動(dòng)分析復(fù)雜句式生成畫面。視覺效果中顯示的每個(gè)標(biāo)題下的圖像示例都是在使用CLIP重新排名后,從512個(gè)中選前32張獲得的,但不使用任何手動(dòng)篩選,除了縮略圖和外部顯示的獨(dú)立圖像。另外,研究小組通過修改實(shí)體對(duì)象的屬性和它出現(xiàn)的次數(shù)來測(cè)試DALL?E的性能。
同時(shí)掌握多實(shí)物屬性以及各部位空間關(guān)系是DALL·E需要面臨的一個(gè)全新挑戰(zhàn)。下面這條文本信息 “一只刺猬帶著紅帽子、黃手套、藍(lán)襯衫和綠褲子”,DALL·E為了正確解讀這條信息,不僅要正確地搭配動(dòng)物的每一件服裝,而且要在不混淆的情況下形成組合(帽子,紅色),(手套,黃色),(襯衫,藍(lán)色)和(褲子,綠色)。
如果實(shí)物數(shù)量較少,DALL·E可控制物體屬性以及它們所處位置,不過正確率取決于文字如何表述。但文字描述的物體一旦增多,DALL·E就容易混淆物體與其顏色之間的關(guān)聯(lián)關(guān)系,生成正確圖像的概率就會(huì)大幅度降低。并且,在以下情況下DALL·E在標(biāo)題重述方面很脆弱:可替代的或者與語(yǔ)義等價(jià)的標(biāo)題通常不能被準(zhǔn)確的解釋。
由于DALL·E可以控制場(chǎng)景的視角以及渲染場(chǎng)景的3D風(fēng)格,研究小組讓DALL·E從一系列等距角度重復(fù)繪制每個(gè)角度下的某個(gè)名人的頭部。最后發(fā)現(xiàn),DALL?E可以恢復(fù)旋轉(zhuǎn)頭部的平滑動(dòng)畫。
DALL·E還能給場(chǎng)景加一些光學(xué)畸變的特效,比如“超廣角魚眼鏡頭”“球面全景圖”,這些發(fā)現(xiàn)激發(fā)研究小組探索DALL·E更多可能性。同時(shí),“極端特寫視圖”和“ x射線”樣式的樣本促使研究小組進(jìn)一步探索DALL·E用橫截面渲染內(nèi)部結(jié)構(gòu)和用微距照片渲染外部結(jié)構(gòu)的能力。
但文本生成圖像的任務(wù)具有不定性:一句話通??僧嫵鰺o數(shù)個(gè)合要求的畫面。比如畫“一只日落下坐在草坪上的海豚”,根據(jù)海豚坐在地上的方向,很有必要給這只海豚畫一個(gè)陰影,盡管這個(gè)細(xì)節(jié)沒有明確提出來。
DALL·E是從三個(gè)方面解決這種不定性:改變風(fēng)格、搭配和時(shí)間;變換位置畫同一個(gè)物體;繪制畫面時(shí)為它專門寫一段文字。
由于可靠性不同,DALL·E允許經(jīng)自然語(yǔ)言描述得到圖像的3D渲染效果,這樣它可以定向改變一部分物體屬性、數(shù)量和排列順序,也可以決定從哪個(gè)角度、位置渲染場(chǎng)景,按所需方向、光源情況畫圖。與3D渲染引擎不同的是,DALL·E不需要準(zhǔn)確無誤、完整的文本信息。如果文本沒有明確表明某個(gè)信息而是將其暗含其中,它會(huì)以“填空”的形式將其畫出。
因?yàn)檎Z(yǔ)言具有創(chuàng)作性,所以人們可以描述現(xiàn)實(shí)中的事物、想象中事物,而DALL·E也具備這一能力。它可將碎片式的想法組合起來畫出一個(gè)物體,甚至有些物體并不存在這個(gè)世界上。研究人員是通過以下兩點(diǎn)發(fā)現(xiàn)它這一特質(zhì)的:將概念和物體的屬性轉(zhuǎn)換出來,再發(fā)揮想象將天馬行空的想法設(shè)計(jì)出來。
DALL·E繪制實(shí)物時(shí)除了結(jié)合各種天馬行空的概念,在文字處理上還具備以下三種能力:將動(dòng)物、物體擬人化、動(dòng)與物結(jié)合、表情符號(hào)。
OpenAI開發(fā)的GPT-3模型不需要額外數(shù)據(jù)進(jìn)行訓(xùn)練,就可依據(jù)文字、線索獨(dú)立完成各種任務(wù),根據(jù)文本框提供的內(nèi)容輸出答案。例如,文本框輸入“這個(gè)句子‘一個(gè)人牽著他的狗走在公園里’”,將這句話翻譯成法語(yǔ):”,GPT-3就可以寫出“un homme qui promène son chien dans le parc.”這個(gè)能力被稱為零樣本學(xué)習(xí),DALL·E可將這種能力拓展到視覺領(lǐng)域。如果文本輸入正確,還可以實(shí)現(xiàn)一些圖像對(duì)圖像“翻譯”的工作。
但研究小組并不希望DALL·E的這項(xiàng)能力與神經(jīng)網(wǎng)絡(luò)融合或者對(duì)神經(jīng)網(wǎng)絡(luò)沒有任何質(zhì)的提升或者微調(diào),相反,他們通過瑞文標(biāo)準(zhǔn)圖形推理測(cè)驗(yàn)(20世紀(jì)一個(gè)常見的IQ測(cè)試題)檢測(cè)到DALL·E對(duì)類比推理問題具有解決能力。
DALL·E可掌握地理知識(shí)、地標(biāo)、領(lǐng)界區(qū)域,而且這些知識(shí)驚人的準(zhǔn)確,但也存在紕漏
除了拓展DALL·E知識(shí)領(lǐng)域廣度,也拓展它的知識(shí)寬度
基于Transformer解碼部分的DALL·E可以接收來自文本和圖片的1280個(gè)tokens,其中256個(gè)用于文字,1024個(gè)用于圖像——屬于自回歸模型。在其64個(gè)自注意力層中的每個(gè)注意力掩碼允許每個(gè)圖像的token加入到所有的文本token中。DALL-E對(duì)文本token使用標(biāo)準(zhǔn)的因果掩碼,根據(jù)層對(duì)行、列或卷積注意力模式的圖像標(biāo)記使用稀疏注意力機(jī)制。
自從Reed誕生,文本合成圖像一直是研究領(lǐng)域?qū)W⒌牟糠?,它的方法是使用文本低維嵌入表征的GAN模型,這種低維嵌入表征向量是由對(duì)比損失函數(shù)訓(xùn)練的編碼器生成,像CLIP一樣,StackGAN 和 StackGAN++使用多種尺度的GAN模型來提升圖像分辨率和保真度。
AttnGAN將與文字與圖片特征有關(guān)的注意力整合起來,呈現(xiàn)文本與圖像的對(duì)比特征,彌補(bǔ)丟失的輔助目標(biāo)。其它模型將培訓(xùn)期間有關(guān)督查的附屬資源整合起來以提高畫質(zhì),最后,基于采樣策略,Nguyen和Cho利用預(yù)訓(xùn)練多模態(tài)判別模型生成圖像。
這與VQVAE-2使用的舍選抽樣相似,在交互視覺中,從512個(gè)樣本抽出前32個(gè),根據(jù)文字重新排列。這個(gè)過程可以看作語(yǔ)言導(dǎo)向檢索,對(duì)樣本質(zhì)量有非常大的影響。
責(zé)任編輯:姚治