來源:大數(shù)據(jù)文摘 時間:2018-07-17 11:11:49 作者:
介紹
機器學習(ML)研究人員共同致力于創(chuàng)造和傳播有關數(shù)據(jù)驅動算法的知識。在研究人員撰寫的論文中,他們可能力求實現(xiàn)以下這些目標:理論地描述可學習的內容,通過嚴謹?shù)膶嶒瀬砑由罾斫?,或者構建具有高預測準確性的系統(tǒng)。
雖然確定對哪些課題進行調查研究可能是主觀的,但一旦主題確立,論文只有(客觀地)從讀者的需求出發(fā),創(chuàng)造基礎性的知識,并盡可能表述清楚,才能做出最有價值的學術貢獻。
什么樣的論文能最好地為讀者服務呢?我們可以列舉出這樣的論文需要滿足的條件。這些論文應該:
1. 幫助讀者基于直覺進行理解,但直覺解釋要和證據(jù)所支持的更強有力的結論區(qū)分開來;
2. 描述那些考慮并排除了其他假設的實證調查[62];
3. 明確理論分析與直覺或經驗主張之間的關系[64];
4. 使用正確的語言幫助讀者理解,選擇術語以避免誤導或使用未經證實的概念內涵,防止與其他定義的沖突,或與其他相關但不同概念的混淆[56]。
機器學習不斷有新的進展,盡管這些進展經常偏離這些理想目標。在本文中,我們著重關注以下四種ML學術上的偏離趨勢:
1.未能區(qū)分解釋和推測。
2.未能確定實驗增益的來源,例如當增益實際上源于超參數(shù)調整時,卻強調增益是源于對神經網(wǎng)絡模型架構的不必要的修改。
3.濫用數(shù)學:數(shù)學的使用或混亂或表達過度而沒有達到應使概念明晰的效果,例如:混淆技術和非技術概念。
4.濫用語言,例如通過選擇具有口語內涵的專門術語或重載已有的技術術語。
這些趨勢背后的原因未明,這可能是由于ML學術圈的快速擴張,由此導致的審核人員日益供不應求,以及學術和成功的短期衡量標準之間經常出現(xiàn)的錯位激勵(例如文獻引用量,注意力和創(chuàng)業(yè)機會)等因素。雖然每種模式都或多或少有了相應的補救措施,但我們還是想整體討論一下這個問題,對學術圈要如何應對這些趨勢提出一些不成熟的小建議。
隨著機器學習的影響日益增長,研究論文的受眾逐漸拓展到了學生、記者和政策制定者,甚至更廣泛的群體。我們希望研究論文可以通過清晰地傳達更準確的信息,來加快研究進度,縮短新研究人員的入行時間,并在公共話語中發(fā)揮更具建設性的作用。
學術研究的漏洞會誤導公眾,動搖ML的知識基石,從而阻礙未來的研究。實際上,在人工智能的歷史中,更廣泛地說,在科學研究中,許多這些問題已經周而復始地循環(huán)發(fā)生。
1976年,德魯麥克德莫特[53]指責人工智能學術圈放棄了自律,并預言警告說“如果我們不能做自我批評,別人遲早會替我們來完成。”類似的討論在整個80年代,90年代[13,38,2]中再次出現(xiàn)。在心理學等其他領域,不良的實驗標準削弱了大眾對該學科權威的信任[14]。目前機器學習的強大力量要歸功于迄今為止大量嚴謹?shù)难芯?,包括理論研究[22,7,19]和實驗研究[34,25,5]。通過提倡清晰的科學思考和交流溝通,我們可以繼續(xù)維持我們學術圈目前所享有的來自學術社區(qū)的信任和投資。
聲明
該文選取的案例多數(shù)來自于機器學習圈內的資深科研者。考慮到新人缺乏對等的渠道回應或反擊我們的質疑, 我們不對他們的作品作過多評價。
令人堪憂的趨勢
在下面的每一小節(jié)中,我們將(1)描述一個趨勢;(2)提供相應的幾個例子(正反皆有);(3)解釋后果。指出個別論文中的弱點可能比較敏感,所以為了最大限度地減少這樣的影響,我們盡量使得例子簡短而具體。
解釋與推測
對新領域的研究通常涉及以直覺為基礎的探索,這些直覺尚未融合成清晰的知識觀點。我們認識到推測作為一種方式,可以讓作者傳授可能尚未經過嚴格科學審核的直覺理解。然而,有些論文通常以解釋為幌子發(fā)表實則是推測的觀點,而由于科學論文一貫嚴謹?shù)穆曌u和作者被假定的專業(yè)性,這些推測被進一步視為了權威。
例如,[33]圍繞一個稱為內部協(xié)變量偏移(internal covariate shift)的概念提出了一個直觀的理論。從摘要開始,對內部協(xié)變量偏移的闡述似乎表明了文章陳述的是技術事實。然而,文中沒有清晰定義關鍵術語,因而不能最終確定真值。例如,該文指出批量標準化(batch normalization)通過減少訓練過程中隱藏激活層(hidden activation)分布的變化改進了模型。
那么是通過哪種散度度量來量化這種變化的呢?該論文從未澄清過。有些研究表明這種對批量標準化的解釋可能并不正確[65]。然而,[33]中給出的推測性解釋已被作為事實引用,例如在[60]中指出,“眾所周知,由于內部協(xié)變量偏移問題,深度神經網(wǎng)絡很難被優(yōu)化?!?/p>
我們自己也因為將解釋包裝成猜測而同樣問心有愧。在[72]中,JS表示“高維度和大量的無關特征為攻擊者提供更多空間來構建攻擊”,卻沒有進行任何實驗來衡量維度對攻擊性的影響。而在[71]中,JS引入了直觀的覆蓋概念而沒有對其進行定義,并將其用作一種解釋形式,例如:“回想一下,缺乏覆蓋率的一個癥狀是對不確定性的不良估計和無法產生高精度預測?!被仡欉^去,我們希望傳達對論文中描述的工作具有重要意義的想法,我們不愿意將我們論證的核心部分標記為推測性的。
與上述例子相反,[69]將推測與事實做了區(qū)分。雖然這篇文章中介紹了dropout regularization(訓練神經網(wǎng)絡的一個小技巧),并詳細推測了dropout和有性生殖之間的聯(lián)系,但卻專門把這些推測放入了一個名為“動機”的部分,明確地將兩者區(qū)分開來。這種做法既避免了讓讀者感到困惑,同時作者也能夠表達其非正式的想法。
在另一個正面的例子中,[3]提出了訓練神經網(wǎng)絡的實用指南。在這里,作者仔細表明了不確定性。該論文沒有將指南作為權威提出,而是說:“雖然這些建議來自多年的實驗,并且在某種程度上是經過數(shù)學驗證的,但我們仍舊應該提出質疑并改進。這些建議是一個很好的起點,但通常沒有經過正式的驗證,留下許多問題可以通過理論分析或堅實的比較實驗工作來解決?!?/p>
無法明確經驗成果的真實來源
機器學習專家評審過程中非常重視技術創(chuàng)新。也許為了滿足評論者的這一需要,許多論文都強調復雜的模型(在這里提到)和花哨的數(shù)學(見§3.3)。雖然復雜模型有時是合理的,但也還有其他很多方向同樣可以帶來經驗成果:通過巧妙的問題公式、科學化的實驗,優(yōu)化上的經驗積累,數(shù)據(jù)預處理技術,廣泛的超參數(shù)調整,或通過將現(xiàn)有方法應用于有趣的新任務。有時,一系列提出的技術共同取得了重要的實證結果。 在這些情況下,它需要讀者自己去理解哪些技術是該報告所必需的核心技術。
很多時候,作者提出了很多調整,但沒有進行適當?shù)南谘芯浚╝blation study,指通過切分研究/對照實驗/條件刪減等,來排除其他因素干擾),以至模糊了取得經驗成果的來源。有時候,僅僅是其中一項的調整導致了結果的改進。這可能會給讀者一種假象,即作者做了大量的工作(提出了幾項改進措施),而事實上,作者做的并不夠(沒有進行適當?shù)南谘芯浚?。此外,這種做法誤導讀者相信所有提到的更改都是必要的。
最近,Melis等人[54]驗證了其中一系列他們已經公布的成果:這些成果最初被歸因于網(wǎng)絡架構的復雜創(chuàng)新,實際上是由于更好的超參數(shù)調整。同樣的,從1997年以來幾乎沒有被修改過的最初版本的LSTM(長短期記憶網(wǎng)絡)一直表現(xiàn)卓越。所以說,Melis等人的研究最重要的部分其實是超參數(shù)調整。對于深層強化學習(deep reinforcement learning)[30]和生成性對抗網(wǎng)絡(GAN)[51],也已經發(fā)現(xiàn)類似的評估問題。有關經驗嚴謹性和后果失誤的更多討論,請參見[68]。
相比之下,許多論文進行了良好的消融分析[41,45,77,82],甚至回顧性的嘗試將實驗成果的來源分離開,這也可能導致新的發(fā)現(xiàn)[10,65]。不過,消融其實并不是我們理解一個新方法的充要條件,并且考慮到算力因素也不一定實際可行。對方法的理解同樣可以源于對魯棒性的檢驗(例如[15]發(fā)現(xiàn)現(xiàn)有的語言模型無法處理屈折語素)以及錯誤的定性分析。
經驗性研究旨在加強理解,甚至可以在沒有新算法的情況下發(fā)揮作用。例如,探測神經網(wǎng)絡的行為導致識別它們對對抗性擾動的敏感性[74]。仔細的研究也經常揭示致力于刷新挑戰(zhàn)數(shù)據(jù)集基線的局限性。[11]研究設計一個用于閱讀理解新聞段落的任務,并發(fā)現(xiàn)73%的問題可以通過查看單個句子來回答,而只有2%的問題需要查看多個句子(其余25%的例子要么模棱兩可、要么共指錯誤)。
此外,更簡單的神經網(wǎng)絡和線性分類器在此例中要優(yōu)于以前任務中評估的復雜神經架構?;谕瑯拥木?,[80]為Visual Genome Scene Graphs的數(shù)據(jù)集(視覺基因組)分析并構建了的強基線。
濫用數(shù)學
在我們(ZL)撰寫早期的博士論文時,我們收到了一位經驗豐富的博士后的反饋,他聲稱該論文需要更多的公式。博士后并沒有認可該系統(tǒng),但卻清楚地透露了論文審核的“潛規(guī)則”——更多的公式更有助于評論者相信論文的技術深度,即使有些公式難以理解。
數(shù)學是科學交流的重要工具,正確使用時可傳遞精確性和清晰度。然而,并非所有的想法和主張都適用于精確的數(shù)學描述,自然語言同樣是一種不可或缺的交流工具,尤其是關于直覺或經驗主張的交流。
當數(shù)學和自然語言陳述混合在一起而沒有清楚地說明它們的關系時,文章和理論都會受到影響:理論中的問題會被模糊的定義來掩蓋,同時薄弱的論點會被技術深度的表象支持。我們將這種正式和非正式的主張的糾結稱之為數(shù)學濫用,正如經濟學家Paul Romer所描述的這種模式:“就像數(shù)學理論一樣,數(shù)學濫用利用語言和符號的混合,但并沒有做緊密的關系連接,而是在自然語言聲明和正式語言聲明之間留下了足夠的滑動空間。”
數(shù)學濫用表現(xiàn)在幾個方面:
第一,一些論文濫用數(shù)學來表示技術深度 – 旨在“威嚇”而非澄清。假定理是常見的罪魁禍首,這些定理插入到論文中強行賦予經驗主義結果權威性,即使定理的結論實際上并不支持論文的主要主張。我們(JS)在[70]中犯了這個錯誤,其中對“staged strong Doeblin chains”的討論與提出的學習算法不怎么相關,但是給讀者帶來了一種理論深度感。
提出Adam優(yōu)化器[35]的文章也犯了同樣的錯誤,這證明了這個問題無處不在。在介紹它是一個在實證上表現(xiàn)強大的優(yōu)化器的過程中,它還提出了其在凸案例中收斂的定理,而這在關注非凸優(yōu)化的應用文章中是不必要的。這個證明后來在[63]證明中是不正確的。
其次,看似正式卻又不正式的主張同樣帶來諸多問題。例如,[18]認為優(yōu)化神經網(wǎng)絡的困難不是來自局部最小值,而是來自鞍點。作為一項證據(jù),這項工作引用了一篇關于高斯隨機場的統(tǒng)計物理論文[9],并指出高維高斯隨機場的所有局部最小值都可能有一個非常接近全局最小值的誤差(類似的陳述也出現(xiàn)在[12]的相關研究中)。
這可能是一個正式的主張,但缺乏一個特定的定理使其很難驗證聲稱的結果或確定其準確內容。我們的理解是相較于說(局部最小值和全局最小值)差值在高維度下會消失,這個主張其實算是更(部分)數(shù)學一些了。但我們需要一個更正式的聲明來明確這一點。同樣是在[18]我們發(fā)現(xiàn)另一個觀點,即局部最小值比起鞍點上的損失函數(shù)要小,則被更明確地聲明且測試論證。
最后,一些論文以過于寬泛的方式引用理論,或者引用一些不太具有針對性的定理。例如,“沒有免費午餐”的定理通常作為使用沒有保證的啟發(fā)式方法的理由,即使該定理并沒有將有保證的學習程序排除出去。
雖然數(shù)學濫用的最好補救方式就是避免它,但有些論文會進一步做出好的示范。最近的一篇關于反事實推理的論文[8]非常扎實的包含了大量的數(shù)學基礎,并且與其應用的經驗性問題有明確的關系。這個指導,清晰明了的提供給讀者,有助于促進新興社區(qū)研究機器學習中的反事實推理。
語言誤用
我們發(fā)現(xiàn)在機器學習方面關于語言的誤用通??梢苑譃槿悾喊凳拘远x、術語重載、“行李箱詞”。
暗示性定義
第一類中,研究者會生造出一個一個新的技術術語,并使它具有具有一定的暗示性。這通常體現(xiàn)出擬人化特征(閱讀理解[31]和音樂創(chuàng)作[59])和技巧(好奇心[66]和恐懼[48])。許多論文以提示人類認知的方式命名所提出的模型的組成部分,例如, “思想載體[36]”和“意識先驗[4]”。
我們的目標不是要消除含有這些語言的所有學術文獻; 如果合理,這些語言的運用可能會傳達富有成效的靈感來源。然而,當一個暗示性術語被指定了技術含義時,其后的論文別無選擇地會使自己的讀者困惑,不管是通過接受該術語或通過替換它。
用不太嚴謹?shù)摹叭祟悺北憩F(xiàn)來描述經驗結果也會表現(xiàn)出對當前能力的錯誤認識。以[21]中報道的“皮膚病專家級的皮膚癌分類器”為例,將其與皮膚科醫(yī)生比較,會掩蓋皮膚癌的機器分類與皮膚科醫(yī)生的診斷是根本不同的任務的事實。真實情況下,皮膚科醫(yī)生會遇到各種各樣的情況,盡管有不可預測的變化,但他們必須完成工作。但是,機器學習分類器僅在假設的i.i.d(樣本互相獨立并且滿足同一分布)測試集上實現(xiàn)了低誤差。
相比之下,[29]中的人類表現(xiàn)則明確聲稱是在ImageNet分類任務(而不是更廣泛的對象識別)中表現(xiàn)得更出色。即使在這種情況下,一篇嚴謹?shù)恼撐模ㄔ谠S多不那么謹慎的[21,57,75]中)也不足以扭轉公共話語風向而使其重回正軌。流行文章繼續(xù)將現(xiàn)代圖像分類器描述為“超越人類能力并有效地證明更多的數(shù)據(jù)將導致更好的決策”[23],盡管有證據(jù)表明這些關聯(lián)依賴的是虛假的相關性,例如:將“穿紅衣服的亞洲人”錯誤分類為乒乓球[73]。
深度學習的論文不是唯一犯過這一類錯誤的; 濫用語言困擾著ML的許多子領域。 [49]討論了最近關于ML公平性的文獻如何經常過多地使用從復雜的法律學說中借用的術語,例如“不同的影響”,來命名表述統(tǒng)計平等概念的簡單方程。 這導致了一類文獻,其中“公平”,“機會”和“歧視”這些詞常用來表示簡單預測模型的統(tǒng)計量,這混淆了忽視差異的研究人員,以及讓政策制定者誤解了將道德需求納入ML的難易程度。
技術術語重載
第二種濫用途徑包括采用具有精確技術含義的術語,并以不精確或相互矛盾的方式使用它。例如“解卷積(deconvolution)”,它嚴格描述了數(shù)學上逆轉卷積的過程,但現(xiàn)在在深度學習文獻中,它用于指代自動編碼器和生成對抗網(wǎng)絡中常見的轉置卷積(也稱為向上卷積)。這個術語首先出現(xiàn)在[79]深入學習中,它確實解決了反卷積問題,但后來被過度放大為指代任何使用上卷積的神經架構[78,50]。
這種術語的過載會造成持久的混亂。涉及反卷積的新機器學習論文可能是(i)調用其數(shù)學上的原始含義,(ii)描述上卷積,或(iii)試圖解決混淆,如[28]中所述,其中被尷尬地用“上卷積(解卷積)”來描述這一過程。
我們另舉一例,生成模型(generative models)傳統(tǒng)上是輸入為分布p(x)或聯(lián)合分布p(x,y)的模型。相反,判別模型(discriminative models)是在給定輸入標簽的條件分布p(y | x)。
然而,在近期的研究工作中,“生成模型”被不太精確地用于指代能產生逼真結構化數(shù)據(jù)的任何模型。從表面上看,這似乎與p(x)定義一致,但它掩蓋了幾個缺點——例如,GAN(生成對抗網(wǎng)絡)或VAE(差分網(wǎng)絡)無法執(zhí)行條件推理(例如從p(x2 | x1)采樣,其中x1和x2是兩個不同的輸入特征)。
進一步解析這個術語,一些判別模型現(xiàn)在被誤認為是生成模型因為它們能產出結構化的數(shù)據(jù)[76],這是我們(ZL)在[47]中犯的錯誤。為了尋求解決困惑并提供可追溯的歷史背景,[58]區(qū)分正統(tǒng)的和隱含的生成模型。
再來看看批量標準化,[33]將協(xié)變量偏移描述為模型的輸入分布的變化。實際上,協(xié)變量偏移是指特定類型的偏移,即盡管輸入分布p(x)可能會改變,但標記函數(shù)p(y | x)不會變[27]。此外,由于[33]的影響,谷歌學者搜索引擎將批量標準化列為搜索“協(xié)變量偏移”時的第一個返回參考。
誤用語言的后果之一是(與生成模型一樣),我們把一些未解決的問題重新定義成更簡單的任務,以此隱瞞遲緩的進展。這通常通過擬人命名與暗示性定義相結合。語言理解和閱讀理解,曾經是AI的巨大挑戰(zhàn),現(xiàn)在具體指向在特定數(shù)據(jù)集上做出準確的預測[31]。
“行李箱詞”
最后,我們來討論ML機器學習論文中過度使用“行李箱詞”的情況。該詞由Minsky在2007年出版的“情感機器”[56]一書中首次使用,指的是一個詞匯集多種意義的現(xiàn)象。
Minsky描述了諸如意識,思考,注意力,情感和感覺一類,不只是由單一的原因或起源引起的心理過程。ML中的許多術語都屬于這一類。例如,[46]指出,可解釋性沒有普遍認同的含義,并且經常引用不相交的方法和需求。因此,即使看起來彼此對話的論文也可能是不同的概念。
另舉一例,“泛化”具有特定的技術含義(從訓練集到測試集的泛化)和一種更通俗的含義,接近于轉移(從一個群體推廣到另一個群體)或外部有效性(從實驗環(huán)境推廣到現(xiàn)實世界)[67]。將這些概念混為一談會高估當前系統(tǒng)的能力。
暗示定義和重載術語會導致新的行李箱詞。在公平文獻中,法律,哲學和統(tǒng)計語言經常被重載,類似“偏見”這樣的術語會變成行李箱詞而迫使我們將其拆解[17]。
在常見的演講和鼓舞人心的話語中,行李箱詞可以起到有效作用。有時行李箱詞反映了將各種含義統(tǒng)一起來的總體概念。例如,“人工智能”可能是一個學術部門的理想名稱。另一方面,在技術論證中使用行李箱詞可能會導致混淆。 例如,[6]寫了一個涉及術語“智能”和“優(yōu)化能力”的等式(方框4),隱含地假設這些行李箱詞可以用一維標量來量化。
關于這些趨勢背后的原因的一些思考
上述模式是否代表趨勢,如果是,那么潛在原因是什么?我們推測這些模式正在擴大,并認為可以歸因為幾個可能的因素:面對進步的自滿情緒,社區(qū)的迅速擴張,審查人員團體的人數(shù)有限,以及獎學金激勵與短期成功措施的不一致。
面對進步的自滿情緒
機器學習領域的快速進展有時會造成這樣一種態(tài)度,即強有力的實證結果可以作為掩蓋弱論點的借口。獲得有效結果的作者可能會被許可插入任意缺乏論據(jù)支持的故事,只要存在能推導結果的因素(見§3.1),而省略那些旨在解開這些因素的實驗(§3.2),采用夸大的術語(§3.4),或濫用數(shù)學公式(§3.3)。
與此同時,審查過程的單一性質可能會使審稿人感到他們別無選擇,只能接受獲得了強大的實證定量結果的論文。實際上,即使論文被拒絕,也不能保證在下一個階段中這些缺陷會被注意或修正,因此審稿人可能會認為,接受有缺陷的論文是最好的選擇了。
“成長”的煩惱
自2012年左右以來,由于深度學習表現(xiàn)出色,機器學習愈發(fā)受歡迎,該領域也發(fā)展迅速。我們將行業(yè)的快速擴張視為一種積極的發(fā)展信號,但它同時也存在一些副作用。
為了保護資歷尚淺的作者們,我們傾向于引用我們自己的以及著名研究者的文章。然而,新研究者們可能會更容易受此模式影響。例如,對術語并不了解的作者們更容易錯用或重新定義文字。另一方面,有經驗的研究者同樣會落入此陷阱。
快速增長還會從兩方面減少文章審批者的數(shù)量——被提交文章的數(shù)量相對審批者的數(shù)量增加,同時富有經驗的審批者的比例降低。經驗不足的審批者更可能追求結構上的創(chuàng)新,而被虛假的定理所蒙蔽雙眼,忽視嚴重卻難以發(fā)覺的問題,如語言不當使用。這會助長甚至導致上述的幾大趨勢。同時,富有經驗卻負擔過重的審批者可能會轉為“打鉤模式”,即他們傾向于更加八股文的文章,否決有創(chuàng)造力或聰明有遠見的作品——這些作品與人們熟知的論文模板往往相去甚遠。此外,過度工作的審批者可能并沒有時間去解決甚至注意提交報告中所有的問題。
錯位的激勵
為論文作者們提供糟糕激勵的并不只有審批者。隨著機器學習逐漸引起媒體的關注,以及機器學習初創(chuàng)企業(yè)變得流行與常見,媒體(“他們會報道什么?”)與投資者(“他們會投資什么?”)在一定程度上也提供了激勵。媒體激勵了部分上述趨勢 。對機器學習算法的擬人化描述助長了新聞曝光度。
以本篇論文為例[55],它將自動編碼器擬人化為“模擬大腦”。稍有一點人類水平的表現(xiàn)就會被新聞夸大,比如[52]將一個使用深度學習為圖像起標題的系統(tǒng)描述為“理解水平近乎人類”。投資者們也非常歡迎人工智能研究,他們經常僅僅基于一篇論文就決定投資某個初創(chuàng)企業(yè)。
根據(jù)我們(ZL)與投資者合作的經驗,他們經常被那些研究方向被媒體報道過的初創(chuàng)企業(yè)所吸引——金錢激勵與媒體關注度緊緊相連。我們注意到,最近對聊天機器人初創(chuàng)企業(yè)的熱潮與學術與媒體上對話系統(tǒng)和強化學習擬人化同時出現(xiàn)。盡管確實很難知道,到底是獎學金的不足引起了投資者的興趣,還是正好相反。
討論
不少人可能會建議,在本領域正火熱發(fā)展之時不要進行干預:你不該和成功過不去!我們將這樣回擊這些反對的聲音。首先,上面論述的這些文獻是機器學習最近的成功的結果,而非其原因。
事實上,許多指引深度學習成功之路的文獻都是對訓練深度網(wǎng)絡原則進行的非常仔細的實證研究。這其中包括:隨機參數(shù)搜索比序列性參數(shù)搜索更加有優(yōu)勢[5],不同激活函數(shù)的行為特征[34, 25],以及對無監(jiān)督學習預訓練的理解[20]。
第二,存在缺陷的學術研究已經負面影響到了研究界以及更廣泛的社會認知。我們在第三部分內看到了許多例子。未被證實的斷言被引用上千次,所謂變型改進的被簡單基準推翻,看似測試高水平語義推理的數(shù)據(jù)實際上僅僅測試簡單的語法通順度,還有大量術語的不當使用使學術對話變得令人困惑。最后一個問題還影響研究結果對公眾的發(fā)布。
例如,歐盟議會通過了一項報告,考慮當“機器變得/被制造成具有自我意識”時,進行法規(guī)約束[16]。盡管機器學習研究者們無需對所有對其研究的錯誤理解負責,擬人化權威同行審核的文章確實似乎該負起一部分責任。
我們相信,更嚴肅精確的表達,科學與理論對科學進步與面向大眾的科普都非常關鍵。此外,作為在醫(yī)療,法律與無人駕駛等關鍵領域應用機器學習的從業(yè)者,對于機器學習系統(tǒng)能力與不足的精準認識將幫助我們負責任地應用機器學習。我們將在文章最后一個部分討論一些反駁觀點并提供一些背景知識。
反面因素的考慮
對于前述建議,我們也考慮了一些反面因素。一些閱讀了本文草稿的讀者指出,隨機梯度下降通常比梯度下降收斂更快——也就是說,無視我們對于撰寫一篇“更干凈”的文章的建議,可能一個噪音更多但速度更快的過程可以幫助加快研究的進程。
例如ImageNet分類的那篇突破性文章[39]提出了數(shù)個方法,并沒有進行消融學習。后來其中一些因素被認定為并非必要。然而,在實驗結果如此重要并且計算成本非常高昂的時候,可能等待排除所有其它因素完全完成就可能不太劃算。
另一個相關的顧慮是,高標準可能阻礙原創(chuàng)性觀點的發(fā)表。這樣的觀點一般非同尋常并且非常冒險。在其他領域,比如經濟學,高標準導致文章發(fā)表周期非常冗長,一篇文章可能會經過數(shù)年才能夠正式發(fā)表。校對耗時過長,會占用原本可以花在新研究上的時間與資源。
最后,專業(yè)化可能會有所幫助:那些提出新概念與想法或建立新系統(tǒng)的研究者并不需要與那些仔細校勘提煉知識的研究者完全相同。
我們認為這些考慮非常實在,有時上述標準確實過于苛求。然而,在許多情況下他們都能夠被直截了當?shù)貙嵤?,僅需要多花幾天在實驗與仔細寫作上。
并且,我們提出這些觀點,不是讓他們成為決不能被違背的守則,而是想啟發(fā)大家——如果有些觀點不違背這些標準就無法被分享,那我們更寧愿大家暫時無視此標準,分享觀點。此外,我們幾乎總是能發(fā)現(xiàn),試圖遵守這些標準總是非常值得。簡而言之,我們并不相信研究界已經在增長-質量前沿上達到了帕累托最優(yōu)狀態(tài)。
歷史上的先例
本問題并不僅存在于機器學習界,也并不僅存在于現(xiàn)在。他們反映了學術界一直以來周期性反復出現(xiàn)的問題。1964年,物理學家John R. Platt在其一篇關于強推理的論文[62]中討論了類似的問題。他認為堅持某種用實證標準衡量致使了分子生物學界和高能物理相對于其他科學學科的快速發(fā)展。
在人工智能領域也有類似的討論。正如在第一部分所述,在1976年,Drew McDermott在[53]中從數(shù)個方面批評了一個人工智能社團(基本上就是機器學習的前身),包括定義具有暗示性以及沒有將猜測與技術聲明分離開。在1988年,Paul Cohen與Adele Howe在[13]中強調了一個人工智能團體。該團體當時“幾乎從不公開對其提出的算法的表現(xiàn)評估”,而僅僅是描述了一下系統(tǒng)。
他們建議建立一個有意義的量化過程的評估標準,并且建議分析“為什么它有用?”,“在什么情況下它會失效?”以及“該設計被證明可靠了么?”等一類直至今天仍然有用的問題。最后,在2009年,Armstrong及其共同作者們在[2]中討論了信息查詢研究的實證嚴謹度。
他們發(fā)現(xiàn)文章正傾向于將自己的研究結果與同樣糟糕的標準進行對比,得到一系列壓根就不會得到有意義的結果的所謂改進方法。
在其他領域,學術研究成果未經檢查的減少已經引起了危機。2015年的一項著名研究[14]認為,心理學界一大部分發(fā)現(xiàn)并不能被重復實驗得到相同結果。歷史上發(fā)生過數(shù)次這樣的事情,激情與未加約束的學術研究使得整個專業(yè)都誤入歧途。例如,在發(fā)現(xiàn)X光后,一個研究N光的相關學科突然出現(xiàn)[61],最終被揭穿其虛假的面具。
結束語
讀者們也許會指出:這些問題其實是可以自我糾正的。沒錯,我們認同這一觀點。然而,唯有通過對學術標準的不斷討論,機器學習研究圈才能“自我糾正”這一問題。這也正是本文希望作出的貢獻。
相關報道:
http://www.21jieyan.cn
責任編輯:陳近梅