來源:數(shù)據(jù)觀 時間:2017-02-22 16:01:16 作者:大數(shù)據(jù)文摘
?聲音是傳遞信息的重要方式之一。 大多數(shù)開車的人都熟悉汽車皮帶打滑的聲音。我爺爺甚至能靠耳朵來判斷高載火車的剎車問題。還有很多專家都能通過聽他們常用機器發(fā)出來的聲音來檢測機器運行的問題。
?如果能找到一種自動監(jiān)聽的方法,我們就可以24小時監(jiān)控我們生活的世界中存在的各種機器。 當我們被通知機器聲音發(fā)生異常時,我們便可以預測出發(fā)動機、鐵路基礎設施、石油鉆井和發(fā)電廠的運行故障。
?自動監(jiān)聽技術能減少運行事故造成的人員傷亡。盡管最近機器學習領域取得了很大發(fā)展,利用機器學習實現(xiàn)自動監(jiān)聽的技術仍處于研發(fā)階段。我們已經(jīng)獲得許多音頻數(shù)據(jù),但這些數(shù)據(jù)往往沒有關鍵的分類標簽(譯者注:即標注每段音頻來自正常還是異常的運行情況)。 在深度學習的模型里,這樣的“黑箱”問題讓我們很難確定某段音頻被標記為異常的原因。我們仍然在努力解決真實的機器學習的邊緣問題中的難題。 而且這些音頻常常帶有比信號更強的噪音,從而限制了我們能從音頻數(shù)據(jù)里提取到的可用于機器學習的特征。
?聲音的鴻溝
?大多數(shù)機器學習領域的研究者認為人工智能作為一顆冉冉升起的新星,將征服一個又一個領域,偶爾還能有些影響廣泛的大突破。根據(jù)這個預測,我們已經(jīng)征服了圖像字幕和語音識別領域,但使用更廣泛的機器聲音識別仍落在后面。
?眾多機器學習的突破背后依賴于一個精心組建的數(shù)據(jù)集。比如:在研究對象識別的時我們可以用 ImageNet(譯者注:ImageNet是一個被廣泛應用于圖像識別研究的圖像數(shù)據(jù)庫),而在研究語言數(shù)據(jù)聯(lián)盟和語音識別時則可以參考GOOG-411(譯者注:GOOG-411是Google公司在2007年推出的一個以語音識別為基礎的商業(yè)性電話公司咨詢服務,該服務已于2010年11月12日終止)。但要找到一個合適的數(shù)據(jù)集來區(qū)分列車門關閉和臥室門關閉的聲音仍然具有一定的挑戰(zhàn)性。
?Deepgram(一家?guī)椭渌舅阉骱头诸愐纛l數(shù)據(jù)的創(chuàng)業(yè)公司)的首席執(zhí)行官Scott Stephenson認為:“如果你能正確地構建模型,深度學習可以做很多事情。你所需要的只是很多機器的數(shù)據(jù)。十五年前還沒有那些好的數(shù)據(jù)集的時候,語言識別技術也沒有現(xiàn)在這么成熟。 ”
?盡管亞馬遜土耳其機器人(AmazonMechanical Turk)上有大量公眾可以使用的帶標簽的狗和貓的圖片(譯者注:這些大規(guī)模貓狗圖片數(shù)據(jù)集已被廣泛用于深度學習的研究),但要收集100,000個滾珠軸承的聲音和那些帶標記的貓狗數(shù)據(jù)集是完全不同的。(譯者注:亞馬遜土耳其機器人是一個Web服務應用程序接口(API),開發(fā)商通過它可以將人的智能整合到遠程過程調用(RPC)。)
?這些問題已經(jīng)折磨著單一用途的聲學分類器,而更加難以實現(xiàn)的目標是建造一個可用于識別所有的聲音(而不僅僅是建一個區(qū)分這些門的聲音的模型)的工具。
?通過內省欣賞
?人類的歸納能力使我們特別擅長給聲音進行分類。 回想一下上一次你聽到一輛救護車從你的公寓樓下沖過, 即使多普勒效應造成聲波的變化頻率會影響你聽到的警笛的音調,你仍然能很容易地識別出沖過的是輛救護車。
?然而研究人員需要發(fā)揮出創(chuàng)造性才能把這個過程自動化。其中一個原因是從收集移動物體(聲音)信息的固定傳感器中提取的特征是有限的。
?缺乏源分離可能使問題進一步復雜化。(譯者注:在數(shù)字信號處理領域,源分離問題指從幾個信號混合成的合成信號中恢復原始的分量信號。)即使是人類自己也不容易分離這些混合的聲音信號。如果你曾經(jīng)嘗試在一個喧嘩的餐廳里試圖聽清楚其中一個桌子上的對話,你就知道理解混合在一起的聲音有多么困難。
?英國薩里大學(University ofSurrey)的研究人員能使用深度卷積神經(jīng)網(wǎng)絡(deepconvolutional neural network)在許多歌曲中分離人聲和背景樂器。他們的訣竅是把50首歌拆分成的單個樂器和人聲來訓練他們的模型。然后將這些聲軌切割成每段20秒來創(chuàng)建許多個譜圖。利用這50首歌的譜圖,他們的模型能在新的歌曲中分離人聲和背景樂器。
?但這僅僅是把一首歌分成五個易于識別的部分。如果我們要記錄一個近60英尺高(譯者注:約18米高)的MANB&W 12S90ME-C Mark 9.2型柴油發(fā)動機的聲音,并要求機器學習模型切分出來自發(fā)動機各元件的聲音,就不是一件容易的工程了。
?聲音領域的開拓者
?Spotify是一家雄心勃勃地要把機器學習應用到音頻信號上的公司。 雖然Spotify仍然依賴于其他數(shù)據(jù)堆,但他們的推薦特征里也包括了歌曲本身的信號。
?音樂推薦傳統(tǒng)上依賴于協(xié)同過濾(collaborative filtering)的啟發(fā)。(譯者注:協(xié)同過濾是機器學習中基于對其他相似顧客對哪些產(chǎn)品感興趣的分析來推薦給某位特定顧客他可能感興趣的東西的一種模型。)這些基本模型推薦給你與你有相似喜好的用戶所播放的歌曲。
?上圖,根據(jù)Spotify,濾波器以不同頻率的紅色和藍色波帶來表示聲音的內容。傾斜表示上升和下降的音調。
?在可控的音樂環(huán)境之外,工程師提出了大致兩類解決方案。第一個我把它稱作“定制解決方案”模型,公司從客戶端收集數(shù)據(jù),唯一目的是識別預設的聲音范圍。實施這個方案如同“建造一只熊”,成本昂貴,通常為工業(yè)應用。
?第二種方法是一種“捕捉”可以標記任何聲學異常的深度學習模型。這些模型通常需要專業(yè)人士手動分類聲音,然后進一步訓練模型去尋找什么。隨著時間的推移,這些系統(tǒng)需要越來越少的人為干預。
?一家名為“3D信號”的公司正在結合這兩種方法進行創(chuàng)業(yè)。該公司在旋轉設備的聲學異常檢測方面擁有專利。這些設備包括電動機、泵、渦輪機、齒輪箱和發(fā)電機等。
?3D信號公司的首席執(zhí)行官Amnon Shenfeld說:“我們構建了一個非常龐大的架構,將大量分布式機器連接到我們的監(jiān)控平臺,當這些機器發(fā)生故障時,我們的算法會檢測到這些故障。
?上圖,MAN B&W12S90ME-C Mark 9.2型柴油發(fā)動機
?他們也利用現(xiàn)有工程師對特別重要的問題進行分類。如果技術人員識別到問題,他們可以標記為聲學異常,這有助于訓練學習算法以便在未來區(qū)分這些類型的聲音。
?另一家公司OtoSense則在其網(wǎng)站上提供了一個“設計實驗室”。 客戶可以查找他們想要的識別特定聲音事件的樣板,公司將提供一個可以滿足他們特定需要的軟件平臺。
?預測性維護不僅是可實現(xiàn)的,而且將隨時可以使用。像3DSignals和OtoSense這樣的公司都瞄準了這個領域:利用商品化的物聯(lián)網(wǎng)傳感器來幫助用戶準確無誤地替換剛出問題的部件,從而避免了代價高昂的停機時間。
?明天的機器
?在未來的幾年內,我們將為廣泛的聲音檢測問題提供解決方案。新的聲學分析系統(tǒng)將跟蹤機器的生命周期成本,并幫助企業(yè)估計未來的預算。
?ATS咨詢公司(該公司從事噪聲和振動分析工作)的工程師ShannonMcKenna表示:“美國聯(lián)邦運輸管理局(FederalTransit Administration)強烈推動交通資產(chǎn)管理(Transit Asset Management)的狀態(tài)評估。我們認為這是一種幫助運輸機構為其鐵路系統(tǒng)提供狀態(tài)評估指標的方法?!?/p>
?除了像輪哨聲這樣的短路指示器,鐵路監(jiān)控工程師開始陷入如同在干草堆里尋找一個漂亮的粗糙的針頭這樣的問題。 McKenna解釋說,普通聲信號只代表大約50%的復雜鐵路系統(tǒng)可能面臨的問題。與規(guī)范性檢查的框架相反,真正的風險管理需要一個通用系統(tǒng) ––沒有人希望遇到由于罕見情況而導致的災難。
?但我們要想實現(xiàn)可以識別任何聲音的廣義分類器仍有很長的路要走。除非在算法上取得突破,我們將不得不分段解決問題。我們將需要研究人員建造出用于地下地鐵系統(tǒng)、人類呼吸系統(tǒng)和關鍵能源基礎設施的聲音分類器,以幫助監(jiān)控可能發(fā)生的事故。
?作者 | John Mannes
?編譯團隊 |Yawei, Jennifer Zhu,孫雅姍
?來源:http://www.21jieyan.cn
?
責任編輯:陳近梅