來(lái)源:大數(shù)據(jù)文摘 時(shí)間:2017-07-25 16:06:11 作者:
長(zhǎng)期以來(lái),在機(jī)器學(xué)習(xí)中不合理的數(shù)據(jù)利用效率一直是引起廣泛討論的話題。也有人認(rèn)為,曾經(jīng)阻礙人工智能領(lǐng)域取得各種重大突破的,并不是什么高深的算法,而是缺乏高質(zhì)量的數(shù)據(jù)集。然而討論的共同中心是,在當(dāng)下最前沿的機(jī)器學(xué)習(xí)方面,數(shù)據(jù)是一個(gè)相當(dāng)關(guān)鍵的組成部分。
獲取高質(zhì)量的初始數(shù)據(jù)對(duì)于那些運(yùn)用機(jī)器學(xué)習(xí)作為他們業(yè)務(wù)核心技術(shù)的創(chuàng)業(yè)公司來(lái)說(shuō)是十分重要的。雖然許多算法和軟件工具都是開(kāi)源和共享的,但是好的數(shù)據(jù)通常是私人專有而且難以創(chuàng)建的。因此,擁有一個(gè)大型的、特定領(lǐng)域的數(shù)據(jù)集可以成為競(jìng)爭(zhēng)優(yōu)勢(shì)的重要來(lái)源,尤其是如果初創(chuàng)公司能夠啟動(dòng)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)(在這種情況下,更多的用戶→更多的數(shù)據(jù)→更智能的算法→更好的產(chǎn)品→繼續(xù)帶來(lái)更多的用戶)。
因此,對(duì)于機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司必須做出的一個(gè)關(guān)鍵戰(zhàn)略決策是如何建立高質(zhì)量的數(shù)據(jù)集來(lái)訓(xùn)練他們學(xué)習(xí)算法。不幸的是,初創(chuàng)公司往往在一開(kāi)始只有有限的或沒(méi)有標(biāo)簽的數(shù)據(jù),這一情況會(huì)阻礙創(chuàng)始人在構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品方面取得重大進(jìn)展。因此,在雇傭數(shù)據(jù)科學(xué)團(tuán)隊(duì)或建立昂貴的核心基礎(chǔ)設(shè)施之前,從一開(kāi)始就值得探索一套數(shù)據(jù)收集策略。
創(chuàng)業(yè)公司可以通過(guò)多種方式克服剛開(kāi)始進(jìn)行數(shù)據(jù)采集時(shí)遇到的棘手的問(wèn)題。數(shù)據(jù)戰(zhàn)略/資源的選擇通常與商業(yè)模式的選擇、創(chuàng)業(yè)公司的關(guān)注重點(diǎn)(消費(fèi)者或企業(yè)、橫向或縱向的)以及融資情況密切相關(guān)。以下簡(jiǎn)單列出幾種并不互斥的策略,為廣泛的可用方法提供了一種大體框架。
策略#1:手動(dòng)工作
從頭構(gòu)建一個(gè)良好的專有數(shù)據(jù)集基本意味著要將大量的前期工作和人力資源投入到數(shù)據(jù)獲取上,還要完成大量無(wú)法批量完成的的手動(dòng)工作。在初期借助人力的創(chuàng)業(yè)公司的例子很多。例如,許多聊天機(jī)器人初創(chuàng)公司(通過(guò)改變對(duì)成功的定義和高職工流動(dòng)率吸引求職者)雇傭真人來(lái)做“人工智能培訓(xùn)師”,讓他們手動(dòng)創(chuàng)建或驗(yàn)證機(jī)器人所說(shuō)的話。就連科技巨頭也采取了這種策略:Facebook M(一個(gè)最新內(nèi)置在Facebook Messenger中人工智能驅(qū)動(dòng)的數(shù)字助理)的所有回應(yīng)都是由一個(gè)承包商團(tuán)隊(duì)審查和編輯的。
使用人力來(lái)手動(dòng)標(biāo)記數(shù)據(jù)點(diǎn)可以是一個(gè)成功的策略,只要數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)在某個(gè)時(shí)間點(diǎn)生效,這樣所需要的人力就不再以與用戶增長(zhǎng)相同的速度增加。只要人工智能系統(tǒng)進(jìn)步的速度足夠快,未指明錯(cuò)誤就會(huì)出現(xiàn)地不那么頻繁,相應(yīng)地,執(zhí)行手工標(biāo)記的人的數(shù)量也將會(huì)減少或保持不變。
適用對(duì)象:幾乎每一家機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司
例子:
一些聊天機(jī)器人創(chuàng)業(yè)公司(包括Magic、GoButler、x.AI和Clara)MetaMind(用于食品分類的手工收集和標(biāo)記數(shù)據(jù)集)Building Radar(員工/實(shí)習(xí)生手動(dòng)標(biāo)記建筑物的圖片)策略#2:縮小問(wèn)題范圍
大多數(shù)創(chuàng)業(yè)公司都會(huì)嘗試直接從用戶那里收集數(shù)據(jù)。
挑戰(zhàn)在于說(shuō)服早期用戶在機(jī)器學(xué)習(xí)的好處完全發(fā)揮作用之前保持使用該產(chǎn)品(因?yàn)槭紫刃枰獢?shù)據(jù)來(lái)訓(xùn)練和微調(diào)算法)。
解決這個(gè)自相矛盾的問(wèn)題的方法之一,是徹底縮小問(wèn)題范圍(如果需要的話,可以在之后再擴(kuò)大)。正如Chris Dixon所說(shuō):“你所需要的數(shù)據(jù)量與你試圖解決的問(wèn)題的廣度有關(guān)?!?/p>
Source: x.ai(來(lái)源于X.AI)
這樣縮小問(wèn)題范圍的好處再一次體現(xiàn)在聊天機(jī)器人上。這一領(lǐng)域的創(chuàng)業(yè)公司可以在兩種市場(chǎng)策略之間做出選擇:他們可以建立水平助手——可以幫助解決大量問(wèn)題和回應(yīng)即時(shí)請(qǐng)求的機(jī)器人(比如Viv、Magic、Awesome、Maluuba和Jam)?;蛘撸麄円部梢詣?chuàng)建垂直助手——能出色完成一項(xiàng)具體、明確的任務(wù)的機(jī)器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。這兩種方法都是有效的,不管如何選擇,只要縮小了問(wèn)題的范圍,數(shù)據(jù)收集對(duì)創(chuàng)業(yè)公司來(lái)說(shuō)都要容易得多。
適用對(duì)象:經(jīng)營(yíng)垂直整合業(yè)務(wù)的公司
例子:
高度專業(yè)化的垂直聊天機(jī)器人(如 x.ai, Clara or GoButler)Deep Genomics(利用深度學(xué)習(xí)來(lái)分類/解釋基因變異)Quantified Skin(使用客戶自拍照來(lái)分析一個(gè)人的皮膚)策略#3:眾包/外包
除了讓員工(或?qū)嵙?xí)生)來(lái)手動(dòng)收集或標(biāo)注數(shù)據(jù),創(chuàng)業(yè)公司也可以通過(guò)眾包來(lái)達(dá)到目的。像Amazon Mechanical Turk 或CrowdFlower 的平臺(tái)提供了一種方法,可以利用數(shù)百萬(wàn)人的在線勞動(dòng)力來(lái)清理混亂和不完整的數(shù)據(jù)。例如,VocalIQ(2015年被蘋(píng)果收購(gòu))使用亞馬遜土耳其機(jī)器人為其數(shù)字助手提供數(shù)千個(gè)用戶提出的問(wèn)題。員工也可以通過(guò)雇傭其他獨(dú)立的承包商來(lái)外包(就像Clara 或Facebook M所做的那樣)。使用這種方法的必要條件是可以清楚地解釋這個(gè)任務(wù),而且它不至于太長(zhǎng)或者很無(wú)聊。
另一種策略是鼓勵(lì)公眾自愿提供數(shù)據(jù)。一家總部位于巴黎的人工智能創(chuàng)業(yè)公司Snips就是一個(gè)例子,該公司利用這種方法獲得特定類型的數(shù)據(jù)(餐廳、酒店和航空公司的電子確認(rèn)信)。和其他創(chuàng)業(yè)公司一樣,Snips使用的是一種游戲化的系統(tǒng),用戶可以在排行榜上進(jìn)行排名。
適用對(duì)象:可以很容易地執(zhí)行質(zhì)量控制的情況
例子:
DeepMind, Maluuba, AlchemyAPI,和其他很多人(見(jiàn)這里see here)VocalIQ(用土耳其機(jī)器人幫助系統(tǒng)學(xué)習(xí)人們?nèi)绾握f(shuō)話)Snips (要求人們無(wú)償為研究提供數(shù)據(jù))策略# 4:引導(dǎo)用戶自發(fā)參與
有一種能夠自成一類的眾包策略,是通過(guò)恰當(dāng)?shù)姆绞揭龑?dǎo)用戶自發(fā)地產(chǎn)生數(shù)據(jù)。這種方法中很重要的一步是設(shè)計(jì)能夠?yàn)橛脩籼峁┣‘?dāng)激勵(lì),使其主動(dòng)將數(shù)據(jù)結(jié)果反饋給系統(tǒng)的產(chǎn)品。
那些在自家許多產(chǎn)品中都使用了這種方法的公司里,有兩個(gè)十分典型的例子:谷歌(搜索引擎、谷歌翻譯、垃圾郵件過(guò)濾器等等)和Facebook(用戶可在照片中給朋友加標(biāo)簽)。用戶通常不知道他們的行為在為這些公司提供免費(fèi)的標(biāo)簽數(shù)據(jù)。
機(jī)器學(xué)習(xí)領(lǐng)域的許多初創(chuàng)公司都從谷歌和Facebook中汲取了靈感,他們創(chuàng)建了具有糾錯(cuò)功能的產(chǎn)品,明確地鼓勵(lì)用戶糾正機(jī)器錯(cuò)誤。這方面特別出名的是reCAPTCHA 驗(yàn)證碼和Duolingo(都是由路易斯馮創(chuàng)立的)。其他的例子包括Unbabel,Wit.ai 和 Mapillary.
適用對(duì)象:以消費(fèi)者為中心并且有穩(wěn)定用戶交互的創(chuàng)業(yè)公司
例子:
Unbabel(用戶糾正機(jī)器翻譯的社區(qū))Wit.ai (為用戶提供了用于糾正翻譯錯(cuò)誤的面板/api)Mapillary (用戶可以糾正機(jī)器生成的交通標(biāo)志檢測(cè))策略# 5:開(kāi)發(fā)副業(yè)務(wù)
一個(gè)似乎特別受計(jì)算機(jī)視覺(jué)創(chuàng)業(yè)公司歡迎的策略是有針對(duì)性地向用戶提供一個(gè)免費(fèi)的、特定領(lǐng)域的手機(jī)app。
Clarifai、HyperVerge和Madbits(2014年被Twitter收購(gòu))都采取了這一策略,它們向用戶提供能夠?yàn)樽约旱暮诵臉I(yè)務(wù)收集額外圖像數(shù)據(jù)的照片應(yīng)用。
Source: Clarifai(來(lái)源于Clarifai)
這個(gè)策略并不是完全沒(méi)有風(fēng)險(xiǎn)(畢竟,成功開(kāi)發(fā)和推廣一個(gè)app是要花費(fèi)時(shí)間和金錢(qián)的)。創(chuàng)業(yè)公司還必須確保他們創(chuàng)建了一個(gè)足夠強(qiáng)大的使用案例,能讓用戶乖乖交出他們的使用數(shù)據(jù),即使在開(kāi)始時(shí)缺少數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)的優(yōu)勢(shì)。
適用對(duì)象:初創(chuàng)企業(yè)/橫向平臺(tái)
例子:
Clarifai(Forevery,可用來(lái)發(fā)現(xiàn)新照片的應(yīng)用程序)HyperVerge(Silver,可用來(lái)組織照片的應(yīng)用程序)Madbits(Momentsia,可用來(lái)拼貼照片的應(yīng)用程序)策略#6:數(shù)據(jù)陷阱
另一種收集有效數(shù)據(jù)排放的方法是構(gòu)建Matt Turck所謂的“數(shù)據(jù)陷阱”(Leo Polovets已經(jīng)給了這個(gè)策略一個(gè)不太可愛(ài)的名字:“特洛伊木馬收集數(shù)據(jù)法”)。目標(biāo)是創(chuàng)造一些即使在沒(méi)有機(jī)器學(xué)習(xí)的情況下也有價(jià)值的東西,然后以收集數(shù)據(jù)的成本出售(即使其中的邊際效益很小)。與之前的策略形成對(duì)比的是,構(gòu)建數(shù)據(jù)陷阱是創(chuàng)業(yè)公司商業(yè)模型的核心部分(而不僅僅是一個(gè)副業(yè)務(wù))。
一個(gè)相關(guān)的例子是Recombine,一家臨床基因檢測(cè)公司,通過(guò)提供生殖力測(cè)試服務(wù)來(lái)收集DNA數(shù)據(jù),然后可以將DNA數(shù)據(jù)用機(jī)器學(xué)習(xí)進(jìn)行分析。另一個(gè)例子是BillGuard(被Prosper于2015年收購(gòu)),一家提供了一個(gè)幫助信用卡用戶爭(zhēng)取“灰色費(fèi)用”的移動(dòng)端app的創(chuàng)業(yè)公司。該應(yīng)用程序幫助BillGuard獲得大量之后還可以用于其他目的欺詐數(shù)據(jù)。另一邊Telsla也正在使用這個(gè)策略。作為擁有超過(guò)10萬(wàn)輛(配有傳感器的)車輛正被用于行駛的公司,Tesla目前正在建造最大的自動(dòng)駕駛訓(xùn)練數(shù)據(jù)集(每天可以收集比Google更多的自動(dòng)駕駛里程)。
適用對(duì)象:經(jīng)營(yíng)垂直整合業(yè)務(wù)的企業(yè)
例子:
Recombine(提供生育力測(cè)試來(lái)收集DNA數(shù)據(jù))BillGuard(提供移動(dòng)應(yīng)用程序來(lái)收集欺詐數(shù)據(jù))Tesla(當(dāng)駕駛員使用自動(dòng)駕駛功能時(shí)收集數(shù)據(jù))
策略#7:公開(kāi)可用的數(shù)據(jù)集
一個(gè)許多創(chuàng)業(yè)公司都屢試不爽的策略是在公開(kāi)來(lái)源中挖掘數(shù)據(jù)。像“普通抓取”這樣的網(wǎng)絡(luò)存檔包含多年網(wǎng)絡(luò)爬蟲(chóng)收集的免費(fèi)原始數(shù)據(jù)。另外,像Yahoo或Criteo這樣的公司已經(jīng)向研究界發(fā)布過(guò)了大量數(shù)據(jù)集(雅虎發(fā)布了13.5 TB的未壓縮數(shù)據(jù)!)。隨著最近政府公開(kāi)數(shù)據(jù)庫(kù)的蓬勃發(fā)展(由奧巴馬政府引領(lǐng)),越來(lái)越多的數(shù)據(jù)來(lái)源正在免費(fèi)公開(kāi)。
幾家機(jī)器學(xué)習(xí)初創(chuàng)公司已經(jīng)在利用公共數(shù)據(jù)了。當(dāng)Oren Etzioni開(kāi)始Farecast(由Microsoft于2008年收購(gòu))時(shí),他使用了在旅游網(wǎng)站抓取信息而獲得的12,000個(gè)價(jià)格觀察樣本。同樣,SwiftKey(由Microsoft于2016年收購(gòu))在早期收集并分析了數(shù)十億網(wǎng)頁(yè)爬蟲(chóng)數(shù)據(jù),來(lái)創(chuàng)建它的語(yǔ)言模型。
適用對(duì)象:可以識(shí)別相關(guān)公共數(shù)據(jù)集的初創(chuàng)公司
例子:
Farecast(第一版從旅游網(wǎng)站爬取的信息)SwiftKey(抓取網(wǎng)頁(yè)文字來(lái)創(chuàng)建語(yǔ)言模型)The Echo Nest(每天爬取數(shù)百萬(wàn)個(gè)音樂(lè)相關(guān)網(wǎng)站)Jetpac(將公共Instagram數(shù)據(jù)用于其移動(dòng)應(yīng)用程序)
策略#8:第三方數(shù)據(jù)許可
訪問(wèn)第三方數(shù)據(jù)的另一種方法是通過(guò)外部數(shù)據(jù)提供者提供的API或通過(guò)在第三方移動(dòng)應(yīng)用程序中實(shí)施SDK來(lái)抓取數(shù)據(jù)(理想情況下是終端用戶同意)來(lái)得到許可。在這兩種情況下,創(chuàng)業(yè)公司都要支付另外一方來(lái)處理為某個(gè)目的而生成的數(shù)據(jù),然后應(yīng)用機(jī)器學(xué)習(xí)從該數(shù)據(jù)中提取新價(jià)值。
Farecast和Decide.com(均由Oren Etzioni創(chuàng)立)已經(jīng)成功地實(shí)施了這一戰(zhàn)略。開(kāi)放的數(shù)據(jù)平臺(tái),如Clearbit或Factual是外部數(shù)據(jù)提供者的典范。在使用第三方數(shù)據(jù)來(lái)挖掘預(yù)測(cè)信息的公司中,也有幾家對(duì)沖基金和算法交易公司(正在使用非傳統(tǒng)數(shù)據(jù)集,如Orbital Insight或Rezatec等創(chuàng)業(yè)公司的衛(wèi)星數(shù)據(jù))。
適用對(duì)象:依靠第三方數(shù)據(jù)的創(chuàng)業(yè)公司(如行業(yè)數(shù)據(jù))
例子:
Farecast(通過(guò)航空公司的數(shù)據(jù)使用許可來(lái)預(yù)測(cè)機(jī)票價(jià)格)Decide.com(通過(guò)電子商務(wù)的數(shù)據(jù)使用許可來(lái)預(yù)測(cè)價(jià)格)Building Radar(使用ESA衛(wèi)星圖像來(lái)監(jiān)測(cè)建設(shè)項(xiàng)目)戰(zhàn)略#9:與大企業(yè)協(xié)作
對(duì)于初創(chuàng)企業(yè),數(shù)據(jù)提供者可能是提供相關(guān)數(shù)據(jù)處理權(quán)的大客戶。在這個(gè)策略中,創(chuàng)業(yè)公司向客戶出售問(wèn)題的解決方案(如減少欺詐),并使用客戶的數(shù)據(jù)訓(xùn)練其學(xué)習(xí)算法。在理想情況下,從一個(gè)客戶或?qū)嵗凶龅臄?shù)據(jù)學(xué)習(xí)可以轉(zhuǎn)移給所有其他客戶。 例如在測(cè)謊領(lǐng)域的Sift Science和SentinelOne。
采用這種方法的難點(diǎn)在于如何在前期做好談判,確認(rèn)通過(guò)數(shù)據(jù)學(xué)習(xí)到的信息都?xì)w創(chuàng)業(yè)公司所擁有,而數(shù)據(jù)本身仍是顧客的資產(chǎn)。鑒于大型公司通常具有嚴(yán)格的規(guī)則,并且對(duì)共享專有數(shù)據(jù)非常敏感,這是很容易產(chǎn)生分歧的地方。
適用對(duì)象:企業(yè)創(chuàng)業(yè)公司
例子:
Sift Science(使用公司特有數(shù)據(jù)查找獨(dú)特的欺詐信號(hào))SentinelOne(銷售終端保護(hù)軟件的網(wǎng)絡(luò)安全初創(chuàng)公司)Skytree(開(kāi)發(fā)用于企業(yè)使用的機(jī)器學(xué)習(xí)軟件)策略#10:小型收購(gòu)
Matt Turck列出了許多公司的收購(gòu)方式,以獲得特別相關(guān)的數(shù)據(jù)集(類似于收購(gòu)有價(jià)值的專利組合)。 例如,IBM Watson在2015年進(jìn)行了四次與數(shù)據(jù)有關(guān)的收購(gòu),將其衛(wèi)生部門(mén)轉(zhuǎn)變?yōu)槭澜缟献畲蠛妥疃鄻踊慕】迪嚓P(guān)數(shù)據(jù)庫(kù)之一。
由于這種方法需要資金支持,所以可能只對(duì)于擁有充裕資金的創(chuàng)業(yè)公司來(lái)說(shuō)是可行的。
適用對(duì)象:(后期)有足夠資金的創(chuàng)業(yè)公司
示例:難以確定(數(shù)據(jù)是收購(gòu)的唯一原因)
很可能還有其他數(shù)據(jù)采集策略在這里沒(méi)有提到(如果是,請(qǐng)給我留言)。除此之外還有幾個(gè)初創(chuàng)公司可以用來(lái)解決數(shù)據(jù)問(wèn)題的算法技巧(例如傳輸學(xué)習(xí),MetaMind使用的一個(gè)技術(shù))。
無(wú)論您采取何種策略,關(guān)鍵信息是:獲取和擁有大型特定領(lǐng)域的數(shù)據(jù)集以構(gòu)建高精度模型可能是創(chuàng)業(yè)者一開(kāi)始就需要解決的最難的問(wèn)題。在某些情況下,它涉及到找一個(gè)能快速解決問(wèn)題但不是長(zhǎng)久之計(jì)的方案,比如雇傭人類來(lái)假裝是人工智能(像許多聊天機(jī)器人創(chuàng)業(yè)公司那樣)。在其他情況下,它要求企業(yè)大大地延長(zhǎng)免費(fèi)周期,限制測(cè)試版的公開(kāi)發(fā)布,直到機(jī)器學(xué)習(xí)的好處開(kāi)始發(fā)揮作用而且客戶愿意為此付費(fèi)。
這些策略和例子來(lái)自與企業(yè)家們的談話以及幾個(gè)博客文章,其中包括內(nèi)森·貝納奇(Nathan Benaich)(這里here),克里斯·迪克森(Chris Dixon)(這里here),弗洛里安·杜特奧(Florian Douetteau)(這里here),利奧·波洛維奇(這里here),馬特·圖克(Matt Turck) (這里here)。
原文:http://www.21jieyan.cn
?原作者 | Moritz Mueller-Freitag
?編譯 | 笪潔瓊 萬(wàn)如苑 一針
責(zé)任編輯:陳近梅