精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁(yè) 觀點(diǎn)正文

爬蟲(chóng)工程師:應(yīng)該說(shuō)我們是大數(shù)據(jù)行業(yè)的“蒼蠅”

搜索引擎爬蟲(chóng)可以檢索你的一切信息,并提供給其他用戶訪問(wèn)。只不過(guò)因?yàn)閞obots協(xié)議的存在,搜索引擎爬蟲(chóng)對(duì)自己的檢索范圍做了限制,所以它是善意的爬蟲(chóng)。

隨著電子商務(wù)行業(yè)的崛起,比價(jià)的需求使得爬蟲(chóng)有了更大的市場(chǎng),不過(guò)大家爬別人的同時(shí),并不喜歡自己被爬。畢竟被抓數(shù)據(jù)會(huì)使得自己在競(jìng)爭(zhēng)中處于不利的位置,并且增加自身的服務(wù)器負(fù)擔(dān),這無(wú)異于增大了運(yùn)維成本。所以大家都覺(jué)得:寧叫我爬天下人,休叫天下人爬我。于是又誕生了反爬蟲(chóng)。

后來(lái)“大數(shù)據(jù)”來(lái)了,無(wú)數(shù)互聯(lián)網(wǎng)從業(yè)者從中嗅到了商機(jī)。但是這些人手上并沒(méi)有大數(shù)據(jù),于是他們開(kāi)始用爬蟲(chóng)拼命地抓取互聯(lián)網(wǎng)上的數(shù)據(jù),然后做幾個(gè)PPT,用他們手中的數(shù)據(jù)去融資。

龐大數(shù)據(jù)的需求進(jìn)一步激勵(lì)了爬蟲(chóng)程序“野蠻成長(zhǎng)”,這給整個(gè)互聯(lián)網(wǎng)帶來(lái)沉重的負(fù)擔(dān)。于是造成了“反爬蟲(chóng)技術(shù)越強(qiáng),就需要更多的爬蟲(chóng)工程師”的循環(huán)……

某蟲(chóng)(化名)是一家公司的爬蟲(chóng)工程師,他這樣描述爬蟲(chóng)工程師們的工作:“用蜜蜂來(lái)形容我們并不恰當(dāng),因?yàn)檫@種‘勤勞’并不被人喜歡。一般公司也不會(huì)說(shuō)自己有爬蟲(chóng)團(tuán)隊(duì)?!?/p>

“雖然那些抓取的數(shù)據(jù)都是對(duì)外開(kāi)放的,不存在侵犯隱私、網(wǎng)絡(luò)安全的問(wèn)題,但那些服務(wù)器資源本來(lái)是為客戶服務(wù),爬蟲(chóng)作為不請(qǐng)自來(lái)、又吵又鬧的客人總是不受歡迎的,比起蜜蜂更像是蒼蠅,被到處驅(qū)趕。”

爬蟲(chóng)工程師:應(yīng)該說(shuō)我們是大數(shù)據(jù)行業(yè)的“蒼蠅”

爬蟲(chóng)工程師的工作

爬蟲(chóng)最終目的是提供數(shù)據(jù),爬蟲(chóng)工程師要做的就是編寫(xiě)一個(gè)程序,這個(gè)程序會(huì)自動(dòng)抓取并保存下獲得的信息。但與數(shù)據(jù)分析不一樣,爬蟲(chóng)工程師一般來(lái)說(shuō)是按照別人的需要去抓取數(shù)據(jù),至于數(shù)據(jù)價(jià)值的挖掘就和他們沒(méi)什么關(guān)系了。

但這工作并不像看起來(lái)這么輕松,不光要設(shè)法繞過(guò)別人的反爬措施,還要對(duì)抓下來(lái)的數(shù)據(jù)通過(guò)技術(shù)手段辨別真?zhèn)?。并且別人的網(wǎng)站一旦改版更新,原有的爬蟲(chóng)程序很可能就不管用了,必須得隨著別人的技術(shù)迭代不停地升級(jí)爬蟲(chóng)程序,更不要說(shuō)還有各個(gè)公司之間的爬蟲(chóng)工程師們隔空“斗法”。

某蟲(chóng):“在論壇上聽(tīng)到同行分享過(guò)這樣的故事:說(shuō)的是他們與競(jìng)爭(zhēng)對(duì)手斗得難解難分,有一天對(duì)方在反爬蟲(chóng)的代碼里寫(xiě)下注釋:‘天天加班,老板給你加工資嗎?’工作組的成員才幡然醒悟。隨后經(jīng)過(guò)一系列的交流,雙方達(dá)成和解,當(dāng)然這一切都是瞞著老板的。大家坐一塊談攏之后,工作就變得容易了很多,都給對(duì)方留了后門(mén),方便對(duì)方爬自己,反爬蟲(chóng)的工作就變成了一個(gè)形式。最多就是在交流群里抱怨:‘你們?cè)L問(wèn)頻率怎么這么高?’‘你怎么把接口給關(guān)了?’‘你們給的數(shù)據(jù)是不是有問(wèn)題?’……”

現(xiàn)實(shí)中如果真能達(dá)成這樣的默契,那肯定是‘雙贏’的局面。雖然這個(gè)故事更多是逗趣的段子,但在爬蟲(chóng)與反爬蟲(chóng)的斗爭(zhēng)中,資源被無(wú)意義的浪費(fèi)卻是不爭(zhēng)的事實(shí)。

當(dāng)然,某蟲(chóng)也從未擔(dān)心過(guò)自己會(huì)在未來(lái)某一天失去工作,對(duì)于公司來(lái)說(shuō),爬蟲(chóng)工程師的意義卻依然十分重要,只是降低服務(wù)器負(fù)載這一點(diǎn)就足夠了。

爬蟲(chóng)工程師眼中的數(shù)據(jù)

某蟲(chóng):“回想最初的自己,也是因?yàn)閷?duì)唯數(shù)據(jù)論深信不疑才投身到爬蟲(chóng)工程師的行伍中的。跟現(xiàn)在流行大數(shù)據(jù)一樣,只不過(guò)這股風(fēng)吹到了社會(huì)大眾中去。在我看來(lái),大數(shù)據(jù)的關(guān)鍵在于‘誰(shuí)來(lái)用’,這比‘怎么用’更重要。”

爬蟲(chóng)的最終目的是獲取數(shù)據(jù),數(shù)據(jù)的用途按現(xiàn)在比較流行的說(shuō)法大致有網(wǎng)絡(luò)輿情監(jiān)測(cè)、客戶全景畫(huà)像、競(jìng)爭(zhēng)對(duì)手分析、行業(yè)垂直搜索等,某蟲(chóng)看來(lái)這還是沒(méi)跳脫傳統(tǒng)統(tǒng)計(jì)分析的范圍。

當(dāng)然這些和一個(gè)基層爬蟲(chóng)工程師沒(méi)什么關(guān)系,搶票、刷榜、找資源之類的項(xiàng)目才是大多數(shù)初學(xué)者最容易也最喜歡上手的方向,而且這些小項(xiàng)目確實(shí)會(huì)帶來(lái)不小的成就感,但是熱情衰退之后就發(fā)現(xiàn)數(shù)據(jù)這東西遠(yuǎn)沒(méi)有自己想像的那么美好。

某蟲(chóng):“頭一次抓下來(lái)一些數(shù)據(jù)的時(shí)候,覺(jué)得自己太厲害了,像是自己洞悉了這個(gè)世界的所有秘密一樣。但隨著時(shí)間推移手里那些諸如招聘信息、某市租房信息、項(xiàng)目外包信息之類的數(shù)據(jù)漸漸塞滿了硬盤(pán),到底也沒(méi)產(chǎn)生點(diǎn)經(jīng)濟(jì)價(jià)值,刪除吧也舍不得,畢竟費(fèi)了功夫的?!?/p>

“有次一個(gè)(女性)朋友發(fā)來(lái)消息說(shuō):我參加一個(gè)比賽,幫我投一下票。稍稍一分析那網(wǎng)站,好弱的反爬蟲(chóng)意識(shí),我樂(lè)了。惡趣味被激了起來(lái),花了一會(huì)兒功夫用Python寫(xiě)好代碼,多線程模擬投票刷起來(lái)。不多時(shí),我朋友已經(jīng)攀升至第一名。”

“很早以前在論壇上看到‘互聯(lián)網(wǎng)上50%的流量都是爬蟲(chóng)創(chuàng)造的’時(shí)我還不相信,覺(jué)得夸張了。爬蟲(chóng)是有用,但也不能有這么多需求啊。

隨著網(wǎng)絡(luò)媒體的發(fā)展,各種明星、網(wǎng)站流量造假的情況被媒體披露出來(lái),背后的產(chǎn)業(yè)鏈逐漸浮出水面。聯(lián)系自己的工作內(nèi)容想一想,現(xiàn)在反而覺(jué)得‘互聯(lián)網(wǎng)上50%的流量都是爬蟲(chóng)創(chuàng)造的’確實(shí)夸張了,怎么可能這么少,說(shuō)90%都是輕的?!?/p>

回頭看大數(shù)據(jù)

對(duì)于一般大眾來(lái)說(shuō),大數(shù)據(jù)紅利、數(shù)據(jù)價(jià)值化、信息化社會(huì)賦能這樣的詞匯顯得虛無(wú)縹緲,都是聽(tīng)得多見(jiàn)得少。而從事數(shù)據(jù)采集的某蟲(chóng)卻這樣描述:“技術(shù)到底只是技術(shù),最后改變社會(huì)的,還是社會(huì)的行為主體自身。”

蟲(chóng):“早些時(shí)候,‘樂(lè)看免費(fèi)小說(shuō)’APP就是利用爬蟲(chóng)非法抓取正規(guī)網(wǎng)站的資源然后免費(fèi)提供給觀眾,再賺取廣告費(fèi)。一個(gè)月賺了20多萬(wàn),這向大家展示了爬蟲(chóng)技術(shù)蘊(yùn)含的能量和反爬的重要性,當(dāng)然他們很快被抓了并且賠更多的錢(qián)?!雹?/p>

“而現(xiàn)在AI技術(shù)的發(fā)展讓爬蟲(chóng)的攻防戰(zhàn)有種山雨欲來(lái)風(fēng)滿樓的感覺(jué),但談不上什么質(zhì)變,就目前來(lái)說(shuō)其核心還是商業(yè)行為。

比如:抓取汽車(chē)之家論壇發(fā)言,對(duì)各種車(chē)型的車(chē)主做畫(huà)像;抓取天貓、京東、淘寶用戶評(píng)價(jià),了解產(chǎn)品在消費(fèi)者心目中的形象;抓取58同城房產(chǎn)買(mǎi)賣(mài)信息,預(yù)估房?jī)r(jià)走勢(shì);抓取大眾點(diǎn)評(píng)、美團(tuán)網(wǎng)的用戶消費(fèi)信息了解周邊變化的口味。

這些歸結(jié)起來(lái)都是在描述一個(gè)群體的特征,針對(duì)性的做出決策,也就是客戶全景畫(huà)像。雖然在網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的支持下,很多非數(shù)據(jù)持有主體也可以對(duì)客戶相關(guān)信息進(jìn)行實(shí)時(shí)采集、監(jiān)測(cè),從而發(fā)掘潛在商機(jī)和預(yù)估風(fēng)險(xiǎn)。但這并不足以像‘工業(yè)革命’一樣改變社會(huì)?!?/p>

“2008年谷歌推出谷歌流感趨勢(shì)(Google Flu Trends)時(shí),業(yè)內(nèi)許多人都將其視為大數(shù)據(jù)淘汰傳統(tǒng)分析方式的一個(gè)標(biāo)志。然而隨后的豬流感出現(xiàn)完全沒(méi)有被它預(yù)告,反映的事實(shí)就是技術(shù)的進(jìn)步并沒(méi)有達(dá)到能改變社會(huì)的程度。很多人將現(xiàn)在的困境描述成數(shù)據(jù)非機(jī)構(gòu)化、數(shù)據(jù)孤島或是大‘薄’數(shù)據(jù),我也十分認(rèn)同。

要解決這個(gè)問(wèn)題,之前被經(jīng)常用來(lái)勸告‘技術(shù)宅’的那句‘多出去走走’興許就是藥方。

舉個(gè)例子:前段時(shí)間看到新聞,大數(shù)據(jù)+尋親幫助了很多失散的家庭找回了親人,成效顯著。但進(jìn)一步試想一下,如果政府部門(mén)的人口數(shù)據(jù)和醫(yī)院的數(shù)據(jù)都能相互‘多走動(dòng)’,那被拐賣(mài)的兒童有沒(méi)有可能在第一次進(jìn)醫(yī)院時(shí)就被找到呢?

也就是說(shuō),目前的大數(shù)據(jù)+尋親只是多了一種技術(shù)手段,而不是徹底顛覆了反拐賣(mài)模式。當(dāng)然技術(shù)的積累肯定是發(fā)展道路上必要過(guò)程,但是也可以看出,所謂數(shù)據(jù)厚度、結(jié)構(gòu)化的問(wèn)題,還是只能交由社會(huì)來(lái)解決,技術(shù)始終只是為了促成了各個(gè)社會(huì)主體‘走到一起’。

所以我說(shuō),目前的大數(shù)據(jù)是‘誰(shuí)來(lái)用’比‘怎么用’更關(guān)鍵?!?/p>

責(zé)任編輯:陳近梅

分享: