中國互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的規(guī)模劇增,每天都在產(chǎn)生難以數(shù)計(jì)的信息,在信息量浩如煙海的網(wǎng)頁中采集數(shù)據(jù),然后運(yùn)用在工作和生活中已經(jīng)非常普遍,也演變成了大數(shù)據(jù)時(shí)代的潮流。
伴隨著信息量的增長和網(wǎng)頁結(jié)構(gòu)的復(fù)雜化,數(shù)據(jù)獲取的難度在不斷提升。對(duì)于以往簡(jiǎn)單少量的數(shù)據(jù)需求,只需通過手動(dòng)的復(fù)制粘貼就可以輕松采集到,比如我們?yōu)榱素S富自己的博客或者論證一篇學(xué)術(shù)報(bào)告,會(huì)從網(wǎng)絡(luò)中摘錄一些文章、期刊,圖片等等。而現(xiàn)在我們對(duì)數(shù)據(jù)的運(yùn)用變得更加廣泛,企業(yè)需要大量的數(shù)據(jù)來分析業(yè)務(wù)發(fā)展趨勢(shì),挖掘潛在的機(jī)遇,做出正確決策;政府需要從多方面了解民意民聲,推動(dòng)服務(wù)轉(zhuǎn)型;醫(yī)療、教育、金融……無一能夠脫離數(shù)據(jù)得到快速發(fā)展。
這些數(shù)據(jù)多來自公開的互聯(lián)網(wǎng),來自網(wǎng)頁中人們錄入的大量文字、圖片等具有潛在價(jià)值的信息,這些信息數(shù)據(jù)由于數(shù)量龐大無法再通過手動(dòng)的采集方式去獲取,因此網(wǎng)頁抓取工具進(jìn)入了人們的視野,并取代手動(dòng)采集成為數(shù)據(jù)獲取的最新捷徑。
目前使用人數(shù)較多的網(wǎng)頁抓取工具分為兩種,一種是源代碼解析型,通過HTTP協(xié)議直接請(qǐng)求網(wǎng)頁源代碼并設(shè)置采集的規(guī)則實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)抓取,無論是圖片、文字還是文件都可以抓取,這種類型的抓取工具優(yōu)點(diǎn)在于穩(wěn)定并且十分快速,使用者需要對(duì)網(wǎng)頁源代碼的相關(guān)知識(shí)做些了解,然后在抓取工具上進(jìn)行設(shè)置,就可以完全交由工具去采集了。時(shí)下流行的這種抓取工具還包括更多的功能,比如火車采集器(www.y5958.cn)中的數(shù)據(jù)替換、過濾,排重等多種處理以及數(shù)據(jù)發(fā)布;除此之外,火車采集器還支持二級(jí)代理服務(wù)器,滿足三種不同用途的插件擴(kuò)展等,集各種智能化的功能于一身。
另一種是使用特定的網(wǎng)頁元素定位和爬蟲引擎模擬人打開網(wǎng)頁點(diǎn)擊網(wǎng)頁內(nèi)容的思維,采集已經(jīng)經(jīng)過瀏覽器可視化渲染的內(nèi)容。其優(yōu)點(diǎn)在于可視化和靈活,在速度上可能不及火車采集器類型的抓取工具,但應(yīng)對(duì)復(fù)雜的網(wǎng)頁較容易處理,比如火車系列的另一產(chǎn)品火車瀏覽器。兩種工具各有優(yōu)勢(shì),使用者根據(jù)需求重點(diǎn)來選擇即可,對(duì)于更高的抓取需求,可以將兩種類型的軟件搭配使用,為對(duì)接方便,可選用同一品牌的兩種軟件進(jìn)行組合。
有了網(wǎng)頁抓取工具,圖文數(shù)據(jù)甚至是壓縮文件、音頻等數(shù)據(jù)的獲取變得簡(jiǎn)單化了,就像人類每一項(xiàng)偉大的發(fā)明都將引領(lǐng)時(shí)代的進(jìn)步一樣,大數(shù)據(jù)時(shí)代的大勢(shì)所趨也要求我們與時(shí)俱進(jìn),用智慧支配行為,用數(shù)據(jù)決勝未來。而獲取數(shù)據(jù),網(wǎng)頁抓取工具將會(huì)帶來真正的高效率。
媒體報(bào)道:
搜狐媒體:http://mt.sohu.com/20151105/n425381832.shtml
賽迪網(wǎng):http://www.ccidnet.com/2015/1105/10047717.shtml
比特網(wǎng):http://do.chinabyte.com/198/13610698.shtml
科技訊:http://www.kejixun.com/article/201511/133445.html
中華網(wǎng):http://money.china.com/fin/kj/201511/05/5585263.html
中國軟件資訊網(wǎng):http://www.cnsoftnews.com/news/201511/32862.html
和訊:http://tech.hexun.com/2015-11-05/180376709.html
央視廣東:http://yueyu.cntv.cn/2015/11/05/ARTI1446714642946258.shtml