在日常工作和學(xué)習(xí)中,對(duì)一些有價(jià)值的文章進(jìn)行采集可以幫助我們提高對(duì)信息的利用率和整合率,對(duì)于新聞、學(xué)術(shù)論文等類型的電子文章,我們可以采用網(wǎng)頁抓取工具進(jìn)行采集,這類采集相對(duì)一些數(shù)字化的非規(guī)律性的數(shù)據(jù)還是較為容易的,這里以網(wǎng)頁抓取工具火車采集器V9為例,講解一個(gè)文章采集的實(shí)例以供大家學(xué)習(xí)。
熟悉火車采集器的朋友都知道,通過官網(wǎng)的FAQ可以檢索采集過程中遇到的問題,那么這里我們就以采集faq為例來說明網(wǎng)頁抓取工具采集的原理和過程。
本例以 http://faq.locoy.com/qc-12.html 演示地址。
(1)新建個(gè)采集規(guī)則
選擇一個(gè)分組上右擊,選擇“新建任務(wù)”,如下圖:
(2)添加起始網(wǎng)址
在這里假設(shè)我們需要采集 5頁數(shù)據(jù)。
分析網(wǎng)址變量規(guī)律
第一頁地址:http://faq.locoy.com/qc-12.html?p=1
第二頁地址:http://faq.locoy.com/qc-12.html?p=2
第三頁地址:http://faq.locoy.com/qc-12.html?p=3
由此我們可以推算出p=后的數(shù)字就是分頁的意思,我們用[地址參數(shù)]表示:
所以設(shè)置如下:
地址格式:把變化的分頁數(shù)字用[地址參數(shù)]表示。
數(shù)字變化:從1開始,即第一頁;每次遞增1,即每次分頁的變化規(guī)律數(shù)字; 共5項(xiàng),即一共采集5頁。
預(yù)覽:采集器會(huì)按照上面設(shè)置的生成一部分網(wǎng)址,讓你來判讀添加的是否正確。
然后確定即可
(3)[常規(guī)模式]獲取內(nèi)容網(wǎng)址
常規(guī)模式:該模式默認(rèn)抓取一級(jí)地址,即從起始頁源代碼中獲取到內(nèi)容頁A鏈接。
在這里給大家演示用 自動(dòng)獲取地址鏈接 +設(shè)置區(qū)域 的 方式來獲取。
查看頁面源代碼找到文章地址所在的區(qū)域:
設(shè)置如下:
注:更詳細(xì)的分析說明可以參考本手冊(cè):
操作指南 > 軟件操作 > 網(wǎng)址采集規(guī)則 > 獲取內(nèi)容網(wǎng)址
點(diǎn)擊網(wǎng)址采集測(cè)試,看看測(cè)試效果
(3)內(nèi)容采集網(wǎng)址
以 http://faq.locoy.com/q-1184.html 為例講解標(biāo)簽采集
注:更詳細(xì)的分析說明可以參考本手冊(cè)
操作指南 > 軟件操作 > 內(nèi)容采集規(guī)則 > 標(biāo)簽編輯
我們首先查看它的頁面源代碼,找到我們“標(biāo)題”所在位置的代碼:
<title>導(dǎo)入Excle是跳出對(duì)話框~打開Excle出錯(cuò) - 火車采集器幫助中心</title>
分析得出: 開頭字符串為:<title>
結(jié)尾字符串為:</title>
數(shù)據(jù)處理——內(nèi)容替換/排除:需要把- 火車采集器幫助中心 給替換為空
內(nèi)容標(biāo)簽的設(shè)置原理也是類似的,找到內(nèi)容所在源碼中的位置
分析得出: 開頭字符串為:<div id="cmsContent">
結(jié)尾字符串為:</div>
數(shù)據(jù)處理——HTML標(biāo)簽排除:把不需要的A鏈接等 過濾
再設(shè)置個(gè)“來源”字段
這樣一個(gè)簡(jiǎn)單的文章采集規(guī)則就做好了,不知道網(wǎng)友們學(xué)會(huì)了沒有呢,網(wǎng)頁抓取工具顧名思義是適用于網(wǎng)頁上的數(shù)據(jù)抓取,從上面的例子大家也可以看出,這類軟件主要是通過源代碼分析才解析數(shù)據(jù)的。這里還有一些情況是沒有列出的,比如登錄采集,使用代理采集等,如果對(duì)網(wǎng)頁抓取工具感興趣的可以登錄采集器官網(wǎng)自行學(xué)習(xí)一下。