提取的數(shù)據還不能直接拿來用?文件還沒有被下載?格式等都還不符合要求?別著急,網頁抓取工具火車采集器自有應對方案——數(shù)據處理。
網頁抓取工具的數(shù)據處理功能包括三個部分,分別是內容處理、文件下載、內容過濾。下面依次給大家介紹:
1、內容處理:對從內容頁面提取的數(shù)據進行替換、標簽過濾、分詞等進一步處理,我們可以同時添加多個操作,但這里需要注意的是,有多個操作時是按照從上到下的順序來執(zhí)行,也就是說,上個步驟的結果會作為下個步驟的參數(shù)。
下面來逐個介紹一下:
①提取內容為空:如果通過前面的規(guī)則無法準確提取或提取到的內容為空,則選擇此項,此項應用后會使用正則匹配從原始頁面中再次提取一次。
②內容替換/排除:將采集到的內容進行字符串替換,如需排除,則替換為空字符串即可,功能很靈活。如下圖,可直接對內容進行替換,也可對字符串進行參數(shù)替換等(區(qū)別于工具欄中的同義詞替換)。
③html標簽過濾:過濾指定html標簽,比如<a ,<font。這樣采集出來的內容就不會帶有源碼中一些樣式標簽,更符合我們的使用標準。
④字符截?。和ㄟ^開始和結束字符串對內容進行截取。適用于對已提取內容的截取調整。
⑤純正則替換:如果一些內容(比如單一出現(xiàn)的文字)無法通過通用的內容替換來操作,那么則需要通過強大的正則表達式進行復雜的替換。
如“火爆的美式餐廳都在這里”,我們將其替換為“美式餐廳”,正則表達式如下:
⑥數(shù)據轉換:包括將結果簡轉繁、將結果繁轉簡、自動轉化為拼音和時間修正轉化,共計四項處理。
⑦智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時間、智能提取郵箱、智能提取手機號碼、智能提取電話號碼。
⑧高級功能:包括自動摘要、自動分詞、自動分類、Http請求、字符編碼轉換、同義詞替換、空內容缺省值、內容加前后綴、隨機插入、運行C#代碼、批量內容替換,統(tǒng)計標簽字符串長度等一系列功能。
⑨補全單網址:將當前內容作為一個網址進行補全。
2、文件下載:可以自動探測并下載文件,可設置下載路徑和文件名樣式。
注意:文件下載中所指下載圖片是源代碼里有標準樣式<img src="圖片地址"/>標簽的圖片地址。
比如是一個直接的圖片地址http://www.y5958.cn/logo.gif ,或者不規(guī)則的圖片源碼,采集器將會視為文件下載。
①將相對地址補全為絕對地址:勾選后會把標簽采集到的相對地址補全為絕對地址。
②下載圖片:勾選后源代碼里的含標準樣式<img src="圖片地址"/>的代碼圖片將被下載。
③探測文件真實地址但不下載:有時候采集到的是附件下載地址,而非真實的下載地址,點擊后會有跳轉。這種情況下勾選此項會將真實地址采集出來,但是只是得到下載地址并不下載。
④探測文件并下載:勾選后可以把采集到的任何格式的文件附件下載下來。
3、內容過濾:對于一些不符合條件的記錄,可以通過設置內容過濾來刪除或標記為未采。內容過濾有以下幾個處理方法:
①內容不得包含和內容必須包含:可以設置多個詞,支持選擇所有條件都必須滿足或滿足其中一個條件即可。
②采集結果不得為空:該功能可以讓某個字段不出現(xiàn)空內容。
③采集結果不得重復:該功能可以讓某個字段不出現(xiàn)重復內容。設置此項前請確保沒有采集過數(shù)據,或者需先清空采集數(shù)據。
④當內容長度小于(大于,等于,不等于)N時過濾:一個符號或一個字母或一個數(shù)字或一個漢字都計作一個。
注意:對于滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設置功能里設置直接刪除此條記錄,或把此條記錄標記為未采集下次運行任務時會再次采集。
網頁抓取工具火車采集器中配備一系列數(shù)據處理的好處是,當我們需要進行的只是一個很小的操作時,不需要再去寫插件,去生成和編譯,而是通過一步點擊就可以將數(shù)據處理成我們需要的樣子了。