青青久在线视频免费观看,国产日产综合

提取的數(shù)據還不能直接拿來用？文件還沒有被下載？格式等都還不符合要求？別著急，網頁抓取工具火車采集器自有應對方案——數(shù)據處理。

圖片1.png

網頁抓取工具的數(shù)據處理功能包括三個部分，分別是內容處理、文件下載、內容過濾。下面依次給大家介紹：

1、內容處理：對從內容頁面提取的數(shù)據進行替換、標簽過濾、分詞等進一步處理，我們可以同時添加多個操作，但這里需要注意的是，有多個操作時是按照從上到下的順序來執(zhí)行，也就是說，上個步驟的結果會作為下個步驟的參數(shù)。

下面來逐個介紹一下：

①提取內容為空：如果通過前面的規(guī)則無法準確提取或提取到的內容為空，則選擇此項，此項應用后會使用正則匹配從原始頁面中再次提取一次。

②內容替換/排除：將采集到的內容進行字符串替換，如需排除，則替換為空字符串即可，功能很靈活。如下圖，可直接對內容進行替換，也可對字符串進行參數(shù)替換等（區(qū)別于工具欄中的同義詞替換）。

③html標簽過濾：過濾指定html標簽，比如<a ，<font。這樣采集出來的內容就不會帶有源碼中一些樣式標簽，更符合我們的使用標準。

④字符截?。和ㄟ^開始和結束字符串對內容進行截取。適用于對已提取內容的截取調整。

⑤純正則替換：如果一些內容（比如單一出現(xiàn)的文字）無法通過通用的內容替換來操作，那么則需要通過強大的正則表達式進行復雜的替換。

如“火爆的美式餐廳都在這里”，我們將其替換為“美式餐廳”，正則表達式如下：

圖片2.png

⑥數(shù)據轉換：包括將結果簡轉繁、將結果繁轉簡、自動轉化為拼音和時間修正轉化，共計四項處理。

⑦智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時間、智能提取郵箱、智能提取手機號碼、智能提取電話號碼。

⑧高級功能：包括自動摘要、自動分詞、自動分類、Http請求、字符編碼轉換、同義詞替換、空內容缺省值、內容加前后綴、隨機插入、運行C#代碼、批量內容替換，統(tǒng)計標簽字符串長度等一系列功能。

⑨補全單網址：將當前內容作為一個網址進行補全。

2、文件下載：可以自動探測并下載文件，可設置下載路徑和文件名樣式。

注意：文件下載中所指下載圖片是源代碼里有標準樣式<img src="圖片地址"/>標簽的圖片地址。

比如是一個直接的圖片地址http://www.y5958.cn/logo.gif ,或者不規(guī)則的圖片源碼，采集器將會視為文件下載。

①將相對地址補全為絕對地址：勾選后會把標簽采集到的相對地址補全為絕對地址。

②下載圖片：勾選后源代碼里的含標準樣式<img src="圖片地址"/>的代碼圖片將被下載。

③探測文件真實地址但不下載：有時候采集到的是附件下載地址，而非真實的下載地址，點擊后會有跳轉。這種情況下勾選此項會將真實地址采集出來，但是只是得到下載地址并不下載。

④探測文件并下載：勾選后可以把采集到的任何格式的文件附件下載下來。

3、內容過濾：對于一些不符合條件的記錄，可以通過設置內容過濾來刪除或標記為未采。內容過濾有以下幾個處理方法：

①內容不得包含和內容必須包含：可以設置多個詞，支持選擇所有條件都必須滿足或滿足其中一個條件即可。

②采集結果不得為空：該功能可以讓某個字段不出現(xiàn)空內容。

③采集結果不得重復：該功能可以讓某個字段不出現(xiàn)重復內容。設置此項前請確保沒有采集過數(shù)據，或者需先清空采集數(shù)據。

④當內容長度小于(大于，等于，不等于)N時過濾：一個符號或一個字母或一個數(shù)字或一個漢字都計作一個。

注意：對于滿足上述四條中的任何一條或者多條的情況下，可以在采集器的其他設置功能里設置直接刪除此條記錄，或把此條記錄標記為未采集下次運行任務時會再次采集。

網頁抓取工具火車采集器中配備一系列數(shù)據處理的好處是，當我們需要進行的只是一個很小的操作時，不需要再去寫插件，去生成和編譯，而是通過一步點擊就可以將數(shù)據處理成我們需要的樣子了。

精品人妻无码专区视频,亚洲欧洲精品专线,精品久久久久久无码中文野结衣 ,国产精品久久久久久久9999