親愛的用戶:
為了給用戶更好的采集體驗,2019年11月21日我們進行了火車采集器的版本更新,目前火車采集器V9.11版本已正式上線。
1、★ 列表頁新增“地址處理”功能★
示例網(wǎng)址,新浪滾動新聞:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
點擊下一頁,抓包可獲取真實地址:
https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1
分析json數(shù)據(jù)可以得知 url 后面的是內(nèi)容頁網(wǎng)址,設(shè)置如下:
可以看到采集的網(wǎng)址里有很多 \ ,導(dǎo)致網(wǎng)址無法訪問,而且網(wǎng)址不規(guī)則,不易處理。
這種可以使用新增的“地址處理”功能
內(nèi)容替換/排重
可以對網(wǎng)址中內(nèi)容進行替換,且替換完成后,重復(fù)的網(wǎng)址會自動去重。
純正則替換
可以使用正則表達式進行匹配,和內(nèi)容替換功能類似
字符編碼處理
網(wǎng)址中有需要轉(zhuǎn)碼的內(nèi)容,比如采到的鏈接里有 & 可以進行解碼
https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1
2、★新增“請求失敗數(shù)”的預(yù)警條件設(shè)置★
3、★下載圖片命名,新增[記錄自增Id]格式★
記錄自增ID:同一個內(nèi)容頁中,多個標(biāo)簽設(shè)置記錄自增ID,那么多個標(biāo)簽都是從1開始自增,再次測試運行又會重新開始從1自增,更換個內(nèi)容頁測試運行,也是從1開始自增。
自增ID:設(shè)置自增ID是采集器啟動后運行,開始一個自增ID,從1開始自增,之后就是自增。重啟采集器后,又會重新開始自增ID,從1開始自增。
舉例說明:自增記錄ID:縮略圖和內(nèi)容兩個標(biāo)簽都有圖片下載,都設(shè)置了記錄自增ID。
比如內(nèi)容頁網(wǎng)址https://zhishi.fang.com/jiaju/qg_680673.html
更換一個內(nèi)容頁網(wǎng)址,記錄自增ID還是從1開始自增。
https://zhishi.fang.com/jiaju/qg_691372.html
自增ID:內(nèi)容標(biāo)簽中設(shè)置了自增ID。
之后就會一直自增。
想要自增ID再次從1開始,需要重啟采集器,那么就會從1開始了,否則只要設(shè)置了自增ID的,都會一直自增下去。
4、★修復(fù)圖片下載誤判斷問題★
5、★修復(fù)計劃任務(wù)中“每天調(diào)度”,起始運行時間配置未生效的問題★
6、★ 修復(fù)PHP插件,對于循環(huán)記錄的處理報錯的問題★
7、★修復(fù)拼音首字母對于一些錯誤字符的判斷問題★
8、★任務(wù)批量編輯,修復(fù)“發(fā)布”中“多網(wǎng)站亂序發(fā)布”未能復(fù)制的問題★
9、★修改“循環(huán)添加新記錄”配置后,修復(fù)數(shù)據(jù)格式選擇錯誤的問題★
10、★修復(fù)循環(huán)記錄中列表頁標(biāo)簽被多次處理的問題★
11、★修復(fù)對于一些302跳轉(zhuǎn)地址,無法正確跳轉(zhuǎn)的問題★
12、★修復(fù)一些網(wǎng)址無法正確請求的問題★
感謝用戶的支持與使用,今后也請多多支持小采~