親愛的用戶:
為了給用戶更好的采集體驗(yàn),2021年07月05日我們進(jìn)行了火車采集器的版本更新,目前火車采集器V10.0版本已正式上線。
1、★數(shù)據(jù)獲取中支持調(diào)用其他標(biāo)簽的值作為截取條件★ 數(shù)據(jù)提取方式支持調(diào)用其他標(biāo)簽值可以讓采集過程更加靈活,在提取中點(diǎn)擊標(biāo)簽符號(hào)即可調(diào)用其他標(biāo)簽的值。下面介紹下具體使用方法: 我們以網(wǎng)址:https://detail.tmall.com/item.htm?id=644685533017,為例,目的為提取sku對(duì)應(yīng)的顏色名稱,以一個(gè)顏色為示例: 目標(biāo)網(wǎng)站獲取數(shù)據(jù)部分源碼: 注意:調(diào)用標(biāo)簽在前后截取以及正則提取中皆可使用,使用方法相同。 2、★數(shù)據(jù)獲取支持CSS selector★ 火車采集器數(shù)據(jù)獲取新增支持CSS selector,很多網(wǎng)頁(yè)的css 的屬性唯一,此功能更利于批量從網(wǎng)頁(yè)中提取數(shù)據(jù)。 如要系統(tǒng)性學(xué)習(xí)css提取的知識(shí),可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火車采集器集成了css提取功能,直接將css路徑填寫在界面中即可使用。Selector中填寫css路徑,節(jié)點(diǎn)屬性選擇需要采集的屬性。 比如: 注意:只有網(wǎng)頁(yè)源碼中有的元素,才能使用css獲取,若是源碼中沒有而是瀏覽器渲染過后才展示的css,無法通過火車采集器來獲取 3、★增加關(guān)聯(lián)區(qū)域功能★ 關(guān)聯(lián)區(qū)域功能,可以先截取網(wǎng)頁(yè)中指定區(qū)域內(nèi)容,然后將該區(qū)域作為數(shù)據(jù)來源 進(jìn)行采集處理。 關(guān)聯(lián)區(qū)域功能有利于網(wǎng)頁(yè)結(jié)構(gòu)重復(fù)或者復(fù)雜的網(wǎng)頁(yè)形式的分析以及采集。 下面介紹下關(guān)聯(lián)區(qū)域功能的用法: 以網(wǎng)址:http://www.y5958.cn/download,為例,比如只想要采集2020年間的下載鏈接。如果直接循環(huán)采集,那么就會(huì)采集到其他年份的鏈接,干擾結(jié)果,所以我們可以使用關(guān)聯(lián)區(qū)域指定采集的區(qū)域。 下面介紹下具體的設(shè)置方法: (1)添加關(guān)聯(lián)區(qū)域 (2)數(shù)據(jù)來源中選擇關(guān)聯(lián)區(qū)域,然后按照一般的方式進(jìn)行采集即可 4、★批量網(wǎng)址增加區(qū)間變化的網(wǎng)址增加方式★ 區(qū)間變化的變化原理為:地址中的兩個(gè)參數(shù)以固定的間隔進(jìn)行增長(zhǎng),并且相鄰兩組值的結(jié)束值與起始值間隔為1,以這種形式變化增長(zhǎng)的地址格式可以使用區(qū)間變化來處理。 比如以https://www.powerchina.cn/col/col7440/index.html?uid=46098&pageNum=1,網(wǎng)址為例,我們使用fiddler抓包網(wǎng)址變化如下: 第一頁(yè):https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=1&endrecord=16&perpage=16 第二頁(yè):https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=17&endrecord=32&perpage=16 第三頁(yè):https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=33&endrecord=48&perpage=16 。。。 5、★批量設(shè)置步驟增加新增功能的相關(guān)設(shè)置★ 6、★運(yùn)行統(tǒng)計(jì)日志設(shè)置添加默認(rèn)關(guān)閉功能★ 7、★oss相關(guān)問題修復(fù)★ 8、★網(wǎng)址空格問題導(dǎo)致列表頁(yè)標(biāo)簽錯(cuò)誤問題修復(fù)★ 9、★下載相關(guān)問題修復(fù)★ 10、★修復(fù)“任務(wù)數(shù)據(jù)批量處理”中刪除為空記錄無效的問題★ 11、★文件下載插件增加文件下載后處理接口★ 感謝用戶的支持與使用,今后也請(qǐng)多多支持小采~如下圖,我們可以清晰的看到列表網(wǎng)址中,每一頁(yè)的起始值跟結(jié)束值都相差15,且相鄰的頁(yè)數(shù),上一頁(yè)的結(jié)束值與下一頁(yè)的起始值相差為1,符合區(qū)間變化的規(guī)律。
所以就可以按照下圖設(shè)置,變化的字段選用地址參數(shù),起始值用[地址參數(shù)],結(jié)束值用[地址參數(shù)1],區(qū)間步長(zhǎng)使用起始值與結(jié)束值的間隔數(shù)。
注意:區(qū)間變化不可與批量網(wǎng)址中的其他方式混用,且必須有兩個(gè)地址參數(shù)