點擊關注▲火車采集器
導讀:每周一數(shù)活動是小采贈送給所有商業(yè)版本用戶的一個福利,每周都會篩選用戶需求選擇網(wǎng)站進行爬取數(shù)據(jù),并會附帶采集規(guī)則,讓用戶舉一反三,在更多場景中更好的使用小采。領取范圍:火車采集器、火車瀏覽器、觸控精靈三款軟件的商業(yè)用戶,軟件需在服務期限內(nèi)。領取規(guī)則:添加文章內(nèi)火車運營微信后,將會被拉入“每周一數(shù)福利群”,加群后私聊 客服·雅 就可。領取內(nèi)容:網(wǎng)站旅游文章數(shù)據(jù)以及采集規(guī)則,如下圖
在網(wǎng)站進行注冊,注冊好賬號直接登錄即可。采集字段: 城市、標題、內(nèi)容(前兩頁樓主發(fā)布的內(nèi)容)點擊下一頁地址,可以發(fā)現(xiàn)變化的只有最后一個數(shù)字,所以分頁設置可以使用批量網(wǎng)址功能按Ctrl+U查看源碼,城市和標題可以在列表頁標簽采集因為帖子下面還有其他網(wǎng)友的回答,為了方便只采集作者發(fā)布的內(nèi)容,我們可以點擊只看作者這個的鏈接我們在二級列表里采集,只看該作者的鏈接提取第一個就可以,可以在寫提取規(guī)則時多寫一部分來讓它只能匹配到一個,如下圖所示列表頁設置的城市標簽 內(nèi)容沒做處理,會采集到a標簽,這里在數(shù)據(jù)處理里將標簽過濾這里需要采集前兩頁的內(nèi)容,需要設置內(nèi)容分頁,也是從源碼中查看分頁地址
因為只采集前兩頁內(nèi)容,所以需要設置下,點擊內(nèi)容分頁設置下面的其他設置,可以修改采集的內(nèi)容分頁數(shù)量內(nèi)容頁提取規(guī)則,這里我們選擇的是使用 xpath 提?。P于xpath的寫法,大家百度下就可以找到),數(shù)據(jù)來源記得要改成從默認頁和內(nèi)容分頁源碼中獲取然后使用數(shù)據(jù)處理功能清洗數(shù)據(jù),將一些不需要的內(nèi)容刪除,內(nèi)容里圖片可以點擊下面的文件下載,如圖設置,即可將圖片下載到本地,由于網(wǎng)址中圖片太多,本次實際沒有勾選下載6、最后我們將采集的數(shù)據(jù)導出到本地HTML文件里,可以根據(jù)需要修改模板文件
本次每周一數(shù)贈送的依然是數(shù)據(jù)+采集規(guī)則,僅限火車軟件的商業(yè)版本用戶哦!領取時間:2019年11月14 日發(fā)文后5個工作日內(nèi)(節(jié)假日除外)領取方式:掃碼加運營微信,運營會拉您進每周一數(shù)群,群內(nèi)加:【火車數(shù)據(jù)咨詢客服.雅】,經(jīng)驗證為商業(yè)用戶后,即可領取。