1. 獲取網站里表格的下全部內容
2. 內容頁采集字段批準文號、藥品本位碼、產品名稱、生產廠家、產品地址、規(guī)格、劑型、類別、批準日期。
需要采集的字段都在列表頁中,那么就可以列表頁標簽采集。
在桌面瀏覽器中打開可以看到,這個網址中的內容分成兩塊,我們今天采集的是上面的這塊,而且點擊下一頁的時候,網址是不變化的,那么就需要抓包獲取真實網址,請求真實網址,在真實網址的源碼中采集。
分析后
根據網頁上的編碼,填寫網頁編碼,post類型采集,一定要填寫網頁編碼:
拼接網址那邊使用的是[標簽:批準文號],實際獲得的內容頁網址不是正確的網址(https://www.drugfuture.com/cndrug/國藥準字H20060422),現在開始測試請求,看采集器是否出現報錯情況
使得不正確的內容頁網址可以正常請求,因為沒有設置內容頁標簽,所以只是請求,不會采集內容頁標簽,數據都在列表頁標簽中采集到了。
采集過程中有的客戶會想到,既然數據都在列表頁標簽中采集了,那么就不要采集內容頁就是了或者直接使用起始頁就是內容頁進行采集。
第一,因為是post類型的網址,若是用內容頁采集的話,需要使用插件進行處理內容頁post,但是使用列表頁post就不用插件了。
第二,可以不采集內容頁,只采集網址(就是列表頁),退出編輯任務窗口,選中任務,只勾選,采網址,其他兩個不勾選,采集結束后,需要選中任務,右鍵編輯本地數據,使用sql語句更新語句,更新所有數據為已采,這樣才能進行發(fā)布數據.
每周一數數據以及采集規(guī)則領取時間為2019/11/28日發(fā)文后5個工作日內。采集規(guī)則涉及到商業(yè)版本功能,建議用戶登錄商業(yè)版本使用此規(guī)則。 數據領取資格:火車采集器/火車瀏覽器/觸控精靈商業(yè)版軟件用戶(服務年限內),如果您不是商業(yè)用戶或者已經過了服務年限,但也想參與活動的話,可以新購軟件或者升級續(xù)費,這樣就能參與活動啦! 數據領取方式: 第一步:掃碼添加火車運營微信號,火車運營助手會拉你進入活動群。 第二步:進群后添加數據咨詢客服.雅的微信號,經客服驗證為服務年限內商業(yè)用戶身份后,即可領取。 好啦,本期的“每周一數”就到這里了。如果您還有想要獲取更多的數據資源以及采集器規(guī)則的話,可以在文章下方或是公眾號后臺留言,小采會綜合大家的意見選擇下一期贈送數據的主題哦!每周一數丨生病如何快速確定病因并及時治療?小采送你一份健康數據(附帶教程)
速看|火車采集器V9.11版本更新
觸控精靈實戰(zhàn)教程——微信公眾號文章的采集與發(fā)布
觸控精靈實戰(zhàn)教程——網站發(fā)布篇