精品人妻无码专区视频,亚洲欧洲精品专线,精品久久久久久无码中文野结衣 ,国产精品久久久久久久9999

每周一數丨送你一份國家藥品數據(附采集教程)

2019-12-03 13:11:03 瀏覽:5733
采集網址:

https://www.drugfuture.com/cndrug/national.aspx?ApprovalNumber=&ApprovalNumberOld=&NDCNumber=&ProductName=&EnglishName=&TradeName=&Manufacturer=&Dosage=&Form=&Category=&ApprovalDateStart=1970-06-26&ApprovalDateEnd=&Restriction=fuzzy

QQ截圖20191203130546.png

采集目標:

1. 獲取網站里表格的下全部內容

 

2. 內容頁采集字段批準文號、藥品本位碼、產品名稱、生產廠家、產品地址、規(guī)格、劑型、類別、批準日期。


使用工具:
1. 火車采集器
2. Fidder抓包軟件
采集成果:

QQ截圖20191203130613.png



第一步:打開火車官網 www.y5958.cn 下載最新版火車采集器并安裝

QQ截圖20191203130637.png

第二步: 確定采集器思路

需要采集的字段都在列表頁中,那么就可以列表頁標簽采集。

在桌面瀏覽器中打開可以看到,這個網址中的內容分成兩塊,我們今天采集的是上面的這塊,而且點擊下一頁的時候,網址是不變化的,那么就需要抓包獲取真實網址,請求真實網址,在真實網址的源碼中采集。

QQ截圖20191203130658.png


第三步:fiddler抓包分析
可以看出是post類型的網址采集,獲取兩個分頁的數據包,對比兩個post值,看看不同的地方,可以用&進行分塊查詢分析(一個等于號和一個&中間是一個值)

QQ截圖20191203130725.png

 

分析后



QQ截圖20191203130744.png

第四步:把分析后的數據包中對應的值填寫到采集器中

QQ截圖20191203130817.png


根據網頁上的編碼,填寫網頁編碼,post類型采集,一定要填寫網頁編碼:


QQ截圖20191203130834.png


第五步: 現在需要獲取采集的數據,前面已經提到,需要采集的數據都是在列表頁中,那么我們就可以想獲取內容頁網址一樣,在抓包的post數據包的源碼中分析需要獲取的數據

QQ截圖20191203130906.png


拼接網址那邊使用的是[標簽:批準文號],實際獲得的內容頁網址不是正確的網址(https://www.drugfuture.com/cndrug/國藥準字H20060422),現在開始測試請求,看采集器是否出現報錯情況


QQ截圖20191203130928.png

第六步: 測試請求報404的錯誤,那么可以在其他設置中的其他配置,設置忽略404報錯:

QQ截圖20191203130957.png


使得不正確的內容頁網址可以正常請求,因為沒有設置內容頁標簽,所以只是請求,不會采集內容頁標簽,數據都在列表頁標簽中采集到了。


總結:

采集過程中有的客戶會想到,既然數據都在列表頁標簽中采集了,那么就不要采集內容頁就是了或者直接使用起始頁就是內容頁進行采集。

第一,因為是post類型的網址,若是用內容頁采集的話,需要使用插件進行處理內容頁post,但是使用列表頁post就不用插件了。

第二,可以不采集內容頁,只采集網址(就是列表頁),退出編輯任務窗口,選中任務,只勾選,采網址,其他兩個不勾選,采集結束后,需要選中任務,右鍵編輯本地數據,使用sql語句更新語句,更新所有數據為已采,這樣才能進行發(fā)布數據.


每周一數數據以及采集規(guī)則領取時間為2019/11/28日發(fā)文后5個工作日內。采集規(guī)則涉及到商業(yè)版本功能,建議用戶登錄商業(yè)版本使用此規(guī)則。


數據領取資格:火車采集器/火車瀏覽器/觸控精靈商業(yè)版軟件用戶(服務年限內),如果您不是商業(yè)用戶或者已經過了服務年限,但也想參與活動的話,可以新購軟件或者升級續(xù)費,這樣就能參與活動啦!


數據領取方式:

第一步:掃碼添加火車運營微信號,火車運營助手會拉你進入活動群。

微信圖片_20191024173419.jpg


第二步:進群后添加數據咨詢客服.雅的微信號,經客服驗證為服務年限內商業(yè)用戶身份后,即可領取。


好啦,本期的“每周一數”就到這里了。如果您還有想要獲取更多的數據資源以及采集器規(guī)則的話,可以在文章下方或是公眾號后臺留言,小采會綜合大家的意見選擇下一期贈送數據的主題哦!



每周一數丨生病如何快速確定病因并及時治療?小采送你一份健康數據(附帶教程)

速看|火車采集器V9.11版本更新

旅游網站數據爬取(贈送數據+規(guī)則)

雙十一優(yōu)惠券采集(附送數據+規(guī)則)

觸控精靈功能講解之微信通訊錄的備份

觸控精靈實戰(zhàn)教程——微信公眾號文章的采集與發(fā)布

觸控精靈實戰(zhàn)教程——網站發(fā)布篇



掃碼關注微信