在使用網(wǎng)頁(yè)抓取工具采集網(wǎng)頁(yè)時(shí),進(jìn)行http模擬請(qǐng)求可以通過(guò)瀏覽器自動(dòng)獲取登錄cookie、返回頭信息,查看源碼等。具體如何操作呢?這里分享給大家網(wǎng)頁(yè)抓取工具火車(chē)采集器V9中的http模擬請(qǐng)求。許多請(qǐng)求工具都是仿照火車(chē)采集器中的請(qǐng)求工具所寫(xiě),因此大家可以此為例學(xué)習(xí)一下。
http模擬請(qǐng)求可以設(shè)置如何發(fā)起一個(gè)http請(qǐng)求,包括設(shè)置請(qǐng)求信息,返回頭信息等。并具有自動(dòng)提交的功能。工具主要包含兩大部分:一個(gè)MDI父窗體和請(qǐng)求配置窗體。
1.2請(qǐng)求信息:常規(guī)設(shè)置和更高級(jí)設(shè)置兩部分。1.1請(qǐng)求地址:正確填寫(xiě)請(qǐng)求的鏈接。
(1)常規(guī)設(shè)置:
①來(lái)源頁(yè):正確填寫(xiě)請(qǐng)求頁(yè)來(lái)源頁(yè)地址。
②發(fā)送方式:get和post,當(dāng)選擇post時(shí),請(qǐng)?jiān)诎l(fā)送數(shù)據(jù)文本框正確填寫(xiě)發(fā)布數(shù)據(jù)。
③客戶(hù)端:選擇或粘貼瀏覽器類(lèi)型至此處。
④cookie值:讀取本地登錄信息和自定義兩種選擇。
高級(jí)設(shè)置:包含如圖所示系列設(shè)置,當(dāng)不需要以上高級(jí)設(shè)置時(shí),點(diǎn)擊關(guān)閉按鈕即可。
②網(wǎng)頁(yè)編碼:自動(dòng)識(shí)別和自定義兩種選擇,若選中自定義,自定義后面會(huì)出現(xiàn)編碼選擇框,在選擇框選擇請(qǐng)求的編碼。
①網(wǎng)頁(yè)壓縮:選擇壓縮方式,可全選,對(duì)應(yīng)請(qǐng)求頭信息的Accept-Encoding。
③Keep-Alive:決定當(dāng)前請(qǐng)求是否與internet資源建立持久性鏈接。
④自動(dòng)跳轉(zhuǎn):決定當(dāng)前請(qǐng)求是否應(yīng)跟隨重定向響應(yīng)。
⑤基于Windows身份驗(yàn)證類(lèi)型的表單:正確填寫(xiě)用戶(hù)名,密碼,域即可,無(wú)身份認(rèn)證時(shí)不必填寫(xiě)。
⑥更多發(fā)送頭信息:顯示發(fā)送的頭信息,以列表形式顯示更清晰直觀(guān)的了解到請(qǐng)求的頭信息。此處的頭信息供用戶(hù)選填的,若要將某一名稱(chēng)的頭信息進(jìn)行請(qǐng)求,勾選Header名對(duì)應(yīng)的復(fù)選框即可,Header名和Header值都是可以進(jìn)行編輯的。
1.3返回頭信息:將詳細(xì)羅列請(qǐng)求成功之后返回的頭信息,如下圖。
1.5預(yù)覽:可在此預(yù)覽請(qǐng)求成功之后返回的頁(yè)面。1.4源碼:待請(qǐng)求完畢后,工具會(huì)自動(dòng)跳轉(zhuǎn)到源碼選項(xiàng),在此可查看請(qǐng)求成功之后所返回的頁(yè)面源碼信息。
1.6自動(dòng)操作選項(xiàng):可設(shè)置自動(dòng)刷新/提交的時(shí)間間隔和運(yùn)行次數(shù),啟用此操作后,工具會(huì)自動(dòng)的按一定的時(shí)間間隔和運(yùn)行次數(shù)向服務(wù)器自動(dòng)請(qǐng)求,若想取消此操作,點(diǎn)擊后面的停止按鈕即可。
配置好上述信息后,點(diǎn)擊“開(kāi)始查看”按鈕即可查看請(qǐng)求信息,返回頭信息等,為避免填寫(xiě)請(qǐng)求信息,可以點(diǎn)擊“粘貼外部監(jiān)視HTTP請(qǐng)求數(shù)據(jù)”按鈕粘貼請(qǐng)求的頭信息,然后點(diǎn)擊開(kāi)始查看按鈕即可。這種捷徑是在粘貼的頭信息格式正確的前提下,否則會(huì)彈出錯(cuò)誤提示框。
更多有關(guān)網(wǎng)頁(yè)抓取工具或網(wǎng)頁(yè)采集的教程都可以從火車(chē)采集器的系列教程中學(xué)習(xí)借鑒。