美女扒开屁股让男人桶到爽视频_天堂在\/线中文在线资源_野花免费高清在线观看视频__国产免费黄色视频_亚洲三级网站

經(jīng)典案例
  • 江蘇佰納德自控設(shè)備有限公司
  • 尚科照明集團(tuán)有限公司
  • 江蘇啟翔光電科技有限公司
  • 高郵市明源照明科技有限公司
  • 揚(yáng)州凱德斯環(huán)保設(shè)備有限公司A
  • 揚(yáng)州市潤(rùn)澤光電科技有限公司
  • 揚(yáng)州吉佳電氣科技有限公司
  • 南京超控電子有限公司
  • 上海自動(dòng)化儀表股份有限公司

百度蜘蛛的爬取策略介紹

發(fā)布于:2018-01-02 09:16來(lái)源:未知 作者:admin 點(diǎn)擊:

  揚(yáng)州網(wǎng)站建設(shè)和你來(lái)談一談百度蜘蛛的爬取策略

  spider在抓取過(guò)程中面對(duì)著復(fù)雜的網(wǎng)絡(luò)環(huán)境,為了使系統(tǒng)可以抓取到盡可能多的有價(jià)值資源并保持系統(tǒng)及實(shí)際環(huán)境中頁(yè)面的一致性同時(shí)不給網(wǎng)站體驗(yàn)造成壓力,會(huì)設(shè)計(jì)多種復(fù)雜的抓取策略。以下簡(jiǎn)單介紹一下抓取過(guò)程中涉及到的主要策略類(lèi)型:

  1、抓取友好性:抓取壓力調(diào)配降低對(duì)網(wǎng)站的訪問(wèn)壓力

  2、常用抓取返回碼示意

  3、多種url重定向的識(shí)別

  4、抓取優(yōu)先級(jí)調(diào)配

  5、重復(fù)url的過(guò)濾

  6、暗網(wǎng)數(shù)據(jù)的獲取

  7、抓取反作弊

  8、提高抓取效率,高效利用帶寬

  1、抓取友好性

  互聯(lián)網(wǎng)資源龐大的數(shù)量級(jí),這就要求抓取系統(tǒng)盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價(jià)值資源。這就造成了另一個(gè)問(wèn)題,耗費(fèi)被抓網(wǎng)站的帶寬造成訪問(wèn)壓力,如果程度過(guò)大將直接影響被抓網(wǎng)站的正常用戶訪問(wèn)行為。因此,在抓取過(guò)程中就要進(jìn)行一定的抓取壓力控制,達(dá)到既不影響網(wǎng)站的正常用戶訪問(wèn)又能盡量多的抓取到有價(jià)值資源的目的。

  通常情況下,最基本的是基于ip的壓力控制。這是因?yàn)槿绻谟蛎赡艽嬖谝粋(gè)域名對(duì)多個(gè)ip(很多大網(wǎng)站)或多個(gè)域名對(duì)應(yīng)同一個(gè)ip(小網(wǎng)站共享ip)的問(wèn)題。實(shí)際中,往往根據(jù)ip及域名的多種條件進(jìn)行壓力調(diào)配控制。同時(shí),站長(zhǎng)平臺(tái)也推出了壓力反饋工具,站長(zhǎng)可以人工調(diào)配對(duì)自己網(wǎng)站的抓取壓力,這時(shí)百度spider將優(yōu)先按照站長(zhǎng)的要求進(jìn)行抓取壓力控制。

  對(duì)同一個(gè)站點(diǎn)的抓取速度控制一般分為兩類(lèi):其一,一段時(shí)間內(nèi)的抓取頻率;其二,一段時(shí)間內(nèi)的抓取流量。同一站點(diǎn)不同的時(shí)間抓取速度也會(huì)不同,例如夜深人靜月黑風(fēng)高時(shí)候抓取的可能就會(huì)快一些,也視具體站點(diǎn)類(lèi)型而定,主要思想是錯(cuò)開(kāi)正常用戶訪問(wèn)高峰,不斷的調(diào)整。對(duì)于不同站點(diǎn),也需要不同的抓取速度。

tag標(biāo)簽:
------分隔線----------------------------
------分隔線----------------------------
在線客服
熱線電話
183-6131-0036
+