色欲人妻无码av专区,中文字幕无码人妻在线视频

美女扒开屁股让男人桶到爽视频_天堂在\/线中文在线资源_野花免费高清在线观看视频__国产免费黄色视频_亚洲三级网站

經(jīng)典案例

最新動(dòng)態(tài)

主頁(yè) > 網(wǎng)站優(yōu)化知識(shí) > 網(wǎng)站優(yōu)化 >

百度蜘蛛的爬取策略介紹

發(fā)布于:2018-01-02 09:16來(lái)源:未知作者:admin 點(diǎn)擊: 次

　　揚(yáng)州網(wǎng)站建設(shè)和你來(lái)談一談百度蜘蛛的爬取策略

　　spider在抓取過(guò)程中面對(duì)著復(fù)雜的網(wǎng)絡(luò)環(huán)境，為了使系統(tǒng)可以抓取到盡可能多的有價(jià)值資源并保持系統(tǒng)及實(shí)際環(huán)境中頁(yè)面的一致性同時(shí)不給網(wǎng)站體驗(yàn)造成壓力，會(huì)設(shè)計(jì)多種復(fù)雜的抓取策略。以下簡(jiǎn)單介紹一下抓取過(guò)程中涉及到的主要策略類(lèi)型：

　　1、抓取友好性：抓取壓力調(diào)配降低對(duì)網(wǎng)站的訪問(wèn)壓力

　　2、常用抓取返回碼示意

　　3、多種url重定向的識(shí)別

　　4、抓取優(yōu)先級(jí)調(diào)配

　　5、重復(fù)url的過(guò)濾

　　6、暗網(wǎng)數(shù)據(jù)的獲取

　　7、抓取反作弊

　　8、提高抓取效率，高效利用帶寬

　　1、抓取友好性

　　互聯(lián)網(wǎng)資源龐大的數(shù)量級(jí)，這就要求抓取系統(tǒng)盡可能的高效利用帶寬，在有限的硬件和帶寬資源下盡可能多的抓取到有價(jià)值資源。這就造成了另一個(gè)問(wèn)題，耗費(fèi)被抓網(wǎng)站的帶寬造成訪問(wèn)壓力，如果程度過(guò)大將直接影響被抓網(wǎng)站的正常用戶訪問(wèn)行為。因此，在抓取過(guò)程中就要進(jìn)行一定的抓取壓力控制，達(dá)到既不影響網(wǎng)站的正常用戶訪問(wèn)又能盡量多的抓取到有價(jià)值資源的目的。

　　通常情況下，最基本的是基于ip的壓力控制。這是因?yàn)槿绻谟蛎赡艽嬖谝粋€(gè)域名對(duì)多個(gè)ip(很多大網(wǎng)站)或多個(gè)域名對(duì)應(yīng)同一個(gè)ip(小網(wǎng)站共享ip)的問(wèn)題。實(shí)際中，往往根據(jù)ip及域名的多種條件進(jìn)行壓力調(diào)配控制。同時(shí)，站長(zhǎng)平臺(tái)也推出了壓力反饋工具，站長(zhǎng)可以人工調(diào)配對(duì)自己網(wǎng)站的抓取壓力，這時(shí)百度spider將優(yōu)先按照站長(zhǎng)的要求進(jìn)行抓取壓力控制。

　　對(duì)同一個(gè)站點(diǎn)的抓取速度控制一般分為兩類(lèi)：其一，一段時(shí)間內(nèi)的抓取頻率;其二，一段時(shí)間內(nèi)的抓取流量。同一站點(diǎn)不同的時(shí)間抓取速度也會(huì)不同，例如夜深人靜月黑風(fēng)高時(shí)候抓取的可能就會(huì)快一些，也視具體站點(diǎn)類(lèi)型而定，主要思想是錯(cuò)開(kāi)正常用戶訪問(wèn)高峰，不斷的調(diào)整。對(duì)于不同站點(diǎn)，也需要不同的抓取速度。

tag標(biāo)簽:

------分隔線----------------------------

上一篇：減少網(wǎng)站的跳出率的方法有哪些
下一篇：以下從四個(gè)方面看看關(guān)鍵詞排名優(yōu)化的重要作用

------分隔線----------------------------

[相關(guān)文章]