搜索引擎工作原理之蜘蛛如何爬行和抓取網(wǎng)頁

標(biāo)簽：搜索引擎工作原理 | 作者：眾騰網(wǎng)絡(luò) | VISITORS:3444 | 來源：www.dxbaba.cn

SEP
2015

搜索引擎工作的流程是非常復(fù)雜的，今天桂林眾騰網(wǎng)絡(luò)介紹在蜘蛛在對網(wǎng)頁進(jìn)行爬行和抓取過程中，對我們網(wǎng)站優(yōu)化有重要影響的幾個部分。

當(dāng)搜索引擎蜘蛛準(zhǔn)備爬行某個網(wǎng)頁的時候，會對服務(wù)器發(fā)出訪問申請，申請通過后，搜索引擎會先去爬行網(wǎng)站的robots.txt文件，針對robots.txt文件中所禁止搜索引擎抓取的部分，搜索引擎將不會去抓取。接著服務(wù)器就會給搜索引擎返回當(dāng)前頁面的html代碼，現(xiàn)在有很多的站長工具中都會有模仿蜘蛛抓取網(wǎng)頁代碼的功能，大家有興趣可以去查詢，這里值得注意的就是頁面代碼中漢字所占的比例，因為搜索引擎在預(yù)處理階段會把漢字部分篩選出來分析網(wǎng)頁的內(nèi)容和關(guān)鍵詞，漢字所占比例越多說明網(wǎng)頁返回的有效信息越多，越有利于搜索引擎對頁面的分析。這也就是為什么大家在編寫網(wǎng)站代碼的時候，會對CSS和Javascript代碼進(jìn)行外部調(diào)用，對圖片要添加alt屬性，對鏈接要添加title屬性的緣故，都是為了降低頁面代碼所占的比例，提高文字所占比例，當(dāng)然相關(guān)性也是一方面。

搜索引擎爬行網(wǎng)頁都是沿著鏈接進(jìn)行爬行的，在爬行網(wǎng)頁的時候并不是一個蜘蛛在爬行，一般都是由多個蜘蛛進(jìn)行爬行，爬行的方式有兩種，一種是深度爬行，一種是廣度爬行，兩種方式都可以爬遍一個網(wǎng)站的所有鏈接，通常都是兩種方式并行的，但實際上由于資源的限制，搜索引擎并不會爬遍一個網(wǎng)站的所有鏈接。

既然搜索引擎不可能爬遍整個網(wǎng)站的所有鏈接，那么我們seoer接下來的工作就是要吸引蜘蛛盡可能多的去爬行網(wǎng)站鏈接，為蜘蛛的爬行創(chuàng)造輕松便利的環(huán)境，尤其是針對一些重要的鏈接。

如何去吸引蜘蛛呢？影響蜘蛛爬行的因素有哪些呢？

1.網(wǎng)站的權(quán)重。一個權(quán)重高的網(wǎng)站，蜘蛛往往會爬行的很深，關(guān)于如何提高網(wǎng)站的權(quán)重，大家可以去參考狄吉堂網(wǎng)站seo博客中的影響網(wǎng)站權(quán)重計算的因素有哪些和如何提高網(wǎng)站權(quán)重的五種方式兩篇文章。

2.頁面是否經(jīng)常更新。這是一個老生常談的問題了，雖然網(wǎng)站的更新和維護(hù)工作異常的辛苦，但是沒辦法，人家搜索引擎就喜歡新鮮的血液，如果網(wǎng)站的更新比較勤快的話，搜索引擎自然來的也勤快，來的多了，新鏈接被抓取的幾率當(dāng)然也就大了。

3.高質(zhì)量導(dǎo)入鏈接。一個頁面的導(dǎo)入鏈接相當(dāng)于頁面的入口，原理很簡單，導(dǎo)入鏈接多了，搜索引擎進(jìn)入你網(wǎng)頁的渠道也就多了，如果是一條高質(zhì)量的導(dǎo)入鏈接，那么搜索引擎對網(wǎng)頁鏈接爬行的深度也會增加。

4.與首頁距離越近的鏈接，被爬行的幾率越大。一個網(wǎng)站的首頁是權(quán)重最高的，那么距離它越近的頁面，被賦予的權(quán)重也會越高，被蜘蛛爬行的幾率當(dāng)然越大，這是網(wǎng)站seo優(yōu)化中常用到的一個就近原理，可以應(yīng)用到很多方面，比如網(wǎng)站的主導(dǎo)航中第一個欄目比最后一個欄目的權(quán)重高，距離錨文本越近的文字是搜索引擎重點(diǎn)照顧的地方等等。

當(dāng)搜索引擎對頁面進(jìn)行抓取之后，會將頁面中的鏈接解析出來，通過與地址庫中的鏈接進(jìn)行匹配對比分析，將沒有進(jìn)行爬行的新鏈接放入到待訪問地址庫，然后派出蜘蛛對新鏈接進(jìn)行爬行。

在搜索引擎對網(wǎng)頁進(jìn)行爬行和抓取的時候，并不是進(jìn)行簡單的爬行和抓取工作，而是同時并發(fā)有大量的其他操作，其中很重的一項工作就是對網(wǎng)頁內(nèi)容進(jìn)行檢測，通過截取網(wǎng)頁上的內(nèi)容與數(shù)據(jù)庫中的信息做對比，如果是一些權(quán)重比較低的網(wǎng)站出現(xiàn)大量轉(zhuǎn)載或者偽原創(chuàng)，可能蜘蛛爬行到一半就會離開，這也就是為什么通過網(wǎng)站日志看到有蜘蛛來，但是頁面沒被收錄的原因。所以說，即使是進(jìn)行偽原創(chuàng)，也是需要一定的技巧的，除非你的網(wǎng)站權(quán)重特別高。

轉(zhuǎn)載聲明：本文由桂林眾騰網(wǎng)絡(luò)原創(chuàng)文章
轉(zhuǎn)載請注明來源： http://zt-web.com/shows.php?id=519

上一篇：思考這幾個問題，網(wǎng)站離賺錢就不遠(yuǎn)了

搜索引擎工作原理之網(wǎng)頁關(guān)鍵詞排名機(jī)制：下一篇

相關(guān)新聞

網(wǎng)站設(shè)計如何影響網(wǎng)站運(yùn)營的？

對于網(wǎng)站建設(shè)而言，網(wǎng)站設(shè)計是否成功能夠?qū)W(wǎng)站的運(yùn)營產(chǎn)...
新上線網(wǎng)站推廣的實戰(zhàn)操作及經(jīng)驗

網(wǎng)上那些網(wǎng)絡(luò)推廣的教程讓他們應(yīng)接不暇，可是看了許多過...
概述宣傳型網(wǎng)站建設(shè)的要點(diǎn)分析

宣傳型的網(wǎng)站建設(shè)通常是針對企業(yè)利用互聯(lián)網(wǎng)樹立企業(yè)形象...
展示型網(wǎng)站意義與營銷型網(wǎng)站有哪些核心...

網(wǎng)站是企業(yè)與面對互聯(lián)網(wǎng)用戶的“橋梁”，而“橋梁”的...
如何更有效的吸引用戶閱讀？

原創(chuàng)不容易，這誰都知道，不過如果原創(chuàng)內(nèi)容沒有質(zhì)量，對...
如何讓你的品牌成為用戶的信仰

我們自己并不需要過多的做宣傳，只要通過某些場景來刺激...
網(wǎng)站404頁面的設(shè)計有哪些技巧？

隨著網(wǎng)站從建設(shè)到持續(xù)運(yùn)營的時間不斷延長，網(wǎng)站內(nèi)容或多...
讓網(wǎng)站快速穩(wěn)定到第一頁的25條百度規(guī)...

有很多客戶問我們，為什么我們的官方網(wǎng)站一直排名穩(wěn)定在...
如何用互聯(lián)網(wǎng)思維改造傳統(tǒng)農(nóng)業(yè)？

模式的創(chuàng)新、產(chǎn)業(yè)的裂變、組織的興起，都正在指向中國農(nóng)...

黄 色 片 在 线 看-黄 色 免费网 站 成 人-黄 色 免 费 网站在线观看-黄 色 毛片免费-青草视频在线-青草视频在线播放

搜索引擎工作原理之蜘蛛如何爬行和抓取網(wǎng)頁

黄色片在线看-黄色免费网站成人-黄色免费网站在线观看-黄色毛片免费-青草视频在线-青草视频在线播放