搜索引擎工作原理之收錄預(yù)處理

標(biāo)簽： | 作者：眾騰網(wǎng)絡(luò) | VISITORS:3493 | 來源：www.dxbaba.cn

AUG
2015

今天我們眾騰網(wǎng)絡(luò)給大家分享搜索引擎工作過程中一個非常重要的階段“收錄預(yù)處理”，也就是大家常說的索引。當(dāng)用戶在搜索引擎中輸入搜索詞之后，搜索引擎并不是根據(jù)用戶的搜索詞然后來計算頁面給予排名的，而是事先在爬行和抓取頁面的時候就進(jìn)行了預(yù)處理，要不然也不可能在很短時間內(nèi)根據(jù)搜索詞展現(xiàn)出排名。

首先，搜索引擎會對爬行的頁面進(jìn)行篩選和提取文字信息，以便進(jìn)行排名處理，通過搜索引擎的這個動作，我們知道在頁面中添加meta信息，圖片的alt標(biāo)簽，錨文本的文字設(shè)定，a標(biāo)記中的title標(biāo)簽還是非常有必要的。

緊接著搜索引擎會對篩選出來的這一大堆文字進(jìn)行分詞處理，以此來判定哪些字可以組成一個詞，比如眾騰網(wǎng)絡(luò)網(wǎng)站，通常會被分成“眾騰”，“網(wǎng)絡(luò)”，“網(wǎng)站”。搜索引擎的分詞過程一般有兩種分法，一個是通過搜索引擎數(shù)據(jù)庫中已經(jīng)創(chuàng)建好的詞典，另一種是根據(jù)日常統(tǒng)計，不過為了提高分詞的效率，通常都是兩種方法并行的。

通過詞典進(jìn)行分詞，是指搜索引擎根據(jù)自己創(chuàng)建的詞典，跟網(wǎng)頁中提取的文字進(jìn)行匹配，如果匹配成功的話，就算分出了一個詞，而根據(jù)日常統(tǒng)計則是指搜索引擎對網(wǎng)絡(luò)上提取的文本做了大量的分析，哪些字經(jīng)常出現(xiàn)在一起，那么就會把它判定為一個詞組，不過搜索引擎更喜歡的是比較長的最大匹配詞組，也就是我們常說的長尾關(guān)鍵詞，因為這樣顯示出來的搜索結(jié)果將會更加精確。關(guān)于搜索引擎是如何進(jìn)行分組的，大家可以參考網(wǎng)站快照中帶顏色的詞，這里說明這只是一個參考，因為網(wǎng)站快照所能提供的分詞信息很少，有時也并不能完全表達(dá)出搜索引擎的意愿。而我們在這個環(huán)節(jié)能進(jìn)行優(yōu)化的就是，通過頁面標(biāo)題，H1標(biāo)簽，關(guān)鍵詞加粗的方式來提示搜索引擎，這是一個詞組，同時還有強(qiáng)調(diào)的作用。

當(dāng)搜索引擎分詞完畢后，接下來要進(jìn)行的工作就是去除這些詞中的干擾信息，俗稱“去噪”，搜索引擎去噪主要從兩方面進(jìn)行去噪，一個是把這些詞組中一些完全跟網(wǎng)站主題無關(guān)的詞組去掉，比如我們文章中經(jīng)常包含的一些“的”，“啊”，“然而”之類的助詞，感嘆詞和副詞，進(jìn)行去噪的第二步則是把網(wǎng)站中沒有用的模塊中包含的詞組去掉，比如免責(zé)聲明，廣告字段，版權(quán)信息，分頁列表等等，通過去噪后剩余的內(nèi)容才是搜索引擎想要的內(nèi)容。

在搜索引擎獲得了有用的信息之后，是不是我們就可以通過這些內(nèi)容進(jìn)行網(wǎng)頁排名了？NO！接下來的這一步，我相信是很多站長比較心痛的一個環(huán)節(jié)——去重。搜索引擎會在這些得到的內(nèi)容中提取出N個最能代表頁面主題的關(guān)鍵詞，進(jìn)行指數(shù)分析，如果指數(shù)顯示網(wǎng)上已經(jīng)存在大量的相同信息，搜索引擎將會進(jìn)行刪除操作，這也就是為什么很多站長通過復(fù)制或轉(zhuǎn)載來的文章不被收錄展示的原因。

轉(zhuǎn)載聲明：本文由桂林眾騰網(wǎng)絡(luò)原創(chuàng)文章
轉(zhuǎn)載請注明來源： http://zt-web.com/shows.php?id=509

上一篇：網(wǎng)站W(wǎng)eb服務(wù)器硬件配置選擇

網(wǎng)站SEO排名診斷查詢及網(wǎng)站優(yōu)化方案：下一篇

相關(guān)新聞

你的網(wǎng)站布局設(shè)定方法靠譜嗎？

有一種“奇怪的”現(xiàn)象會經(jīng)常的看到“很多設(shè)計師沒有辦法...
觀桂林名牌產(chǎn)品企業(yè)的網(wǎng)站所感

現(xiàn)在正在啟動2014年度廣西名牌產(chǎn)品申報工作的階段，...
在互聯(lián)網(wǎng)上創(chuàng)業(yè)的前景分析

在互聯(lián)網(wǎng)上創(chuàng)業(yè)與線下市場中創(chuàng)業(yè)（傳統(tǒng)創(chuàng)業(yè)）有著很大的...
如何減少客戶跳出網(wǎng)站的概率

網(wǎng)站主要的目的是為了吸引潛在客戶，實現(xiàn)展示企業(yè)宣傳企...
怎么樣填寫內(nèi)容才能獲得好的流量

很多客戶在填充完網(wǎng)站內(nèi)容后，很關(guān)心網(wǎng)站內(nèi)容能不能由百...
公司有網(wǎng)站還缺少一個重要的網(wǎng)站編輯員

公司在制作專業(yè)的網(wǎng)站后，網(wǎng)站設(shè)計及程序都由專業(yè)的網(wǎng)絡(luò)...
制作網(wǎng)站如何突出網(wǎng)站的主題

網(wǎng)站制作時主題需要突出，企業(yè)是做旅游的、做產(chǎn)品的、做...
企業(yè)網(wǎng)站制作完成后的內(nèi)容準(zhǔn)備細(xì)則

很多企業(yè)站經(jīng)營者都會抱怨企業(yè)網(wǎng)站制作完成后，企業(yè)網(wǎng)站...
簡述公司網(wǎng)站與網(wǎng)絡(luò)營銷的距離

企業(yè)制作完成網(wǎng)站只是公司業(yè)務(wù)向網(wǎng)絡(luò)業(yè)務(wù)延伸第一步，后...

黄 色 片 在 线 看-黄 色 免费网 站 成 人-黄 色 免 费 网站在线观看-黄 色 毛片免费-青草视频在线-青草视频在线播放

搜索引擎工作原理之收錄預(yù)處理

黄色片在线看-黄色免费网站成人-黄色免费网站在线观看-黄色毛片免费-青草视频在线-青草视频在线播放