国产1级片-国产1级毛片-国产18在线-国产1-日韩欧美偷拍-日韩欧美天堂

Menu

江蘇淺析搜索引擎的工作原理

網站建設 錄入時間 2023-06-15 閱讀次數 無雙建站 多語種獨立站
你對于搜素引擎到底了解了多少。對于本身搜索引擎排名的基本原理應該清楚。地瓜也覺得現在做SEO的大蝦們越來越多,什么感想,什么方討論都是近乎雷同,很多時候我們自認為自己是SEO,其實我們只是知道些簡單的方法與技巧,真正的原理,真正的是什么并沒有搞明白。因此,地瓜覺得自己也有必要多多學習與感悟SEO中基本其實也是核心的東西。

搜索引擎工作過程非常復雜,地瓜簡單分享搜索引擎是怎樣實現網頁排名的。正如ZAC書中所說的“這里介紹的內容相對于真正的搜索引擎技術來說只是皮毛,不過對SEO人員已經足夠用了。”搜索引擎的工作過程大體上可以分成三個階段。(1)爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接訪問網頁,獲得頁面HTML代碼存入數據庫。(2)預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引等處理,以備排名程序調用。(3)排名:用戶輸入關鍵詞后,排名程序調用索引庫數據,計算相關性,然后按一定格式生成搜索結果頁面。

而本文,地瓜分享的是搜索引擎工作原理的第三個步驟:步驟,方法,排名:經過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關鍵詞后,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程是與用戶直接互動的。

1.搜索詞處理

搜索引擎接收到用戶輸入的搜索詞后,需要對搜索詞做一些處理,才能進入排名過程。搜索詞處理包括如下幾方面。

(1)中文分詞。與頁面索引時一樣,搜索詞也必須進行中文分詞,將查詢字符串轉換為以詞為基礎的關鍵詞組合。分詞原理與頁面分詞相.
(2)去停止詞。和索引時一樣,搜索引擎也需要把搜索詞中的停止詞去掉,大限度地提高排名相關性及效率。
(3)指令處理。查詢詞完成分詞后,搜索引擎的默認處理方式是在關鍵詞雙頭螺柱聯合之間使用“與”邏輯。也就是說用戶搜索“*方法”時,程序分詞為“*”和“方法”兩個詞,搜索引擎排序時默認認為,用戶尋找的是既包含“*”,也包含“方法”的頁面。只包含“*”不包含“方法”,或者只包含“方法”不包含“*”的頁面,被認為是不符合搜索條件的。當然,這只是極為簡化的為了說明原理的說法,實際上我們還是會看到只包含一部分關鍵詞的搜索結果。另外用戶輸入的查詢詞還可能包含一些搜索指令,如加號、減號等,搜索引擎都需要做出識別和相應處理。有關搜索指令,后面還有詳細說明。
(4)拼寫錯誤矯正。用戶如果輸入了明顯錯誤的字或英文單詞拼錯,搜索引擎會提示用戶正確的用字或拼法。
(5)整合搜索觸發。某些搜索詞會觸發整合搜索,比如明星姓名就經常觸發圖片和視頻內容,當前的熱門話題又容易觸發資訊內容。哪些詞觸發哪些整合搜索,也需要在搜索詞處理階段計算。

2.文件匹配

搜索詞經過處理后,搜索引擎得到的是以詞為基礎的關鍵詞*。文件匹配階段就是找出含有所有關鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成。

假設用戶搜索“關鍵詞2
關鍵詞7”,排名程序只要在倒排索引中找到“關鍵詞2”和“關鍵詞7”這兩個詞,就能找到分別含有這兩個詞的所有頁面。經過簡單計算就能找出既包含“關鍵詞2”,也包含“關鍵詞7”的所有頁面:文件1和文件6。

3.初始子集的選擇

找到包含所有關鍵詞的匹配文件后,還不能進行相關性計算,因為找到的文件經常會有幾十萬幾百萬,甚至上千萬個。要對這么多文件實時進行相關性計算,需要的時間還是比較長的。
實際上用戶并不需要知道所有匹配的幾十萬、幾百萬個頁面,絕大部分用戶只會查看前兩頁,也就是前20個結果。搜索引擎也并不需要計算這么多頁面的相關性,而只要計算重要的一部分頁面就可以了。常用搜索引擎的人都會注意到,搜索結果頁面通常多顯示100個。用戶點擊搜索結果頁面底部的“下一頁”鏈接,多也只能看到第100頁,也就是1000個搜索結果。搜索引擎只需要計算前1000個結果的相關性,就能滿足要求。

但問題在于,還沒有計算相關性時,搜索引擎又怎么知道哪一千個文件是相關的?所以用于后相關性計算的初始頁面子集的選擇,必須依靠其他特征而不是相關性,其中主要的就是頁面權重。由于所有匹配文件都已經具備了基本的相關性(這些文件都包含所有查詢關鍵詞),搜索引擎通常會用非相關性的頁面特征選出一個初始子集。初始子集的數目是多少?幾萬個?或許更多,外人并不知道。不過可以肯定的是,當匹配頁面數目巨大時,搜索引擎不會對這么多頁面進行計算,而必須選出頁面權重較高的一個子集,再對子集中的頁面進行相關性計算。

4.相關性計算

選出初始子集后,對子集中的頁面計算關鍵詞相關性。計算相關性是排名過程中重要的一步。相關性計算是搜索引擎算法中令SEO感興趣的部分。
影響相關性的主要因素包括如下幾方面。
(1)關鍵詞常用程度。經過分詞后的多個關鍵詞,對整個搜索字符串的意義貢獻并不相同。越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對搜索詞的意義貢獻越大。舉個例子,假設用戶輸入的搜索詞是“我們冥王星”。“我們”這個詞常用程度非常高,在很多頁面上會出現,它對“我們冥王星”這個搜索詞的辨識程度和意義相關度貢獻就很小。找出那些包含“我們”這個詞的頁面,對搜索排名相關性幾乎沒有什么影響,有太多頁面包含“我們”這個詞。未來幾年,都不會有實質性的改變。好了,以上是我的一些觀點,歡迎大家指正。

【版權聲明】:本站內容來自于與互聯網(注明原創稿件除外),供訪客免費學習需要。如文章或圖像侵犯到您的權益,請及時告知,我們第一時間刪除處理!謝謝!

無雙科技
如何獲取外貿詢盤和訂單?
網站建設咨詢:13534259410

經典客戶案例展示

熱門服務
眾多企業的選擇

深圳無雙科技 - 專注于高端網站建設、網站設計開發、品牌網站制作

咨詢電話:13534259410

售后服務:13534259410  (7×24小時)
在線 Q Q:253849310 (售前咨詢)

深圳網站建設咨詢
【掃一掃咨詢】
  • 掃一掃 在線咨詢
    無雙科技官方公眾號
  • 響應式客戶端
    掃一掃 關注好友
體驗創新服務

深圳無雙科技,專注于深圳網站建設、深圳網站設計、深圳網站制作。
服務客戶超3000家,一站式網站建設及推廣營銷解決方案提供商。
我們的價值觀:誠信、坦誠、盡責、創新。期待與您合作!

您好,很高興為您服務 ^_^
主站蜘蛛池模板: 爱欲1990未删减版播放| g71编程实例及解释| 妥协电影在线观看完整版中文| www.douyin.com官网| 卧虎演员表| 托比·斯蒂芬斯| 荒笛子简谱| 打男孩光屁股| 心经全文260字| jenna haze| 河东狮吼 电影| 谭凯琪| cctv6 节目表| 东北一家人第一部| 《最后的凶手》免费观看| 电影《大突围》免费观看国语| 珊特尔·范圣滕| 滨美枝| 八仙过海 电影| 男上女下动态视频| 电影1921| 狗年龄| 石隽| 我和我的祖国钢琴谱完整版| 亲爱的姑娘我爱你| 隐藏的歌手第一季免费观看完整版| 神龙教| 社会主义建设在探索中曲折发展 | 《着魔》阿佳妮| 电影继父| 刑事侦缉| 愚人节快乐的英文| 亚洲电影在线观看| 越南一级毛片免费| 电影田螺姑娘| 浣肠アナル地狱| 越南一级毛片免费| 集体生活成就我教学设计| 陈智熙| 遥远的你我触不可及动漫| 团结就是力量歌词电子版|