想必做SEO的人,多多少少都會懂點搜索引擎原理,雖說對于專業(yè)的算法不必進行深入研究,但還是需要簡單了解一下搜索引擎的工作原理,對其策略及算法原理有個簡單的認知,這樣才能更好地做好SEO工作。正所謂,知其然,更要知其所以然嘛。
那么,搜索引擎到底是怎么工作的呢?
想必如果大家特意了解過的話,無論是網(wǎng)絡上還是SEO相關的書籍,對于搜索引擎的工作原理講解得都相對清楚,在此小編不會太深入講解其中復雜高深的搜索引擎架構和檢索技術,而是以科普的方式,將搜索引擎工作原理簡單梳理一下,以幫助大家更好地理解認知。
接下來以痞子瑞《SEO深度解釋》一書中關于搜索引擎的大概架構跟大家進行講解:
如上圖所示,搜索引擎的大致架構分為虛線左右兩個部分:
抓取建庫,即主動抓取網(wǎng)頁進行一系列處理后建立索引,等待用戶搜索;
匹配結果,即分析用戶搜索意圖,進而展現(xiàn)用戶所需要的搜索結果。
1、抓取建庫
關于抓取建庫,即搜索引擎主動抓取網(wǎng)頁,并進行內(nèi)容處理、索引部分的流程和機制一般如下:
第一步:派出爬蟲Spider,按照一定的策略把網(wǎng)頁抓取回到搜索引擎服務器;
第二步:對抓取回來的網(wǎng)頁進行內(nèi)容處理,消除噪聲、提取該頁面主題文本內(nèi)容等;
第三步:對網(wǎng)頁的文本內(nèi)容進行中文分詞;
第四步:分詞完畢后判斷該頁面內(nèi)容是否與已索引網(wǎng)頁重復,剔除重復頁,對剩余網(wǎng)頁進行倒排索引,然后等待用戶檢索。
2、匹配結果
當有用戶進行搜索查詢時,搜索引擎工作的流程機制一般如下:
第一步:先對用戶所查詢的關鍵詞進行分詞處理,并根據(jù)用戶的地理位置和歷史檢索特征進行用戶需求分析,以便使用地域性搜索結果和個性化搜索結果展示用戶最需要的內(nèi)容;
第二步:查找緩存中是否有該關鍵詞的查詢結果,如果有,進一步綜合該用戶的各種信息分析判斷其真正需求,對緩存中的結果進行微調(diào)或直接呈現(xiàn)給用戶;
第三步:如果緩存不存在該用戶所查詢的關鍵詞,那么就在索引庫進行調(diào)取排名呈現(xiàn),并將該關鍵詞和對應的搜索結果加入到緩存中;
第四步:搜索結果網(wǎng)頁排名是根據(jù)用戶的搜索詞和搜索需求,對索引庫中的網(wǎng)頁進行相關性、重要性(權重)和用戶體驗的高低進行綜合分析所得。
3、大白話解讀版本
以上就是搜索引擎的工作原理的大致流程,倘若看完之后還有點懵,也沒關系,接下來小編以“相親”為例跟大家好好講解一番~~
準備好了嘛?大白話版本的搜索引擎原理要來咯~
為了方便大家理解,先來個游戲設定:
媒婆:搜索引擎/爬蟲Spider
適齡少女:網(wǎng)頁
男求親者:用戶
OK,劇情開始咯~
一位男求親者(用戶)想要找對象,由于身邊的資源有限,因而只能去求助媒婆(搜索引擎)幫忙牽橋搭線,以便更快地物色到適合自己的對象。
于是他就找到了這個媒婆,跟媒婆講述了自己對對象的基本要求:“身高不低于160CM、中等身材、溫柔體貼、最好是個老師”(用戶搜索關鍵詞)
好了,媒婆收到了男求親者的要求之后,就會根據(jù)這個要求,從她的早早準備好的適齡少女資料庫(網(wǎng)頁)進行篩選,排除掉身高160CM以下的、不是中等身材的、不夠溫柔體貼的;然后將符合要求的適齡少女按照相應要求滿足程度進行排序,優(yōu)先推薦是老師的少女。當然,倘若媒婆的資料庫里暫時沒有完全匹配的,也會適當根據(jù)自身經(jīng)驗來進行推薦。(匹配結果)
【而媒婆搜集這個適齡少女資料庫的過程就相當于爬蟲抓取建庫的過程~】
媒婆建立這個資料庫,需要通過各種渠道,例如走訪方圓十公里,甚至更遠的地方,(爬蟲Spider)了解并收集適齡少女的相關信息,然后對這些信息進行加工整理歸檔,按優(yōu)質進行排序,以便男求親者上門時可以根據(jù)其要求快速匹配合適的適齡少女。
男求親者根據(jù)媒婆的推薦進行了解對方的信息,從而最后確定要不要進入相親見面環(huán)節(jié)~
怎么樣?這樣一梳理,是不是對搜索引擎的大致流程有一個比較深刻的理解了呢?
本文經(jīng)授權發(fā)布,不代表增長黑客立場,如若轉載,請注明出處:http://gptmaths.com/cgo/market/75322.html