搜索引擎工作原理
什么是搜索引擎
搜索引擎(Search Engines)是一個對互聯(lián)網上的信息資源進行搜集整理,然后供用戶查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢3部分。搜索引擎的主要任務是搜索其他網站上的信息,并將這些信息進行分類并建立索引,然后把索引的內容放到數(shù)據(jù)庫中,當用戶向搜索引擎提交搜索請求的時候,搜索引擎會從數(shù)據(jù)庫中找出匹配的資料反饋給用戶,用戶再根據(jù)這些信息訪問相應的網站,從而找到自己需要的資料。
搜索引擎分類
按照數(shù)據(jù)收集方式的不同,搜索引擎主要分為3類:分別是目錄索引搜索引擎、全文檢索搜索引擎與元搜索引擎。
1.目錄索引搜索引擎
目錄索引搜索引擎(Search Index/ Directory)中的數(shù)據(jù)是各個網站自己提交的,它就像一個電話號碼簿一樣,按照各個網站的性質,把其網址分門別類排在一起,大類下面套著小類,一直到各個網站的詳細地址,一般還會提供各個網站的內容簡介。用戶不使用關鍵字也可進行查詢,只要找到相關目錄,就完全可以找到相關的網站(注意:是相關的網站,而不是這個網站上某個網頁的內容)。這類搜索引擎往往也提供關鍵字查詢功能,但在查詢時,它只能夠按照網站的名稱、網址、簡介等內容進行查詢,所以它的查詢結果也只是網站的URL地址,不能查到具體的頁面。由于這類搜索引擎的數(shù)據(jù)一般由網站提供,因此它的搜索結果并不完全準確,并不是嚴格意義上的搜索引擎。
2.全文檢索搜索引擎
全文檢索搜索引擎(Full Text Search Engine)這類搜索引擎通過一種稱為“蜘蛛”的程序自動在網絡上提取各個網站的信息來建立自己的數(shù)據(jù)庫,并向用戶提供查詢服務,是一種真正意義上的搜索引擎。如AlaVista, Google, Excite, Hothot, Lycos等。
全文檢索搜索引擎數(shù)據(jù)庫中的數(shù)據(jù)來源分兩種:一是定期搜索,也就是每隔一段時間搜索引擎就主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯(lián)網站進行檢索,一旦發(fā)現(xiàn)新的網站,就會自動提取網站的信息和網址加入自己的數(shù)據(jù)庫。二是網站提交的信息,即網站所有者主動向搜索引擎提交地址,搜索引擎會在一定時間內派出“蜘蛛”程序搜索所提交的網站的相關信息,并存人自己的數(shù)據(jù)庫中??偟恼f來,這些數(shù)據(jù)都是“蜘蛛”程序搜索到的網頁上的具體內容,其搜索結果也能精確到具體網頁。
其實,如今的搜索引擎和目錄索引已經開始相互融合,全文檢索搜索引擎也提供目錄索引服務。比如Yahoo這樣的目錄索引已經在20世紀90年代后期開始與Google等搜索引擎合作,提供全文搜索服務。
3.元搜索引擎
元搜索引擎(META Search Engine)在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace, Dogpile, Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規(guī)則將結果重新排列組合,如Vivisimo。
搜索引擎工作原理
從工作原理角度解釋,目前已有的全部搜索引擎并不是真正搜索互聯(lián)網,它們的搜索范圍實際上僅限于預先整理好的網頁索引數(shù)據(jù)庫。有資料顯示,即便是排名全球搜索引擎第一的Google可以檢索的網頁數(shù)量,也不超過全球互聯(lián)網上網頁總數(shù)的4喇。由此,可以提醒用戶在使用搜索引擎過程中注意兩個問題:第一。檢索的網頁范圍有限,通過搜索引擎沒有找到,并不代表互聯(lián)網上真的沒有;第二,企業(yè)網站制作并不必然會被搜索引擎收錄檢索。
1.全文檢索搜索引擎
真正意義上的搜索引擎,通常指的是收集了互聯(lián)網上幾千萬個到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵同的相關度高低,依次排列。
現(xiàn)在的搜索引擎已普遍使用超鏈分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈接的URL, AnchorText,甚至鏈接周圍的文字。所以,有時候,即使某個網頁A中并沒有某個同,如“網絡營銷”,但如果有別的網頁B用鏈接“網絡營銷”指向這個網頁A,那么用戶搜索“網絡營銷”時也能找到網頁A。而且,如果有更多網頁(C,D,E,F……)用名為“網絡營銷”的鏈接指向這個網頁A,或者給出這個鏈接的源網頁(B,C,D,E,F……)越優(yōu)秀,那么網頁A在用戶搜索“網絡營銷”時也會被認為更相關,排序也會越靠前。
全文檢索搜索引擎的工作原理分為3步:從互聯(lián)網上抓取網頁;建立索引數(shù)據(jù)庫;在索引數(shù)據(jù)庫中搜索排序。
(1)從互聯(lián)網上抓取網頁
利用能夠從互聯(lián)網上自動收集網頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網,程序可以沿著任何網頁中的所有超鏈接爬到其他網頁并重復這過程,最終把爬過的所有網頁收集回來。
(2)建立索引數(shù)據(jù)庫
由分析索引系統(tǒng)程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其他網頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈接中每一個關鍵同的相關度(或重要性),然后用這些相關信息建立網頁索引數(shù)據(jù)庫。
(3)在索引數(shù)據(jù)庫中搜索排序
當用戶輸人關鍵詞搜索后,由搜索系統(tǒng)程序從網頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵同的相關度早已算好,所以只需按照現(xiàn)成的相關度數(shù)值排序,相關度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
搜索引擎的Spider一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾個月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引數(shù)據(jù)庫,以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈接,并根據(jù)網頁內容和鏈接關系的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。
互聯(lián)網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫存儲了互聯(lián)網上幾億個至幾十億個的網頁索引,數(shù)據(jù)量達到幾千兆甚至幾萬兆。但即使最大的搜索引擎建立超過20億個網頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網上普通網頁的40%不到,不同搜索引擎之間的網頁數(shù)據(jù)重疊率一般在70%以下。使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內容。而互聯(lián)網上有更大量的內容,是搜索引擎無法抓取索引的,也是無法用搜索引擎搜索到的。
2.目錄索引搜索引擎
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按目錄索引逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先后順序決定(也有例外)。
與全文搜索引擎相比,目錄索引搜索引擎的工作原理有以下不同之處:
首先,搜索引擎屬于自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站后,目錄編輯人員會親自瀏覽你的網站,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規(guī)則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其像Yahoo這樣的超級索引,登錄更是困難。
再次,在登錄搜索引擎時,一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最后,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以從用戶的角度看,擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像Yahoo這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。
本發(fā)布于UEO營銷型網站建設公司尚品中國http://xmjiujiu.cn/
推薦新聞
更多行業(yè)-
外貿網站建設中的多語言支持有哪些?
隨著全球化進程的推進,越來越多的企業(yè)開始走出國門,進入國際市場。在這個...
2024-12-09 -
營銷型的企業(yè)網站要具備那些特點
尚品中國網站建設公司:企業(yè)網站能不能幫助企業(yè)賺錢,關鍵是這個企業(yè)網站是...
2013-12-26 -
企業(yè)建立自有網站的可行性方案
建立自有網站的背景(Establishes the private w...
2012-08-10 -
企業(yè)建站_你思考過這些問題嗎
以上的問題都值得認真考慮一下,企業(yè)在準備建站之前。決定做網絡營銷或電子...
2012-06-22 -
SEO做網站建設中只追求更完美
網站建設中,每位站長都在竭盡全力做到完美,其實也就是做到用戶體驗的完善...
2012-07-23 -
網站測試評價
為了保證網頁的正確性,當網站設計人員制作完成所有網頁后,需要對所設計的...
2014-08-01
預約專業(yè)咨詢顧問溝通!
免責聲明
非常感謝您訪問我們的網站。在您使用本網站之前,請您仔細閱讀本聲明的所有條款。
1、本站部分內容來源自網絡,涉及到的部分文章和圖片版權屬于原作者,本站轉載僅供大家學習和交流,切勿用于任何商業(yè)活動。
2、本站不承擔用戶因使用這些資源對自己和他人造成任何形式的損失或傷害。
3、本聲明未涉及的問題參見國家有關法律法規(guī),當本聲明與國家法律法規(guī)沖突時,以國家法律法規(guī)為準。
4、如果侵害了您的合法權益,請您及時與我們,我們會在第一時間刪除相關內容!
聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com