隨著時代的發(fā)展,網(wǎng)絡早已融入我們的生活,搜索引擎讓信息的查找和獲取變得簡單而精確,那么,其是如何檢索信息的呢?
搜索引擎的工作過程大體分為四個步驟:爬行和抓取、建立索引、搜索詞處理、展示排名,人們日常使用搜索引擎查找資料的過程只是搜索引擎工作過程中的一個環(huán)節(jié)。首先,搜索引擎會向萬維網(wǎng)派出一個能夠發(fā)現(xiàn)新網(wǎng)頁并抓取網(wǎng)頁文件的程序,這個程序通常被稱為蜘蛛(Spider)。其在工作的時候從網(wǎng)站的某一個頁面開始,讀取網(wǎng)頁的內容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的頁面都抓取完為止。如果把整個互聯(lián)網(wǎng)當做一張大網(wǎng),那么這個程序就像是蜘蛛一樣抓取所有的網(wǎng)頁內容。在蜘蛛程序抓取了網(wǎng)頁文件之后,通過對網(wǎng)頁內容的分析和處理,對網(wǎng)頁信息進行提取并組織建立索引庫,即建立一定的搜索原則,也就是說當用戶查找某一關鍵詞時,搜索引擎能根據(jù)關鍵詞在數(shù)據(jù)庫中進行查找和搜索,找到相應的位置。
當搜索引擎對網(wǎng)絡數(shù)據(jù)建立了數(shù)據(jù)庫之后,接下來就是用戶使用階段了,當用戶在搜索欄輸入搜索詞,單擊“搜索”按鈕后,搜索引擎即對輸入的搜索詞進行處理,以提取出相應的關鍵詞,通過關鍵詞在數(shù)據(jù)庫中進行索引和查找,實際的應用中,搜索詞的處理是十分快速的。
當搜索引擎根據(jù)搜索詞找到相關的網(wǎng)頁之后,接下來就遇到了一個問題,究竟把哪一個網(wǎng)頁的鏈接呈現(xiàn)在前面,哪些鏈接放在后面呢?這就涉及到搜索引擎工作的最后一步——展示排名。在眾多網(wǎng)頁中,搜索引擎會根據(jù)算法計算得出,一個網(wǎng)站所提供信息的有效性,原創(chuàng)性和信息的認可度等指標,結合網(wǎng)站自身權重等綜合算法給出相應的排名顯示,同樣的,會將一些質量較低的垃圾網(wǎng)站進行過濾,以提高用戶檢索的有效性。
在信息“爆炸”的時代,搜索引擎帶給我們的是快速精準的信息查找方式,這大大節(jié)省了人們獲取知識的時間,提高人們的生產效率,相信隨著技術的發(fā)展,搜索引擎在未來必定發(fā)揮更大的作用。
本文由北京郵電大學計算機科學與技術研究專業(yè)副教授張忠寶進行科學性把關。
編輯: 張潔
以上文章僅代表作者個人觀點,本網(wǎng)只是轉載,如涉及作品內容、版權、稿酬問題,請及時聯(lián)系我們。電話:029-63903870