索引的原理

來源:生活大全幫 1.61W

索引的原理

搜索引擎的工作原理可分為三個過程:首先在互聯網中發現、蒐集網頁信息,其次對信息進行提取和組建索引庫,最後再由檢索器根據用户輸入的關鍵詞,在索引庫中快速找到文檔,進行文檔與查詢的相關度評價,對輸出的結果進行排序,並將查詢結果呈現給用户。

搜索引擎不能真正理解網頁上的內容,他只是機械地匹配網頁上的文字,而真正意義上的搜索引擎通常指是收集了互聯網上幾千萬到幾十億個網頁並對網頁中的每一個字進行索引,從而建立索引數據庫的全文搜索引擎。

典型的搜索引擎由三個模塊組成:

1、信息採集模塊:信息採集器是一個可以瀏覽網頁的程序,它在進入到一個網頁後會把該網頁的鏈接作為瀏覽的起始地址,把被鏈接的網頁獲取過來,抽取網頁中出現的鏈接,並通過一定的算法決定下一步要訪問哪些鏈接。

2、查詢表模塊:查詢表模塊就是一個全文索引數據庫。

3、檢索模塊:檢索模塊是實現檢索功能的程序,其作用是將用户輸入的檢索表達式拆分為具有表達意義的字或者詞,通過一定的算法獲得相應的檢索結果。

熱門標籤