1.搜索引擎和瀏覽器的區(qū)別
搜索引擎和瀏覽器是兩個不同的概念,它們在互聯(lián)網(wǎng)使用過程中扮演著不同的角色。
瀏覽器是一種用來訪問互聯(lián)網(wǎng)并查看網(wǎng)頁的軟件應用程序。用戶通過瀏覽器可以輸入網(wǎng)址、點擊鏈接、搜索信息、觀看視頻等。常見的瀏覽器包括Chrome、Safari、Firefox、Edge等。瀏覽器充當了用戶與互聯(lián)網(wǎng)之間的交互平臺,用戶通過瀏覽器可以訪問各種網(wǎng)站,并瀏覽網(wǎng)頁上的內(nèi)容。
搜索引擎則是一種用來幫助用戶在互聯(lián)網(wǎng)上查找信息的工具。用戶可以在搜索引擎中輸入關(guān)鍵詞,搜索引擎會返回包含相關(guān)信息的網(wǎng)頁列表。搜索引擎通過自己的算法對互聯(lián)網(wǎng)上的網(wǎng)頁進行索引和排名,以便用戶更快地找到他們需要的信息。常見的搜索引擎包括Google、百度、必應等。
因此,簡單來說,瀏覽器是用戶用來訪問互聯(lián)網(wǎng)的工具,而搜索引擎是幫助用戶在互聯(lián)網(wǎng)上查找信息的工具。在日常使用互聯(lián)網(wǎng)時,用戶通常會先打開瀏覽器,然后通過瀏覽器訪問搜索引擎來獲取所需的信息。
2.爬蟲是什么
網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人)就是模擬瀏覽器發(fā)送網(wǎng)絡請求,接收請求響應,一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序。
3.搜索引擎是一個巨大的爬蟲
搜索引擎中各關(guān)鍵功能模塊功能簡介如下:
(1)爬蟲:從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù),存儲于文檔知識庫服務器。
(2)文檔知識庫服務器:存儲原始網(wǎng)頁數(shù)據(jù),通常是分布式Key-Value數(shù)據(jù)庫,能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。
(3)索引:讀取原始網(wǎng)頁數(shù)據(jù),解析網(wǎng)頁,抽取有效字段,生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的,分塊/分片的,并會進行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲于索引服務器。
(4)索引服務器:存儲索引數(shù)據(jù),主要是倒排表,通常是分塊、分片存儲,并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時,還根據(jù)類別、主題、時間、網(wǎng)頁質(zhì)量劃分數(shù)據(jù)分區(qū)和分布,更好地服務在線查詢。
(5)檢索:讀取倒排表索引,響應前端查詢請求,返回相關(guān)文檔列表數(shù)據(jù)。
(6)排序:對檢索器返回的文檔列表進行排序,基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。
(7)鏈接分析:收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本(Anchor Text),以此計算各網(wǎng)頁鏈接評分,最終會作為網(wǎng)頁屬性參與返回結(jié)果排序。
(8)網(wǎng)頁去重:提取各網(wǎng)頁的相關(guān)特征屬性,計算相似網(wǎng)頁組,提供離線索引和在線查詢的去重服務。
(9)網(wǎng)頁反垃圾:收集各網(wǎng)頁和網(wǎng)站歷史信息,提取垃圾網(wǎng)頁特征,從而對在線索引中的網(wǎng)頁進行判定,去除垃圾網(wǎng)頁。
(10)查詢分析:分析用戶查詢,生成結(jié)構(gòu)化查詢請求,指派到相應的類別、主題數(shù)據(jù)服務器進行查詢。
(11)頁面描述/摘要:為檢索和排序完成的網(wǎng)頁列表提供相應的描述和摘要。
(12)前端:接受用戶請求,分發(fā)至相應服務器,返回查詢結(jié)果。文章來源:http://www.zghlxwxcb.cn/news/detail-758038.html
4.小結(jié)
我們的瀏覽器上面不就可以通過輸入url來訪問網(wǎng)頁嗎,但是我們?nèi)稳灰褂盟阉饕鎭韼椭覀冋业胶线m的url
所以說學會爬蟲可以建立屬于我們自己的搜索引擎!??!
文章來源地址http://www.zghlxwxcb.cn/news/detail-758038.html
到了這里,關(guān)于爬蟲&搜索引擎&瀏覽器的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!