文章來源地址http://www.zghlxwxcb.cn/news/detail-476477.html
1.?車庫軼事
1.1.?1939年
1.1.1.?戴夫·休利特(Dave Hewlett)
1.1.1.1.?惠普(Hewlett-Packard)
1.2.?1976年
1.2.1.?蒂夫·喬布斯(Steve Jobs)和史蒂夫·沃茲尼亞克(Steve Wozniak)
1.2.1.1.?從一間臥室開始的,空間很快就不夠用了,于是他們轉(zhuǎn)移到了車庫
1.3.?1998年
1.3.1.?佩奇和布林
1.3.1.1.?谷歌
1.3.1.1.1.?門洛帕克車庫
2.?互聯(lián)網(wǎng)搜索歷史
2.1.?1945年
2.1.1.?超鏈接
2.1.1.1.?美國工程師范內(nèi)瓦·布什(Vannevar Bush)
2.1.1.2.?論文《誠若所思》(As We May Think)
2.1.1.3.?一臺(tái)被稱作麥麥克斯(memex)的機(jī)器
2.1.1.3.1.?允許“關(guān)聯(lián)索引……任何被選中的東西都能立即自動(dòng)選擇另一個(gè)東西”
2.1.1.3.2.?一種早期的超鏈接
2.2.?1994年
2.2.1.?Infoseek
2.2.2.?Lycos
2.3.?1995年
2.3.1.?AltaVista
2.4.?1999年
2.4.1.?AltaVista遞交的美國專利文件《索引的限制搜索》(“Constrained searching of an index”)中描述了元詞把戲
3.?兩大主要任務(wù)
3.1.?匹配(matching)
3.2.?排名(ranking)
4.?匹配算法
4.1.?AltaVista:互聯(lián)網(wǎng)級別的第一種匹配算法
4.1.1.?20世紀(jì)90年代中期,AltaVista是搜索引擎的王者
4.1.2.?有史以來第一次,有一個(gè)搜索引擎能完全索引互聯(lián)網(wǎng)上每個(gè)頁面的全部文本
4.2.?有效匹配只是高效搜索引擎的一大挑戰(zhàn)
4.3.?索引
4.3.1.?是所有搜索引擎背后最基礎(chǔ)的思想
4.3.2.?是計(jì)算機(jī)科學(xué)中最古老的有用思想
4.3.3.?互聯(lián)網(wǎng)搜索引擎的索引和一本書的索引有著相同的工作原理
4.3.3.1.?“書頁”現(xiàn)在成了萬維網(wǎng)上的網(wǎng)頁
4.3.3.2.?搜索引擎則給互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁分配了一個(gè)不同的頁碼
4.3.4.?索引不僅應(yīng)該存儲(chǔ)頁碼,還要存儲(chǔ)信息在頁面內(nèi)的位置
5.?排名和鄰度
5.1.?查詢詞彼此相鄰的網(wǎng)頁比那些查詢詞相距很遠(yuǎn)的網(wǎng)頁相關(guān)度更高
5.2.?搜索引擎在不斷地使用和鄰度有關(guān)的信息,以提高搜索排名
5.3.?“NEAR”(鄰近)關(guān)鍵詞
5.3.1.?NEAR查詢
5.4.?搜索引擎的生死由其排名的質(zhì)量決定,而通過利用網(wǎng)頁結(jié)構(gòu),排名質(zhì)量能夠得到大幅提升
6.?元詞把戲
6.1.?Metaword Trick
6.2.?創(chuàng)建一份索引時(shí),囊括所有元詞是件很簡單的事
6.3.?標(biāo)題查詢和其他取決于網(wǎng)頁結(jié)構(gòu)的“結(jié)構(gòu)查詢”類似于NEAR查詢
7.?排名算法
7.1.?PageRank
7.1.1.?一種對網(wǎng)頁排名的算法
7.1.2.?主要發(fā)明者拉里·佩奇的排名算法
7.1.3.?學(xué)術(shù)會(huì)議論文《解析大規(guī)模超文本網(wǎng)絡(luò)搜索引擎》(The Anatomy of a Large-Scale Hypertextual Web Search Engine)
7.1.4.?核心思想
7.1.4.1.?權(quán)威性網(wǎng)頁通過超鏈接向其他網(wǎng)頁傳輸權(quán)重
7.2.?基于鏈接的排名算法(Link-based Ranking Algorithms)
7.3.?超鏈接
7.3.1.?網(wǎng)頁上的一個(gè)短語,當(dāng)你點(diǎn)擊它時(shí),你將被帶到另一個(gè)網(wǎng)頁
7.3.2.?一個(gè)網(wǎng)頁的鏈入鏈接數(shù)可能成為該網(wǎng)頁“有用性”或“權(quán)威性”的指標(biāo)
7.3.3.?人們可以濫用超鏈接把戲,人為地提高自己網(wǎng)頁的排名
7.3.3.1.?搜索引擎稱這種濫用為網(wǎng)絡(luò)垃圾Web Spam
7.3.4.?一個(gè)有許多鏈入鏈接的網(wǎng)頁應(yīng)該有高排名
7.4.?權(quán)重
7.4.1.?來自高權(quán)重網(wǎng)頁的鏈接排名要比來自低權(quán)重網(wǎng)頁鏈接的排名高
7.4.2.?所有網(wǎng)頁的初始權(quán)重值(Authority Score)都是1
7.4.2.1.?如果一個(gè)網(wǎng)頁有鏈入鏈接,在計(jì)算該網(wǎng)頁權(quán)重時(shí)就要加入指向其網(wǎng)頁的權(quán)重
7.4.2.2.?如果X和Y網(wǎng)頁鏈接Z網(wǎng)頁,那么Z網(wǎng)頁的權(quán)重就是X網(wǎng)頁和Y網(wǎng)頁權(quán)重相加的值
7.4.3.?和來自低權(quán)重網(wǎng)頁的鏈入鏈接相比,一個(gè)來自高權(quán)重網(wǎng)頁的鏈入鏈接應(yīng)該更能證明一個(gè)網(wǎng)頁的排名
7.5.?隨機(jī)訪問者
7.5.1.?超鏈接很有可能形成“循環(huán)”(cycle)
7.5.1.1.?隨機(jī)訪問者解決這個(gè)“雞生蛋還是蛋生雞”的問題
7.5.1.2.?不管超鏈接有沒有形成循環(huán),隨機(jī)訪問者把戲都能完美地運(yùn)作
7.5.2.?關(guān)鍵點(diǎn)
7.5.2.1.?每次訪問一個(gè)網(wǎng)頁時(shí),都有一個(gè)固定的重新訪問概率(大概是15%),讓訪問者不從已有的超鏈接中挑選一個(gè)并點(diǎn)擊
7.5.2.2.?網(wǎng)頁的訪問者權(quán)重值(Surfer Authority Score)
7.5.2.2.1.?一名隨機(jī)訪問者訪問該網(wǎng)頁的時(shí)間比例
7.5.3.?一個(gè)有許多鏈入鏈接的網(wǎng)頁被訪問的概率較大
7.5.4.?和一個(gè)來自不知名網(wǎng)頁的鏈接相比,訪問者更有可能繼續(xù)點(diǎn)擊一個(gè)來自知名網(wǎng)頁的鏈入鏈接
7.5.5.?每個(gè)網(wǎng)頁鏈入鏈接的質(zhì)量和數(shù)量都會(huì)被納入考慮范圍
7.6.?搜索引擎并非通過模擬隨機(jī)訪問者來計(jì)算PageRank值:它們使用像隨機(jī)訪問者模擬一樣給出相同答案的數(shù)學(xué)技巧,但計(jì)算成本要低很多
7.6.1.?商業(yè)搜索引擎中用來判定排名的算法要比PageRank這類基于鏈接的排名算法多得多
文章來源:http://www.zghlxwxcb.cn/news/detail-476477.html
到了這里,關(guān)于讀改變未來的九大算法筆記07_搜索引擎的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!