国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)

這篇具有很好參考價(jià)值的文章主要介紹了ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

3?需求分析

3.1?同步環(huán)境

本系統(tǒng)的同步環(huán)境如圖3:

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋,不超過(guò) 140 字(可選)

功能需求

本設(shè)計(jì)要實(shí)現(xiàn)的功能:

1. 能夠?qū)nternet上的網(wǎng)頁(yè)內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占?/p>

2. 能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁(yè)收集,也就是在Internet上實(shí)現(xiàn)一定的URL級(jí)的數(shù)據(jù)收錄。

3. 對(duì)收集到的數(shù)據(jù)存入MSSQL Server 2000等關(guān)系型數(shù)據(jù)庫(kù)中、或者存入文本文件中。

4. 網(wǎng)站信息庫(kù)中的信息會(huì)不斷的變動(dòng),對(duì)收集到的數(shù)據(jù)需要定期的自動(dòng)維護(hù),做到定期的刪除、從新收集。

5. 對(duì)收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。

6. 對(duì)檢索出的數(shù)據(jù)要可定位性,即可以顯示對(duì)數(shù)據(jù)的出處的鏈接。

7. 實(shí)現(xiàn)中英文分詞功能,能夠按中文或者英文單詞檢索數(shù)據(jù)。

8. 實(shí)現(xiàn)無(wú)刷新的顯示搜索結(jié)果,對(duì)搜索用時(shí)的計(jì)算、顯示,關(guān)鍵字高亮顯示等。

9. 邏輯搜索功能比如“中國(guó)”AND“北京”AND NOT(“海淀區(qū)”AND“中關(guān)村”)。

3.3?性能需求

1. 精度:

1.1對(duì)收集到的信息需要一定的完整性,即對(duì)鏈接層次里的每個(gè)鏈接頁(yè)面都能夠收集得到,并寫入收集的存儲(chǔ)區(qū)里。

1.2對(duì)搜索出的內(nèi)容需要包含有關(guān)鍵字信息

2. 時(shí)間特性要求:

2.1數(shù)據(jù)收集時(shí),因?yàn)槭菍?duì)Internet網(wǎng)上Web信息的收集,并且采用URL級(jí)鏈?zhǔn)降木W(wǎng)頁(yè)收集。收集數(shù)據(jù)時(shí)不能夠出現(xiàn)無(wú)響應(yīng)的等待。

2.2搜索時(shí)響應(yīng)時(shí)間應(yīng)不超過(guò)3秒,無(wú)論搜索的記錄多少。

3. 靈活性

3.1具有良好的中文切詞功能。

3.4?輸入輸出要求

輸入:搜索的關(guān)鍵字。

處理:去前后空格,關(guān)鍵字,查詢索引庫(kù)。

輸出:Web頁(yè)面上顯示搜索信息。

3.5?運(yùn)行需求

1.硬件環(huán)境需求:

需要使用專用服務(wù)器,P4以上,512M以上內(nèi)存,80G以上硬盤;Internet網(wǎng)絡(luò)連接。

2.軟件環(huán)境:

源端:Windows 2003/XP操作系統(tǒng)、MSSQL Server 2000數(shù)據(jù)庫(kù)、IIS5.0、.NET Framework1.1。

4?方案設(shè)計(jì)

結(jié)合前面的同步原理,以及需求的介紹,下面給出同步的方案設(shè)計(jì)。

4.1?搜索引擎模型

模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。爬蟲包括:網(wǎng)頁(yè)抓取模塊、網(wǎng)頁(yè)減肥模塊、爬蟲維持模塊。索引生成包括:基于文本文件的索引、基于數(shù)據(jù)庫(kù)的索引。查詢部分有Ajax、后臺(tái)處理、前臺(tái)界面模塊。如圖4所示。

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋,不超過(guò) 140 字(可選)

數(shù)據(jù)庫(kù)的設(shè)計(jì)

本課題包含一張用于存放抓取回來(lái)的網(wǎng)頁(yè)信息如表1。

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋,不超過(guò) 140 字(可選)

4.3?模塊設(shè)計(jì)

該模型按照功能劃分為三個(gè)部分,一是爬蟲抓取網(wǎng)頁(yè)部分,二是從數(shù)據(jù)庫(kù)建立索引部分,三是從前臺(tái)頁(yè)面查詢部分。系統(tǒng)的功能流程(如圖5.1和5.2)。

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋,不超過(guò) 140 字(可選)

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋,不超過(guò) 140 字(可選)

該系統(tǒng)用3個(gè)模塊來(lái)實(shí)現(xiàn)搜索引擎的主要功能。流程如上圖所示。

從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。這條件可以是限定的謀個(gè)域名空間、或者是限定的網(wǎng)頁(yè)抓取級(jí)數(shù)。當(dāng)在獲取URL時(shí)存在這樣的問(wèn)題就是在實(shí)際應(yīng)用中主要以絕對(duì)地址和相對(duì)地址來(lái)表現(xiàn)。絕對(duì)地址是指一個(gè)準(zhǔn)確的、無(wú)歧義的Internet資源的位置,包含域名(主機(jī)名)、路徑名和文件名;相對(duì)地址是絕對(duì)地址的一部分。然后把抓取到的網(wǎng)頁(yè)信息包括網(wǎng)頁(yè)內(nèi)容、標(biāo)題、鏈接抓取時(shí)間等信息經(jīng)過(guò)‘減肥’后保存到網(wǎng)頁(yè)存儲(chǔ)數(shù)據(jù)庫(kù)表里。然后通過(guò)正則表達(dá)式,去掉多余的HTML標(biāo)簽。因?yàn)樽ト〉木W(wǎng)頁(yè)含有HTML標(biāo)簽、Javascript等,對(duì)搜索多余的信息,如果抓取到的網(wǎng)頁(yè)不經(jīng)過(guò)處理就會(huì)使搜索變得不夠精確。

讓爬蟲程序能繼續(xù)運(yùn)行下去,就得抓取這個(gè)網(wǎng)頁(yè)上的其它URL,所以要用正則將這個(gè)網(wǎng)頁(yè)上的所有URL都取出來(lái)放到一個(gè)隊(duì)列里。用同樣的方法繼續(xù)抓取網(wǎng)頁(yè),這里將運(yùn)用到多線程技術(shù)。

為了對(duì)文檔進(jìn)行索引,Lucene提供了五個(gè)基礎(chǔ)的類,他們分別是Document,F(xiàn)ield,IndexWriter,Analyzer,Directory Document是用來(lái)描述文檔的,這里的文檔可以指一個(gè)HTML頁(yè)面,一封電子郵件,或者是一個(gè)文本文件。一個(gè)Document對(duì)象由多個(gè)Field對(duì)象組成的??梢园岩粋€(gè)Document對(duì)象想象成數(shù)據(jù)庫(kù)中的一個(gè)記錄,而每個(gè)Field對(duì)象就是記錄的一個(gè)字段。在一個(gè)文檔被索引之前,首先需要對(duì)文檔內(nèi)容進(jìn)行分詞處理,這部分工作就是由Analyzer來(lái)做的。Analyzer類是一個(gè)抽象類,它有多個(gè)實(shí)現(xiàn)。針對(duì)不同的語(yǔ)言和應(yīng)用需要選擇適合的Analyzer。Analyzer把分詞后的內(nèi)容交給IndexWriter來(lái)建立索引。

所有的搜索引擎的目標(biāo)都是為了用戶查詢。通過(guò)查詢頁(yè)面,輸入關(guān)鍵字,提交給系統(tǒng),程序就開(kāi)始處理,最后把結(jié)果以列表的形式顯示出來(lái)。在用Lucene的搜索引擎中,用到了Lucene提供的方法,可從所建立的索引文檔中獲得結(jié)果。

鏈接:https://pan.baidu.com/s/1Xwd0U_KktL0hRFPaggIOGQ?pwd=6688?
提取碼:6688?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-769392.html

到了這里,關(guān)于ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 從零開(kāi)始構(gòu)建基于milvus向量數(shù)據(jù)庫(kù)的文本搜索引擎

    從零開(kāi)始構(gòu)建基于milvus向量數(shù)據(jù)庫(kù)的文本搜索引擎

    在這篇文章中,我們將手動(dòng)構(gòu)建一個(gè)語(yǔ)義相似性搜索引擎,該引擎將單個(gè)論文作為“查詢”輸入,并查找Top-K的最類似論文。主要包括以下內(nèi)容: 1.搭建milvus矢量數(shù)據(jù)庫(kù) 2.使用MILVUS矢量數(shù)據(jù)庫(kù)搭建語(yǔ)義相似性搜索引擎 3.從Kaggle下載ARXIV數(shù)據(jù),使用dask將數(shù)據(jù)加載到Python中,并構(gòu)

    2024年02月09日
    瀏覽(24)
  • 如何基于知識(shí)圖譜技術(shù)構(gòu)建現(xiàn)代搜索引擎系統(tǒng)、智能問(wèn)答系統(tǒng)、智能推薦系統(tǒng)?

    如何基于知識(shí)圖譜技術(shù)構(gòu)建現(xiàn)代搜索引擎系統(tǒng)、智能問(wèn)答系統(tǒng)、智能推薦系統(tǒng)?

    1.構(gòu)建搜索引擎系統(tǒng) 下圖中描述的體系結(jié)構(gòu)包括三個(gè)部分:結(jié)合本體庫(kù)的網(wǎng)絡(luò)爬蟲,索引及檢索模塊以及知識(shí)圖譜模塊。其中爬蟲及索引模塊主要負(fù)責(zé)從網(wǎng)絡(luò)中爬取原始數(shù)據(jù)并通過(guò)解析得到實(shí)體相關(guān)信息以及建立索引;搜索模塊結(jié)合本體庫(kù)Query解析檢索語(yǔ)句得到搜索,

    2024年02月12日
    瀏覽(42)
  • 使用 Transformer 和 Amazon OpenSearch Service 構(gòu)建基于列的語(yǔ)義搜索引擎

    使用 Transformer 和 Amazon OpenSearch Service 構(gòu)建基于列的語(yǔ)義搜索引擎

    在數(shù)據(jù)湖中,對(duì)于數(shù)據(jù)清理和注釋、架構(gòu)匹配、數(shù)據(jù)發(fā)現(xiàn)和跨多個(gè)數(shù)據(jù)來(lái)源進(jìn)行分析等許多操作,查找相似的列有著重要的應(yīng)用。如果不能從多個(gè)不同的來(lái)源準(zhǔn)確查找和分析數(shù)據(jù),就會(huì)嚴(yán)重拉低效率,不論是數(shù)據(jù)科學(xué)家、醫(yī)學(xué)研究人員、學(xué)者,還是金融和政府分析師,所有人

    2024年02月11日
    瀏覽(28)
  • ASP一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

    ? ? ? ?本文通過(guò)分析國(guó)內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,提出了一種功能強(qiáng)大,操作簡(jiǎn)單,通用性強(qiáng),可以滿足用戶對(duì)信息搜索需要,利用ASP技術(shù)實(shí)現(xiàn)的一個(gè)B/S體系結(jié)構(gòu)的搜索引擎系統(tǒng)方案。文中著重論述了該系統(tǒng)的功能與實(shí)現(xiàn)、數(shù)據(jù)流程與存儲(chǔ)、后臺(tái)管理等。并對(duì)關(guān)鍵的有關(guān)技術(shù)

    2024年02月06日
    瀏覽(31)
  • 使用Elasticsearch構(gòu)建強(qiáng)大的搜索和分析引擎

    Elasticsearch是一個(gè)基于Lucene的分布式搜索和分析引擎,被廣泛用于處理大規(guī)模的文本數(shù)據(jù)。無(wú)論是構(gòu)建全文搜索引擎、進(jìn)行日志分析還是實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)可視化,Elasticsearch都是一個(gè)強(qiáng)大而靈活的工具。本文將帶您逐步了解如何使用Elasticsearch,并構(gòu)建您自己的搜索和分析應(yīng)用。

    2024年02月04日
    瀏覽(24)
  • Elasticsearch:使用 Elasticsearch 和 BERT 構(gòu)建搜索引擎 - TensorFlow

    Elasticsearch:使用 Elasticsearch 和 BERT 構(gòu)建搜索引擎 - TensorFlow

    在本文中,我們使用預(yù)訓(xùn)練的 BERT 模型和 Elasticsearch 來(lái)構(gòu)建搜索引擎。 Elasticsearch 最近發(fā)布了帶有向量場(chǎng)的文本相似性(text similarity search with vector field)搜索。 另一方面,你可以使用 BERT 將文本轉(zhuǎn)換為固定長(zhǎng)度的向量。 因此,一旦我們將文檔通過(guò) BERT 轉(zhuǎn)換為向量并存儲(chǔ)到

    2024年02月07日
    瀏覽(22)
  • 構(gòu)建搜索引擎,而非向量數(shù)據(jù)庫(kù)(Vector DB) [譯]

    構(gòu)建搜索引擎,而非向量數(shù)據(jù)庫(kù)(Vector DB) [譯]

    作者: Panda Smith 在過(guò)去 12 個(gè)月中,我們見(jiàn)證了向量數(shù)據(jù)庫(kù)(Vector DB)創(chuàng)業(yè)公司的迅猛增長(zhǎng)。我此刻并不打算深入探討它們各自的設(shè)計(jì)取舍。相反,我更想探討和解釋一些關(guān)于向量數(shù)據(jù)庫(kù)的常見(jiàn)理解——它是什么、它的功能用途,以及在解決問(wèn)題時(shí),我們應(yīng)如何恰當(dāng)?shù)乩孟?/p>

    2024年02月04日
    瀏覽(25)
  • 如何構(gòu)建一個(gè)大型搜索引擎——百度如何抓取海量數(shù)據(jù)并為用戶找到信息?

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 搜索引擎是互聯(lián)網(wǎng)的一個(gè)重要組成部分,它作為信息檢索入口承載著互聯(lián)網(wǎng)上海量的可用信息。百度是一個(gè)著名的搜索引擎,擁有超過(guò)9億用戶、超過(guò)7億流量、超過(guò)150萬(wàn)網(wǎng)頁(yè)被索引,是中國(guó)最大的中文搜索引擎。從2005年百度的誕生到今日,百度

    2024年02月08日
    瀏覽(34)
  • 分布式數(shù)據(jù)庫(kù)系統(tǒng):如何利用HBase構(gòu)建微博搜索引擎?

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,用戶數(shù)量和社交活動(dòng)呈爆炸式增長(zhǎng)。因此,基于互聯(lián)網(wǎng)的新型應(yīng)用正在嶄露頭角,例如新浪微博、微信朋友圈、QQ空間、知乎、搜狐新聞等。這些網(wǎng)站擁有龐大的用戶群體,每天產(chǎn)生海量的數(shù)據(jù),極大的 challenges 要如何

    2024年02月04日
    瀏覽(92)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包