国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<font id="oyvwp"><big id="oyvwp"></big></font>

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)

2年前作者：m0_60139146分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

3?需求分析

3.1?同步環(huán)境

本系統(tǒng)的同步環(huán)境如圖3：

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋，不超過(guò) 140 字（可選）

功能需求

本設(shè)計(jì)要實(shí)現(xiàn)的功能：

1. 能夠?qū)nternet上的網(wǎng)頁(yè)內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占?/p>

2. 能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁(yè)收集,也就是在Internet上實(shí)現(xiàn)一定的URL級(jí)的數(shù)據(jù)收錄。

3. 對(duì)收集到的數(shù)據(jù)存入MSSQL Server 2000等關(guān)系型數(shù)據(jù)庫(kù)中、或者存入文本文件中。

4. 網(wǎng)站信息庫(kù)中的信息會(huì)不斷的變動(dòng)，對(duì)收集到的數(shù)據(jù)需要定期的自動(dòng)維護(hù)，做到定期的刪除、從新收集。

5. 對(duì)收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。

6. 對(duì)檢索出的數(shù)據(jù)要可定位性，即可以顯示對(duì)數(shù)據(jù)的出處的鏈接。

7. 實(shí)現(xiàn)中英文分詞功能，能夠按中文或者英文單詞檢索數(shù)據(jù)。

8. 實(shí)現(xiàn)無(wú)刷新的顯示搜索結(jié)果，對(duì)搜索用時(shí)的計(jì)算、顯示，關(guān)鍵字高亮顯示等。

9. 邏輯搜索功能比如“中國(guó)”AND“北京”AND NOT（“海淀區(qū)”AND“中關(guān)村”）。

3.3?性能需求

1. 精度：

1.1對(duì)收集到的信息需要一定的完整性，即對(duì)鏈接層次里的每個(gè)鏈接頁(yè)面都能夠收集得到，并寫入收集的存儲(chǔ)區(qū)里。

1.2對(duì)搜索出的內(nèi)容需要包含有關(guān)鍵字信息

2. 時(shí)間特性要求：

2.1數(shù)據(jù)收集時(shí)，因?yàn)槭菍?duì)Internet網(wǎng)上Web信息的收集，并且采用URL級(jí)鏈?zhǔn)降木W(wǎng)頁(yè)收集。收集數(shù)據(jù)時(shí)不能夠出現(xiàn)無(wú)響應(yīng)的等待。

2.2搜索時(shí)響應(yīng)時(shí)間應(yīng)不超過(guò)3秒，無(wú)論搜索的記錄多少。

3. 靈活性

3.1具有良好的中文切詞功能。

3.4?輸入輸出要求

輸入：搜索的關(guān)鍵字。

處理：去前后空格，關(guān)鍵字，查詢索引庫(kù)。

輸出：Web頁(yè)面上顯示搜索信息。

3.5?運(yùn)行需求

1．硬件環(huán)境需求：

需要使用專用服務(wù)器，P4以上，512M以上內(nèi)存，80G以上硬盤；Internet網(wǎng)絡(luò)連接。

2．軟件環(huán)境：

源端：Windows 2003/XP操作系統(tǒng)、MSSQL Server 2000數(shù)據(jù)庫(kù)、IIS5.0、.NET Framework1.1。

4?方案設(shè)計(jì)

結(jié)合前面的同步原理，以及需求的介紹，下面給出同步的方案設(shè)計(jì)。

4.1?搜索引擎模型

模型包括爬蟲、索引生成、查詢以及系統(tǒng)配置部分。爬蟲包括：網(wǎng)頁(yè)抓取模塊、網(wǎng)頁(yè)減肥模塊、爬蟲維持模塊。索引生成包括：基于文本文件的索引、基于數(shù)據(jù)庫(kù)的索引。查詢部分有Ajax、后臺(tái)處理、前臺(tái)界面模塊。如圖4所示。

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋，不超過(guò) 140 字（可選）

數(shù)據(jù)庫(kù)的設(shè)計(jì)

本課題包含一張用于存放抓取回來(lái)的網(wǎng)頁(yè)信息如表1。

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋，不超過(guò) 140 字（可選）

4.3?模塊設(shè)計(jì)

該模型按照功能劃分為三個(gè)部分，一是爬蟲抓取網(wǎng)頁(yè)部分，二是從數(shù)據(jù)庫(kù)建立索引部分，三是從前臺(tái)頁(yè)面查詢部分。系統(tǒng)的功能流程(如圖5.1和5.2)。

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋，不超過(guò) 140 字（可選）

ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),搜索引擎

添加圖片注釋，不超過(guò) 140 字（可選）

該系統(tǒng)用3個(gè)模塊來(lái)實(shí)現(xiàn)搜索引擎的主要功能。流程如上圖所示。

從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。這條件可以是限定的謀個(gè)域名空間、或者是限定的網(wǎng)頁(yè)抓取級(jí)數(shù)。當(dāng)在獲取URL時(shí)存在這樣的問(wèn)題就是在實(shí)際應(yīng)用中主要以絕對(duì)地址和相對(duì)地址來(lái)表現(xiàn)。絕對(duì)地址是指一個(gè)準(zhǔn)確的、無(wú)歧義的Internet資源的位置，包含域名（主機(jī)名）、路徑名和文件名；相對(duì)地址是絕對(duì)地址的一部分。然后把抓取到的網(wǎng)頁(yè)信息包括網(wǎng)頁(yè)內(nèi)容、標(biāo)題、鏈接抓取時(shí)間等信息經(jīng)過(guò)‘減肥’后保存到網(wǎng)頁(yè)存儲(chǔ)數(shù)據(jù)庫(kù)表里。然后通過(guò)正則表達(dá)式，去掉多余的HTML標(biāo)簽。因?yàn)樽ト〉木W(wǎng)頁(yè)含有HTML標(biāo)簽、Javascript等，對(duì)搜索多余的信息，如果抓取到的網(wǎng)頁(yè)不經(jīng)過(guò)處理就會(huì)使搜索變得不夠精確。

讓爬蟲程序能繼續(xù)運(yùn)行下去，就得抓取這個(gè)網(wǎng)頁(yè)上的其它URL，所以要用正則將這個(gè)網(wǎng)頁(yè)上的所有URL都取出來(lái)放到一個(gè)隊(duì)列里。用同樣的方法繼續(xù)抓取網(wǎng)頁(yè)，這里將運(yùn)用到多線程技術(shù)。

為了對(duì)文檔進(jìn)行索引，Lucene提供了五個(gè)基礎(chǔ)的類，他們分別是Document，F(xiàn)ield，IndexWriter，Analyzer，Directory Document是用來(lái)描述文檔的，這里的文檔可以指一個(gè)HTML頁(yè)面，一封電子郵件，或者是一個(gè)文本文件。一個(gè)Document對(duì)象由多個(gè)Field對(duì)象組成的?？梢园岩粋€(gè)Document對(duì)象想象成數(shù)據(jù)庫(kù)中的一個(gè)記錄，而每個(gè)Field對(duì)象就是記錄的一個(gè)字段。在一個(gè)文檔被索引之前，首先需要對(duì)文檔內(nèi)容進(jìn)行分詞處理，這部分工作就是由Analyzer來(lái)做的。Analyzer類是一個(gè)抽象類，它有多個(gè)實(shí)現(xiàn)。針對(duì)不同的語(yǔ)言和應(yīng)用需要選擇適合的Analyzer。Analyzer把分詞后的內(nèi)容交給IndexWriter來(lái)建立索引。

所有的搜索引擎的目標(biāo)都是為了用戶查詢。通過(guò)查詢頁(yè)面，輸入關(guān)鍵字，提交給系統(tǒng)，程序就開(kāi)始處理，最后把結(jié)果以列表的形式顯示出來(lái)。在用Lucene的搜索引擎中，用到了Lucene提供的方法，可從所建立的索引文檔中獲得結(jié)果。

鏈接：https://pan.baidu.com/s/1Xwd0U_KktL0hRFPaggIOGQ?pwd=6688?
提取碼：6688?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-769392.html

到了這里，關(guān)于ASP.NET基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

從零開(kāi)始構(gòu)建基于milvus向量數(shù)據(jù)庫(kù)的文本搜索引擎
在這篇文章中，我們將手動(dòng)構(gòu)建一個(gè)語(yǔ)義相似性搜索引擎，該引擎將單個(gè)論文作為“查詢”輸入，并查找Top-K的最類似論文。主要包括以下內(nèi)容： 1.搭建milvus矢量數(shù)據(jù)庫(kù) 2.使用MILVUS矢量數(shù)據(jù)庫(kù)搭建語(yǔ)義相似性搜索引擎 3.從Kaggle下載ARXIV數(shù)據(jù)，使用dask將數(shù)據(jù)加載到Python中，并構(gòu)
2024年02月09日
瀏覽(24)
如何基于知識(shí)圖譜技術(shù)構(gòu)建現(xiàn)代搜索引擎系統(tǒng)、智能問(wèn)答系統(tǒng)、智能推薦系統(tǒng)？
1.構(gòu)建搜索引擎系統(tǒng) 下圖中描述的體系結(jié)構(gòu)包括三個(gè)部分：結(jié)合本體庫(kù)的網(wǎng)絡(luò)爬蟲，索引及檢索模塊以及知識(shí)圖譜模塊。其中爬蟲及索引模塊主要負(fù)責(zé)從網(wǎng)絡(luò)中爬取原始數(shù)據(jù)并通過(guò)解析得到實(shí)體相關(guān)信息以及建立索引；搜索模塊結(jié)合本體庫(kù)Query解析檢索語(yǔ)句得到搜索，
2024年02月12日
瀏覽(42)
使用 Transformer 和 Amazon OpenSearch Service 構(gòu)建基于列的語(yǔ)義搜索引擎
在數(shù)據(jù)湖中，對(duì)于數(shù)據(jù)清理和注釋、架構(gòu)匹配、數(shù)據(jù)發(fā)現(xiàn)和跨多個(gè)數(shù)據(jù)來(lái)源進(jìn)行分析等許多操作，查找相似的列有著重要的應(yīng)用。如果不能從多個(gè)不同的來(lái)源準(zhǔn)確查找和分析數(shù)據(jù)，就會(huì)嚴(yán)重拉低效率，不論是數(shù)據(jù)科學(xué)家、醫(yī)學(xué)研究人員、學(xué)者，還是金融和政府分析師，所有人
2024年02月11日
瀏覽(28)
ASP一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
? ? ? ?本文通過(guò)分析國(guó)內(nèi)外搜索引擎的發(fā)展現(xiàn)狀，提出了一種功能強(qiáng)大，操作簡(jiǎn)單，通用性強(qiáng)，可以滿足用戶對(duì)信息搜索需要,利用ASP技術(shù)實(shí)現(xiàn)的一個(gè)B/S體系結(jié)構(gòu)的搜索引擎系統(tǒng)方案。文中著重論述了該系統(tǒng)的功能與實(shí)現(xiàn)、數(shù)據(jù)流程與存儲(chǔ)、后臺(tái)管理等。并對(duì)關(guān)鍵的有關(guān)技術(shù)
2024年02月06日
瀏覽(31)
使用Elasticsearch構(gòu)建強(qiáng)大的搜索和分析引擎
Elasticsearch是一個(gè)基于Lucene的分布式搜索和分析引擎，被廣泛用于處理大規(guī)模的文本數(shù)據(jù)。無(wú)論是構(gòu)建全文搜索引擎、進(jìn)行日志分析還是實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)可視化，Elasticsearch都是一個(gè)強(qiáng)大而靈活的工具。本文將帶您逐步了解如何使用Elasticsearch，并構(gòu)建您自己的搜索和分析應(yīng)用。
2024年02月04日
瀏覽(24)
Elasticsearch：使用 Elasticsearch 和 BERT 構(gòu)建搜索引擎 - TensorFlow
在本文中，我們使用預(yù)訓(xùn)練的 BERT 模型和 Elasticsearch 來(lái)構(gòu)建搜索引擎。 Elasticsearch 最近發(fā)布了帶有向量場(chǎng)的文本相似性（text similarity search with vector field）搜索。另一方面，你可以使用 BERT 將文本轉(zhuǎn)換為固定長(zhǎng)度的向量。因此，一旦我們將文檔通過(guò) BERT 轉(zhuǎn)換為向量并存儲(chǔ)到
2024年02月07日
瀏覽(22)
構(gòu)建搜索引擎，而非向量數(shù)據(jù)庫(kù)（Vector DB） [譯]
作者： Panda Smith 在過(guò)去 12 個(gè)月中，我們見(jiàn)證了向量數(shù)據(jù)庫(kù)（Vector DB）創(chuàng)業(yè)公司的迅猛增長(zhǎng)。我此刻并不打算深入探討它們各自的設(shè)計(jì)取舍。相反，我更想探討和解釋一些關(guān)于向量數(shù)據(jù)庫(kù)的常見(jiàn)理解——它是什么、它的功能用途，以及在解決問(wèn)題時(shí)，我們應(yīng)如何恰當(dāng)?shù)乩孟?/p>
2024年02月04日
瀏覽(25)
jieba 加whooh 構(gòu)建自己本地?cái)?shù)據(jù)庫(kù)的搜索引擎
例子實(shí)戰(zhàn)
2024年02月10日
瀏覽(28)
如何構(gòu)建一個(gè)大型搜索引擎——百度如何抓取海量數(shù)據(jù)并為用戶找到信息？
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 搜索引擎是互聯(lián)網(wǎng)的一個(gè)重要組成部分，它作為信息檢索入口承載著互聯(lián)網(wǎng)上海量的可用信息。百度是一個(gè)著名的搜索引擎，擁有超過(guò)9億用戶、超過(guò)7億流量、超過(guò)150萬(wàn)網(wǎng)頁(yè)被索引，是中國(guó)最大的中文搜索引擎。從2005年百度的誕生到今日，百度
2024年02月08日
瀏覽(34)
分布式數(shù)據(jù)庫(kù)系統(tǒng)：如何利用HBase構(gòu)建微博搜索引擎？
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著互聯(lián)網(wǎng)的蓬勃發(fā)展，用戶數(shù)量和社交活動(dòng)呈爆炸式增長(zhǎng)。因此，基于互聯(lián)網(wǎng)的新型應(yīng)用正在嶄露頭角，例如新浪微博、微信朋友圈、QQ空間、知乎、搜狐新聞等。這些網(wǎng)站擁有龐大的用戶群體，每天產(chǎn)生海量的數(shù)據(jù)，極大的 challenges 要如何
2024年02月04日
瀏覽(92)

<menuitem id="xunuh"></menuitem>