摘要?:21世紀的今天互聯(lián)網(wǎng)信息技術飛速發(fā)展,各類信息充斥著互聯(lián)網(wǎng),如何有效的進行信息的搜集整理成為了一個非常重要的課題。網(wǎng)絡爬蟲就是實現(xiàn)自動搜索互聯(lián)網(wǎng)中的各種信息的程序,本系統(tǒng)通過定向的對新聞網(wǎng)站相關的信息進行采集分析與展示。運用計算機圖形學及影像處理高新技術,數(shù)字可視化能夠以圖像的形式展現(xiàn)給用戶,從而讓用戶能夠輕松地獲取、分析、掌握、應用相關的知識。它不僅能夠幫助用戶快速、準確地獲取所需的資訊,還能夠讓用戶能夠輕松地了解到所需的信息,從而提升用戶的工作效率。
本課題主要任務是通過Python開發(fā)環(huán)境設計一新聞搜索引擎系統(tǒng),用戶可以進行新聞數(shù)據(jù)采集、新聞搜索引擎、興趣可視化分析、個性化新聞推薦等操作,采用柱狀圖、詞云圖等可視化方式展示給用戶,提供給用戶進行數(shù)據(jù)的分析。在這篇文章中,我們將深入探討這個話題的重要性,并討論當前的網(wǎng)絡爬蟲領域的最新進展。我們還將探討有關的系統(tǒng)知識與技術,并對其進行詳細的需求分析。其次是系統(tǒng)設計,包括概要設計、模塊設計、數(shù)據(jù)庫設計。最后對系統(tǒng)進行了詳細設計和測試。
關鍵詞??信息爬??;Python;可視化展示;新聞搜索引擎
爬蟲是一類非常復雜的生物,它們的類型因其特性而異。根據(jù)其特性,爬蟲可以大致劃分為深度爬蟲、集中爬蟲(Focused Crawler)、普遍爬蟲(General Crawler)。這些類型的差異取決于爬蟲的特性、架構、戰(zhàn)斗策略等因素。
1通用爬蟲
通用爬蟲的爬取流程過程如下:主要算法為廣度優(yōu)先,先從給定的頁面進行信息的爬取,爬取到內容進行保存,爬取出新的鏈接,不分順序,直接放入到隊列里面,等待繼續(xù)爬取,這樣一直擴散爬取到整個網(wǎng)站,知道滿足設定的條件而停止。通用爬蟲的優(yōu)點:爬取數(shù)量大、爬取內容多(主要應用到搜索引擎,例如谷歌、百度、搜搜等)。缺點也比較明顯,由于見啥爬啥,效率也比較低。由于爬取的東西多而雜,對存儲要求也特別高,但是現(xiàn)在存儲空間特別大,計算機內存大,cpu的計算速率也特別高,所以能夠彌補通用爬蟲的缺點。
通用爬蟲的體系結構如圖 2-1 所示,主要包含4大部分,分別為初始 URL模塊,URL 隊列模塊,爬行模塊和重復鏈接過濾模塊。爬行模塊抓取給定的初始 URL 對應的頁面,重復鏈接過濾模塊負責把訪問過的鏈接過濾掉,過濾后的 URL 添加到 URL 隊列中,重復這一過程。
?圖 2-1通用爬蟲體系結構
3.2功能需求分析
本系統(tǒng)目標是設計一個新聞搜索引擎系統(tǒng),主要功能需求包括以下方面:
1信息收集:在網(wǎng)站設計中,首先,要收集信息,從目標網(wǎng)址站上收集信息,將其它網(wǎng)站上收集的信息保存到數(shù)據(jù)庫中。
2展示實現(xiàn):通過對信息的處理后,可以將結果以圖形的凡是顯示給用戶,這些信息顯示要滿足簡單、直觀、交互性良好等具體目標和要求。
3安全管理:安全管理可以分為系統(tǒng)安全和數(shù)據(jù)安全,系統(tǒng)的安全需要做好程序判斷和更新維護,數(shù)據(jù)安全需要做好數(shù)據(jù)備份。
基于Python的新聞搜索引擎系統(tǒng)中,爬蟲、搜索引擎和jieba分詞都是非常重要的組成部分,具體應用如下:
1.爬蟲:爬蟲用于從網(wǎng)站中抓取所需的新聞數(shù)據(jù),并將其保存在數(shù)據(jù)庫中,以便于下一步的搜索和分析。Python常用的爬蟲庫有BeautifulSoup、Scrapy等,具體的爬蟲實現(xiàn)需要根據(jù)不同的需求進行定制。
2.搜索引擎:搜索引擎是搜索功能的核心,可以對爬蟲抓取的新聞進行建立索引,以便于關鍵詞搜索和相關性排序。Python常用的搜索引擎庫有Whoosh、ElasticSearch等,可以根據(jù)實際需求進行選擇,并進行相關的配置和優(yōu)化。
3.jieba分詞:中文分詞是非常重要的一環(huán),可以將新聞按照詞語進行切分,以便于建立倒排索引和進行搜索關鍵詞匹配。Python中常用的中文分詞庫有jieba、THULAC等,jieba分詞是一個開源的中文分詞庫,具有分詞速度快、準確度高、易用性強等優(yōu)點,是Python中常用的中文分詞工具之一。
綜上所述,爬蟲、搜索引擎和jieba分詞都是基于Python的新聞搜索引擎系統(tǒng)中的重要技術,它們?yōu)樗阉鞴δ艿膶崿F(xiàn)提供了強有力的技術支持,可以幫助用戶快速找到所需的新聞信息,提高搜索效率和用戶滿意度。
3.3系統(tǒng)性能分析
良好的運行狀態(tài)是提升用戶體驗的關鍵因素。而性能的好壞又取決于系統(tǒng)的架構的好與壞。一個優(yōu)秀的系統(tǒng)架構一般包含以下幾個方面:
1模塊化設計明確。一個大的系統(tǒng),分為很多小的模塊,每個模塊的劃分清晰明確,每個模塊的功能明確,且模塊之間可以靈活的調用,實現(xiàn)低耦合高內聚。
2模塊的劃分,分為很多種類,要保證通用模塊實現(xiàn)靈活的調用,特殊模塊,可以隨時根據(jù)系統(tǒng)功能等的變更及時進行更改。讓系統(tǒng)的靈活性更高。
3穩(wěn)定、安全、高效的數(shù)據(jù)建模。數(shù)據(jù)是整個系統(tǒng)的倉庫,只有一個穩(wěn)定、安全、高效的倉庫,才能為系統(tǒng)提供好的數(shù)據(jù)存取和變更。
4整體結構穩(wěn)定而又靈活。系統(tǒng)的整體架構在初期部署的時候,一定要有高度 ,不但結構清晰,運行穩(wěn)定,當運行出現(xiàn)問題的時候,能夠提供快速的解決方案。
3.4系統(tǒng)運行環(huán)境分析
1開發(fā)硬件環(huán)境:
CPU:酷睿I 5及以上
內存:4G以上
硬盤:320G以上
2 開發(fā)軟件環(huán)境:
操作系統(tǒng):Windows 7
開發(fā)語言:python
系統(tǒng)整體框架結構如下圖4.1所示。
?圖 4.1系統(tǒng)整體框架結構
5.2系統(tǒng)實現(xiàn)界面
5.2.1登錄界面
登錄界面如圖5.2所示。
?圖5.2 登錄界面
?圖5.3 注冊界面
5.2.2系統(tǒng)功能實現(xiàn)界面
新聞數(shù)據(jù)采集信息展示界面。如圖5.4
?圖5.4新聞數(shù)據(jù)采集展示界面
新聞搜索引擎信息展示界面。如圖5.5
?圖5.5新聞搜索引擎展示界面
興趣可視化分析信息展示界面。如圖5.6
?圖5.6興趣可視化分析展示界面
參考文獻
[1]龍虹.信息爬取系統(tǒng)[M].北京理工大學出版社.2017.3.
[2]薛華成.數(shù)據(jù)可視化分析信息系統(tǒng)[M],北京:清華大學出版社,2016.
[3]劉超,唐彬.Python案例開發(fā)集錦[M],北京:電子工業(yè)出版社,2018.
[4]蔣宗禮,馬濤,唐好魁,閆明霞等.數(shù)據(jù)可視化技術及應用(第2版)[M].電子工業(yè)出版社,2020:43-65.
[5]庭寶等.精通Python [M],北京:電子工業(yè)出版社,2018.
[6]艾倫(Grant Allen),歐文斯(Mike Owens),楊謙,劉義宣. Python權威指南(第2版)[M],電子工業(yè)出版社,2016(01):25-65.
[7]李盛恩,王珊.數(shù)據(jù)庫基礎與應用(第二版)[M].北京:人民郵電出版社,2017:14-78.
[8]曹巖,王海宇.Python應用程序開發(fā)實例應用于技巧(上基礎篇)/21世紀工程應用計算機技術叢書[M],西安:西安交通大學出版社,2018.
[9]薩默菲爾德(Mark Summerfield),吳迪,戚彬,高波.python高級編程[M],電子工業(yè)出版社,2016(04):60-82.
[10]張雨. 融合用戶聚類和協(xié)同過濾的新聞推薦系統(tǒng)設計與實現(xiàn)[D].山東師范大學,2019.
[11]陳思雯,劉海硯.面向網(wǎng)絡新聞的爬蟲開發(fā)與熱點新聞事件分析[J].測繪與空間地理信息,2019,42(03):100-103+108.
[12]湯雪巧,許周騰.新聞自媒體采集系統(tǒng)的設計與實現(xiàn)[J].廣播與電視技術,2019,46(02):29-32.
[13]Yoshifumi Seki,Mitsuo Yoshida 0001. Analysis of Bias in Gathering Information Between User Attributes in News Application.[J]. CoRR,2019,abs/1909.00554.
[14]左衛(wèi)剛.基于Python的新聞聚合系統(tǒng)網(wǎng)絡爬蟲研究[J].長春師范大學學報,2018,37(12):29-33.
精力有限就寫這么多,具體系統(tǒng)展示有視頻鏈接。
目錄
1 ??引言
1.1 1.1研究背景及意義
1.2 網(wǎng)絡爬蟲的發(fā)展現(xiàn)狀
1.3 本課題主要工作
2 相關技術簡介
2.1 Python簡介
2.2 爬蟲簡介
2.3 PyEcharts
2.4 數(shù)據(jù)挖掘簡介 7
3 系統(tǒng)分析
3.1 可行性分析
3.2 功能需求分析
3.3 系統(tǒng)性能分析
3.4 系統(tǒng)運行環(huán)境分析 1
4 系統(tǒng)設計
4.1 設計目標及原則
4.2 整體框架
4.3 系統(tǒng)流程設計
4.4 數(shù)據(jù)庫實體
4.5 數(shù)據(jù)表設計
5 系統(tǒng)實現(xiàn) 16
5.1 信息爬取 16
5.2 系統(tǒng)實現(xiàn)界面
6 軟件測試與分析
6.1 測試環(huán)境與測試條件 0
6.2 功能測試 20
6.3 性能測試 0
6.4 測試用例 1
6.5 系統(tǒng)運行情況 21
結 ?論 22
致??謝 23文章來源:http://www.zghlxwxcb.cn/news/detail-745870.html
參考文獻 24文章來源地址http://www.zghlxwxcb.cn/news/detail-745870.html
到了這里,關于基于python的新聞搜索引擎設計與實現(xiàn)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!