国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<label id="vv00y"><progress id="vv00y"></progress></label>

一小時(shí)掌握：使用ScrapySharp和C#打造新聞下載器

2年前作者：億牛云爬蟲專家分類：Toy博客閱讀(19)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了一小時(shí)掌握：使用ScrapySharp和C#打造新聞下載器。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

引言

爬蟲技術(shù)是指通過(guò)編程的方式，自動(dòng)從互聯(lián)網(wǎng)上獲取和處理數(shù)據(jù)的技術(shù)。爬蟲技術(shù)有很多應(yīng)用場(chǎng)景，比如搜索引擎、數(shù)據(jù)分析、輿情監(jiān)測(cè)、電商比價(jià)等。爬蟲技術(shù)也是一門有趣的技術(shù)，可以讓你發(fā)現(xiàn)網(wǎng)絡(luò)上的各種有價(jià)值的信息。

本文將介紹如何使用ScrapySharp和C#語(yǔ)言，打造一個(gè)簡(jiǎn)單的新聞下載器，可以從指定的新聞網(wǎng)站上抓取新聞標(biāo)題、摘要、正文、作者、發(fā)布時(shí)間等信息，并保存到本地文件中。本文的目的是讓你在一小時(shí)內(nèi)掌握ScrapySharp和C#的基本用法，以及爬蟲技術(shù)的基本原理和技巧。

ScrapySharp和C#的介紹

ScrapySharp是一個(gè)基于.NET的爬蟲框架，它提供了一系列的類和方法，可以方便地實(shí)現(xiàn)爬蟲的功能，比如發(fā)送請(qǐng)求、解析響應(yīng)、提取數(shù)據(jù)、保存數(shù)據(jù)等。ScrapySharp的核心類是ScrapingBrowser，它模擬了一個(gè)瀏覽器的行為，可以執(zhí)行JavaScript、處理Cookie、設(shè)置代理等。ScrapySharp還支持CSS選擇器和XPath語(yǔ)法，可以靈活地定位網(wǎng)頁(yè)中的元素。

C#是一種面向?qū)ο蟮木幊陶Z(yǔ)言，它是.NET平臺(tái)的主要語(yǔ)言，可以運(yùn)行在Windows、Linux、Mac等操作系統(tǒng)上。C#語(yǔ)言簡(jiǎn)潔、強(qiáng)大、高效，擁有豐富的類庫(kù)和工具，可以開發(fā)各種類型的應(yīng)用程序，包括桌面應(yīng)用、網(wǎng)站、移動(dòng)應(yīng)用、游戲等。C#還支持多線程編程，可以充分利用CPU的資源，提高程序的性能。

新聞下載器的設(shè)計(jì)

本文的新聞下載器的設(shè)計(jì)思路如下：

首先，定義一個(gè)News類，用來(lái)存儲(chǔ)新聞的各種屬性，比如標(biāo)題、摘要、正文、作者、發(fā)布時(shí)間等。
然后，定義一個(gè)NewsDownloader類，用來(lái)實(shí)現(xiàn)新聞下載器的主要邏輯，包括以下幾個(gè)方法：
- 構(gòu)造方法，用來(lái)初始化ScrapingBrowser對(duì)象，設(shè)置代理、超時(shí)、用戶代理等參數(shù)。
- GetNewsUrls方法，用來(lái)從指定的新聞網(wǎng)站的首頁(yè)上，獲取所有新聞的鏈接，并返回一個(gè)字符串列表。
- GetNewsContent方法，用來(lái)從指定的新聞鏈接上，獲取新聞的內(nèi)容，并返回一個(gè)News對(duì)象。
- SaveNews方法，用來(lái)將一個(gè)News對(duì)象保存到本地文件中，文件名為新聞的標(biāo)題，文件格式為txt。
- DownloadNews方法，用來(lái)下載所有新聞，并保存到本地文件夾中，文件夾名為新聞網(wǎng)站的域名。
最后，定義一個(gè)Program類，用來(lái)作為程序的入口，創(chuàng)建一個(gè)NewsDownloader對(duì)象，并調(diào)用其DownloadNews方法，傳入要爬取的新聞網(wǎng)站的地址。

新聞下載器的代碼

本文的新聞下載器的代碼如下：

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using ScrapySharp.Extensions;
using ScrapySharp.Network;

namespace NewsDownloader
{
    // 定義一個(gè)News類，用來(lái)存儲(chǔ)新聞的各種屬性
    public class News
    {
        public string Title { get; set; } // 標(biāo)題
        public string Summary { get; set; } // 摘要
        public string Content { get; set; } // 正文
        public string Author { get; set; } // 作者
        public string Time { get; set; } // 發(fā)布時(shí)間
    }

    // 定義一個(gè)NewsDownloader類，用來(lái)實(shí)現(xiàn)新聞下載器的主要邏輯
    public class NewsDownloader
    {
        private ScrapingBrowser browser; // 定義一個(gè)ScrapingBrowser對(duì)象，用來(lái)模擬瀏覽器的行為
        //億牛云 設(shè)置爬蟲代理加強(qiáng)版
        private string proxyDomain = "http://www.16yun.cn"; // 定義代理的域名
        private int proxyPort = 9010; // 定義代理的端口
        private string proxyUser = "16YUN"; // 定義代理的用戶名
        private string proxyPass = "16IP"; // 定義代理的密碼

        // 構(gòu)造方法，用來(lái)初始化ScrapingBrowser對(duì)象，設(shè)置代理、超時(shí)、用戶代理等參數(shù)
        public NewsDownloader()
        {
            browser = new ScrapingBrowser();
            browser.Timeout = TimeSpan.FromSeconds(10); // 設(shè)置超時(shí)時(shí)間為10秒
            browser.UserAgent = new FakeUserAgent("Chrome", 88.0); // 設(shè)置用戶代理為Chrome 88.0
            browser.UseDefaultCookiesParser = false; // 禁用默認(rèn)的Cookie解析器
            browser.Proxy = new WebProxy(proxyDomain, proxyPort); // 設(shè)置代理
            browser.Proxy.Credentials = new NetworkCredential(proxyUser, proxyPass); // 設(shè)置代理的憑證
        }

        // GetNewsUrls方法，用來(lái)從指定的新聞網(wǎng)站的首頁(yè)上，獲取所有新聞的鏈接，并返回一個(gè)字符串列表
        public List<string> GetNewsUrls(string url)
        {
            List<string> newsUrls = new List<string>(); // 定義一個(gè)字符串列表，用來(lái)存儲(chǔ)新聞的鏈接
            try
            {
                WebPage homePage = browser.NavigateToPage(new Uri(url)); // 使用ScrapingBrowser對(duì)象訪問新聞網(wǎng)站的首頁(yè)，并獲取WebPage對(duì)象
                HtmlNode homeNode = homePage.Html; // 從WebPage對(duì)象中獲取HtmlNode對(duì)象，表示網(wǎng)頁(yè)的HTML文檔
                IEnumerable<HtmlNode> newsNodes = homeNode.CssSelect("a[href*='/news/']"); // 使用CSS選擇器，從HtmlNode對(duì)象中獲取所有包含'/news/'的a標(biāo)簽的HtmlNode對(duì)象，表示新聞的鏈接
                foreach (HtmlNode newsNode in newsNodes) // 遍歷所有新聞的鏈接
                {
                    string newsUrl = newsNode.GetAttributeValue("href", null); // 從HtmlNode對(duì)象中獲取href屬性的值，表示新聞的鏈接
                    if (newsUrl != null && !newsUrls.Contains(newsUrl)) // 如果新聞的鏈接不為空，且不在字符串列表中
                    {
                        newsUrls.Add(newsUrl); // 將新聞的鏈接添加到字符串列表中
                    }
                }
            }
            catch (Exception ex) // 捕獲異常
            {
                Console.WriteLine("GetNewsUrls error: " + ex.Message); // 在控制臺(tái)輸出異常信息
            }
            return newsUrls; // 返回字符串列表
        }

        // GetNewsContent方法，用來(lái)從指定的新聞鏈接上，獲取新聞的內(nèi)容，并返回一個(gè)News對(duì)象
        public News GetNewsContent(string url)
        {
            News news = new News(); // 定義一個(gè)News對(duì)象，用來(lái)存儲(chǔ)新聞的內(nèi)容
            try
            {
                WebPage newsPage = browser.NavigateToPage(new Uri(url)); // 使用ScrapingBrowser對(duì)象訪問新聞的鏈接，并獲取WebPage對(duì)象
                HtmlNode newsNode = newsPage.Html; // 從WebPage對(duì)象中獲取HtmlNode對(duì)象，表示網(wǎng)頁(yè)的HTML文檔
                HtmlNode titleNode = newsNode.CssSelect("h1").FirstOrDefault(); // 使用CSS選擇器，從HtmlNode對(duì)象中獲取第一個(gè)h1標(biāo)簽的HtmlNode對(duì)象，表示新聞的標(biāo)題
                HtmlNode summaryNode = newsNode.CssSelect("p.summary").FirstOrDefault(); // 使用CSS選擇器，從HtmlNode對(duì)象中獲取第一個(gè)p標(biāo)簽，且class屬性為summary的HtmlNode對(duì)象，表示新聞的摘要
                HtmlNode contentNode = newsNode.CssSelect("div.article-content").FirstOrDefault(); // 使用CSS選擇器，從HtmlNode對(duì)象中獲取第一個(gè)div標(biāo)簽，且class屬性為article-content的HtmlNode對(duì)象，表示新聞的正文
                HtmlNode authorNode = newsNode.CssSelect("span.author").FirstOrDefault(); // 使用CSS選擇器，從HtmlNode對(duì)象中獲取第一個(gè)span標(biāo)簽，且class屬性為author的HtmlNode對(duì)象，表示新聞的作者
                HtmlNode timeNode = newsNode.CssSelect("span.time").FirstOrDefault(); // 使用CSS選擇器，從HtmlNode對(duì)象中獲取第一個(gè)span標(biāo)簽，且class屬性為time的HtmlNode對(duì)象，表示新聞的發(fā)布時(shí)間
                if (titleNode != null) // 如果標(biāo)題節(jié)點(diǎn)不為空
                {
                    news.Title = titleNode.InnerText.Trim(); // 從HtmlNode對(duì)象中獲取文本內(nèi)容，并去除兩端的空白字符，賦值給News對(duì)象的Title屬性
                }
                if (summaryNode != null) // 如果摘要節(jié)點(diǎn)不為空
                {
                    news.Summary = summaryNode.InnerText.Trim(); // 從HtmlNode對(duì)象中獲取文本內(nèi)容，并去除兩端的空白字符，賦值給News對(duì)象的Summary屬性
                }
                if (contentNode != null) // 如果正文節(jié)點(diǎn)不為空
                {
                    news.Content = contentNode.InnerText.Trim(); // 從HtmlNode對(duì)象中獲取文本內(nèi)容，并去除兩端的空白字符，賦值給News對(duì)象的Content屬性
                }
                if (authorNode != null) // 如果作者節(jié)點(diǎn)不為空
                {
                    news.Author = authorNode.InnerText.Trim(); // 從HtmlNode對(duì)象中獲取文本內(nèi)容，并去除兩端的空白字符，賦值給News對(duì)象的Author屬性
                }
                if (timeNode != null) // 如果時(shí)間節(jié)點(diǎn)不為空
                {
                    news.Time = timeNode.InnerText.Trim(); // 從HtmlNode對(duì)象中獲取文本內(nèi)容，并去除兩端的空白字符，賦值給News對(duì)象的Time屬性
                }
            }
            catch (Exception ex) // 捕獲異常
            {
                Console.WriteLine("GetNewsContent error: " + ex.Message); // 在控制臺(tái)輸出異常信息
            }
            return news; // 返回News對(duì)象
        }

        // SaveNews方法，用來(lái)將一個(gè)News對(duì)象保存到本地文件中，文件名為新聞的標(biāo)題，文件格式為txt
        public void SaveNews(News news, string folder)
        {
            try
            {
                string fileName = news.Title + ".txt"; // 定義文件名為新聞的標(biāo)題加上.txt后綴
                string filePath = Path.Combine(folder, fileName); // 定義文件路徑為文件夾和文件名的組合
                using (StreamWriter writer = new StreamWriter(filePath, false, Encoding.UTF8)) // 使用StreamWriter對(duì)象，以UTF-8編碼，覆蓋模式，打開或創(chuàng)建文件
                {
                    writer.WriteLine("標(biāo)題：" + news.Title); // 寫入新聞的標(biāo)題
                    writer.WriteLine("摘要：" + news.Summary); // 寫入新聞的摘要
                    writer.WriteLine("正文：" + news.Content); // 寫入新聞的正文
                    writer.WriteLine("作者：" + news.Author); // 寫入新聞的作者
                    writer.WriteLine("時(shí)間：" + news.Time); // 寫入新聞的時(shí)間
                }
            }
            catch (Exception ex) // 捕獲異常
            {
                Console.WriteLine("SaveNews error: " + ex.Message); // 在控制臺(tái)輸出異常信息
            }
        }

        // DownloadNews方法，用來(lái)下載所有新聞，并保存到本地文件夾中，文件夾名為新聞網(wǎng)站的域名
        public void DownloadNews(string url)
        {
            try
            {
                Uri uri = new Uri(url); // 定義一個(gè)Uri對(duì)象，表示新聞網(wǎng)站的地址
                string folder = uri.Host; // 定義文件夾名為Uri對(duì)象的Host屬性，表示新聞網(wǎng)站的域名
                if (!Directory.Exists(folder)) // 如果文件夾不存在
                {
                    Directory.CreateDirectory(folder); // 創(chuàng)建文件夾
                }
                List<string> newsUrls = GetNewsUrls(url); // 調(diào)用GetNewsUrls方法，獲取所有新聞的鏈接
                Parallel.ForEach(newsUrls, newsUrl => // 使用Parallel類的ForEach方法，對(duì)所有新聞的鏈接進(jìn)行并行處理，提高采集效率
                {
                    News news = GetNewsContent(newsUrl); // 調(diào)用GetNewsContent方法，獲取新聞的內(nèi)容
                    SaveNews(news, folder); // 調(diào)用SaveNews方法，將新聞保存到本地文件中
                    Console.WriteLine("Downloaded: " + news.Title); // 在控制臺(tái)輸出下載成功的新聞的標(biāo)題
                });
                Console.WriteLine("Download completed!"); // 在控制臺(tái)輸出下載完成的提示
            }
            catch (Exception ex) // 捕獲異常
            {
                Console.WriteLine("DownloadNews error: " + ex.Message); // 在控制臺(tái)輸出異常信息
            }
        }
    }

    // 定義一個(gè)Program類，用來(lái)作為程序的入口
    class Program
    {
        static void Main(string[] args)
        {
            NewsDownloader downloader = new NewsDownloader(); // 創(chuàng)建一個(gè)NewsDownloader對(duì)象
            downloader.DownloadNews("https://www.bbc.com/news"); // 調(diào)用其DownloadNews方法，傳入要爬取的新聞網(wǎng)站的地址
            Console.ReadKey(); // 等待用戶按鍵
        }
    }
}

結(jié)論

本文介紹了如何使用ScrapySharp和C#語(yǔ)言，打造一個(gè)簡(jiǎn)單的新聞下載器，可以從指定的新聞網(wǎng)站上抓取新聞標(biāo)題、摘要、正文、作者、發(fā)布時(shí)間等信息，并保存到本地文件中。本文的目的是讓你在一小時(shí)內(nèi)掌握ScrapySharp和C#的基本用法，以及爬蟲技術(shù)的基本原理和技巧。

本文的技術(shù)文章和代碼僅供參考，你可以根據(jù)自己的需求和興趣，修改或擴(kuò)展它們，實(shí)現(xiàn)更多的功能，比如添加異常處理、日志記錄、數(shù)據(jù)清洗、數(shù)據(jù)分析等。希望本文能對(duì)你的學(xué)習(xí)和開發(fā)有所幫助。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-790942.html

到了這里，關(guān)于一小時(shí)掌握：使用ScrapySharp和C#打造新聞下載器的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

掌握 C# 變量：在代碼中聲明、初始化和使用不同類型的綜合指南
變量是用于存儲(chǔ)數(shù)據(jù)值的容器。在 C# 中，有不同類型的變量（用不同的定義），例如： int - 存儲(chǔ)整數(shù)（沒有小數(shù)點(diǎn)的整數(shù)），如 123 或 -123 double - 存儲(chǔ)浮點(diǎn)數(shù)，有小數(shù)點(diǎn)，如 19.99 或 -19.99 char - 存儲(chǔ)單個(gè)字符，如 \\\'a\\\' 或 \\\'B\\\'。 Char 值用單引號(hào)括起來(lái) string - 存儲(chǔ)文本，如
2024年01月17日
瀏覽(25)
掌握前端框架，打造高效的開發(fā)流程
在當(dāng)今互聯(lián)網(wǎng)時(shí)代，前端開發(fā)已經(jīng)成為了一項(xiàng)非常重要的技能。隨著互聯(lián)網(wǎng)的快速發(fā)展，前端技術(shù)也在不斷演進(jìn)和更新。為了提高開發(fā)效率和代碼質(zhì)量，掌握前端框架已經(jīng)成為了必備的技能之一。本文將介紹如何通過(guò)掌握前端框架，打造高效的開發(fā)流程，并通過(guò)一個(gè)實(shí)際案例
2024年02月11日
瀏覽(32)
C#程序設(shè)計(jì)——Windows應(yīng)用程序開發(fā)，1、初步掌握Windows應(yīng)用程序的設(shè)計(jì)方法。2、掌握常用窗體控件的使用方法。
初步掌握Windows應(yīng)用程序的設(shè)計(jì)方法。掌握常用窗體控件的使用方法。 1、設(shè)計(jì)一個(gè)Windows應(yīng)用程序，創(chuàng)建一個(gè)用于添加學(xué)生個(gè)人基本信息的窗體，窗體下方法同時(shí)滾動(dòng)信息“天行健，君子以自強(qiáng)不息！”。 ? 要示如下：如圖1所示，設(shè)計(jì)窗體界面控件的布局圖1 學(xué)生信息管理
2024年02月10日
瀏覽(39)
【yolov8】從0開始搭建部署YOLOv8，環(huán)境安裝+推理+自定義數(shù)據(jù)集搭建與訓(xùn)練，一小時(shí)掌握
bilibili詳細(xì)視頻教程 github鏈接：https://github.com/ultralytics/ultralytics git拉取項(xiàng)目： git clone https://github.com/ultralytics/ultralytics.git 首先查看pytorch支持的最高版本 PyTorch https://pytorch.org/ 然后查看N卡系統(tǒng)支持最高的版本然后權(quán)衡下載支持最高版本的CUDA和cuDNN CUDA工具包 https://developer.n
2024年01月17日
瀏覽(30)
[AIGC] 快速掌握Netty，打造高性能IM服務(wù)器！
前言：Netty 是一個(gè)非常優(yōu)秀的網(wǎng)絡(luò)應(yīng)用程序框架，支持高并發(fā)、高性能的網(wǎng)絡(luò)通信，適用于開發(fā)各種服務(wù)器程序，如即時(shí)通訊、游戲、物聯(lián)網(wǎng)等。使用 Netty 可以大大提升服務(wù)器程序的性能和可靠性。本文將介紹 Netty 的基本原理和使用方法，并給出一個(gè)簡(jiǎn)單的 IM 程序示例，幫
2024年02月06日
瀏覽(22)
【12JavaScript 事件】掌握J(rèn)avaScript事件：詳細(xì)教程、實(shí)例演示，打造交互動(dòng)感網(wǎng)頁(yè)！
JavaScript事件是指頁(yè)面或元素上發(fā)生的交互動(dòng)作，例如點(diǎn)擊按鈕、鼠標(biāo)移動(dòng)、鍵盤輸入等。了解和處理事件是構(gòu)建交互式Web應(yīng)用程序的重要基礎(chǔ)。本教程將詳細(xì)介紹JavaScript事件的基本概念、事件處理程序、事件類型以及常見的事件用法。事件處理程序是處理事件的函數(shù)，它會(huì)
2024年02月08日
瀏覽(30)
掌握Python文件操作的絕招：打造數(shù)據(jù)之徑，揭開文件操作的神秘面紗
我們應(yīng)該都知道，我們?nèi)粘Ｊ褂玫碾娔X和手機(jī)其實(shí)很多的操作對(duì)象都是文件，我們的鍵盤和屏幕也可以類似看成是文件，文件在我們的日常生活中起著非常大的作用，因?yàn)槲募梢猿志玫拇鎯?chǔ)數(shù)據(jù)。而作為學(xué)習(xí) python 的我們來(lái)說(shuō)，文件操作的學(xué)習(xí)也是必不可少的，那么今天我
2024年02月13日
瀏覽(21)
C# 使用FTP上傳文件、下載文件，實(shí)現(xiàn)數(shù)據(jù)傳輸
上傳文件的方法調(diào)用：下載文件方法：
2024年02月14日
瀏覽(25)
Spring Boot 3 + JWT + Security 聯(lián)手打造安全帝國(guó)：一篇文章讓你掌握未來(lái)！
Spring Security 已經(jīng)成為 java 后臺(tái)權(quán)限校驗(yàn)的第一選擇.今天就通過(guò)讀代碼的方式帶大家深入了解一下Security,本文主要是基于開源項(xiàng)目spring-boot-3-jwt-security來(lái)講解Spring Security + JWT(Json Web Token).實(shí)現(xiàn)用戶鑒權(quán),以及權(quán)限校驗(yàn). 所有代碼基于 jdk17+ 構(gòu)建.現(xiàn)在讓我們開始吧! Springboot 3.0 Spri
2024年02月07日
瀏覽(89)
(自適應(yīng)手機(jī)端)響應(yīng)式新聞博客知識(shí)類pbootcms網(wǎng)站模板自媒體運(yùn)營(yíng)博客網(wǎng)站源碼下載
(自適應(yīng)手機(jī)端)響應(yīng)式新聞博客知識(shí)類pbootcms網(wǎng)站模板自媒體運(yùn)營(yíng)博客網(wǎng)站源碼下載帶后臺(tái)系統(tǒng)PbootCMS內(nèi)核開發(fā)的網(wǎng)站模板，該模板適用于新聞博客網(wǎng)站、自媒體運(yùn)營(yíng)網(wǎng)站等企業(yè)，當(dāng)然其他行業(yè)也可以做，只需要把文字圖片換成其他行業(yè)的即可；自適應(yīng)手機(jī)端，同一個(gè)后臺(tái)，
2024年02月05日
瀏覽(94)