.NET快速实现网页数据抓取

net · 浏览次数 : 0

小编点评

**网页数据抓取项目** **代码介绍：** 代码包含一个名为`RecommendedRankingSpider`的类，该类实现了网页数据抓取的功能。它使用DotnetSpider库来遍历网站并提取指定元素的文本内容。 **关键功能：** * 使用`Task.Run`方法创建一个新的线程来执行网页抓取任务。 * 使用`HttpClient`对象访问网站并检索网页内容。 * 使用`Selenium`库模拟浏览器行为，以便提取元素的文本。 * 遍历所有页面并提取相关元素的文本。 * 将提取的文本写入文件或输出到 console。 **步骤：** 1. 创建一个新的`Program`类。 2. 定义`RecommendedRankingSpider`类的实例。 3. 使用`Task.Run`方法创建一个新的线程执行`RecommendedRankingSpider`类的实例。 4. 在主线程中等待抓取任务完成。 5. 打印抓取完成的信息。 **注意：** * 项目代码仅展示了抓取网页内容的步骤，实际抓取逻辑可能更复杂。 * 项目代码需要安装`Selenium`和`HttpClient`库。 * 项目代码需要使用在运行程序之前安装的浏览器驱动程序。

正文

前言

今天我们来讲讲如何使用.NET开源（MIT License）的轻量、灵活、高性能、跨平台的分布式网络爬虫框架DotnetSpider来快速实现网页数据抓取功能。

注意：为了自身安全请在国家法律允许范围内开发网页爬虫功能。

网页数据抓取需求

本文我们以抓取博客园10天推荐排行榜第一页的文章标题、文章简介和文章地址为示例，并把抓取下来的数据保存到对应的txt文本中。

请求地址：https://www.cnblogs.com/aggsite/topdiggs

创建控制台应用

创建名为DotnetSpiderExercise的控制台应用。

安装DotnetSpider NuGet包

NuGet包管理器搜索：DotnetSpider

添加Serilog日志组件

NuGet包管理器搜索：Serilog.AspNetCore

添加RecommendedRankingModel

namespace DotnetSpiderExercise{    public class RecommendedRankingModel    {        /// <summary>        /// 文章标题        /// </summary>        public string ArticleTitle { get; set; }        /// <summary>        /// 文章简介        /// </summary>        public string ArticleSummary { get; set; }        /// <summary>        /// 文章地址        /// </summary>        public string ArticleUrl { get; set; }    }}
复制

添加RecommendedRankingSpider

网页数据抓取的业务逻辑都在这里面。

using DotnetSpider.DataFlow.Parser;using DotnetSpider.DataFlow;using DotnetSpider.Downloader;using DotnetSpider.Http;using DotnetSpider.Scheduler.Component;using DotnetSpider.Selector;using DotnetSpider;using Microsoft.Extensions.Logging;using Microsoft.Extensions.Options;using Serilog;using DotnetSpider.Scheduler;using Microsoft.Extensions.Hosting;using System.Reflection;namespace DotnetSpiderExercise{    public class RecommendedRankingSpider : Spider    {        public RecommendedRankingSpider(IOptions<SpiderOptions> options,            DependenceServices services,            ILogger<Spider> logger) : base(options, services, logger)        {        }        public static async Task RunAsync()        {            var builder = Builder.CreateDefaultBuilder<RecommendedRankingSpider>();            builder.UseSerilog();            builder.UseDownloader<HttpClientDownloader>();            builder.UseQueueDistinctBfsScheduler<HashSetDuplicateRemover>();            await builder.Build().RunAsync();        }        protected override async Task InitializeAsync(CancellationToken stoppingToken = default)        {            //添加自定义解析            AddDataFlow(new Parser());            //使用控制台存储器            AddDataFlow(new ConsoleStorage());            //添加采集请求:博客园10天推荐排行榜            await AddRequestsAsync(new Request("https://www.cnblogs.com/aggsite/topdiggs")            {                //请求超时10秒                Timeout = 10000            });        }        class Parser : DataParser        {            public override Task InitializeAsync()            {                return Task.CompletedTask;            }            protected override Task ParseAsync(DataFlowContext context)            {                var recommendedRankingList = new List<RecommendedRankingModel>();                // 网页数据解析                var number = 1;                var recommendedList = context.Selectable.SelectList(Selectors.XPath(".//article[@class='post-item']"));                foreach (var news in recommendedList)                {                    var articleTitle = news.Select(Selectors.XPath(".//a[@class='post-item-title']"))?.Value;                    var articleSummary = news.Select(Selectors.XPath(".//p[@class='post-item-summary']"))?.Value?.Replace("\n", "").Replace(" ", "");                    var articleUrl = news.Select(Selectors.XPath(".//a[@class='post-item-title']/@href"))?.Value;                    Console.WriteLine($"第{number}篇文章 标题：{articleTitle}");                    recommendedRankingList.Add(new RecommendedRankingModel                    {                        ArticleTitle = articleTitle,                        ArticleSummary = articleSummary,                        ArticleUrl = articleUrl                    });                    number++;                }                using (StreamWriter sw = new StreamWriter("RecommendedRanking.txt"))                {                    foreach (RecommendedRankingModel model in recommendedRankingList)                    {                        string line = $"文章标题：{model.ArticleTitle}\r\n文章简介：{model.ArticleSummary}\r\n文章地址：{model.ArticleUrl}";                        sw.WriteLine(line + "\r\n ========================================================================================== \r\n");                    }                }                return Task.CompletedTask;            }        }    }}
复制

Program执行数据抓取

namespace DotnetSpiderExercise{    public class Program    {        static async Task Main(string[] args)        {            Console.WriteLine("网页数据抓取开始...");            await RecommendedRankingSpider.RunAsync();            Console.WriteLine("网页数据抓取完成...");        }    }}
复制

抓取数据和页面数据对比

抓取数据

页面数据

项目源码地址

更多项目实用功能和特性欢迎前往项目开源地址查看👀，别忘了给项目一个Star支持💖。

GitHub源码地址：https://github.com/dotnetcore/DotnetSpider
GitHub wiki：https://github.com/dotnetcore/DotnetSpider/wiki
本文示例源码：https://github.com/YSGStudyHards/DotNetExercises/tree/master/DotnetSpiderExercise

优秀项目和框架精选

该项目已收录到C#/.NET/.NET Core优秀项目和框架精选中，关注优秀项目和框架精选能让你及时了解C#、.NET和.NET Core领域的最新动态和最佳实践，提高开发工作效率和质量。坑已挖，欢迎大家踊跃提交PR推荐或自荐（让优秀的项目和框架不被埋没🤞）。

https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/DotNetProjectPicks.md

DotNetGuide技术社区交流群

DotNetGuide技术社区是一个面向.NET开发者的开源技术社区，旨在为开发者们提供全面的C#/.NET/.NET Core相关学习资料、技术分享和咨询、项目框架推荐、求职和招聘资讯、以及解决问题的平台。
在DotNetGuide技术社区中，开发者们可以分享自己的技术文章、项目经验、学习心得、遇到的疑难技术问题以及解决方案，并且还有机会结识志同道合的开发者。
我们致力于构建一个积极向上、和谐友善的.NET技术交流平台。无论您是初学者还是有丰富经验的开发者，我们都希望能为您提供更多的价值和成长机会。

欢迎加入DotNetGuide技术社区微信交流群👨‍👩‍👦