3.所有分页都获取到了,接下来就是要获取页面中的每张图片了,打开页面查看源代码:
观察发现,所有的图片都在class=img的div下面,那就可以从每个分页中直接下载所有的图片了,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
//获取每一个分页的文档模型 IHtmlDocument htm2 = new JumonyParser().LoadDocument($ "{address}{href}" , System.Text.Encoding.GetEncoding( "utf-8" )); //获取class=img的div下的img标签 var aLink = htm2.Find( ".img img" ); foreach ( var link in aLink) { var imgsrc = link.Attribute( "src" ).Value(); Console.WriteLine( "获取到图片路径" + imgsrc); Console.WriteLine($ "开始下载图片{imgsrc}>>>>>>>" ); DownLoadImg( new Image { Address = address + imgsrc, Title = url }); } } |
图片下载方法如下,为防止下载的时候阻塞主进程,下载采用异步:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
/// <summary> /// 异不下载图片 /// </summary> /// <param name="image"></param> async static void DownLoadImg(Image image) { using (WebClient client = new WebClient()) { try { int start = image.Address.LastIndexOf( "/" ) + 1; string fileName = image.Address.Substring(start, image.Address.Length - start); //图片目录采用页面地址作为文件名 string directory = "c:/images/" + image.Title.Replace( "/" , "-" ).Replace( "html" , "" ) + "/" ; if (!Directory.Exists(directory)) { Directory.CreateDirectory(directory); } await client.DownloadFileTaskAsync( new Uri(image.Address), directory + fileName); } catch (Exception) { Console.WriteLine($ "{image.Address}下载失败" ); File.AppendText( @"c:/log.txt" ); } Console.WriteLine($ "{image.Address}下载成功" ); } } |
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式