-
PyPDF2如何实现按照PDF页码提取后并另存为PDF格式文件?
事情的经过是这样的,由于现有的PDF文件太多了而我真正需要的内容只有十几页。
每次查找不方便,另外需要发给自己的小伙伴也太多别人也不容易找到需要的内容,所以产生了一个想法就是把需要的PDF提取出来然后另存为一个PDF文件。
于是就有了这次的PDF页面提取操作,下面进入实战环节。
项目中用到的库主要是PyPDF2用于PDF格式文件的提取等操作,另外还需要os操作库用来做文件的读写、另存为操作。
【阅读全文】
from PyPDF2 import PdfFileReader, PdfFileWriter # PDF格式文件操作
import os # 系统文件操作
第一步:初始化在PDF文件操作过程中的相关参数。
# 定义文件的操作路径(需要提取内容的原文件路径)
file_path = 'data.pdf'
# 定义目标文件路径(已经提取好的文件路径)
output_file_path = ''
# 定义开始提取页的页码
begin = '102'
# 定义结束提取页的页码
end = '113'
# 初始化已经提取好的文件路径
output_file_path = output_file_path + f'({begin}~{end}).pdf'
第二步:判断需要操作的原始文件是否存在、判断需要提取的页码是否在合理的范围内。
# 判断pdf文件是否存在,存在则继续读取文件
if os.path.isfile(file_path):
global pdf_obj_reader
pdf_obj_reader = PdfFileReader(file_path) # 读取原始文件所有内容
# 判断一下页码是否在合理的范围内。
if begin < 1 or end > pdf_obj_reader.getNumPages():
print('请输入合理的页面范围')
else:
exit(0)
第三步:根据需要提取内容的pdf页码范围提取pdf内容并写入PDF文件写入流。
# 初始化文件写入流。
global pdf_obj_writer
pdf_obj_writer = PdfFileWriter()
# 遍历已经读取的文件流,提取需要的部分并写入文件写入流。
for page_num in range(begin - 1, end): # 由于读取的页面是从0开始,所以开始页码进行减1操作
pdf_obj_writer.addPage(pdf_obj_reader.getPage(page_num)) # 将符合条件的页码对应内容写入文件写入流
# 最后,将提取好的文件流对象写入到新定义好的PDF文件中
with open(output_file_path, 'wb') as output_file_pdf:
pdf_obj_writer.write(output_file_pdf) # 写入到指定文件
到此,整个PDF内容提取和写入的操作就完成了,感谢大家的支持。
出处:https://www.cnblogs.com/lwsbc/p/15721074.html
最新更新
Objective-C语法之代码块(block)的使用
VB.NET eBook
Add-in and Automation Development In VB.NET 2003 (F
Add-in and Automation Development In VB.NET 2003 (8
Add-in and Automation Development in VB.NET 2003 (6
Add-in and Automation Development In VB.NET 2003 (5
AddIn Automation Development In VB.NET 2003 (4)
AddIn And Automation Development In VB.NET 2003 (2)
Addin and Automation Development In VB.NET 2003 (3)
AddIn And Automation Development In VB.NET 2003 (1)
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
武装你的WEBAPI-OData入门
武装你的WEBAPI-OData便捷查询
武装你的WEBAPI-OData分页查询
武装你的WEBAPI-OData资源更新Delta
5. 武装你的WEBAPI-OData使用Endpoint 05-09
武装你的WEBAPI-OData之API版本管理
武装你的WEBAPI-OData常见问题
武装你的WEBAPI-OData聚合查询
OData WebAPI实践-OData与EDM
OData WebAPI实践-Non-EDM模式