PDF提取文字信息到Excel附源码

2023-08-04

PDF提取文字信息到Excel(附源码)

简介

本资源提供了一个用Python实现的小工具,用于从PDF文档中提取关键字信息并将其写入Excel文件。该工具适合处理批量固定格式模板的PDF文档,并支持将提取的信息转换为Excel格式。此外,资源包中还包含了Python源码和编译后的可执行文件,方便用户直接使用或进行二次开发。

功能特点

  • PDF提取关键字:根据配置文件中的关键字信息,从PDF文档中提取指定内容。
  • 写入Excel:将提取的关键字信息自动写入Excel文件,方便后续处理和分析。
  • 可执行文件:提供了编译后的可执行文件,无需安装Python环境即可使用。
  • 源码开放:包含Python源码,方便开发者进行二次开发和定制。

使用说明

1. 配置文件

config.ini文件中,可以配置需要提取的关键字及其相关信息。配置文件的格式如下:

[keyword-n]
name=姓名  -- 标识具体的关键字
shift=3    -- 提取目标内容相对关键字的偏移量,可以是负值,表示目标内容在关键字左侧
length=3   -- 提取目标字符的长度

2. 命令行使用

在命令行中运行可执行文件时,需要输入存放PDF文档的文件夹名称,工具会自动处理该文件夹下的所有PDF文档。

命令行显示“存放文档的文件夹名称” 是指源PDF文档位置,可以根据自己的文件夹命名输入

3. 目录结构

  • PDF2Excel/:包含Python源码的目录。
  • PDF2Excel/dist/:包含编译后的可执行文件及相关依赖。
  • config.ini:配置文件,用于指定提取的关键字和位置信息。

注意事项

  • 该工具适用于处理固定格式模板的PDF文档,对于复杂格式的PDF文档可能需要手动调整配置文件。
  • 提取目标内容相对关键字的偏移量和长度需要根据实际情况进行预估和微调。

适用场景

  • 批量处理固定格式模板的PDF文档,提取关键信息并转换为Excel格式。
  • 需要从PDF文档中提取特定信息并进行数据分析的场景。

贡献与反馈

如果您在使用过程中遇到问题或有改进建议,欢迎通过GitHub或其他方式联系我们。我们非常欢迎您的反馈和贡献!

下载链接

PDF提取文字信息到Excel附源码