Python100个库分享第24个—PDFMiner(办公篇-提取PDF内容)

发布于:2024-05-17 ⋅ 阅读:(183) ⋅ 点赞:(0)

专栏导读

文章 链接直达
Python提取PDF中的图片并保存 https://blog.csdn.net/weixin_42636075/article/details/138930606
Python提取PDF中的表格写入Excel https://blog.csdn.net/weixin_42636075/article/details/137219634
Python—批量将word转pdf https://blog.csdn.net/weixin_42636075/article/details/136410808
Python-pdfplumber读取PDF所有内容并自行提取指定内容 https://blog.csdn.net/weixin_42636075/article/details/128655337
  • 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手

  • 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注

  • 👍 该系列文章专栏:请点击——>Python办公自动化专栏求订阅

  • 🕷 此外还有爬虫专栏:请点击——>Python爬虫基础专栏求订阅

  • 📕 此外还有python基础专栏:请点击——>Python基础学习专栏求订阅

  • 文章作者技术和水平有限,如果文中出现错误,希望大家能指正🙏

  • ❤️ 欢迎各位佬关注! ❤️

库的介绍

  • PDFMiner是一个专门用于从PDF文档中提取信息的Python库。它设计用于处理复杂的PDF文件结构,包括文本抽取、布局分析以及元数据提取等。与其他一些PDF处理库不同,PDFMiner更专注于文本数据的精确提取,特别是对于含有表格、多列布局或者特殊字体的PDF文件,它能提供更为准确的解析结果。

主要功能

  • 文本抽取:能够从PDF中抽取文本内容,保持原文的结构和格式。

  • 布局分析:识别文本块、图像、表格等元素的位置和大小,有助于重建文档的视觉结构。

  • 字符识别:支持CID字体(用于东亚文字)和其他自定义字体的识别。

  • 元数据提取:获取PDF文档的元数据信息,如标题、作者、创建日期等。

  • 命令行工具:提供了一些命令行工具,便于直接从终端操作PDF文件。

库的安装

pip install pdfminer.six -i https://pypi.tuna.tsinghua.edu.cn/simple/

准备测试数据

  • 首先准备一个word文档转为pdf,word转pdf——>>在这篇文章:点我跳转

在这里插入图片描述


案例1:简单文本抽取

  • 代码

from pdfminer.high_level import extract_text

def extract_pdf_text(pdf_file):
    text = extract_text(pdf_file)
    print(text)

# 使用方法
extract_pdf_text('example.pdf')
  • 输出

在这里插入图片描述



案例2:详细解析并打印每一页内容

  • 代码

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer

def parse_pages(pdf_file):
    for page_layout in extract_pages(pdf_file):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                print(element.get_text())

# 使用方法
parse_pages('example.pdf')
  • 输出

在这里插入图片描述



案例3:提取图片

  • PDFMiner库是一个强大的Python库,用于提取PDF文件中的文本和元数据,但它本身并不直接支持提取图片。要从PDF中提取图片,你可能需要结合使用其他库,如PyMuPDF(也称为fitz)

  • 具体代码在这一篇:点我跳转——Python提取PDF中的图片并保存



案例3:提取表格

  • PDFMiner库是一个强大的Python库,用于提取PDF文件中的文本和元数据,但它本身并不直接支持提取表格。要从PDF中提取表格,你可能需要结合使用其他库,如pdfplumber

  • 具体代码在这一篇:点我跳转——Python提取PDF中的表格写入Excel

注意事项

  • PDFMiner在处理大型或复杂PDF时可能会消耗较多资源和时间。

  • 对于有特殊编码或加密的PDF,可能需要额外的配置或处理步骤。

  • 在使用PDFMiner进行文本抽取时,根据需要可能要调整参数以优化提取效果,比如处理表格数据时,可能需要更细致地控制布局分析的逻辑。

  • 更多关于PDF的办公自动化知识点,欢迎订阅:

文章 链接直达
Python提取PDF中的图片并保存 https://blog.csdn.net/weixin_42636075/article/details/138930606
Python提取PDF中的表格写入Excel https://blog.csdn.net/weixin_42636075/article/details/137219634
Python—批量将word转pdf https://blog.csdn.net/weixin_42636075/article/details/136410808
Python-pdfplumber读取PDF所有内容并自行提取指定内容 https://blog.csdn.net/weixin_42636075/article/details/128655337

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏


网站公告

今日签到

点亮在社区的每一天
去签到