Python - PyMuPDF (fitz) 处理 PDF

发布于:2023-01-02 ⋅ 阅读:(605) ⋅ 点赞:(0)

在这里插入图片描述



关于 PyMuPDF

Python bindings for MuPDF’s rendering library.
MuPDF: a lightweight PDF, XPS, and eBook viewer, renderer, and toolkit.
PyMuPDF you can access files with extensions like .pdf, .xps, .oxps, .cbz, .fb2 or .epub. In addition, about 10 popular image formats can also be handled like documents: .png, .jpg, .bmp, .tiff, etc.


相关教程/资源


安装

pymupdf 依赖于 Python 3.7 及以上

pip install pymupdf

我们可以看到很多教程中提到 fitz,如果单独安装 fitz,可能会报很多错。
通过安装 pymupdf 来使用 fitz 就顺利很多。


使用

更多使用可参见官方demo:https://github.com/pymupdf/PyMuPDF/tree/master/tests


将 PDF 分解、逐张转图片

import fitz
import os


   
def pdf_to_jpg():
   
    file_path = 'xx/a1.pdf'
    save_dir = 'xx/a/'

    doc=fitz.open(file_path)
    print('-- page_count : ', doc.page_count) 
    
    idx = 0 
    for pg in range(doc.page_count):

        page = doc[pg]
        idx += 1
        print('\n-- ', idx)
        rotate = int(0)
 
        pm = page.get_pixmap()
 
        save_path = os.path.join(save_dir, f'{idx}.jpg' ) 
        pm.save(save_path)
  

伊织 2022-09-01