在Python中全面提取PDF文档的页面信息指南

在Python中，要获取PDF文档的各种页面信息，你可以使用多个库，其中PyPDF2和pdfplumber是两个非常流行的选择。这些库提供了丰富的功能来解析PDF文件，提取文本、图像、字体、尺寸等页面信息。

使用 PyPDF2

PyPDF2是一个强大的库，用于读取、写入、拆分、合并以及操作PDF文件。以下是一个简单的示例，展示如何使用PyPDF2来获取PDF文档的基本页面信息：

import PyPDF2

# 打开PDF文件
with open('example.pdf', 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfFileReader(file)
    
    # 获取PDF中的页面数
    num_pages = reader.getNumPages()
    print(f'PDF中的页面数: {num_pages}')
    
    # 遍历每一页并获取页面信息
    for page_num in range(num_pages):
        page = reader.getPage(page_num)
        
        # 获取页面的宽度和高度
        page_width = page.mediaBox.getWidth()
        page_height = page.mediaBox.getHeight()
        print(f'页面 {page_num + 1} 的宽度: {page_width}, 高度: {page_height}')
        
        # 提取页面文本（注意：这可能不包括嵌入的图像或复杂布局）
        text = page.extractText()
        print(f'页面 {page_num + 1} 的文本:\n{text}')

# 注意：extractText() 方法可能无法完美提取所有PDF中的文本，特别是如果PDF包含复杂的布局或图像上的文本。

使用 pdfplumber

pdfplumber是另一个强大的库，特别擅长于从PDF中提取文本和表格数据。它提供了更高级的API来处理复杂的PDF布局。以下是一个使用pdfplumber的示例：

import pdfplumber

# 打开PDF文件
with pdfplumber.open('example.pdf') as pdf:
    # 遍历每一页
    for page in pdf.pages:
        page_num = page.page_number + 1  # pdfplumber的页码是从0开始的，所以这里加1
        
        # 获取页面的宽度和高度
        page_width = page.width
        page_height = page.height
        print(f'页面 {page_num} 的宽度: {page_width}, 高度: {page_height}')
        
        # 提取页面文本
        text = page.extract_text()
        print(f'页面 {page_num} 的文本:\n{text}')
        
        # 提取表格（如果页面包含表格）
        tables = page.extract_tables()
        if tables:
            for table_num, table in enumerate(tables, start=1):
                print(f'页面 {page_num} 的表格 {table_num}:\n{table}\n')

# 注意：pdfplumber在处理复杂布局的PDF时通常比PyPDF2更准确，但它也可能无法完美处理所有情况。