Pandas读写XML文件的完整指南与最佳实战

在数据处理中，XML（可扩展标记语言）是一种常见的数据格式，尤其在Web数据交换、配置文件和某些遗留系统中广泛使用。虽然Pandas本身没有直接提供读写XML的函数（如read_csv或to_csv），但结合Python标准库（如xml.etree.ElementTree）或其他第三方库（如lxml），我们可以高效地实现XML与DataFrame之间的转换。本文将详细介绍如何使用Pandas读写XML文件，包括核心方法、实战案例及最佳实践。

一、XML基础与Pandas的适配思路

1. XML文件结构特点

XML通过标签（Tag）、属性（Attribute）和层级嵌套组织数据。例如：

<root>
  <record id="1">
    <name>Alice</name>
    <age>25</age>
    <city>New York</city>
  </record>
  <record id="2">
    <name>Bob</name>
    <age>30</age>
    <city>London</city>
  </record>
</root>

目标：将这类结构转换为Pandas的DataFrame（通常每行对应一个记录节点，列对应子标签或属性）。
挑战：XML的嵌套性和灵活性（如标签缺失、属性与子标签混合）需要针对性处理。

2. Pandas的间接支持

Pandas没有内置read_xml/to_xml函数（注：Pandas 1.3.0+ 提供了实验性的read_xml，但功能有限；更推荐结合lxml或xml.etree手动解析）。常用工具组合：

读取XML：lxml.etree（高性能）或xml.etree.ElementTree（标准库）解析XML，提取数据后构造DataFrame。
写入XML：通过DataFrame生成XML结构（如遍历行生成标签），再用lxml或标准库写入文件。

二、读取XML文件到DataFrame（实战）

场景1：简单扁平结构（推荐`lxml` + XPath）

目标XML（data/simple.xml）：

<root>
  <item id="101" category="A">
    <name>Apple</name>
    <price>2.5</price>
  </item>
  <item id="102" category="B">
    <name>Banana</name>
    <price>1.8</price>
  </item>
</root>

需求：提取每个<item>的id（属性）、category（属性）、name和price（子标签）到DataFrame。

代码实现

import pandas as pd
from lxml import etree  # 或 from xml.etree import ElementTree as ET

# 解析XML文件
tree = etree.parse('data/simple.xml')  # 或 ET.parse('data/simple.xml')
root = tree.getroot()

# 提取数据：使用XPath定位所有<item>节点
items = root.xpath('//item')  # 所有<item>标签

# 构造数据列表（每行一个字典）
data = []
for item in items:
    row = {
        'id': item.get('id'),          # 获取属性
        'category': item.get('category'),
        'name': item.findtext('name'), # 获取子标签文本
        'price': float(item.findtext('price'))  # 转换类型
    }
    data.append(row)

# 创建DataFrame
df = pd.DataFrame(data)
print(df)

输出：

    id category   name  price
0  101        A  Apple    2.5
1  102        B  Banana  1.8

关键点

**lxml优势**：支持XPath（如//item匹配所有<item>节点），性能优于标准库。
属性获取：item.get('id')读取标签属性（如id="101"）。
子标签文本：item.findtext('name')获取<name>标签内的文本。
类型转换：XML数据默认为字符串，需手动转换（如float(price)）。

场景2：复杂嵌套结构（多层级标签）

目标XML（data/nested.xml）：

<company>
  <department name="IT">
    <employee id="101">
      <name>Alice</name>
      <salary>8000</salary>
    </employee>
    <employee id="102">
      <name>Bob</name>
      <salary>7500</salary>
    </employee>
  </department>
  <department name="HR">
    <employee id="201">
      <name>Carol</name>
      <salary>6500</salary>
    </employee>
  </department>
</company>

需求：提取每个员工的部门名称、员工ID、姓名和薪资。

代码实现

tree = etree.parse('data/nested.xml')
root = tree.getroot()

data = []
# 遍历每个<department>节点
for dept in root.xpath('//department'):
    dept_name = dept.get('name')  # 部门名称（属性）
    # 遍历该部门下的所有<employee>节点
    for emp in dept.xpath('./employee'):
        row = {
            'department': dept_name,
            'emp_id': emp.get('id'),
            'name': emp.findtext('name'),
            'salary': int(emp.findtext('salary'))
        }
        data.append(row)

df = pd.DataFrame(data)
print(df)

输出：

  department emp_id   name  salary
0         IT    101  Alice    8000
1         IT    102    Bob    7500
2         HR    201  Carol    6500

关键点

嵌套遍历：先通过root.xpath('//department')获取所有部门，再对每个部门用dept.xpath('./employee')获取下属员工。
路径表达式：./employee表示当前部门节点下的直接子节点<employee>。

场景3：使用Pandas实验性`read_xml`（Pandas 1.3.0+）

Pandas 1.3.0引入了pd.read_xml（基于lxml），但功能较基础（适合简单扁平结构）。
示例（对simple.xml）：

df = pd.read_xml(
    'data/simple.xml',
    xpath='//item',  # 目标节点
    attrs_only=False,  # 是否只读属性（False表示读子标签）
    names=['id', 'category', 'name', 'price']  # 列名（需手动对齐）
)
# 注意：需通过迭代器或额外处理提取属性和子标签（实际较复杂，推荐手动解析）

局限性：难以同时处理属性和子标签，且需精确指定XPath和列名，通常不如手动解析灵活。

三、将DataFrame写入XML文件（实战）

场景：将DataFrame转换为自定义XML结构

需求：将以下DataFrame保存为XML，每个记录对应一个<product>标签，包含属性和子标签：

import pandas as pd
df = pd.DataFrame({
    'id': [101, 102],
    'name': ['Laptop', 'Phone'],
    'price': [999.99, 699.99],
    'stock': [10, 25]
})

目标XML：

<products>
  <product id="101">
    <name>Laptop</name>
    <price>999.99</price>
    <stock>10</stock>
  </product>
  <product id="102">
    <name>Phone</name>
    <price>699.99</price>
    <stock>25</stock>
  </product>
</products>

代码实现（使用`lxml`）

from lxml import etree

# 创建根节点
root = etree.Element('products')

# 遍历DataFrame的每一行
for _, row in df.iterrows():
    # 创建<product>节点并设置属性
    product = etree.SubElement(root, 'product', id=str(row['id']))
    # 添加子标签
    etree.SubElement(product, 'name').text = str(row['name'])
    etree.SubElement(product, 'price').text = str(row['price'])
    etree.SubElement(product, 'stock').text = str(row['stock'])

# 生成XML树并写入文件
tree = etree.ElementTree(root)
tree.write(
    'output/products.xml',
    encoding='utf-8',
    xml_declaration=True,  # 添加XML声明（如<?xml version="1.0"?>）
    pretty_print=True      # 格式化缩进
)

关键点：

**etree.SubElement**：创建子节点（如<product>），并通过id=str(row['id'])设置属性。
文本赋值：etree.SubElement(product, 'name').text = str(row['name'])设置子标签内容。
写入参数：xml_declaration=True添加XML头，pretty_print=True使文件可读性更强。

替代方案：使用标准库（`xml.etree.ElementTree`）

若不想依赖lxml，可用Python内置库（功能类似，但XPath支持较弱）：

import xml.etree.ElementTree as ET

root = ET.Element('products')
for _, row in df.iterrows():
    product = ET.SubElement(root, 'product', {'id': str(row['id'])})
    ET.SubElement(product, 'name').text = str(row['name'])
    ET.SubElement(product, 'price').text = str(row['price'])
    ET.SubElement(product, 'stock').text = str(row['stock'])

tree = ET.ElementTree(root)
tree.write(
    'output/products_std.xml',
    encoding='utf-8',
    xml_declaration=True
)
# 注意：标准库默认不格式化缩进（需手动处理或使用第三方库美化）

四、最佳实践与注意事项

1. 性能优化

大文件处理：对于大型XML文件（如GB级），避免一次性加载全部数据。使用lxml的迭代解析（如iterparse）逐行处理： from lxml import etree data = [] for event, elem in etree.iterparse('large_file.xml', events=('end',), tag='item'): row = { 'id': elem.get('id'), 'name': elem.findtext('name') } data.append(row) elem.clear() # 清除已处理的节点，减少内存占用 df = pd.DataFrame(data)

2. 数据清洗

缺失值处理：XML中可能缺少某些子标签或属性，需用elem.findtext('tag') or 'default'设置默认值。
类型转换：XML数据均为字符串，需根据业务逻辑转换为int/float/datetime等类型。

3. 结构适配

灵活字段：若XML节点的子标签不固定（如某些记录有<discount>而其他没有），需在DataFrame中用NaN填充缺失列（如row['discount'] = elem.findtext('discount') or None）。

4. 工具选择建议

简单需求：优先用lxml（高性能，支持XPath）手动解析。
快速原型：若XML结构简单且仅需基础功能，可尝试Pandas的read_xml（但需验证兼容性）。
复杂嵌套：手动遍历层级，按业务逻辑提取目标数据。

五、完整案例：电商订单XML处理

需求：将电商订单XML（含订单基本信息、商品列表）转换为扁平化DataFrame，每行对应一个商品，关联订单ID。

源XML（orders.xml）：

<orders>
  <order id="O1001" date="2025-01-01">
    <customer>Alice</customer>
    <items>
      <item sku="P101" quantity="2" price="50.0"/>
      <item sku="P102" quantity="1" price="100.0"/>
    </items>
  </order>
  <order id="O1002" date="2025-01-02">
    <customer>Bob</customer>
    <items>
      <item sku="P201" quantity="3" price="30.0"/>
    </items>
  </order>
</orders>

目标：生成DataFrame，包含列：order_id、order_date、customer、sku、quantity、price。

代码实现

tree = etree.parse('orders.xml')
root = tree.getroot()
data = []

for order in root.xpath('//order'):
    order_id = order.get('id')
    order_date = order.get('date')
    customer = order.findtext('customer')
    # 遍历该订单下的所有<item>
    for item in order.xpath('./items/item'):
        row = {
            'order_id': order_id,
            'order_date': order_date,
            'customer': customer,
            'sku': item.get('sku'),
            'quantity': int(item.get('quantity')),
            'price': float(item.get('price'))
        }
        data.append(row)

df = pd.DataFrame(data)
print(df)

输出：

  order_id  order_date customer   sku  quantity  price
0    O1001  2025-01-01    Alice  P101         2   50.0
1    O1001  2025-01-01    Alice  P102         1  100.0
2    O1002  2025-01-02      Bob  P201         3   30.0