如何高效清洗 jsonl 数据？Python 字段抽取与合并指南

在处理 JSON Lines（jsonl）文件时，数据清洗和字段抽取是常见的任务。JSON Lines 文件格式是一种轻量级的文本数据格式，其中每一行都是一个有效的 JSON 对象。这种格式非常适合处理大规模数据，因为它可以逐行读取，减少内存占用。

下面是一个示例，展示如何读取 jsonl 文件，抽取特定字段，并将这些字段合并为一个新的数据结构（如 Pandas DataFrame）以便进一步分析。

示例任务

假设我们有一个 jsonl 文件 data.jsonl，每行包含以下字段：

id: 唯一标识符
name: 名称
age: 年龄
email: 电子邮件

我们的任务是：

抽取 id、name 和 email 字段。
将这些字段合并到一个 Pandas DataFrame 中。

实现步骤

读取 jsonl 文件：逐行读取文件，解析每行的 JSON 对象。
抽取字段：从每个 JSON 对象中提取所需的字段。
合并数据：将抽取的字段存储到一个列表中，最后转换为 Pandas DataFrame。

示例代码

import json
import pandas as pd

# 定义文件路径
file_path = 'data.jsonl'

# 初始化一个空列表来存储抽取的数据
data_list = []

# 打开文件并逐行读取
with open(file_path, 'r', encoding='utf-8') as file:
    for line in file:
        # 解析每行的 JSON 对象
        json_obj = json.loads(line.strip())
        
        # 抽取所需字段
        extracted_data = {
            'id': json_obj.get('id'),
            'name': json_obj.get('name'),
            'email': json_obj.get('email')
        }
        
        # 将抽取的数据添加到列表中
        data_list.append(extracted_data)

# 将列表转换为 Pandas DataFrame
df = pd.DataFrame(data_list)

# 显示 DataFrame
print(df)

代码解释

导入模块：
- json 用于解析 JSON 数据。
- pandas 用于数据处理和存储。
读取文件：
- 使用 open 函数打开文件，并逐行读取。
- strip() 方法用于去除每行末尾的换行符。
解析 JSON：
- json.loads 方法将每行的字符串解析为 JSON 对象。
抽取字段：
- 使用 get 方法从 JSON 对象中提取所需字段，避免字段缺失导致的错误。
合并数据：
- 将每个抽取的数据字典添加到 data_list 列表中。
- 最后，使用 pd.DataFrame 将列表转换为 DataFrame。