构建标题层级结构：从扁平列表生成嵌套树形数据

本文介绍如何将无序的标题列表（含数字编号与非编号项）自动解析为具有父子关系的树状结构，通过两步法识别编号层级、建立父子引用，并输出可读性强的嵌套字典或可视化树形表示。

本文介绍如何将无序的标题列表（含数字编号与非编号项）自动解析为具有父子关系的树状结构，通过两步法识别编号层级、建立父子引用，并输出可读性强的嵌套字典或可视化树形表示。

在文档解析、目录生成或知识图谱构建等场景中，常需将原始标题列表（如 PDF 提取文本或 Markdown 章节）转化为结构化树形数据。本教程提供一种无需外部依赖、逻辑清晰、可扩展性强的纯 Python 实现方案，适用于含数字编号（如 “13.3. Risk”）与后续缩进式子项（如 “SubStrategy”）混合的标题序列。

核心思路：两阶段构建法

我们采用分离解析 → 层级聚合的两步策略，避免复杂正则匹配或递归歧义，确保逻辑透明、调试友好：

第一阶段：按编号提取主干节点，挂载同级子项
遍历列表，识别以数字开头的标题（title[0].isnumeric()），将其编号部分（如 “13.3.1”）作为唯一键，构建初始节点字典；非编号项（如 “SubStrategy”）直接追加到最近一个编号节点的 children 列表中。
第二阶段：基于编号前缀推导父子关系
对每个编号节点，截取其父级编号（如 “13.3.1” → “13.3”），若该父编号存在于字典中，则将当前节点作为其子节点；否则视为根节点。

完整实现代码

import json

titles = [
    "13.3. Risk",
    "13.3.1. Strategy",
    "SubStrategy",
    "13.3.2. Token",
    "Material",
    "Impact",
    "Aling"
]

# Step 1: 构建编号节点字典，挂载直接子项（非编号标题）
results = {}
current_parent = None
for title in titles:
    if title and title[0].isnumeric():
        # 提取编号（去除末尾点号）
        prefix, name = title.split(" ", 1)
        key = prefix.strip(".")
        current_parent = results.setdefault(key, {"name": title, "children": []})
    elif current_parent is not None:
        # 将非编号项挂载到最近的编号节点下
        current_parent["children"].append(title)

# Step 2: 建立父子层级关系
roots = []
for key, node in results.items():
    # 获取父级编号（如 "13.3.1" → "13.3"）
    parent_key = ".".join(key.split(".")[:-1])
    if parent_key in results:
        # 父节点存在：当前节点作为其子节点
        results[parent_key]["children"].append(node)
    else:
        # 父节点不存在：当前节点为根
        roots.append(node)

# 输出结构化树（JSON格式，便于验证）
print("生成的树形结构（JSON）：")
print(json.dumps(roots[0], indent=2, ensure_ascii=False))

输出效果

运行后得到标准嵌套字典：

{
  "name": "13.3. Risk",
  "children": [
    {
      "name": "13.3.1. Strategy",
      "children": ["SubStrategy"]
    },
    {
      "name": "13.3.2. Token",
      "children": ["Material", "Impact", "Aling"]
    }
  ]
}

如需可视化为树形文本（如问题中要求的 |_ 格式），可添加递归打印函数：

def print_tree(node, indent=0):
    prefix = "   " * indent + "|_"
    if isinstance(node, dict) and "name" in node:
        print(f"{prefix}'{node['name']}'")
        for child in node.get("children", []):
            if isinstance(child, dict):
                print_tree(child, indent + 1)
            else:
                print(f"{'   ' * (indent + 1)}|____'{child}'")
    else:
        print(f"{'   ' * indent}|____'{node}'")

print("\n可视化树形结构：")
print_tree(roots[0])

注意事项与扩展建议

✅ 健壮性：代码默认将首个数字编号项作为根，支持多根场景（roots 是列表）；空字符串或异常格式需前置清洗。
⚠️ 编号规范：依赖 . 分隔的数字编号（如 1, 1.1, 1.1.1），不支持 1a 或罗马数字；如需兼容，可增强 key 解析逻辑。
? 扩展性：生成的字典可直接用于 anytree（Node 初始化）、前端 Tree 组件，或导出为 YAML/Markdown 目录。
? 性能优化：对超长列表（>10⁴项），第二步可用集合预存 results.keys() 加速查找。

该方法平衡了简洁性与可维护性，是处理混合编号标题结构的实用范式。

文章来自机圈观察员网，发布者：，转载请注明出处：https://www.jqgcy.com/xitongjiaocheng/124149.html

构建标题层级结构：从扁平列表生成嵌套树形数据

核心思路：两阶段构建法

完整实现代码

输出效果

注意事项与扩展建议

关于作者

相关推荐