构建标题层级结构:从扁平列表生成嵌套树形数据

构建标题层级结构:从扁平列表生成嵌套树形数据

本文介绍如何将无序的标题列表(含数字编号与非编号项)自动解析为具有父子关系的树状结构,通过两步法识别编号层级、建立父子引用,并输出可读性强的嵌套字典或可视化树形表示。

本文介绍如何将无序的标题列表(含数字编号与非编号项)自动解析为具有父子关系的树状结构,通过两步法识别编号层级、建立父子引用,并输出可读性强的嵌套字典或可视化树形表示。

在文档解析、目录生成或知识图谱构建等场景中,常需将原始标题列表(如 PDF 提取文本或 Markdown 章节)转化为结构化树形数据。本教程提供一种无需外部依赖、逻辑清晰、可扩展性强的纯 Python 实现方案,适用于含数字编号(如 “13.3. Risk”)与后续缩进式子项(如 “SubStrategy”)混合的标题序列。

核心思路:两阶段构建法

我们采用分离解析 → 层级聚合的两步策略,避免复杂正则匹配或递归歧义,确保逻辑透明、调试友好:

  1. 第一阶段:按编号提取主干节点,挂载同级子项
    遍历列表,识别以数字开头的标题(title[0].isnumeric()),将其编号部分(如 “13.3.1”)作为唯一键,构建初始节点字典;非编号项(如 “SubStrategy”)直接追加到最近一个编号节点的 children 列表中。

  2. 第二阶段:基于编号前缀推导父子关系
    对每个编号节点,截取其父级编号(如 “13.3.1” → “13.3”),若该父编号存在于字典中,则将当前节点作为其子节点;否则视为根节点。

完整实现代码

import json

titles = [
    "13.3. Risk",
    "13.3.1. Strategy",
    "SubStrategy",
    "13.3.2. Token",
    "Material",
    "Impact",
    "Aling"
]

# Step 1: 构建编号节点字典,挂载直接子项(非编号标题)
results = {}
current_parent = None
for title in titles:
    if title and title[0].isnumeric():
        # 提取编号(去除末尾点号)
        prefix, name = title.split(" ", 1)
        key = prefix.strip(".")
        current_parent = results.setdefault(key, {"name": title, "children": []})
    elif current_parent is not None:
        # 将非编号项挂载到最近的编号节点下
        current_parent["children"].append(title)

# Step 2: 建立父子层级关系
roots = []
for key, node in results.items():
    # 获取父级编号(如 "13.3.1" → "13.3")
    parent_key = ".".join(key.split(".")[:-1])
    if parent_key in results:
        # 父节点存在:当前节点作为其子节点
        results[parent_key]["children"].append(node)
    else:
        # 父节点不存在:当前节点为根
        roots.append(node)

# 输出结构化树(JSON格式,便于验证)
print("生成的树形结构(JSON):")
print(json.dumps(roots[0], indent=2, ensure_ascii=False))

输出效果

运行后得到标准嵌套字典:

{
  "name": "13.3. Risk",
  "children": [
    {
      "name": "13.3.1. Strategy",
      "children": ["SubStrategy"]
    },
    {
      "name": "13.3.2. Token",
      "children": ["Material", "Impact", "Aling"]
    }
  ]
}

如需可视化为树形文本(如问题中要求的 |_ 格式),可添加递归打印函数:

def print_tree(node, indent=0):
    prefix = "   " * indent + "|_"
    if isinstance(node, dict) and "name" in node:
        print(f"{prefix}'{node['name']}'")
        for child in node.get("children", []):
            if isinstance(child, dict):
                print_tree(child, indent + 1)
            else:
                print(f"{'   ' * (indent + 1)}|____'{child}'")
    else:
        print(f"{'   ' * indent}|____'{node}'")

print("\n可视化树形结构:")
print_tree(roots[0])

注意事项与扩展建议

  • 健壮性:代码默认将首个数字编号项作为根,支持多根场景(roots 是列表);空字符串或异常格式需前置清洗。
  • ⚠️ 编号规范:依赖 . 分隔的数字编号(如 1, 1.1, 1.1.1),不支持 1a 或罗马数字;如需兼容,可增强 key 解析逻辑。
  • ? 扩展性:生成的字典可直接用于 anytree(Node 初始化)、前端 Tree 组件,或导出为 YAML/Markdown 目录。
  • ? 性能优化:对超长列表(>10⁴项),第二步可用集合预存 results.keys() 加速查找。

该方法平衡了简洁性与可维护性,是处理混合编号标题结构的实用范式。

文章来自机圈观察员网,发布者:,转载请注明出处:https://www.jqgcy.com/xitongjiaocheng/124149.html

上一篇 2026-07-01 18:00
下一篇 2026-07-01 18:00

相关推荐