
本文介绍如何将无序的标题列表(含数字编号与非编号项)自动解析为具有父子关系的树状结构,通过两步法识别编号层级、建立父子引用,并输出可读性强的嵌套字典或可视化树形表示。
本文介绍如何将无序的标题列表(含数字编号与非编号项)自动解析为具有父子关系的树状结构,通过两步法识别编号层级、建立父子引用,并输出可读性强的嵌套字典或可视化树形表示。
在文档解析、目录生成或知识图谱构建等场景中,常需将原始标题列表(如 PDF 提取文本或 Markdown 章节)转化为结构化树形数据。本教程提供一种无需外部依赖、逻辑清晰、可扩展性强的纯 Python 实现方案,适用于含数字编号(如 “13.3. Risk”)与后续缩进式子项(如 “SubStrategy”)混合的标题序列。
核心思路:两阶段构建法
我们采用分离解析 → 层级聚合的两步策略,避免复杂正则匹配或递归歧义,确保逻辑透明、调试友好:
-
第一阶段:按编号提取主干节点,挂载同级子项
遍历列表,识别以数字开头的标题(title[0].isnumeric()),将其编号部分(如 “13.3.1”)作为唯一键,构建初始节点字典;非编号项(如 “SubStrategy”)直接追加到最近一个编号节点的 children 列表中。 -
第二阶段:基于编号前缀推导父子关系
对每个编号节点,截取其父级编号(如 “13.3.1” → “13.3”),若该父编号存在于字典中,则将当前节点作为其子节点;否则视为根节点。
完整实现代码
import json
titles = [
"13.3. Risk",
"13.3.1. Strategy",
"SubStrategy",
"13.3.2. Token",
"Material",
"Impact",
"Aling"
]
# Step 1: 构建编号节点字典,挂载直接子项(非编号标题)
results = {}
current_parent = None
for title in titles:
if title and title[0].isnumeric():
# 提取编号(去除末尾点号)
prefix, name = title.split(" ", 1)
key = prefix.strip(".")
current_parent = results.setdefault(key, {"name": title, "children": []})
elif current_parent is not None:
# 将非编号项挂载到最近的编号节点下
current_parent["children"].append(title)
# Step 2: 建立父子层级关系
roots = []
for key, node in results.items():
# 获取父级编号(如 "13.3.1" → "13.3")
parent_key = ".".join(key.split(".")[:-1])
if parent_key in results:
# 父节点存在:当前节点作为其子节点
results[parent_key]["children"].append(node)
else:
# 父节点不存在:当前节点为根
roots.append(node)
# 输出结构化树(JSON格式,便于验证)
print("生成的树形结构(JSON):")
print(json.dumps(roots[0], indent=2, ensure_ascii=False))
输出效果
运行后得到标准嵌套字典:
{
"name": "13.3. Risk",
"children": [
{
"name": "13.3.1. Strategy",
"children": ["SubStrategy"]
},
{
"name": "13.3.2. Token",
"children": ["Material", "Impact", "Aling"]
}
]
}
如需可视化为树形文本(如问题中要求的 |_ 格式),可添加递归打印函数:
def print_tree(node, indent=0):
prefix = " " * indent + "|_"
if isinstance(node, dict) and "name" in node:
print(f"{prefix}'{node['name']}'")
for child in node.get("children", []):
if isinstance(child, dict):
print_tree(child, indent + 1)
else:
print(f"{' ' * (indent + 1)}|____'{child}'")
else:
print(f"{' ' * indent}|____'{node}'")
print("\n可视化树形结构:")
print_tree(roots[0])
注意事项与扩展建议
- ✅ 健壮性:代码默认将首个数字编号项作为根,支持多根场景(roots 是列表);空字符串或异常格式需前置清洗。
- ⚠️ 编号规范:依赖 . 分隔的数字编号(如 1, 1.1, 1.1.1),不支持 1a 或罗马数字;如需兼容,可增强 key 解析逻辑。
- ? 扩展性:生成的字典可直接用于 anytree(Node 初始化)、前端 Tree 组件,或导出为 YAML/Markdown 目录。
- ? 性能优化:对超长列表(>10⁴项),第二步可用集合预存 results.keys() 加速查找。
该方法平衡了简洁性与可维护性,是处理混合编号标题结构的实用范式。
文章来自机圈观察员网,发布者:,转载请注明出处:https://www.jqgcy.com/xitongjiaocheng/124149.html