本文详解在循环中构建字典并批量添加至列表时常见的缩进错误、命名冲突与异常处理问题,通过修正代码结构确保每次迭代的字典都被完整保留。
本文详解在循环中构建字典并批量添加至列表时常见的缩进错误、命名冲突与异常处理问题,通过修正代码结构确保每次迭代的字典都被完整保留。
在网页数据抓取场景中,常需将每条记录解析为字典,并统一存入列表以便后续处理(如导出为 JSON 或 DataFrame)。但初学者极易因代码缩进不当导致 append() 仅执行一次——看似在循环内,实则位于循环体外,最终列表只保留最后一次(或第一次,取决于执行逻辑)构建的字典。
观察原始代码:
list = []
for item in data:
dictionary = {}
# ... 字段赋值 ...
list.append(dictionary) # ❌ 错误:缩进过深,实际在 for 循环外部!
此处 list.append(dictionary) 的缩进与 for 循环对齐,不属于循环体,因此仅在循环结束后执行一次,且此时 dictionary 是最后一次迭代的值(或未定义,取决于 Python 版本),造成“只保留一条数据”的假象。
✅ 正确做法是将 append() 严格缩进至 for 循环内部,确保每次迭代后立即保存当前字典:
data_list = [] # ✅ 避免使用 list 作为变量名,防止覆盖内置类型
for item in data:
record = {} # 使用语义化变量名,如 record 或 property_data
# 必填字段:使用链式调用 + strip 清洗
record["Address"] = item.find("p", {"class": "property-address"}).text.replace(" ", "").strip()
record["Locality"] = item.find("p", {"class": "property-city"}).text.replace(" ", "").strip()
record["Beds"] = item.find("p", {"class": "property-beds"}).find("strong").text
# 可选字段:用 CSS 选择器 + 条件表达式替代 try-except-pass(更安全、可读)
baths_elem = item.select_one("p.property-baths strong")
record["Baths"] = baths_elem.text if baths_elem else "N/A"
sqft_elem = item.select_one("p.property-sqft strong")
record["Square Feet"] = sqft_elem.text if sqft_elem else "N/A"
record["Price"] = item.find("a", {"class": "listing-price"}).text.replace("\n", "").replace(" ", "")
data_list.append(record) # ✅ 正确缩进:在循环体内,每次迭代都执行
关键注意事项:
- 命名规范:禁用 list, dict, str 等内置类型名作为变量,否则会屏蔽对应构造函数,引发难以排查的运行时错误;推荐使用 data_list, records, properties 等描述性名称。
- 异常处理优化:try: except: pass 会静默吞掉所有异常(包括拼写错误、属性缺失等),应改用 select_one() 或 find() 判空 + 三元表达式,既明确意图,又便于调试。
- 数据清洗一致性:对文本字段统一调用 .strip() 和 .replace(),避免空格干扰后续分析。
- 验证输出:循环结束后,可通过 print(len(data_list)) 和 print(data_list[:2]) 快速校验数据完整性与结构正确性。
修正后,data_list 将准确包含全部 item 解析出的字典,结构清晰、健壮可维护,真正实现“一次循环,全量采集”。
文章来自机圈观察员网,发布者:,转载请注明出处:https://www.jqgcy.com/xitongjiaocheng/124116.html