惊呆了,我的 Python 代码里面出现了薛定谔的 Bug,看看我是怎么解决的。
问题背景
先来看一段代码:
这段代码读取
tests/163/9.html这个文件里面的 HTML 代码,分别获取
<body>下面的所有标签内部的所有
<a>标签中的文本。说起来可能有点绕口,我举个例子。
[code]<body> <div> <a href="/xx">你好</a> </div> <h2> <a>世界</a> </h2> </body> 复制代码
分别获取
<div>标签和
<h2>标签下面的
<a>标签中的文本,也就是
你好和
世界。
但这段代码有个问题,就是对于嵌套结构的标签,会重复提取。例如:
[code]<body> <div> <h2> <a href="/xx">你好</a> </h2> </div> </body> 复制代码
首先,获取
<div>标签下面的
<a>标签,获取到的是
你好所在的
<a>标签。但是,获取
<h2>标签下面的
<a>标签时,获取的仍然是同一个
<a>标签。
这样一来,在上图代码里面第15-20行就会重复执行两次。
为了提高代码的运行效率,我们引入缓存,记录每一个
<a>标签的分析结果,如果发现一个
<a>标签已经被分析了,就直接使用缓存的结果,避免重复分析。
于是,代码修改成下面这样:
代码第18行的
str(element)对应了这个节点的内存地址,如下图所示:
(海量免费学习资料,软件测试交流:1140267353,还会有同行一起技术交流)
这段代码看起来似乎没有什么问题,但在实际提取数据的时候,发现提取的结果不太正常。
薛定谔的 Element
为了调试这个问题,我对代码做了一下修改:
可以看到,同一个 HTML 标签,之前缓存的结果竟然跟新提取的不一样。
于是,我想看看每次提取的时候,对应的 element 是哪个,但却发生了更诡异的事情,我们做一个看起来对代码不会有任何影响的改动:
图4里面,我们直接把
element_text_list缓存起来。图5里面,我们把
[element_text_list, element]缓存起来,读取的时候,读取这个列表的下标为0的元素。也就是说,这个缓存的
element我们根本不使用。
但奇怪的事情就这样发生了,问题消失了!在图4大量打印的
同一个标签,缓存的数据跟提取的数据不一致!,在图5里面却一条都没有打印。这样修改以后,GNE 的提取的结果就正确了。(海量免费学习资料,软件测试交流:1140267353,还会有同行一起技术交流)
但为什么会发生这种事情呢?难道说跟缓存的结果有关系?那么我们把列表里面的
element改成其他数据看看:
仅仅是把
element改成了数字1,Bug 又出现了。
它似乎知道我在试图去观察它,当我尝试用代码去观察
element时,它就一切正常。当我不观察它时,它就会出问题。薛定谔的
element。
看不见的手
遇事不决,量子力学。这个问题跟量子力学实际上没有关系。导致这个诡异情况发生的原因,是一个一直运行在 Python 里面,但是你常常忽略的机制——垃圾回收。
Python 会把不再使用的对象清理掉,从而释放内存。当我们执行一个 for 循环时:
[code]for element in element_list: a = element.xpath('//xxx') b = element.xpath('.//text()') c = 1 + 1 复制代码
循环第一次执行的时候,生成第一个
element对象,但是这个对象在循环第二次执行的时候就被新的
element对象覆盖了。因为没有其他地方继续使用第一个
element对象,它的引用计数归零,Python 的垃圾回收机制就会把它清理掉。它占用的内存空间也会被释放出来。
但如果换一种写法:
[code]cache = [] for element in element_list: a = element.xpath('//xxx') b = element.xpath('.//text()') c = 1 + 1 cache.append(element) 复制代码
由于列表
cache中包含了对每个
element对象的引用,导致第一次循环生成的
element对象的引用计数不为0,垃圾回收机制不会回收它,它始终占用了一块内存区域。这块区域不会被其他数据使用。那么每次循环,新的
element对象都会新申请一块内存区域来存放数据,于是就等价于每一个不同的
element节点对应了不同的内存地址。
在示例代码里面,大家注意
element_flag = str(element)这一行,它的值类似于
<Element a at 0x1087ba638>,这里的十六进制数字
0x1087ba638对应了这个对象在内存里面的地址。
一开始,我有一个不正确的假设,我以为
str(element)的值,对应的 HTML 里面的每个节点。同一个节点,多次执行,结果都一样,不同的节点,多次执行,结果都不一样。
但实际上这是不正确的。因为如果前一个节点的内存区域被垃圾回收了,那么这个区域会被重新分配,新来的节点可能碰巧会放到这个地方,这就导致两个不同的
<a>标签,当你执行
str(element)时,他们打印出来的结果都是相同的。但是实际上他们的正文不一样。(海量免费学习资料,软件测试交流:1140267353,还会有同行一起技术交流)
而当我使用
element_text_cache[element_flag] = [element_text_list, element]时,由于每个
element对象不会被回收,于是就不会出现不同的节点互相覆盖的问题,所以它的工作就符合了预期。
解决问题
所以,bug 的根本原因在于,我不应该使用
str(element)作为缓存的 Key,应该找一个跟 HTML 节点一一对应的东西来作为 Key。显然,使用 XPath 更好。
于是,修改代码,把
element_flag改成 XPath:
问题得以解决。
最后小枫整理不易,欢迎各位点赞关注收藏!!!
扫码进群里面有免费自动化测试学习资料,面试宝典等等,还有技术大牛现在交流。
- notepad++编译器保存的python代码出现python:can't open file '**.py' :[error 2] No Such file or directory问题怎么解决
- D-Day +6 of .NET 传说中的计算器问题.有BUG,解决不了,第一个程序怎么就调不好呢,高手帮忙看看
- AndroidSdk开发,混淆后的代码出现bug后怎么找到bug位置
- Sublime Text 3 装了Anaconda 写Python代码出现框框的解决办法
- 使用sublime书写python代码时出现矩形框解决办法
- 哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
- tips: 每次eclipse里面修改了Java代码后点击运行按钮,BlackBerry模拟器每次都需要重新启动,为什么啊?怎么解决?
- SurfaceView在ScrollView里面滑动出现黑色背景怎么解决?覆盖了一些东西怎么办?
- Android Studio 2.0 Previe4创建Demo后运行,发现Logcat出现以下错误代码,怎么解决?
- VS Code中写Python代码时遇到出现蓝色波浪线警告 "Dayday": Unknown word. cSpell [4, 40]的解决办法
- 解决"学习python-flask教程,下载源码运行的时候出现:TypeError: 'bool' object is not callable 错误代码:"
- TensorFlow学习笔记7——Win7下Spyder运行python代码出现UnicodeEncodeError问题的解决
- 在网上下的魔塔代码 用VS出现 无法打开包括文件:“graphics.h”: No such file or directory 请问如何解决 是库里面没有这个东东吗?
- python web 开发 Django 部署到服务器heroku上出现bug时候 解决办法
- Python代码报错看不懂?牢记这20个报错单词轻松解决BUG
- 冲顶大会Python代码执行出现bug
- win8.1系统中出现的错误代码80073712怎么解决
- 解决Eclipse编写Python代码出现SyntaxError: Non-ASCII character问题
- 如何解决VXcode调试python代码每次都出现select a debug configuration,实现F5一键调试
- C++文件I/O 以对象写文件后,读出对象时出现乱码,不知道怎么解决,贴出代码如下.