您的位置：首页 > 编程语言 > Python开发

惊呆了，我的 Python 代码里面出现了薛定谔的 Bug，看看我是怎么解决的。

2020-07-31 16:45 791 查看

问题背景

先来看一段代码：

这段代码读取

tests/163/9.html

这个文件里面的 HTML 代码，分别获取

<body>

下面的所有标签内部的所有

<a>

标签中的文本。说起来可能有点绕口，我举个例子。

[code]<body>
<div>
<a href="/xx">你好</a>
</div>
<h2>
<a>世界</a>
</h2>
</body>
复制代码

分别获取

<div>

标签和

<h2>

标签下面的

<a>

标签中的文本，也就是

你好

和

世界

。

但这段代码有个问题，就是对于嵌套结构的标签，会重复提取。例如：

[code]<body>
<div>
<h2>
<a href="/xx">你好</a>
</h2>
</div>
</body>
复制代码

首先，获取

<div>

标签下面的

<a>

标签，获取到的是

你好

所在的

<a>

标签。但是，获取

<h2>

标签下面的

<a>

标签时，获取的仍然是同一个

<a>

标签。

这样一来，在上图代码里面第15-20行就会重复执行两次。

为了提高代码的运行效率，我们引入缓存，记录每一个

<a>

标签的分析结果，如果发现一个

<a>

标签已经被分析了，就直接使用缓存的结果，避免重复分析。

于是，代码修改成下面这样：

代码第18行的

str(element)

对应了这个节点的内存地址，如下图所示：

(海量免费学习资料，软件测试交流：1140267353，还会有同行一起技术交流)

这段代码看起来似乎没有什么问题，但在实际提取数据的时候，发现提取的结果不太正常。

薛定谔的 Element

为了调试这个问题，我对代码做了一下修改：

可以看到，同一个 HTML 标签，之前缓存的结果竟然跟新提取的不一样。

于是，我想看看每次提取的时候，对应的 element 是哪个，但却发生了更诡异的事情，我们做一个看起来对代码不会有任何影响的改动：

图4里面，我们直接把

element_text_list

缓存起来。图5里面，我们把

[element_text_list, element]

缓存起来，读取的时候，读取这个列表的下标为0的元素。也就是说，这个缓存的

element

我们根本不使用。

但奇怪的事情就这样发生了，问题消失了！在图4大量打印的

同一个标签，缓存的数据跟提取的数据不一致！

，在图5里面却一条都没有打印。这样修改以后，GNE 的提取的结果就正确了。(海量免费学习资料，软件测试交流：1140267353，还会有同行一起技术交流)

但为什么会发生这种事情呢？难道说跟缓存的结果有关系？那么我们把列表里面的

element

改成其他数据看看：

仅仅是把

element

改成了数字1，Bug 又出现了。

它似乎知道我在试图去观察它，当我尝试用代码去观察

element

时，它就一切正常。当我不观察它时，它就会出问题。薛定谔的

element

。

看不见的手

遇事不决，量子力学。这个问题跟量子力学实际上没有关系。导致这个诡异情况发生的原因，是一个一直运行在 Python 里面，但是你常常忽略的机制——垃圾回收。

Python 会把不再使用的对象清理掉，从而释放内存。当我们执行一个 for 循环时：

[code]for element in element_list:
a = element.xpath('//xxx')
b = element.xpath('.//text()')
c = 1 + 1
复制代码

循环第一次执行的时候，生成第一个

element

对象，但是这个对象在循环第二次执行的时候就被新的

element

对象覆盖了。因为没有其他地方继续使用第一个

element

对象，它的引用计数归零，Python 的垃圾回收机制就会把它清理掉。它占用的内存空间也会被释放出来。

但如果换一种写法：

[code]cache = []
for element in element_list:
a = element.xpath('//xxx')
b = element.xpath('.//text()')
c = 1 + 1
cache.append(element)
复制代码

由于列表

cache

中包含了对每个

element

对象的引用，导致第一次循环生成的

element

对象的引用计数不为0，垃圾回收机制不会回收它，它始终占用了一块内存区域。这块区域不会被其他数据使用。那么每次循环，新的

element

对象都会新申请一块内存区域来存放数据，于是就等价于每一个不同的

element

节点对应了不同的内存地址。

在示例代码里面，大家注意

element_flag = str(element)

这一行，它的值类似于

<Element a at 0x1087ba638>

，这里的十六进制数字

0x1087ba638

对应了这个对象在内存里面的地址。

一开始，我有一个不正确的假设，我以为

str(element)

的值，对应的 HTML 里面的每个节点。同一个节点，多次执行，结果都一样，不同的节点，多次执行，结果都不一样。

但实际上这是不正确的。因为如果前一个节点的内存区域被垃圾回收了，那么这个区域会被重新分配，新来的节点可能碰巧会放到这个地方，这就导致两个不同的

<a>

标签，当你执行

str(element)

时，他们打印出来的结果都是相同的。但是实际上他们的正文不一样。(海量免费学习资料，软件测试交流：1140267353，还会有同行一起技术交流)

而当我使用

element_text_cache[element_flag] = [element_text_list, element]

时，由于每个

element

对象不会被回收，于是就不会出现不同的节点互相覆盖的问题，所以它的工作就符合了预期。

解决问题

所以，bug 的根本原因在于，我不应该使用

str(element)

作为缓存的 Key，应该找一个跟 HTML 节点一一对应的东西来作为 Key。显然，使用 XPath 更好。

于是，修改代码，把

element_flag

改成 XPath：

问题得以解决。

最后小枫整理不易，欢迎各位点赞关注收藏！！！

扫码进群里面有免费自动化测试学习资料，面试宝典等等，还有技术大牛现在交流。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航