您的位置：首页 > 编程语言 > Python开发

python爬虫---假链接的简单破解

2019-01-17 19:12 627 查看

前提：只为学习爬虫知识，请不要对目标网站造成影响。

缘由

有幸同事介绍一个新的网址：

http://ggzy.gzlps.gov.cn/

全国公共资源交易平台，其中的详情链接在实际爬虫中是假的链接，也就是

假链

，索性看看。

通过检查调试发现了链接，那么实际复制出来的链接显示的界面却是如下图

如果你爬虫访问的话，后台一定会断定你是爬虫进而封你

IP

,那么问题来了？真的链接怎么找到呢？那么实际访问时候链接是：

http://ggzy.gzlps.gov.cn/xxgkdt/x%5EleuEg0wj71ILzES7wZBQ.jhtml

破解

分析：
既然我们知道了是

触发点击事件

那么点击一定绑定了函数，这个函数或许是加密的关键，那么寻找之，建议使用fireFox浏览器。
通过查看

很明显我们发现了这个函数，那么复制出来：

function() {
var hh = $(this).attr("href");
if (typeof(hh) == 'undefined' || hh == '#') {
return
}
var aa = hh.split("/");
var aaa = aa.length;
var bbb = aa[aaa - 1].split('.');
var ccc = bbb[0];
var cccc = bbb[1];
var r = /^\+?[1-9][0-9]*$/;
var ee = $(this).attr('target');
if (r.test(ccc) && cccc.indexOf('jhtml') != -1) {
var srcs = CryptoJS.enc.Utf8.parse(ccc);
var k = CryptoJS.enc.Utf8.parse(s);
var en = CryptoJS.AES.encrypt(srcs, k, {
mode: CryptoJS.mode.ECB,
padding: CryptoJS.pad.Pkcs7
});
var ddd = en.toString();
ddd = ddd.replace(/\//g, "^");
ddd = ddd.substring(0, ddd.length - 2);
var bbbb = ddd + '.' + bbb[1];
aa[aaa - 1] = bbbb;
var uuu = '';
for (i = 0; i < aaa; i++) {
uuu += aa[i] + '/'
}
uuu = uuu.substring(0, uuu.length - 1);
if (typeof(ee) == 'undefined') {
window.location = uuu
} else {
window.open(uuu)
}
} else {
if (typeof(ee) == 'undefined') {
window.location = hh
} else {
window.open(hh)
}
}
return false
}

分析上边的函数所需要的库和参数：

var hh = $(this).attr("href"); 很明显是：http://ggzy.gzlps.gov.cn:80/xxgkdt/20640.jhtml
var ee = $(this).attr('target'); 很明显是：_blank
var k = CryptoJS.enc.Utf8.parse(s); 密钥：待寻找，我们知道反正浏览器已经帮我们加载过密钥了，那么改造这个加密函数，控制台上走一波看是否能够打印出真的链接。
CryptoJS.AES看到这个显然考虑到 AES 加密，那么问题点 CryptoJS 这个加密文件待寻找。

改造函数：

function cryptojS() {
var hh = 'http://ggzy.gzlps.gov.cn:80/xxgkdt/20640.jhtml';
if (typeof(hh) == 'undefined' || hh == '#') {
return
}
var aa = hh.split("/");
var aaa = aa.length;
var bbb = aa[aaa - 1].split('.');
var ccc = bbb[0];
var cccc = bbb[1];
var r = /^\+?[1-9][0-9]*$/;
var ee = '_blank';
if (r.test(ccc) && cccc.indexOf('jhtml') != -1) {
var srcs = CryptoJS.enc.Utf8.parse(ccc);
var k = CryptoJS.enc.Utf8.parse('qnbyzzwmdgghmcnm');
var en = CryptoJS.AES.encrypt(srcs, k, {
mode: CryptoJS.mode.ECB,
padding: CryptoJS.pad.Pkcs7
});
var ddd = en.toString();
ddd = ddd.replace(/\//g, "^");
ddd = ddd.substring(0, ddd.length - 2);
var bbbb = ddd + '.' + bbb[1];
aa[aaa - 1] = bbbb;
var uuu = '';
for (i = 0; i < aaa; i++) {
uuu += aa[i] + '/'
}
uuu = uuu.substring(0, uuu.length - 1);
return uuu
}
}

在控制台上调试如下图得出链接：

http://ggzy.gzlps.gov.cn:80/xxgkdt/x^leuEg0wj71ILzES7wZBQ.jhtml

经过测试是真的链接，不用怀疑。

控制台上是调试出来了，因为浏览器帮你加载了很多东西，写成代码就不一定了那么还需要什么呢？
CryptoJS.AES看到这个显然考虑到 AES 加密，那么问题点 CryptoJS 这个加密文件怎么找？以及加密

密钥

进一步寻找

CryptoJS

文件

很容易发现这个加密函数是来自

http://ggzy.gzlps.gov.cn/r/cms/com.ggzyjy.www/com.ggzyjy.www/js/jquery.lyh-1.1.0.js

这个

js

文件，那么查看之

进一步寻找密钥
看到上边我们发现就那么几个

js

文件，那么密钥一定在另外的

js

文件上，进一步寻找，需耐心。

通过耐心查找终于找到了密钥：

qnbyzzwmdgghmcnm

那么一切的条件都有了，破解吧，我们知道

python 自带的Ctypto库进行AES加密

难道要正面刚？作者这里试过了，正面刚是不行的太难了。那么只有走

pyV8

这条路来进行破解。

破解代码实现

第一步：我们知道需要

http://ggzy.gzlps.gov.cn/r/cms/com.ggzyjy.www/com.ggzyjy.www/js/jquery.lyh-1.1.0.js

这个加密文件，下载下来并保存下来，命名为

ase_encryption.js

文件。代码如下：

# -*- coding:utf-8 -*-
import PyV8

ctxt = PyV8.JSContext()
ctxt.enter()
js_info = """
aesEncrypt = function () {
var hh = 'http://ggzy.gzlps.gov.cn:80/xxgkdt/20640.jhtml';
if (typeof(hh) == 'undefined' || hh == '#') {
return
}
var aa = hh.split("/");
var aaa = aa.length;
var bbb = aa[aaa - 1].split('.');
var ccc = bbb[0];
var cccc = bbb[1];
var r = /^\+?[1-9][0-9]*$/;
var ee = '_blank';
if (r.test(ccc) && cccc.indexOf('jhtml') != -1) {
var srcs = CryptoJS.enc.Utf8.parse(ccc);
var k = CryptoJS.enc.Utf8.parse('qnbyzzwmdgghmcnm');
var en = CryptoJS.AES.encrypt(srcs, k, {
mode: CryptoJS.mode.ECB,
padding: CryptoJS.pad.Pkcs7
});
var ddd = en.toString();
ddd = ddd.replace(/\//g, "^");
ddd = ddd.substring(0, ddd.length - 2);
var bbbb = ddd + '.' + bbb[1];
aa[aaa - 1] = bbbb;
var uuu = '';

1c6f4
for (i = 0; i < aaa; i++) {
uuu += aa[i] + '/'
}
uuu = uuu.substring(0, uuu.length - 1);
return uuu
}
}
"""
if __name__ == "__main__":
with open('ase_encryption.js')as f:
a = f.read()
func = ctxt.eval(a + js_info)
print(func())

结果却出人意料：

Traceback (most recent call last):
File "F:/PycharmWork/yufan_mao/66.py", line 43, in <module>
func = ctxt.eval(a + js_info)
ReferenceError: ReferenceError: $ is not defined (  @ 1 : 0 )  -> $(function(){$("a").click(function(){var hh=$(this).attr("href");if(typeof(hh)

分析得出：

是内置的，浏览器实例的，

execjs

只能运行基本的语法，那么

ase_encryption.js

这个

js

文件就需要改造了，那么能不能尝试把

给替换掉呢？那就试着来吧。

意外的是替换掉结果还真的出来了，苦笑不得，由于自己水平比较低，这次纯属运气吧。
参考作者：https://www.jianshu.com/p/055e1ddf7bb2

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航