nodejs爬虫抓取数据之编码问题
2015-07-03 09:48
826 查看
cheerio DOM化并解析的时候
1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现
2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时,可能就需要转义一番了
类似这些 因为需要作数据存储,所有需要转换
复制代码 代码如下:Халк крушит. Новый способ исполнен
大多数都是(x)?\w+的格式
所以就用正则转换一番
var body = ....//这里就是请求后获得的返回数据,或者那些 .html()后获取的 //一般可以先转换为标准unicode格式(有需要就添加:当返回的数据呈现太多\\\u 之类的时) body=unescape(body.replace(/\\u/g,"%u")); //再对实体符进行转义 //有x则表示是16进制,$1就是匹配是否有x ,$2就是匹配出的第二个括号捕获到的内容,将$2以对应进制表示转换 body = body.replace(/(x)?(\w+);/g,function($,$1,$2){ return String.fromCharCode(parseInt($2,$1?16:10)); });
ok ~
当然了,网上也有很多个转换的版本,适用的就行了
后记:
当使用爬虫抓取网页数据时,cheerio模块是经常使用到底,它像jq那样方便快捷
(但有些功能并未支持或者换了某种形式,比如 jq的 jQuery('.myClass').prop('outerHTML') ,cheerio则等价于 jQuery.html('.myClass')http://www.mgenware.com/blog/?p=2514)
您可能感兴趣的文章:
相关文章推荐
- Python3写爬虫(四)多线程实现数据爬取
- Scrapy的架构介绍
- 使用ruby部署工具mina快速部署nodejs应用教程
- XML指南——XML编码
- C#中字符串编码处理
- Google官方支持的NodeJS访问API,提供后台登录授权
- nodejs教程之环境安装及运行
- nodejs中的fiber(纤程)库详解
- 基于NodeJS的前后端分离的思考与实践(五)多终端适配
- 基于NodeJS的前后端分离的思考与实践(二)模版探索
- 我的NodeJs学习小结(一)
- nodejs中实现sleep功能实例
- Nodejs异步回调的优雅处理方法
- ExtJS中文乱码之GBK格式编码解决方案及代码
- 程序员趣味读物 谈谈Unicode编码
- 文本文件编码方式区别
- C语言安全编码之数值中的sizeof操作符
- C#实现获取文本文件的编码的一个类(区分GB2312和UTF8)
- Windows系统下使用Sublime搭建nodejs环境
- nodejs实现获取某宝商品分类