Python处理中文文本字符时提取某个汉字或字符的方法
2015-01-10 14:51
871 查看
最近学了python扒取网页论坛信息,其实python在处理字符串和文本时,其封装好的函数功能很强悍的,何以很方便的调用处理信息。废话不多说,我在爬取论坛信息时遇到一个回帖信息,上边二楼及以下楼层回帖信息上标注比如“2楼网友回复”“3楼网友回复”等等,我要获取楼层数,说白了就睡获取第一个字符,然后转换为int型就OK了,可是在网页源码中get_text(),扒取后获得的是
'2楼网友回复',是文本信息,我们可以用python里的repr()函数或str()函数,repr()返回的是一个对象的"官方"字符串表示(对python比较友好),绝大多数情况下可以通过求值运算(使用内建函数eval())重新得到该对象。即 obj=
eval(repr(obj)),也有情况下,不能够通过eval()得到原来的对象,str() 生成一个对象的可读性好的字符串表示(对用户比较友好),它返回的结果通常无法用于eval()求值,但很适用于print语句输出。
再回到原来的问题,str1=“2楼回复”,str1.decode(‘utf-8’)进行解码,获得unicode形式的编码字符,然后repr(str1.decode(‘utf-8’))就实现了转换成了字符串形式,这时你可以用len函数求长度,获取其中某一个字符,对我而言我只需提取‘2’这个字符,int(repr(str1.decode(‘utf-8’)))转换成int型即可,运行结果见下附图。
'2楼网友回复',是文本信息,我们可以用python里的repr()函数或str()函数,repr()返回的是一个对象的"官方"字符串表示(对python比较友好),绝大多数情况下可以通过求值运算(使用内建函数eval())重新得到该对象。即 obj=
eval(repr(obj)),也有情况下,不能够通过eval()得到原来的对象,str() 生成一个对象的可读性好的字符串表示(对用户比较友好),它返回的结果通常无法用于eval()求值,但很适用于print语句输出。
再回到原来的问题,str1=“2楼回复”,str1.decode(‘utf-8’)进行解码,获得unicode形式的编码字符,然后repr(str1.decode(‘utf-8’))就实现了转换成了字符串形式,这时你可以用len函数求长度,获取其中某一个字符,对我而言我只需提取‘2’这个字符,int(repr(str1.decode(‘utf-8’)))转换成int型即可,运行结果见下附图。
相关文章推荐
- 轻松python文本专题-单独处理字符串每个字符的方法汇总
- SnowNLP:•中文分词•词性标准•提取文本摘要,•提取文本关键词,•转换成拼音•繁体转简体的 处理中文文本的Python3 类库
- python文本 单独处理每个字符的方法汇总
- python处理csv文件名中中文字符解决方法
- 轻松python文本专题-单独处理字符串每个字符的方法汇总
- Python处理文本文件中控制字符的方法
- C# substring处理中文,让汉字二个字符的处理方法
- 轻松python文本专题-单独处理字符串每个字符的方法汇总
- python多进程提取处理大量文本的关键词方法
- Python点滴02_Python3打开中文文本时报错的一种处理方法
- SQL提取数字,提取英文,提取中文,过滤重复字符方法
- python每次处理固定个数的字符的方法总结
- python用法:处理sqlite中的中文字符时遇到的问题
- python 处理中文网页时,忽略特殊字符,忽略异常
- MSSQL注入时对中文字符的处理方法
- SQL提取数字,提取英文,提取中文,过滤重复字符方法
- C++读写汉字,C++处理中文字符
- 黄聪:解决python中文处理乱码,先要弄懂“字符”和“字节”的差别
- 中文编码相关,python处理gbk编码的xml文件方法
- Flex中处理双字节字符(判断汉字长度)的方法