python网络爬虫入门(二)——用python简单实现调用谷歌翻译
2014-08-03 20:02
796 查看
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:
import re import urllib,urllib2 #----------模拟浏览器的行为,向谷歌翻译发送数据,然后抓取翻译结果,这就是大概的思路------- def Gtranslate(text): #text 输入要翻译的英文句子 Gtext=text #hl:浏览器、操作系统语言,默认是zh-CN #ie:默认是UTF-8 #text:就是要翻译的字符串 #langpair:语言对,即'en'|'zh-CN'表示从英语到简体中文 values={'hl':'zh-CN','ie':'UTF-8','text':Gtext,'langpair':"'en'|'zh-CN'"} #URL用来存储谷歌翻译的网址 url='http://translate.google.cn/' #将values中的数据通过urllib.urlencode转义为URL专用的格式然后赋给data存储 data = urllib.urlencode(values) #然后用URL和data生成一个request req = urllib2.Request(url,data) #伪装一个IE6.0浏览器访问,如果不伪装,谷歌将返回一个403错误 browser='Mozilla/4.0 (Windows; U;MSIE 6.0; Windows NT 6.1; SV1; .NET CLR 2.0.50727)' req.add_header('User-Agent',browser) #向谷歌翻译发送请求 response = urllib2.urlopen(req) #读取返回页面,然后我们就从这个HTML页面中截取翻译过来的字符串即可 html=response.read() #使用正则表达式匹配<=TRANSLATED_TEXT=)。而翻译后的文本是'TRANSLATED_TEXT='等号后面的内容 p=re.compile(r"(?<=TRANSLATED_TEXT=).*?;") m=p.search(html) chineseText=m.group(0).strip(';') return chineseText if __name__ == "__main__": #Gtext为待翻译的字符串 Gtext='you should believe yourself,you are the best one! and we sure that you will do something making us being proud of you' print('The input text: %s' % Gtext) chineseText=Gtranslate(Gtext).strip("'") print('Translated End,The output text: %s' % chineseText)在IDLEz中运行后:
相关文章推荐
- Python中实现远程调用(RPC、RMI)简单例子
- python调用c语言函数的一种简单实现方法
- 通过协程统计函数被调用次数(附python代码简单实现)
- Python中实现远程调用(RPC、RMI)简单例子
- 简单的python网络爬虫实现
- 小白入门python之在命令框中实现简单的python代码
- 利用ida python 实现复原函数调用的参数 (仅对数据被简单硬编码有效)
- Python中实现远程调用(RPC、RMI)简单例子
- python调用c语言函数的一种简单实现方法
- Go语言内部rpc简单实例,实现python调用go的jsonrpc小实例
- python 简单照相机调用系统摄像头实现方法 pygame
- python--RPC调用简单实现
- python 调用图灵机器人api实现简单的人机交互
- Python入门简单的静态网页爬虫2.0 (实现各模块的具体方法)
- python 简单照相机调用系统摄像头实现 pygame
- 【转】Python中实现远程调用(RPC、RMI)简单例子
- Python web入门:Django学习与实践二(简单页面实现和创建一个模板)
- 协同过滤算法python实现简单入门详细注释
- python 调用图灵机器人api实现简单的人机交互
- python网络爬虫入门(一)——简单的博客爬虫