[Java] 解决用Jsoup解析网页过程中由&nbsp造成的乱码问题
2015-04-23 10:41
453 查看
昨天晚上在写爬虫的时候,发现Jsoup会在输出utf-8网页的时候把
方法1:
把Element转化为字符串,用String.replace替换掉,再通过Jsoup.parse()把处理过的字符串转成Document,再通过Document.text() 得到处理过的内容。
tp是一个Element类的对象
方法2:
把Element内的文字通过Element.toString()输出,再用String.replace替换。我比较推荐这种方法。
由于我不知道那个字符转义以后不知道变成什么样子了,事实上我也不需要知道,直接用
输出成乱码“?”找了找,发现是编码的问题。那么解决思路就是把这个字符替换掉。但是如何替换,我又想了好多办法,甚至一度想过用正则表达式去解决。还来通过自己思考和查资料,得到了两种方法。
方法1:
把Element转化为字符串,用String.replace替换掉,再通过Jsoup.parse()把处理过的字符串转成Document,再通过Document.text() 得到处理过的内容。
String temp=tp.toString().replace(" ", "") ; Document d=Jsoup.parse(temp) ; System.out.println(d.text()) ;
tp是一个Element类的对象
方法2:
把Element内的文字通过Element.toString()输出,再用String.replace替换。我比较推荐这种方法。
String temp=tp.text().replace(Jsoup.parse(" ").text(), "") ; System.out.println(temp) ;
由于我不知道那个字符转义以后不知道变成什么样子了,事实上我也不需要知道,直接用
Jsoup.parse(" ").text()来获得其转义后的东西,将其替换成“”。有些以其人之道还治其人之身的感觉 <( ̄︶ ̄)>
相关文章推荐
- 关于利用Jsoup解析HTML中&nbsp;变成非传统空格或乱码问题解决方法
- Jsoup解析HTML中 出现乱码问题解决办法
- 关于利用Jsoup解析HTML中 ;变成非传统空格或乱码问题解决方法
- 解决Jsoup解析html页面空格( )解析为乱码(问号)
- java&nbsp;mail&nbsp;解决附件中文名乱码问题
- Java解析DBF文件,错误Failed to parse Number: For input string: "-.---" 或读取不出数据或乱码问题都在这里解决
- java抓取网页保存的乱码问题解决
- Flex+Java组合解决汉字或特殊符号(如&等)文件下载时的文件名乱码问题
- 上午解决了网页解析乱码的问题
- Java网络编程获取网页的乱码问题解决
- Java网页抓取网页内容时,乱码问题的解决
- 将java的集合转换为数据库集合类型 解决weblogic调用存储过程的时候,返回值乱码问题
- java WEB应用中的中文乱码问题初探
- oracle&nbsp;10g&nbsp;中文乱码的问题(解决…
- ASP.NET MVC中解析淘宝网页出现乱码问题的解决方法
- ASP.NET MVC中解析淘宝网页出现乱码问题的解决方法
- 【javaweb:Proxy&Filter】采用动态代理和过滤器解决request的全局乱码问题
- java使用POI解析Excel表格中由纯数字组成的字符串报错问题&解决数据自动保存为科学计数法问题
- 前台使用js的encodeURIComponent编码后,java解析乱码问题的解决方法
- 解决mysql&nbsp;显示中文乱码问题