C#第五次作业:开源项目“网页正文提取”的理解
2015-06-01 19:43
489 查看
信管1121
201211671121
王晓俊
1.作业要求:从网上找到一篇很不错的分享文章“我为开源做贡献,网页正文提取——Html2Article”(链接),用C#语言实现了
网页正文提取 的功能。
测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:
http://blog.csdn.net/quailquailquail/article/details/45821703
http://user.qzone.qq.com/303727350/blog/1430870007
http://www.cnblogs.com/jasondan/p/4145305.html
2.运行结果截图:
提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图:
提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图:
提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图:
3.心得体会:
1、本次的作业让我提取不同的网站,有些网站能提取到正文文本,有些提取不到。为了搞清楚这个问题,对网页的一些结构有了初步了解。
2、此次的作业中,下载的程序是用VS2013编的,我的VS版本是2005,所以打不开。经过百度这个问题,对VS个版本之间打开文件的切换初步熟悉,不过最后还是得在别人的机子上运行这个作业。
201211671121
王晓俊
1.作业要求:从网上找到一篇很不错的分享文章“我为开源做贡献,网页正文提取——Html2Article”(链接),用C#语言实现了
网页正文提取 的功能。
测试如下三个不同的网页的提取效果,并把结果截图发布到作业博文中:
http://blog.csdn.net/quailquailquail/article/details/45821703
http://user.qzone.qq.com/303727350/blog/1430870007
http://www.cnblogs.com/jasondan/p/4145305.html
2.运行结果截图:
提取http://blog.csdn.net/quailquailquail/article/details/45821703结果截图:
提取http://user.qzone.qq.com/303727350/blog/1430870007结果截图:
提取http://www.cnblogs.com/jasondan/p/4145305.html结果截图:
3.心得体会:
1、本次的作业让我提取不同的网站,有些网站能提取到正文文本,有些提取不到。为了搞清楚这个问题,对网页的一些结构有了初步了解。
2、此次的作业中,下载的程序是用VS2013编的,我的VS版本是2005,所以打不开。经过百度这个问题,对VS个版本之间打开文件的切换初步熟悉,不过最后还是得在别人的机子上运行这个作业。
相关文章推荐
- [工具-005] C#如何绑定HotKey
- C#泛型-使用委托的Sort排序方法
- C# 加密解密(DES,3DES,MD5,Base64) 类
- C# 导出标准格式的Excel 可用迅雷下载
- C# 获取客户端IP
- C# 获取系统当前时间 长格式
- C# 字符串截取
- C#正则表达式语法规则详解
- c#自定义类型的转换方式operator,以及implicit(隐式)和explicit (显示)声明的区别
- C# 操作XML 如果不存在创建 存在直接追加
- C# treeview右键菜单 设置技巧
- C# Invoke
- C# 根据时间创建文件夹
- C# Rows.Remove() 和 DataRow.Delete() 的区别
- C#:代表(delegate)和事件(event) (转)
- C# DataAdapter.Update() 无法更新数据表中删除的数据行
- 通过configSource提高web.config配置灵活性
- mongo DB for C#
- c#的DateTime.Now函数详解
- C# 中引用dll类库时 “不可访问,因为它受保护级别限制”