C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
2011-08-28 15:52
786 查看
</pre></p><span style="line-height: 21px;"></span><pre name="code" class="csharp">using System; using System.Net; using System.Text; using System.Text.RegularExpressions; namespace HttpGet { class Class1 { [STAThread] static void Main(string[] args) { System.Net.WebClient client = new WebClient(); byte[] page = client.DownloadData("http://news.163.com"); string content = System.Text.Encoding.UTF8.GetString(page); string regex = "href=[\\\"\\\'](http:\\/\\/|\\.\\/|\\/)?\\w+(\\.\\w+)*(\\/\\w+(\\.\\w+)?)*(\\/|\\?\\w*=\\w*(&\\w*=\\w*)*)?[\\\"\\\']"; Regex re = new Regex(regex); MatchCollection matches = re.Matches(content); System.Collections.IEnumerator enu = matches.GetEnumerator(); while (enu.MoveNext() && enu.Current != null) { Match match = (Match)(enu.Current); Console.Write(match.Value + "\r\n"); } } } }
.csharpcode, .csharpcode pre
{
font-size: small;
color: black;
font-family: consolas, "Courier New", courier, monospace;
background-color: #ffffff;
/*white-space: pre;*/
}
.csharpcode pre { margin: 0em; }
.csharpcode .rem { color: #008000; }
.csharpcode .kwrd { color: #0000ff; }
.csharpcode .str { color: #006080; }
.csharpcode .op { color: #0000c0; }
.csharpcode .preproc { color: #cc6633; }
.csharpcode .asp { background-color: #ffff00; }
.csharpcode .html { color: #800000; }
.csharpcode .attr { color: #ff0000; }
.csharpcode .alt
{
background-color: #f4f4f4;
width: 100%;
margin: 0em;
}
.csharpcode .lnum { color: #606060; }
相关文章推荐
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- C#获取远程网页中的所有链接URL
- C#获取远程网页中的所有链接URL
- C#获取远程网页中的所有链接URL
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- C# 网络编程之webBrowser获取网页url和下载网页中图片
- 获取某个网页中的全部url及对应的名称(使用c#实现的类)
- Java 网络爬虫获取网页源代码原理及实现
- Java 网络爬虫获取网页源代码原理及实现
- Java 网络爬虫获取网页源代码原理及实现
- c#获取远程网页链接
- Java 网络爬虫获取网页源代码原理及实现
- 【使用JSOUP实现网络爬虫】获取所有链接
- C# 网络编程之webBrowser获取网页url和下载网页中图片
- Java 网络爬虫获取网页源代码原理及实现
- 正则表达式入门知识+用它实现在一个网页中获取所有的链接地址