C# 正则表达式 提取URL并保存

来源:百度知道 编辑:UC知道 时间:2024/07/04 04:30:49
目前在做一个简单的网络爬虫,但是在URL过滤这里遇到点麻烦 希望大家帮我解决一下,谢谢了!
1.先从网页的源码中,把所有herf后面的URL地址提取出来,必须是以http开头的地址
2.在提取出来的URL地址中,保留满足这个正则表达式(http://companyadc\.51job\.com/companyads/2\d{3}/\w{2,6}/\w*\d{4}_\d{4}/index\.htm)的URL,其他的删除。
3.将保留的URL保存到桌面的一个文本文件中

请问这3个步骤用C#分别应该怎么实现啊?

第二个正则是你自己写的么?
是的话第一个的正则就更好写了。。。

感觉你第一二步有重复啊,你直接用第二个正则去匹配不网页源码不就可以了?
至于保存成文本文件的方式就更多了,例如
ping 127.0.0.1 >c:\1.txt,直接调cmd就可以
也可以用streamwrite和filestream来写文本

分太少了。

上50分,给你源代码

这么多问题,居然一分都没有???

用一个就行了吧