[C#][固定格式网页解析]使用正则表达式处理网页的初步体会

阿尔萨斯

浏览: 4169341 次

最近访客更多访客>>

snower_tt

iams13

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-10 ( 581)
2014-09 ( 572)
2014-08 ( 545)
更多存档...

用IE WebControl解析网页得到特定网页中的特定数据：

Set oDocument = Form2.m_IE.Document
Set oelement = oDocument.Forms("searchdetail")

Set oListTableElement = oelement.children(0).children(0)

这样的好处是简单，但坏处是：如何读取以及节点值究竟是什么含意这些信息，不太好抽取出来放到外面，作为灵活配置的文件。

因为它属于一个Childnodes一个Childnodes这么遍历的，无法灵活设定深度以及含义。

又体验了一把正则表达式，专门处理了特定站点HTML，由于我要处理的页面中总包含某些的固定代码。

发现下面的式子可以把一系列值解析到一个又一个的MatchCollection中。

我用的是"The Regulator"工具，试验结果如下：

也就是Collection“hiddentonenames”总是XX名的集合，按序排列；

Collection“hiddenspnames”总是XX名的集合，按序排列；

以此类推。

在C#中，可以用如下代码得到各个集合的值：

foreach(Match match in matchCollection)

{

Group groupToneNames = match.Groups["hiddentonenames"];

Group groupSpNames = match.Groups["hiddenspnames"];

Group groupSingers = match.Groups["hiddensingers"];

}

这样，我可以针对这各种门派的Portal风格写出专门的正则表达式，但让他们输出的Collections名字都是一样的，从而让获取一个铃声的各个字段的代码固定下来。

以后更新，只需要修改各个门派的正则表达式即可。

另外非常感谢王辉的《Web页面爬行实践》精彩文章！

分享到：

新闻组搜索技术讨论的利器 | [C#][正则表达式]寻找匹配的Groups的几种 ...

2008-04-12 20:50
浏览 181
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论