要VC解析网页的源代码。该如何解决

要VC解析网页的源代码。
我需要提取网页的文本和表格数据,不关心其它东西。

有一个C解析网页的源代码,就是用字符比对,剔除所有的tag,存为txt。

没有用任何其它函数。

这样的话,表格的数据就乱了,得不到有效的利用。

发这个帖子,希望朋友们给一些解析网页的源代码,让我学习下。

我只知道C、C++、VC。



------解决方案--------------------
写爬虫吗?CInternetSession::OpenURL()返回CHttpFile。
就可以得到网页内容,你可以利用正则表达式,或者利用CString类相关函数的得到>...<之前的内容。
------解决方案--------------------
同意楼上的,OpenURL+正则表达式,问多少人都会条件反射的这么说的,或者用:http://msdn.microsoft.com/en-us/library/aa752127%28VS.85%29.aspx
里面提供了IE常见操作。
------解决方案--------------------
CInternetSession::OpenURL()返回CHttpFile。
具体的解析操作不同的网站有不同的代码
复用性不高的
------解决方案--------------------
没有什么好办法,只能是标记解析

如果希望得到有序的数据
那么,必须首先知道目标网页的布局
才可以定位需要解析的table 或者 div在那里
对于table,自己写一个报表还原代码是很容易的:th、tr、td,这些标记在网页中并不一定成对出现,解析程序要像浏览器一样,有容错能力
------解决方案--------------------
解析网页最后用html parser,比如MSHTML, 参考Web Development Archives: WebBrowser and MSHTML