正则表达式抓取页面解决办法

正则表达式抓取页面
我想抓取网站源文件中的某些信息，我已经用C++把该网站的源代码保存为.txt文件，现在怎么用C++读取这些文件，并取出其中的某些内容。
例如：<title>sdfskdl新浪博客</title>我想把其中的sdfskdl新浪博客截取出来。
------解决方案--------------------
有两种方案
1、其实不用将源码保存为txt文件，直接通过IHTMLElement接口就可以查找到你需要的元素并获取相关信息，或者通过其他html的接口方法

2、你这种，将html源码保存的文件中，这样就麻烦一些，需要自己来进行解析了，可以使用正则表达式，但是html标签语言不是很规范，所以多少会有一些问题
------解决方案--------------------
我自己也解析过，但效果不是很理想的，因为HTML比较开放，导致很多编写者不按一定的规范进行编写
例如<body Onload="xxxx">
<body onload="xxxx">
上面的情况仔细想想会有很多，所以解析起来要想很多~不过不是说不可行
------解决方案--------------------
同意3楼的见解，操作网页上的对象有很多丰富的接口，可以充分的利用啊，如IHTMLDocument ，IHTMLElement等等。

正则表达式抓取页面解决办法

相关推荐