正则表达式抓取页面解决办法
正则表达式抓取页面
我想抓取网站源文件中的某些信息,我已经用C++把该网站的源代码保存为.txt文件,现在怎么用C++读取这些文件,并取出其中的某些内容。
例如:<title>sdfskdl新浪博客</title>我想把其中的sdfskdl新浪博客截取出来。
------解决方案--------------------
有两种方案
1、其实不用将源码保存为txt文件,直接通过IHTMLElement接口就可以查找到你需要的元素并获取相关信息,或者通过其他html的接口方法
2、你这种,将html源码保存的文件中,这样就麻烦一些,需要自己来进行解析了,可以使用正则表达式,但是html标签语言不是很规范,所以多少会有一些问题
------解决方案--------------------
我自己也解析过,但效果不是很理想的,因为HTML比较开放,导致很多编写者不按一定的规范进行编写
例如<body Onload="xxxx">
<body onload="xxxx">
上面的情况仔细想想会有很多,所以解析起来要想很多~不过不是说不可行
------解决方案--------------------
同意3楼的见解,操作网页上的对象有很多丰富的接口,可以充分的利用啊,如IHTMLDocument ,IHTMLElement等等。
我想抓取网站源文件中的某些信息,我已经用C++把该网站的源代码保存为.txt文件,现在怎么用C++读取这些文件,并取出其中的某些内容。
例如:<title>sdfskdl新浪博客</title>我想把其中的sdfskdl新浪博客截取出来。
------解决方案--------------------
有两种方案
1、其实不用将源码保存为txt文件,直接通过IHTMLElement接口就可以查找到你需要的元素并获取相关信息,或者通过其他html的接口方法
2、你这种,将html源码保存的文件中,这样就麻烦一些,需要自己来进行解析了,可以使用正则表达式,但是html标签语言不是很规范,所以多少会有一些问题
------解决方案--------------------
我自己也解析过,但效果不是很理想的,因为HTML比较开放,导致很多编写者不按一定的规范进行编写
例如<body Onload="xxxx">
<body onload="xxxx">
上面的情况仔细想想会有很多,所以解析起来要想很多~不过不是说不可行
------解决方案--------------------
同意3楼的见解,操作网页上的对象有很多丰富的接口,可以充分的利用啊,如IHTMLDocument ,IHTMLElement等等。