使用HTMLDocument解析html数据,该如何处理

使用HTMLDocument解析html数据

HRESULT hResult = CoCreateInstance(CLSID_HTMLDocument, NULL, CLSCTX_INPROC_SERVER, IID_IHTMLDocument2, (void**)&pDoc);
MSHTML::IHTMLDocument3Ptr pDoc3 = pDoc;
MSHTML::IHTMLElementCollectionPtr pCollection = pDoc3->getElementsByTagName(L"DIV");

获取到div怎么解析DIV的数据
<div id="pages">  <ul>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">暗恋</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">弹唱词</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">飞车</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">东方之珠</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">滚滚红尘</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">光阴的故事</a></li>   <li><span>2009-4-9 12:35</span><a href=http://www.oern.cn>之乎者也</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">现象七十二变</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">乡愁四韵</a></li>   <li><span>2009-4-9 12:35</span><a href="http://www.17sucai.com/">穿过你的黑发我的手</a></li>  
</ul> </div>


------解决方案--------------------
简单点,那就用正则表达式来提取需要的数据
------解决方案--------------------
这个你自己先要想好获取什么数据,然后分析对应的规则,然后就好去查找解析了
------解决方案--------------------
使用IHTMLElementCollection::get_length获得集合里有多少个DIV元素
使用IHTMLElementCollection::item逐个遍历
遍历得到每一个DVI元素对应的IHTMLElement。
要获取DVI元素内子元素的话,使用IHTMLElement::getElementsByTagName
来获取a标签元素。然后就能提取href和文字了