VC下提取HTML中的文本内容!多多指点啊
VC下提取HTML中的文本内容!在线等!急!多多指点啊!
采用webbrowers控件如何提取html中的文本内容?
示例:
html文件: <TD class=text_b_12_1 style= "PADDING-LEFT: 30px " colSpan=2
height=30> <STRONG> 第一卷 六院风云 第一集 </STRONG> </TD> </TR>
<TR>
<TD class=text_o_12_2 align=middle colSpan=2 height=50> <STRONG> 序章
七界传说 </STRONG> </TD> </TR>
<TR>
<TD class=text_b_14_1 colSpan=2>
<P> 中华大地,山川秀丽,数千年来,在这片土地上,流传着无数的神奇传说。千古以来,一直被人们津津乐道的便是那些关于长生不老,永生不死的传奇。自古以来,凡人无不有一死。但世人皆恶死爱生,更有地府阎罗之说,平添了几分苦惧,在此之下,遂有长生不死之说,令世人梦寐以求,纷纷苦寻长生之路。 <SPAN
class=transparent> (来自·幻剑书盟) </SPAN> </P>
将它提取后成为
七界传说
中华大地,山川秀丽,数千年来,在这片土地上,流传着无数的神奇传说。千古以来,一直被人们津津乐道的便是那些关于长生不老,永生不死的传奇。自古以来,凡人无不有一死。但世人皆恶死爱生,更有地府阎罗之说,平添了几分苦惧,在此之下,遂有长生不死之说,令世人梦寐以求,纷纷苦寻长生之路。
谢谢了!非常急。
------解决方案--------------------
没必要用webbrowers,用wininet就行了,然后用正则
------解决方案--------------------
IHTMLElement::innerText
或像楼上说的一样。
------解决方案--------------------
要是我就用lex
------解决方案--------------------
自己解析
<> *** <> 之间的留下就可以了
------解决方案--------------------
我也同意楼上自己解析,CString find几下就出来了吧,
------解决方案--------------------
自己解析,我以前写过一个类似的,不难
------解决方案--------------------
接分快乐
------解决方案--------------------
仔细google,baidu网上一搜一大把代码
------解决方案--------------------
直接BHO,搂住给分
------解决方案--------------------
jF
------解决方案--------------------
强烈建议自己动手,丰衣足食
------解决方案--------------------
boost
------解决方案--------------------
用DOM直接取text应该是比较轻量级的解决方案
------解决方案--------------------
const string ExtractHTML( const string& strHTML )
{
string strTemp = strHTML;
while( true )
{
size_t szPos = strTemp.find( " < " );
if( string::npos == szPos )
return strTemp;
size_t szEnd = strTemp.find( "> ", szPos );
if( string::npos == szEnd )
return strTemp;
strTemp.erase( szPos, szEnd - szPos + 1 );
}
}
------解决方案--------------------
study the walkall sample in MSDN
http://msdn.microsoft.com/archive/default.asp?url=/archive/en-us/samples/internet/browser/walkall/default.asp
------解决方案--------------------
const string ExtractHTML( const string& strHTML )
{
string strTemp = strHTML;
采用webbrowers控件如何提取html中的文本内容?
示例:
html文件: <TD class=text_b_12_1 style= "PADDING-LEFT: 30px " colSpan=2
height=30> <STRONG> 第一卷 六院风云 第一集 </STRONG> </TD> </TR>
<TR>
<TD class=text_o_12_2 align=middle colSpan=2 height=50> <STRONG> 序章
七界传说 </STRONG> </TD> </TR>
<TR>
<TD class=text_b_14_1 colSpan=2>
<P> 中华大地,山川秀丽,数千年来,在这片土地上,流传着无数的神奇传说。千古以来,一直被人们津津乐道的便是那些关于长生不老,永生不死的传奇。自古以来,凡人无不有一死。但世人皆恶死爱生,更有地府阎罗之说,平添了几分苦惧,在此之下,遂有长生不死之说,令世人梦寐以求,纷纷苦寻长生之路。 <SPAN
class=transparent> (来自·幻剑书盟) </SPAN> </P>
将它提取后成为
七界传说
中华大地,山川秀丽,数千年来,在这片土地上,流传着无数的神奇传说。千古以来,一直被人们津津乐道的便是那些关于长生不老,永生不死的传奇。自古以来,凡人无不有一死。但世人皆恶死爱生,更有地府阎罗之说,平添了几分苦惧,在此之下,遂有长生不死之说,令世人梦寐以求,纷纷苦寻长生之路。
谢谢了!非常急。
------解决方案--------------------
没必要用webbrowers,用wininet就行了,然后用正则
------解决方案--------------------
IHTMLElement::innerText
或像楼上说的一样。
------解决方案--------------------
要是我就用lex
------解决方案--------------------
自己解析
<> *** <> 之间的留下就可以了
------解决方案--------------------
我也同意楼上自己解析,CString find几下就出来了吧,
------解决方案--------------------
自己解析,我以前写过一个类似的,不难
------解决方案--------------------
接分快乐
------解决方案--------------------
仔细google,baidu网上一搜一大把代码
------解决方案--------------------
直接BHO,搂住给分
------解决方案--------------------
jF
------解决方案--------------------
强烈建议自己动手,丰衣足食
------解决方案--------------------
boost
------解决方案--------------------
用DOM直接取text应该是比较轻量级的解决方案
------解决方案--------------------
const string ExtractHTML( const string& strHTML )
{
string strTemp = strHTML;
while( true )
{
size_t szPos = strTemp.find( " < " );
if( string::npos == szPos )
return strTemp;
size_t szEnd = strTemp.find( "> ", szPos );
if( string::npos == szEnd )
return strTemp;
strTemp.erase( szPos, szEnd - szPos + 1 );
}
}
------解决方案--------------------
study the walkall sample in MSDN
http://msdn.microsoft.com/archive/default.asp?url=/archive/en-us/samples/internet/browser/walkall/default.asp
------解决方案--------------------
const string ExtractHTML( const string& strHTML )
{
string strTemp = strHTML;