怎么得到一个html标签中的文本

如何得到一个html标签中的文本
例如 <h1 id="artibodyTitle" pid="1" tid="1" did="24440749" fid="1666">人民日报评赖昌星案:展现依法治国与保障人权</h1> 如何得到“人民日报评赖昌星案:展现依法治国与保障人权”呢？
或者<span id="title">捐亡儿全部器官救5人深圳“义举妈妈”感动网友</span>如何得到 “捐亡儿全部器官救5人深圳“义举妈妈”感动网友” 呢？
请大神们给个通用的方法吧。

------解决方案--------------------
document.getElementById("artibodyTitle").innerHTML
------解决方案--------------------

探讨

document.getElementById("artibodyTitle").innerHTML

------解决方案--------------------
document.getElementById("artibodyTitle").innerText
------解决方案--------------------

探讨
引用:
引用:

document.getElementById("artibodyTitle").innerHTML

document.getElementById("artibodyTitle").innerText更好些

请教一下这个语句可以提取任何标签的文本吗？还有，用这个语句需要用到哪些类或者需要导入什么包吗？我刚接触java 还不是……

------解决方案--------------------
不太清楚你什么意思。如果说你指的只是说从字符串中提取出文本，比如说你上面的例子，从这个String
<span id="title">捐亡儿全部器官救5人深圳“义举妈妈”感动网友</span> 里面提取标签里的文本，那应该很简单吧。不然对HTML文件进行分析，那就有点难度了吧，上网找找资料，够你研究好久了。菜鸟我表示没有研究
------解决方案--------------------
难道lz说的是这种？http://wenku.baidu.com/view/8d04f4d028ea81c758f57880.html
------解决方案--------------------
用htmlparser吧。
Apache的一款开源软件，很好用的。
------解决方案--------------------
你提的需求一个简单方法，就可以搞定。
------解决方案--------------------

探讨
引用:
不太清楚你什么意思。如果说你指的只是说从字符串中提取出文本，比如说你上面的例子，从这个String
<span id="title">捐亡儿全部器官救5人深圳“义举妈妈”感动网友</span> 里面提取标签里的文本，那应该很简单吧。不然对HTML文件进行分析，那就有点难度了吧，上网找找资料，够你研究好久了。菜鸟我表示没有研究

这只是我举的一个例子我真正要做的是……

------解决方案--------------------
(1)jquery获取：$("#title").text();

(2)htmlparser获取:

Java code

Parser parser = new Parser("http://www.baidu.com");
HtmlPage htmlPage = new HtmlPage(parser);
parser.visitAllNodesWith(htmlPage);
NodeList nodeList = htmlPage.getBody();
NodeFilter spanFilter = new NodeClassFilter(Span.class);
//NodeFilter tableFilter = new NodeClassFilter(TableTag.class);
OrFilter orFilter = new OrFilter();
orFilter.setPredicates(new NodeFilter[] { spanFilter });
//orFilter.setPredicates(new NodeFilter[] { spanFilter,tableFilter });
nodeList = nodeList.extractAllNodesThatMatch(orFilter,true);
Node[] nodeArray = nodeList.toNodeArray();
for(Node node : nodeArray ){
    Span sp=(Span)node;
    String spanId = span.getAttribute("id");
    if("title".equals(spanId))){
        parser.setInputHTML(tag.toHtml());
        String tempStr = getHtmlAsNoTag(parser);
         }
}
......
......
public String getHtmlAsNoTag(Parser parser){
   try {
    StringBean sb = new StringBean();
        // 设置不需要得到页面所包含的链接信息
    sb.setLinks(false);
    // 设置将不间断空格由正规空格所替代
    sb.setReplaceNonBreakingSpaces(true);
    // 设置将一序列空格由一个单一空格所代替
    sb.setCollapse(true);
    parser.visitAllNodesWith(sb);
    return  sb.getStrings();
   } catch (ParserException e) {
    e.printStackTrace();
   }
   return "";
 }

怎么得到一个html标签中的文本

相关推荐