怎么得到一个html标签中的文本
如何得到一个html标签中的文本
例如 <h1 id="artibodyTitle" pid="1" tid="1" did="24440749" fid="1666">人民日报评赖昌星案:展现依法治国与保障人权</h1> 如何得到“人民日报评赖昌星案:展现依法治国与保障人权”呢?
或者<span id="title">捐亡儿全部器官救5人 深圳“义举妈妈”感动网友</span>如何得到 “捐亡儿全部器官救5人 深圳“义举妈妈”感动网友” 呢?
请大神们给个通用的方法吧。
------解决方案--------------------
document.getElementById("artibodyTitle").innerHTML
------解决方案--------------------
------解决方案--------------------
document.getElementById("artibodyTitle").innerText
------解决方案--------------------
------解决方案--------------------
不太清楚你什么意思。如果说你指的只是说从字符串中提取出文本,比如说你上面的例子,从这个String
<span id="title">捐亡儿全部器官救5人 深圳“义举妈妈”感动网友</span> 里面提取标签里的文本,那应该很简单吧。不然对HTML文件进行分析,那就有点难度了吧,上网找找资料,够你研究好久了。菜鸟我表示没有研究
------解决方案--------------------
难道lz说的是这种?http://wenku.baidu.com/view/8d04f4d028ea81c758f57880.html
------解决方案--------------------
用htmlparser吧。
Apache的一款开源软件,很好用的。
------解决方案--------------------
你提的需求一个简单方法,就可以搞定。
------解决方案--------------------
------解决方案--------------------
(1)jquery获取:$("#title").text();
(2)htmlparser获取:
例如 <h1 id="artibodyTitle" pid="1" tid="1" did="24440749" fid="1666">人民日报评赖昌星案:展现依法治国与保障人权</h1> 如何得到“人民日报评赖昌星案:展现依法治国与保障人权”呢?
或者<span id="title">捐亡儿全部器官救5人 深圳“义举妈妈”感动网友</span>如何得到 “捐亡儿全部器官救5人 深圳“义举妈妈”感动网友” 呢?
请大神们给个通用的方法吧。
------解决方案--------------------
document.getElementById("artibodyTitle").innerHTML
------解决方案--------------------
------解决方案--------------------
document.getElementById("artibodyTitle").innerText
------解决方案--------------------
------解决方案--------------------
不太清楚你什么意思。如果说你指的只是说从字符串中提取出文本,比如说你上面的例子,从这个String
<span id="title">捐亡儿全部器官救5人 深圳“义举妈妈”感动网友</span> 里面提取标签里的文本,那应该很简单吧。不然对HTML文件进行分析,那就有点难度了吧,上网找找资料,够你研究好久了。菜鸟我表示没有研究
------解决方案--------------------
难道lz说的是这种?http://wenku.baidu.com/view/8d04f4d028ea81c758f57880.html
------解决方案--------------------
用htmlparser吧。
Apache的一款开源软件,很好用的。
------解决方案--------------------
你提的需求一个简单方法,就可以搞定。
------解决方案--------------------
------解决方案--------------------
(1)jquery获取:$("#title").text();
(2)htmlparser获取:
- Java code
Parser parser = new Parser("http://www.baidu.com"); HtmlPage htmlPage = new HtmlPage(parser); parser.visitAllNodesWith(htmlPage); NodeList nodeList = htmlPage.getBody(); NodeFilter spanFilter = new NodeClassFilter(Span.class); //NodeFilter tableFilter = new NodeClassFilter(TableTag.class); OrFilter orFilter = new OrFilter(); orFilter.setPredicates(new NodeFilter[] { spanFilter }); //orFilter.setPredicates(new NodeFilter[] { spanFilter,tableFilter }); nodeList = nodeList.extractAllNodesThatMatch(orFilter,true); Node[] nodeArray = nodeList.toNodeArray(); for(Node node : nodeArray ){ Span sp=(Span)node; String spanId = span.getAttribute("id"); if("title".equals(spanId))){ parser.setInputHTML(tag.toHtml()); String tempStr = getHtmlAsNoTag(parser); } } ...... ...... public String getHtmlAsNoTag(Parser parser){ try { StringBean sb = new StringBean(); // 设置不需要得到页面所包含的链接信息 sb.setLinks(false); // 设置将不间断空格由正规空格所替代 sb.setReplaceNonBreakingSpaces(true); // 设置将一序列空格由一个单一空格所代替 sb.setCollapse(true); parser.visitAllNodesWith(sb); return sb.getStrings(); } catch (ParserException e) { e.printStackTrace(); } return ""; }