正则除去html标签，只保留要求的符号写法

正则去掉html标签，只保留要求的符号写法？

本帖最后由 ycwww 于 2014-10-14 03:33:03 编辑

<div class="page"><div id="pages" class="text-c mg_t20"><a class="a1" href="http://china.huanqiu.com/article/2014-10/5164238.html">上一页</a> <a href="http://china.huanqiu.com/article/2014-10/5164238.html">1</a> <span>2</span> <a class="a1" href="http://china.huanqiu.com/article/2014-10/5164238_2.html">下一页</a></div></div><span>3</span> <a class="a1" href="http://china.huanqiu.com/article/2014-10/5164238_3.html">下一页</a></div><span>4</span> <a class="a1" href="http://china.huanqiu.com/article/2014-10/5164238_4.html">下一页</a></div>

如何取得　

http://china.huanqiu.com/article/2014-10/5164238_2.html
http://china.huanqiu.com/article/2014-10/5164238_3.html
http://china.huanqiu.com/article/2014-10/5164238_4.html

的正则表达式？谢谢．马上结分．
------解决思路----------------------
(?i)<a\\s.*?href=\"([^\"]+)\"[^>]*>([\\s\\S]*?)</a>
------解决思路----------------------
http:[^'"]+?\.html
------解决思路----------------------

s="<div class=""page""><div id=""pages"" class=""text-c mg_t20""><a class=""a1"" href=""http://china.huanqiu.com/article/2014-10/5164238.html"">上一页</a> <a href=""http://china.huanqiu.com/article/2014-10/5164238.html"">1</a> <span>2</span> <a class=""a1"" href=""http://china.huanqiu.com/article/2014-10/5164238_2.html"">下一页</a></div></div><span>3</span> <a class=""a1"" href=""http://china.huanqiu.com/article/2014-10/5164238_3.html"">下一页</a></div><span>4</span> <a class=""a1"" href=""http://china.huanqiu.com/article/2014-10/5164238_4.html"">下一页</a></div>"

set rx=new RegExp

rx.Pattern="http://[\s\S]+?\.html"

rx.IgnoreCase=true

rx.Global=true

set mc=rx.Execute(s)

for each m in mc

  response.write m&"<br/>"

next

set mc=nothing

set rx=nothing

------解决思路----------------------
看楼主需要取得链接都是带页码的，所以



http://[^\"]+?_\d\.html

正则除去html标签，只保留要求的符号 写法

相关推荐

正则除去html标签，只保留要求的符号写法