非静态网页,不用webbrowser,怎么获取网页中所有超链接的完整url?用xmlhttp或者winhttp下载源码不行诶

非静态网页,不用webbrowser,如何获取网页中所有超链接的完整url?用xmlhttp或者winhttp下载源码不行诶

本帖最后由 ehjpq881166 于 2013-08-25 18:50:04 编辑

静态网页没问题, 但是asp网页或其它的动态网页, 它源码下载下来,url是不完整的,前半段路径可能是缺省的.比如网页里面有某栏目,然后栏目底下的链接在网页源码里面它就会把这个栏目本身的路径省略掉.这样你只能得到实际url的后半截没有前半截.
比如您可以查看下****本页的源码,就有类似这样的:/topics前面的通用路径http://bbs.****.net就被省略了:



  <li><a href="/topics/390564887/recommend" data-confirm="确定要将该帖推荐(加精)吗？被推荐的帖子将给帖主奖励可用分88分!" data-method="put" rel="nofollow">推荐</a></li>


  <li><a href="/topics/390564887/lock" class="fancybox" rel="nofollow">锁定</a></li>


<li><a href="/topics/390564887/move" class="fancybox" rel="nofollow">移动</a></li>

<li><a href="/topics/390564887/edit" class="fancybox" rel="nofollow">编辑</a></li>

<li><a href="/topics/390564887/destroy_edit" class="fancybox" rel="nofollow">删除</a></li>

<li><a href="/topics/390564887/add_point" class="fancybox" rel="nofollow">帖子加分</a></li>

  <li><a href="/topics/390564887/highlight" class="fancybox" rel="nofollow">帖子高亮</a></li>

我知道用webbrowser可以,但是太慢了.不用webbrowser,怎么能获取网页中所有超链接的完整url呢?

Thank you!

------解决方案--------------------
处理页面本来就这么麻烦的，先对页面分析，哪些链接要的，哪些不要的，选出来，然后下载。
------解决方案--------------------
前半截路径都是统一的，并不会变，假如你网站是http://www.taobao.com/
href="/topics/390564887/move"这个就是http://www.taobao.com/topics/390564887/move

全一样的，哪会有很多工作量？哪会复杂？

非静态网页,不用webbrowser,怎么获取网页中所有超链接的完整url?用xmlhttp或者winhttp下载源码不行诶

相关推荐