如何爬取 某里网站的数据 普通的代码根本无法爬到
问题描述:
1 需要爬取一个某里的网站信息 但是采用之前的爬虫代码 得到是解析网页信息 无法得到动态的数据如何解决 Java 或 php
答
爬虫对页面的处理分两种:1.完全技术性的爬取,伪造动态请求,直接获得别人的后端的数据。这个一般不是很容易处理,对某里这样的公司,这个应该不是。 2.完全客户端的爬取,通过自动化浏览器,直接进行渲染后的数据爬取。 我猜你是后者,这个涉及的东西比较多,比如页面还没有渲染完,动态数据还没有填充,你爬出来就是没有数据。所以自己要了解清楚。 另外,现在爬虫风险大!
答
之前是怎么爬取的呢?可能是网站改版,升级了技术的原因。
答
从开发者工具的XHR查找数据加载的链接地址,按照相应的请求方式,传入必需的参数进行数据采集。或者使用selenium