爬虫配置公众点评团购评价技巧总结(必看篇)
收集大众点评商家团购评价数据的方法。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
使用功能点:
l Ajax滚动加载设置
l Ajax翻页设置
l 分页列表内容提取
步骤1:创建收集任务
1)进入主界面选择,选择自定义模式
大图>>
2)将上面网址的网址复制粘贴到网站输入框中, “保存网址”
大图>>
3)保存网址后,页面将在收集器中打开,红色方框中的信息是这次演示要收集的内容
大图>>
步骤2:设置ajax页面加载时间
l 设置打开网页步骤的ajax滚动加载时间
l 找到翻页按钮,设置翻页循环
l 设置翻页步骤ajax延时时间
1)在页面打开后,当下拉页面时,会发现页面有新的数据在进行加载
所以需要进行以下设置:打开流程图, “打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后 确定
大图>>
注意:这里的滚动次数及间隔需要针对网站进行设置,测试方法可以参考7.0教程——AJAX滚动教程
2)将页面下拉到底部,找到下一页按钮,鼠标 ,在右侧操作提示框中,
选择“循环 下一页”
大图>>
由于页面使用了ajax加载技术,当需要对翻页步骤设置ajax延时加载(ajax判断方法:打开流程图,找到翻页循环框,手动执行翻页,看网站有没有进行加载)在右侧的高级选项框中,勾选Ajax加载数据,选择合适的超时时间,一般设置2秒;最后 确定
大图>>
步骤3:评价信息收集
l 选中需要收集的字段信息,创建收集列表
l 编辑收集字段名称
1)如图,移动鼠标选中列表中评价的名称,右键 ,需收集的内容会变成绿色
大图>>
2)移动鼠标选中红色方框里任意文本字段后,列表中所有适配内容会变成绿色,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后 “选中全部”
注意: 鼠标放在提示框中的字段上会出现一个删除标识, 即可删除该字段。
大图>>
大图>>
3) “收集以下数据”
大图>>
4)修改收集字段名,并 下方提示中的“保存并开始收集”
大图>>
步骤4:数据收集及导出
1)根据收集的情况选择合适的收集方式,这里选择“启动本地收集”
大图>>
说明:本地收集占用当前电脑资源进行收集,如果存在收集时间要求或当前电脑无法长时间进行收集可以使用云收集功能,云收集在网络中进行收集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你收集,速度降低为原来的十分之一;收集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)收集完成后,会跳出提示,选择导出数据
大图>>
3)收集完成后,选择合适的导出方式,将收集好的数据导出
大图>>
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。