您的位置: 首页 > IT文章 > 爬虫部分学习总结 1.接触过几种爬虫模块： 2.robots协议是什么： 3.如何处理验证码： 4.掌握几种数据解析的方式： 5.如何爬取动态加载的页面数据： 6.接触过哪些反爬机制？如何处理？ 7.在scrapy中接触过几种爬虫的类： 8.如何实现分布式流程：都依托scrapy-redis库

爬虫部分学习总结 1.接触过几种爬虫模块： 2.robots协议是什么： 3.如何处理验证码： 4.掌握几种数据解析的方式： 5.如何爬取动态加载的页面数据： 6.接触过哪些反爬机制？如何处理？ 7.在scrapy中接触过几种爬虫的类： 8.如何实现分布式流程：都依托scrapy-redis库

分类: IT文章 • 2025-01-29 21:29:43

　　urllib, requests

2.robots协议是什么：

　　 requests模块没有使用硬性的语法对该协议进行生效。

　　 scrapy硬性语法对该协议进行了生效

3.如何处理验证码：

　　　　云打码平台打码兔

4.掌握几种数据解析的方式：

　　　　正则、xpath、 bs4

5.如何爬取动态加载的页面数据：

　　（1）selenium

　　（2）ajax,抓包工具抓取异步发起的请求（url)

6.接触过哪些反爬机制？如何处理？

　　robots协议 UA 封IP

　　验证码，动态数据爬取，数据加密, token

7.在scrapy中接触过几种爬虫的类：

　　Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

8.如何实现分布式流程：都依托scrapy-redis库

　　RedisCrawlSpider, RedisSpider