python爬虫爬取微博相关话题内容
问题描述:
想爬取和几个关键词有关的微博内容和用户身份进行统计。
具体是爬取和一些关键词有关的微博内容(爬取和关键词有关的微博内容)和用户的身份(比如说是个人账户还是官方账户进行统计),还需要清洗掉转发的,保存有价值的微博内容。应该是保存到一个Excel表里面。但不知道该怎么做!
答
利用微博的搜索功能搜索关键字,然后爬取所有结果
结果里有用户id,等所有结果爬完之后,才查询这个id的身份,
这样所有的内容及其作者身份都对应起来了
至于你说保存有价值的内容,就看你怎么判断”有价值”,在入库前在清洗一次即可
如果数据量非常大,不建议使用excel存储