您的位置: 首页 > 技术问答 > python爬虫解析html的一个问题

python爬虫解析html的一个问题

分类: 技术问答 • 2022-03-01 16:04:15

python爬虫解析html的一个问题

问题描述：

解析html的一个问题
我需要爬取这里的文字
但是爬取出来后多了一段东西，这个是什么，应该怎么处理掉它

答

看上去这些内容是网页本来就有的，爬虫代码没有问题。
你可以用正则表达式自己再过滤下。这段内容前面似乎有很多连续的换行，可以作为特征。

答

两种可能：一种是存在两个相同class的<div>；还有一种是<div>存在别的下级标签，范围过大就把所有文本拿到了

解决方法如果是第一种，你就看看每个页面是不是固定的，固定的话直接取第二个就行；第二种方法类似，你把下级标签包含进去就行