使用requests 获取博客园每页内容时,为什么一直重复爬取第一页内容?感谢大佬
问题描述:
import requests
from bs4 import BeautifulSoup
urls = [
f"https://cnblogs.com/#p{page}"
for page in range(1,5+1)
]
def parse(url):
print(url)
r = requests.get(url)
r.encoding = 'uft-8'
html= r.text
soup = BeautifulSoup(html,'lxml')
links = soup.find_all('a',class_ = 'post-item-title')
return [
(link.get('href'),link.text)
for link in links ]
def main():
for url in urls:
for result in parse(url):
print(result)
print('\n')
if __name__ == "__main__":
main()
答
问题出在urls构造上,第一页和后续网页的地址是不一样的,将这行改为:urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https://cnblogs.com/sitehome/p/{page}' for page in range(1, 6)]即可。
答
@木三136,将鼠标指向分页的数字,你就可以看到实际网址
答
您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632