使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬

问题描述：

import requests
from bs4 import BeautifulSoup
urls = [
    f"https://cnblogs.com/#p{page}"  
    for page in range(1,5+1)
]
def parse(url):
    print(url)
    r = requests.get(url)
    r.encoding = 'uft-8'
    html= r.text
    soup = BeautifulSoup(html,'lxml')
    links = soup.find_all('a',class_ = 'post-item-title')
    return [
            (link.get('href'),link.text) 
                for link in links ]
def main():
    for url in urls:
        for result in parse(url):
            print(result)
        print('\n')
            
if __name__ == "__main__":
    main()

答

问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https://cnblogs.com/sitehome/p/{page}' for page in range(1, 6)]即可。

答

@木三136，将鼠标指向分页的数字，你就可以看到实际网址

答

https://www.cnblogs.com/#p5

为什么直接点这种网址是可以进去的，而用程序爬取就不行，是什么原因导致这种情况？

以后应该如何尽量避免这种错误

答

您好，我是有问必答小助手，你的问题已经有小伙伴为您解答了问题，您看下是否解决了您的问题，可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案，可以点击【采纳】按钮，给回答的小伙伴一些鼓励哦～～

ps:问答VIP仅需29元，即可享受5次/月有问必答服务，了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632

使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬

相关推荐