通过python的requests进行爬虫,爬取抖音后台获取数据,如何进入各分类栏里?
问题描述:
目前我通过cookie成功绕开了登录,进入后想进入左边的短视频管理里爬取视频数据,不知道如何进入
import requests
c = []
cookies = {}
for cookie in c:
cookies[cookie['name']] = cookie['value']
headers = {
'authority': 'https://e.douyin.com/site/',
'method': 'GET',
'scheme': 'https',
'accept-language': 'zh-CN,zh;q=0.9',
'cache-control': 'max-age=0',
'upgrade-insecure-requests': '1',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
ck = ''
for key,value in cookies.items():
ck += f'{key}={value}; '
headers.update({'cookie':ck})
response = requests.get(url='https://e.douyin.com/aweme/v1/bluev/user/info', headers=headers)
print(response.text)
答
建议使用Selenium来处理
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from selenium import webdriver
# 要想调用键盘按键操作需要引入keys包
from selenium.webdriver.common.keys import Keys
#创建浏览器对象
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
#打印页面标题“百度一下你就知道”
print driver.title
#生成当前页面快照
driver.save_screenshot("baidu.png")
# id="kw"是百度搜索框,输入字符串“微博”,跳转到搜索中国页面
driver.find_element_by_id("kw").send_keys(u"微博")
# id="su"是百度搜索按钮,click() 是模拟点击
driver.find_element_by_id("su").click()
# 获取新的页面快照
driver.save_screenshot(u"微博.png")
# 打印网页渲染后的源代码
print driver.page_source
# 获取当前页面Cookie
print driver.get_cookies()
# ctrl+a 全选输入框内容
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
# ctrl+x 剪切输入框内容
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
# 输入框重新输入内容
driver.find_element_by_id("kw").send_keys("test")
# 模拟Enter回车键
driver.find_element_by_id("su").send_keys(Keys.RETURN)
# 清除输入框内容
driver.find_element_by_id("kw").clear()
# 生成新的页面快照
driver.save_screenshot("test.png")
# 获取当前url
print driver.current_url
# 关闭当前页面,如果只有一个页面,会关闭浏览器
# driver.close()
# 关闭浏览器
driver.quit()