Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片
很简单的两步:
1、获取网页源代码
2、利用正则表达式提取出图片地址
3、下载
1 #!/usr/bin/python 2 #coding=utf8 3 import re # 正则表达式 4 import urllib # 获取网页源代码 5 6 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片 7 8 # 获取网页源代码 9 def getHtml(url): 10 page = urllib.urlopen(url) # 打开url,返回页面对象 11 html = page.read() # 读取页面源代码 12 return html 13 14 # 获得图片地址 15 def getImg(html): 16 reg = r'src="(.*?.jpg)" size="' # 定义一个正则来匹配页面当中的图片 17 imgre = re.compile(reg) # 为了让正则更快,给它来个编译 18 #这个时候做个测试,把匹配的数据都给打印出来 19 imglist = re.findall(imgre, html) # 通过正则返回所有数据列表 20 # 把这个地址一个一个的拿下来进行下载 21 x = 0 22 for imgurl in imglist: 23 urllib.urlretrieve(imgurl,'%s.jpg' % x) 24 x+=1 25 26 html = getHtml("https://tieba.baidu.com/p/5154221980") 27 getImg(html)