最码农 最码农
  • 首页
  • 动态广场
  • 精选栏目
  • 闲言碎语
  • 左邻右里
  • 笔记屋
  • 注册
  • 登录
首页 › Python › 爬虫实例——简单的图片爬取

爬虫实例——简单的图片爬取

Cosy
2年前Python阅读 2,102
爬虫实例——简单的图片爬取-最码农

本实例介绍如何爬取链家网的图片。我们知道,爬取网页的第一步就是分析网页结构,无论是爬取网数据还是图片,我们都要知道图片的url或者数据的具体位置,以便后面进行更好的匹配。通过分析我们可以发现,链家网的图片url为这个形式:

爬虫实例——简单的图片爬取-最码农

我们可以复制链接在浏览器里打开确认一下:

爬虫实例——简单的图片爬取-最码农

可以看到地址正确,第一步分析就可以了。在编写代码之前,我们还需要知道我们的User-Agent,这样可以有效防止我们的IP被封。在浏览器按F12进入控制台,选择网络,重新刷新页面,商机一个加载项,点进去就可以看到请求头部信息。

爬虫实例——简单的图片爬取-最码农

接下去开始编写代码:

import urllib.request as urq
import re
import os

# 获取链家网的地址
url = "https://sh.lianjia.com/zufang"
# 导入headers信息:防止ip被封
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'}
# 可以调用Request方法
req = urq.Request(url, headers=headers)

res = urq.urlopen(req)
data = res.read().decode("utf-8")
# 利用正则  解析html页面   并获取到图片
reg = 'data-src="(.*?.jpg.*)"'

# 调用正则 compile方法去解析
h = re.compile(reg)

# 调用  findall
pictures = h.findall(data)

# 先切换输出图片的路径
os.chdir("G:\\picture")

# 保存图片
x = 0
for picture in pictures:
    x += 1
    urq.urlretrieve(picture, "{}.jpg".format(x))
print("图片保存完毕")

运行完以上程序后我们再打开文件夹

爬虫实例——简单的图片爬取-最码农

发现数据已爬取完毕

爬虫
赞赏 赞(5) 收藏(0)
解决Andorid Studio占用C盘的问题
上一篇
爬虫实例——爬取豆瓣电影的分类排行榜
下一篇
再想想
暂无评论
随 机 推 荐
基于Layui的兽音译者加密页面
Hadoop 小文件优化方法
Hadoop2.x 和 Hadoop3.x 的新特性
MapReduce框架原理-InputFormat数据输入
Hadoop概论(一)—— 开篇词
Hadoop HDFS(二)
Hadoop HA 高可用
Hadoop 数据压缩
5
  • 5
  • 0
介绍

我们致力于打造一个原创的计算机相关技术的博客网站,旨在为访客提供一个优质的计算机技术教程交流平台。网站开辟了很多于计算机相关的栏目,并且收集了不少实用资源,同时也鼓励欢迎访客一起分享、交流、学习。

灵魂推荐
Veer图库 数码荔枝
栏目标题
首页 动态广场 精选栏目 闲言碎语 左邻右里 笔记屋
Copyright © 2021-2023 最码农. 苏ICP备20033168号
  • 首页
  • 动态广场
  • 精选栏目
  • 闲言碎语
  • 左邻右里
  • 笔记屋
# 教程 # # Hadoop # # HDFS # # 人工智能 # # 算法 #
Cosy
即使世界毁灭,也总有回光返照的那一刻
90
文章
3
评论
425
喜欢