如何在安居客上修改信息(安居客房产经纪人信息采集)

首页教程更新时间:2023-01-30 20:30:23

1. 引言

Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示:

如何在安居客上修改信息,安居客房产经纪人信息采集(1)

本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。

2.Python和相关依赖库的安装

运行环境:windows10

2.1.安装Python3.5.2

官网下载链接: https://www.python.org/ftp/python/3.5.2/python-3.5.2.exe

下载完成后,双击安装。

这个版本会自动安装pip和setuptools,方便安装其它的库

2.2.Lxml 3.6.0

Lxml官网地址: http://lxml.de/

Windows版安装包下载: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

对应windows下python3.5的安装文件为 lxml-3.6.0-cp35-cp35m-win32.whl

下载完成后,在windows下打开一个命令窗口,,切换到刚下载的whl文件的存放目录,运行pip install lxml-3.6.0-cp35-cp35m-win32.whl

2.3.下载网页内容提取器程序

网页内容提取器程序是GooSeeker为开源Python即时网络爬虫项目发布的一个类,使用这个类,可以大大减少信息采集规则的调试时间,具体参看《Python即时网络爬虫项目: 内容提取器的定义》

下载地址: https://github.com/FullerHua/gooseeker/core/gooseeker.py

把gooseeker.py保存在项目目录下

3.网络爬虫的源代码

# _*_coding:utf8_*_# anjuke.py# 爬取安居客房产经纪人from urllib import requestfromlxml import etreefrom gooseeker import Gsextractorclass Spider:def getContent(self, url):conn = request.urlopen(url)output = etree.HTML(conn.read())return outputdef saveContent(self, filepath, content):file_obj = open(filepath, 'w', encoding='UTF-8')file_obj.write(content)file_obj.close()bbsExtra = GsExtractor() # 下面这句调用gooseeker的api来设置xslt抓取规则# 第一个参数是app key,请到GooSeeker会员中心申请# 第二个参数是规则名,是通过GooSeeker的图形化工具:谋数台MS 来生成的bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" ,"安居客房产经纪人") url = "http://shenzhen.anjuke.com/tycoon/nanshan/p"totalpages= 50anjukeSpider = Spider()print("爬取开始")for pagenumber in range(1 , totalpages):currenturl = url str(pagenumber)print("正在爬取", currenturl)content = anjukeSpider.getContent(currenturl)outputxml = bbsExtra.extract(content)outputfile = "result" str(pagenumber) ".xml"anjukeSpider.saveContent(outputfile , str(outputxml))print("爬取结束")

运行过程如下:

将上面的代码保存到anjuke.py中,和前面2.3步下载的提取器类gooseeker.py放在同一个文件夹中

打开Windows CMD窗口,切换当前目录到存放anjuke.py的路径(cd \xxxx\xxx)

运行 python anjuke.py

请注意:为了让源代码更整洁,也为了让爬虫程序更有通用性,抓取规则是通过api注入到内容提取器bbsExtra中的,这样还有另外一个好处:如果目标网页结构变化了,只需通过MS谋数台重新编辑抓取规则,而本例的网络爬虫代码不用修改。为内容提取器下载采集规则的方法参看《Python即时网络爬虫:API说明》。

4.爬虫结果

在项目目录下可以看到多个result**.xml文件,文件内容如下图所示:

如何在安居客上修改信息,安居客房产经纪人信息采集(2)

5.总结

因为信息采集规则是通过api下载下来的,所以,本案例的源代码显得十分简洁。同时,整个程序框架变得很通用,因为最影响通用性的采集规则是从外部注入的。

6.集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

End.

作者:fullerhua(中国统计网特邀认证作者)

本文为头条号作者原创。未经允许,不得转载。

运行人员:中国统计网小编(微信号:itongjilove)

中国统计网,是国内最早的大数据学习网站,公众号:中国统计网

http://www.itongji.cn

,
图文教程
相关文章
热门专题
推荐软件
奇热小说
奇热小说
下载
QQ2019手机版
QQ2019手机版
下载
王者荣耀
王者荣耀
下载
百度浏览器迷你版
百度浏览器迷你版
下载
2345浏览器手机版
2345浏览器手机版
下载
网易邮箱
网易邮箱
下载
爱奇艺
爱奇艺
下载
网易云音乐
网易云音乐
下载
WPSOffice
WPSOffice
下载
优酷
优酷
下载
谷歌浏览器(Chrome)
谷歌浏览器(Chrome)
下载
迅雷看看播放器
迅雷看看播放器
下载
UC浏览器
UC浏览器
下载
QQ音乐
QQ音乐
下载
阿里旺旺买家版v9.12.10C官方版
阿里旺旺买家版v9.12.10C官方版
下载
360安全卫士v12.1官方版
360安全卫士v12.1官方版
下载
猜你喜欢
疯狂丛林猎鸭
疯狂丛林猎鸭
下载
PulseFlex
PulseFlex
下载
儿童教育学ABC
儿童教育学ABC
下载
灵巧的黑胡子
灵巧的黑胡子
下载
大数金融
大数金融
下载
百狐网
百狐网
下载
太阳世纪极乐战争Mac版V1.15.0
太阳世纪极乐战争Mac版V1.15.0
下载
Windows修复助手V1.18中文版
Windows修复助手V1.18中文版
下载
可爱点点消
可爱点点消
下载
曼走科比动态锁屏
曼走科比动态锁屏
下载
猫武士
猫武士
下载
违章查询代缴
违章查询代缴
下载
超级玛里奥
超级玛里奥
下载
浮生妖绘卷九游版
浮生妖绘卷九游版
下载
数理画app
数理画app
下载
斩妖情缘
斩妖情缘
下载