神箭手客户端可以可视化点选要爬取的网页数据,自动生成爬虫代码,同时优化了文件导出,速度更快,更可批量导出所有数据,神箭手云是一个大数据应用开发平台,为开发者提供成套的数据采集、数据分析、机器学习开发工具!
![神箭手客户端](https://thumb11.jfcdns.com/thumb/2018-07/bce5b5fafe35561a_460_0.jpeg)
使用方法
步骤一登录神箭手客户端
打开安装好的神箭手客户端,输入神箭手账号和密码,登录进入控制台
![神箭手云爬虫](https://thumb12.jfcdns.com/thumb/2018-07/bce5b5fafcef34f2_460_0.jpeg)
步骤二创建点选模式的爬虫
点击“新建应用”>选择“爬虫”,点击“下一步”>选择“自己开发”>选择“点选模式”。输入爬虫名称,点击”创建”
![神箭手客户端](https://thumb11.jfcdns.com/thumb/2018-07/bce5b5fafcf4f1ba_460_0.jpeg)
步骤三点选要爬取的数据
1、打开创建的爬虫,进入打开点选面板
![神箭手云爬虫](https://thumb12.jfcdns.com/thumb/2018-07/bce5b5fafcf7fe4e_460_0.jpeg)
2、在点选面板中,进行点选操作
首先,输入一个包含所需数据的url(比如https://www.leiphone.com/news/201712/WxtDEEQEXXDZLYev.html),回车加载显示内容:
![神箭手客户端](https://thumb10.jfcdns.com/thumb/2018-07/bce5b5fafcfbaf29_460_0.jpeg)
然后,在显示的网页内容中,点击选择要采集的数据,比如选择采集文章的标题和内容:
![神箭手云爬虫](https://thumb10.jfcdns.com/thumb/2018-07/bce5b5fafd002fe6_460_0.jpeg)
![神箭手客户端](https://thumb10.jfcdns.com/thumb/2018-07/bce5b5fafd036d43_460_0.jpeg)
点击左侧的高级设置,可以设置爬虫的列表页、内容页url正则表达式、是否自动JS渲染等,提高爬虫效率:
![神箭手云爬虫](https://thumb12.jfcdns.com/thumb/2018-07/bce5b5fafd09874b_460_0.jpeg)
步骤四启动爬虫
完成点选后,点击开始爬取。稍等一会,爬虫就会自动开始运行了
![神箭手客户端](https://thumb10.jfcdns.com/thumb/2018-07/bce5b5fafd0c8516_460_0.jpeg)
![神箭手云爬虫](https://thumb10.jfcdns.com/thumb/2018-07/bce5b5fafd11a653_460_0.jpeg)
爬虫软件
数据采集
采集