任何项目的开发都需要有数据的支持,数据采集的准确性直接关系到数据分析结果的价值,而从各种网站收集数据(Web抓取)是一项非常繁琐的任务。
由于工作原因我会不断试用一些爬虫工具,接我们后面会出一个 “爬虫工具”系列,尽量找那些比较简单、易用且高效的小工具,说下它们的特点,通过截图做实战运行演示。
本期是ParseHub,它主要被用来爬取Web端各种类型的数据。
地址:https://www.parsehub.com/
下面简单演示一下运行使用步骤
第一步:点击下载安装地址https://www.parsehub.com/
(选择对应的系统版本)
第二步:注册账号
第三步:下载安装完成,登录ParseHub
第四步:开始使用
点击new project
进入之后,如下图,右侧为爬取网页的缩略展示,左侧为所缩略展示页面元素的清单,可点选左侧的清单项进行后续操作
例如这个看电影的网站,可以选择电影名称、电影播放时间及其海报进行爬取
下面可以选择所需爬取数据的格式
点击Get Data按键
点击Run,开始对数据进行爬取
数据爬取中
爬取完成
选择所需要的数据类型,这里选择json,然后保存数据到本地
打开就可以看到所爬取的数据了
以上是我亲力亲为用ParseHub做的数据爬取截屏示例,希望能有帮助。
个人对这个产品技术特征的理解,归纳如下:
- ParseHub是一个强大且免费的Web抓取工具,类似国内的八爪鱼采集器等,它采用了机器学习的关系引擎,通过筛选页面并了解元素的层次结构,以查看到以秒为单位的数据;
- 它从数百万个网页中抓取数据,以确保我们将成千上万的链接和关键字尽收眼底;
- 不需要懂网络技术也能够轻松采集数据,只需单击,即可获取数据;
- 这个工具可以支持实时预览采集的数据,你还可以设定抓取时间,以确保抓取到的是最新数据;
- ParseHub的最大优势是爬取一些相对复杂页面及元素,譬如你可以借助它检索表单、菜单、登录页,甚至单击图片或地图拿到背后的更多数据;
- 有时,所要爬取的目标网页的技术过于落后,不用担心!无论是用JS还是AJAX编写的页面,都可以用ParseHub来收集和存储数据;
- 我们还可以利用REST API以JSON或CSV格式下载萃取的数据,或将收集的数据导出为Google Sheet、Tableau等。
本文暂时没有评论,来添加一个吧(●'◡'●)