实战运行手册——爬虫工具之三:ParseHub

goqiw 2024-09-09 06:26:05 技术教程 59 ℃ 0 评论

任何项目的开发都需要有数据的支持，数据采集的准确性直接关系到数据分析结果的价值，而从各种网站收集数据（Web抓取）是一项非常繁琐的任务。

由于工作原因我会不断试用一些爬虫工具，接我们后面会出一个 “爬虫工具”系列，尽量找那些比较简单、易用且高效的小工具，说下它们的特点，通过截图做实战运行演示。

本期是ParseHub，它主要被用来爬取Web端各种类型的数据。

地址：https://www.parsehub.com/

下面简单演示一下运行使用步骤

第一步：点击下载安装地址https://www.parsehub.com/

（选择对应的系统版本）

点击new project

进入之后，如下图，右侧为爬取网页的缩略展示，左侧为所缩略展示页面元素的清单，可点选左侧的清单项进行后续操作

例如这个看电影的网站，可以选择电影名称、电影播放时间及其海报进行爬取

下面可以选择所需爬取数据的格式

点击Get Data按键

点击Run，开始对数据进行爬取

数据爬取中

爬取完成

选择所需要的数据类型，这里选择json，然后保存数据到本地

打开就可以看到所爬取的数据了

以上是我亲力亲为用ParseHub做的数据爬取截屏示例，希望能有帮助。

个人对这个产品技术特征的理解，归纳如下：

ParseHub是一个强大且免费的Web抓取工具，类似国内的八爪鱼采集器等，它采用了机器学习的关系引擎，通过筛选页面并了解元素的层次结构，以查看到以秒为单位的数据；
它从数百万个网页中抓取数据，以确保我们将成千上万的链接和关键字尽收眼底；
不需要懂网络技术也能够轻松采集数据，只需单击，即可获取数据；
这个工具可以支持实时预览采集的数据，你还可以设定抓取时间，以确保抓取到的是最新数据；
ParseHub的最大优势是爬取一些相对复杂页面及元素，譬如你可以借助它检索表单、菜单、登录页，甚至单击图片或地图拿到背后的更多数据；
有时，所要爬取的目标网页的技术过于落后，不用担心！无论是用JS还是AJAX编写的页面，都可以用ParseHub来收集和存储数据；
我们还可以利用REST API以JSON或CSV格式下载萃取的数据，或将收集的数据导出为Google Sheet、Tableau等。