大家好,我是老叶,互联网极客一枚,拥有和BAT一样长的网龄,专门挖掘互联网有趣、有用的工具,并提供试用报告。(需要交流与合作可加QQ:456021 注明“老叶真酷)
这篇讲一下多页数据采集。
以电影FM页面为例(http://dianying.fm/search/?p=1)先研究一下页面的URL的规则显然是这样的http://dianying.fm/search/?p=1http://dianying.fm/search/?p=2http://dianying.fm/search/?p=3…那么我们可以这么设置数据入口http://dianying.fm/search/?p=[page]
这个[page]表示是个参数范围这里设成1-3,那么程序会自动采集上面的3个链接后面的数据链接和字段的设置就和前面两讲的大同小异了我就贴几个图示意一下。我相信看文章都是聪明人,一看就明白信息链接URL识别规则:
验证:
信息链接URL补充前缀:
扩展字段1(豆瓣评分)
扩展字段3(影片介绍)
好,发布了看一下结果
结果完全正常。多页面多条数据采集就讲到这里。
本文暂时没有评论,来添加一个吧(●'◡'●)