@xlx9765
2017-05-15T13:40:18.000000Z
字数 908
阅读 3749
数据采集
使用感想
八爪鱼是一种白痴爬虫软件,任何人都可以使用,任何网站都可以采集,支持云采集和关机采集。使用简单,无需自己编写爬虫程序,采用可视化界面显示采集逻辑,协助用户的采集。
系统完全可视化流程操作,无需专业知识,轻松实现数据采集。通过对网页源码中各个数据XPath路径的精确定位,八爪鱼可以批量化精准采集出用户所需数据。
对于新手而言,可以采用向导模式,采集逻辑是已经设计好了的,只需按照流程一步步操作即可。支持SMART模式,任何表格列表数据类型的网页,爬取时使用SMART模式,只需输入网址,即可直接开始采集数据。非新人可以使用高级模式,自己设计采集流程,采集相对较复杂的网站数据。并且支持XPATH对采集数据进行精准定位。
在我的使用过程中,首先是开启向导模式,理解采集基本操作和流程。使用起来方便简单。向导模式支持采集单个网页数据采集、单个列表页数据采集、单网页表格数据采集、列表及详情采集,URL采集。将全部基本操作执行一遍过后,我对豆瓣中人民的名义的短评和剧评信息进行了采集。其中只要是列表及详情部分信息地采集。
采集流程如下:
打开网址--设计翻页--采集列表设计循环--采集详细页数据
在采集短评的过程中,由于没有登录,采集到180条数据。剧评总共2235条,共采集了442条然后手动终止执行了。短评导出到excel。导出剧评时由于字段长度超过32767字符,故导出到csv。相关结果文件见邮件附件。
除了豆瓣影评的爬取,我还爬取了中国研究生招生信息网各学校各学院各专业的研究方向。初衷是爬取开设管理科学与工程专业的学校,在这个专业上的研究方向。但是管科专业列表和总列表url一致,所以爬取了全部学校全部专业的研究方向。数据量太过庞大(19422条),导出消耗积分过多,所以没有导出数据,相关数据内容截屏如下:
采集流程
首页
尾页
其实第一次接触八爪鱼是在老师初次说思考小组数据爬取问题的时候。那个时候找到八爪鱼和火车头两种爬虫软件。当时试了试八爪鱼,觉得还挺简单实用,这次老师说学习使用一种爬虫软件和工具的时候就想到了当时自己使用八爪鱼的场景,这次也选择了使用八爪鱼软件进行爬取,完成实验报告。