@buptzym
2016-05-01T08:43:14.000000Z
字数 1191
阅读 847
软件的全部源代码和使用说明在:
https://github.com/ferventdesert/Hawk
双击应用文件夹的Hawk.exe,即可启动。
在左侧的模块列表中,找到安居客核心流程,双击加载。
之后,在安居客核心流程的属性设置栏里,点击刷新结果,可查看程序是否能够正常地抓取数据:
如果一切正常,则可点击执行(参考上图),并行地抓取数据。并行线程建议100即可。
考虑到在界面上设置参数并不方便,因此专门设计了python脚本,能够修改信息,修改完文件后再启动程序,方能生效。
详细的设置方法,都已经在注释中写清楚了。
建议每次抓取一个城市或几个城市,这种增量抓取的做法比较方便。
# coding=utf-8#下面的代码是接口函数,无关def get(ar,index):l=len(ar);if index<0:return ar[l+index];else:return ar[index];unabled=[户型图存储方案,户型图存储,安居客户型列表,安居客评价,安居客楼盘详情,相册存储方案,安居客相册];for e in unabled:e.etls[0].Enabled=False#下面是可能需要修改的配置:####################################################是否要保存相册?不论是否保存,都会将相册的路径存入数据库中get(安居客相册.etls,-1).Enabled=True#是否要保存户型图?不论是否保存,都会将户型图的路径存入数据库中get(户型图存储.etls,-1).Enabled=True#要采集的城市,使用正则表达式,如果包含全部城市,则写为''get(安居客城市.etls,-1).Script='天津'#户型图的存储路径get(户型图存储方案.etls,-2).Format='E:\安居客图片\{0}\户型图\{1}_{2}_{3}.jpg'#相册的存储路径get(相册存储方案.etls,-2).Format='E:\安居客图片\{0}\相册\{1}_{2}_{3}.jpg'