@buptzym
2018-04-22T15:02:02.000000Z
字数 1875
阅读 552
未分类
开源超级图形化爬虫Hawk发布两年半,去年升级到2.0(参考这篇文章),收到上千条用户反馈,100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王的天通苑龙德买最心爱的阿迪王。
某天夜里,一位神秘人物突然加我微信,知道我是Hawk的设计者之后,二话不说就发了200块红包!在确认对方是男的不是仙人跳之后。我赶紧给这位客户老爷千恩万谢,明天可以加鸡腿了!
这位VIP客户跟我语音聊了接近一个小时,在无数条对Hawk的赞美之后,话锋一转,说“你这Hawk用户体验好差,界面太丑了,就不能好好优化一下么?”
我说:好啊,你来提需求,我来改?我们一拍即合!这位神秘人物,就称他为升哥吧(可惜不是妹子啊)
从17年10月份开始,我们开始了你织布来我缝衣的模式(好哲♂学),升哥负责测试,用户体验,提需求;我来负责改代码。宝刀未老的沙漠君竟然还能记得四五年前写的C#代码!平时工作太饱满,只能抽周六日坐在马桶上优化代码!平日我们会在地铁和公交上,通过微信讨论各种体验细节,画风是这样的:

这样的聊天记录少说几千条,我们脑暴更好的体验,更快的算法,抠每个细节,在有限的时间内尽可能打磨产品。
时间过得好快,习大大连任了,杭州买房要摇号了,小半年瞬间过去了。带着多个重大功能更新,两百多个体验细节升级后,Hawk3.0总算千呼万唤屎出来啦!
那Hawk3.0带来哪些令客官老爷们大吃一惊的体验呢?
//补充兴奋地吃手手图。
在网页采集器上输入网址,点击【手气不错】,Hawk就会自动将所有高价值的数据表展示出来,相比上一代,手气不错更是支持智能排序和自定义,客官动动鼠标,就能在多个结果间来回筛选,点击确定就完成了!
手气不错不仅能列表(List模式),还能支持详情页(One模式),在链家页面上随便输入一个信息,点手气不错,房产的详细信息就都出来了!
//补充图片
网页采集器不仅支持xpath,更能混合使用selector语法,搜索关键词还能实现页面自动定位跳转高亮,智能地让你想哭! 除了显示html源码,还能以浏览器模式预览!
Hawk引以为傲的功能是:客官们可组装灵活的数据清洗流程,先洗菜再切菜,最后扔锅里爆炒,所见即所得。
Hawk3大幅度改进了用户体验,模仿播放器设计,你可以对流程的各个部分灵活修改,快进后退,清洗的速度更快!处理数据就像播放岛国大片一样流畅刺激!
可以将多个数据清洗任务互相调用,实现更复杂和高级的功能,新版提供了对子任务的更友好的配置界面,让你像写Python函数一样实现子任务。Hawk调用Python实现自定义处理的功能也得到了增强,支持引入一部分第三方库,处理数据更加灵活。
早期版本的Hawk,大数据导出Excel卡得让男人沉默,女人流泪。优化后的Excel导出速度提升了15倍,百万级数据都轻轻松松。
更何况,Hawk还支持了文件级数据库Sqlite,千万数据毫无压力。完全不需要配置,妈妈再也不用担心数据太多爆内存了!
新的Hawk支持从Windows命令行模式执行,大概是下面的样子:
cmd> HawkScheduler project.xml task_name
在Hawk图形界面上设计工程,命令行输入工程名和任务名,即可直接执行任务,速度更快更轻量,但记得用执行器把数据导出到数据库或者文件里哦!
微软的跨平台战略太不给力,让Hawk支持Linux和Mac的成本实在太高了,所以目前依然只能在Windows上运行。由于更新较多,新的Hawk基本上不能支持以前的工程文件,好在爬虫配置一遍也不是费事,对吧^-^
一款软件,增加新功能不是重点,而是打磨主打功能,用无数个细节编织出的微创新。你会发现:
- 以往需要手工输入的位置现在都支持下拉菜单。
- 能更容易地暂停和取消正在运行的任务
- 错误弹窗更加人性化,支持拼音检索
...
哎呀太多了写不完,在使用过程中,你能慢慢发现这些细节和小惊喜。
考虑到之前用户的使用习惯,大部分改进都是平滑的。界面依然很直男癌,工科癌。说界面丑的妹子欢迎给我们提意见~
可以在下面的地址观看我们的使用教程,5分钟就能上手使用,半小时就能成为老司机。你肯定迫不及待地想问我在哪里下载?点击阅读原文,即可到达项目主页,那里有下载地址,文档,视频教程,以及你想要的全部资料!
最后,如果使用中有任何问题和建议,欢迎加入QQ群,或者在GitHub上发言答疑,如果你是程序员,那麻烦给这个开源项目点个star呗~~