[关闭]
@citian3094 2016-05-26T03:02:20.000000Z 字数 1752 阅读 2029

专访微博Feed评测项目刘道儒:义无反顾的自动化革命之路

AS 微博Feed 自动化评测


标题备选:
专访微博Feed项目刘道儒:追逐自动化评测的未来

第一次工业革命之所以是一场革命,在于机器解放了人类的生产力,但凡机器能实现的事情都让机器负责。如今在后互联网时代,各种智能项目遍地开花,束缚人类无穷无尽地发展的只剩人类自身的想象力。让专业的事交给专业的“人”去做,这种企业提升效率的不二法门也应用到微博Feed的评测项目。与其一周又一周地着急等待数据分析师的分析结果,不如让你的评测方法也接受革命吧!

2016年7月15-16日,ArchSummit全球架构师峰会即将在深圳举行。本届大会,我们邀请了微博平台研发高级技术经理刘道儒老师前来分享《微博个性化Feed的评测之道》的内容,讲述的是Feed项目是如何从一套人工评测进化到如今的一套人工、自动相结合的信息流效果评测体系的。

现在我们就来采访刘道儒老师,预览目前微博Feed个性化评测的奥秘所在。

InfoQ:目前您所在队伍内部是如何分工的,您在团队中主要承担了怎样的角色?

刘道儒:按照业务和职能对半分,每隔半年进行一次轮岗。业务方向负责对接产品进行需求的研发以及服务保障,而职能方向主要做架构升级、工具体系建设等。我会参与到公司级别的项目的推进工作中,带领职能方向进行攻坚,并推动团队的组织变革。

InfoQ:能否简单谈谈你们过去和现在分别评测一项模型和策略修改效果的过程,能否举例说明?

刘道儒:我们过去进行效果评测时需要按照数据分析师分配的微博,通过编码控制用户采取的不同策略,之后数据分析师将离线收集日志进行分析,大约一周后能给出评估的结果。现在需要评估效果只需要把开关和指标预埋进行,加上指标比较通用,所以更多时候只需要把开关埋到代码中,之后就由数据分析师或者产品确定评测计划并开始评测,评测开始后评测数据就开始采集并图形化展示,并提供天级别、小时级别的效果对比。

InfoQ:你们研发的系统Paladin在你们评测体系中承担了多少业务,背后的技术支撑是什么?解决了哪些问题,哪些地方还需要优化?

刘道儒:Paladin目前主要在主Feed、微博相机等业务应用,接下来还会推广到热门微博等业务。Paladin的技术比较简单,对外提供的是一套RPC服务,并通过Redis来解决实时计数问题。主要解决的问题是开关和指标如何进行分离,从而实现一个指标可以对应很多个开关。优化的方向主要是如何如何更合理的划分用户以及自身系统的高可用。

InfoQ:能否简单介绍人工策略效果对比评测、人工策略效果指标评测等工具体系,为什么需要它们并且它们是如何配合自动化评测的?

刘道儒:人工策略效果指标评测主要为解决指标无法量化的问题,比如微博站内图片的垃圾率、微博评论中恶意攻击的比率等,这些没办法通过计数解决,而人工指标评测则通过大规模采样,优化评测效率,从而人工的方式得出近似的比率。人工策略效果对比评测则主要解决策略细节效果的问题,可以对效果进行详细的评估,从而让结果更友好。他们主要是填补自动化评测的一些空缺。

InfoQ:微博的信息流复杂,可能影响的因素多,你们在A/BTest方法上有什么经验可以分享?

刘道儒: 主要还是对用户群体做细分,排除掉低质用户等,我们对用户有多种维度的分类,可以进行多重的选择组合。

InfoQ: 14年到15年你们的测评体系变化很大,在期间你们遇到过怎样的困难,是如何解决的?

刘道儒: 主要的困难还是新的方式大家很难适应,解决的方式是多跟具体使用的同学沟通,快速根据一线同学的反馈进行优化,竞标原有的用户筛选规则、数据统计规则,确保原有需求均能较好支持,加上效率极大提升的优化,困难自然就解决了。

InfoQ: 您一直专注于大规模分布式系统的研发、高可用等领域,能否简单谈谈目前这个领域发生了什么变化,你们拥抱了哪些变化?

刘道儒: 最大的变化还是各种新的解决方案都非常庞大、复杂,挑战巨大且需要大量的人力投入,且需要团队有更强的综合型。针对这些新情况,我们从15年开始尝试跨团队项目协作,按照合伙制来运作项目,并努力打破开发、运维、测试的边界,建设系统的时候均以开发的身份来组织。

InfoQ:感谢您接受我们的采访。期待您在ArchSummit全球架构师峰会上的分享。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注