@xishuixixia 2015-12-19T15:58:49.000000Z 字数 3711 阅读 3343

ACM杰出科学家华先胜谈图像搜索的核心技术

未分类

李彦宏曾经在2014年的百度世界上说过，未来五年语音图片搜索的请求量将会超过文字。目前，各大的搜索引擎都已经上线了图片搜索功能，用户可以简单方便地通过搜索引擎来找到相关的图片。而图片搜索也已经被应用到了电商中，阿里巴巴的拍立淘就是一个典型的应用案例。

近日，阿里巴巴负责图像搜索的华先胜博士被评为ACM杰出科学家，而他也因在图像搜索和多媒体领域的杰出成就，当选为IEEE Fellow。InfoQ就华博士的个人工作经历以及图像搜索技术等问题，对他做了一次专访。本文根据对其采访整理而成。

个人经历

我本科及硕博均毕业于北京大学数学科学学院，应用数学专业。2001年毕业后即加入我的第一任雇主微软，直到4月中旬离职加入阿里。最开始的9年半，在微软亚洲研究院，一直从事图像视频分析、理解和搜索的工作，有不少技术应用于微软主流产品。期间，2008年曾获MIT技术评论TR35奖，让我小小地自豪了一把，不过这其实是团队的功劳。

2011年初，在灌了近两百篇论文后（也不都是水哟：H index = 51），有点厌倦，留下“真实世界很复杂，我想进去看看”的豪言，在众多师长的摇头叹息中勇猛地冲向前线 – 背井离乡，去微软总部Bing多媒体搜索部门领兵实战。两年的努力，带领团队重新设计和实现了Bing图像搜索的后端（索引的选择和产生），Bing的图像搜索从此傲视天下（不是网页搜索哦）。

2013年初，退回后方，回微软美国研究院，尝试解决真实世界中的大规模图像识别问题，从零开始一个人设计并实现了一个不需要标训练数据而能产生识别任意目标的图像识别系统。上周交接工作时才发现，这两年多写的Code, 大概超过我之前十几年写的了（嗯，所以你知道我那十几年没有码多少行:)）。

为何回国以及回国机会选择

总体来说，就像一个人练就了一身武功，希望有个地方能发挥自己的专长，一个足够大、足够有影响力的舞台去实现自己的价值。从研究到产品，又从产品到研究，对这个领域，不管是技术深度还是产品形态，都有了一定的理解和积累，那么就需要一个地方去施展一下，基于自己平生所学创造、研发出对他人有益、有意义的产品。

具体来说，也是一个时机的问题，是个天时、地利、人和的时机的问题。自己在图像、视频分析和搜索领域摸爬滚打近20年，近几年深度学习和大数据分析计算的技术的发展让这个领域有了很大的突破，很多以前很难做好、做到使用的问题看到了曙光，此为天时；电商平台是图像技术最“刚需”的应用场景之一，特别是以图搜图技术，目前只有在电商领域才实实在在的可以产生可观的实际价值场景，此为地利；国内电子商务平台上大量的用户是图像技术发展和应用的基础，加上图像领域一流的技术研发人员，一定能让这个工业和学术界研究了二十多年的问题得以突破，得以广泛应用，这是人和。这三者均具备，于是我回国了。

选择回国机会，最看重什么？有三点，一是职位方面：有团队，有一定的（产品和技术发展的）自由度和创新空间，所做之事有刚性需求；二是技术方面：自己的优势能够得以施展；三是管理层方面：能够得到信任。

从学术到产品实践

从学术到实践，这之间的跨越还是蛮大的。我加入必应负责的是图像搜索引擎的索引建立部分，包括算法和工程两方面。算法包括了图像理解和搜索，以及图像索引的选择等等，工程则包括了索引建立从图像抓取到建立索引一整套的流程。之前我的研究工作也是图像理解和搜索，而且还和当时的必要产品部门有很多合作，也讲自己和团队研发的技术转化到必应产品中。但是，真正坐在产品组了，我花了三个月的时间才搞明白大家在做一件什么事情。这里面有几个关键点：

实际的产品流水线是很复杂的，尤其是搜索引擎产品，各个部分之间的依赖关系复杂。加上产品线的设计往往是逐步迭代的，所以还有很多复杂的逻辑在里面，还常常和相关产品耦合在一起；
完整产品线有很多部分在做纯研究时根本不会触及到，而且产品线在不成熟时常常有很多局限，纯研究场景下的技术很多时候根本在实际产品中无法使用。例如，在学术界当时发表论文很多的图像搜索的重排技术，在实际使用中则困难重重，对引擎的负荷非常重，特别是在QPS高时，对引擎的压力非常大，所以当时基本无法再产品线全量使用。因此，算法的研发者必须对产品线的特点和limitation有深入、详尽的理解，才能保证研发的算法能够应用于实际产品；
产品的目的非常明确，就是满足用户的需求，让用户有好的体验，从而提升产品的市场占有率。因此，并不是酷的技术就是产品需要的，而是能解决用户痛点的技术才是对产品更有价值的。有人认为研究的关键是创新，而产品则不是，而是解决实际问题。这个观点有其合理的一面，但我的体会是，产品的研发非常需要创新思维，有创新思维才能高效、巧妙的解决难题。当然，创新不等于复杂的公式、模型，不等于方法优美，不等于一定是算法方面的创新（例如，有可能是产品设计上的创新，从而回避了算法的局限）。

上面是从技术层面上说。从非技术层面，产品往往是很多团队合作一起完成，常常有上下游的依赖关系，所以如何和他人有效合作也是非常关键的。常常需要我们理解和关注合作团队的目标，并助力其实现，这样才能达成共赢的局面。

加入阿里巴巴后的工作

我已经加入阿里巴巴8个月了，落地于搜索事业部，以用图像技术支持搜索相关的应用为主（包括图像搜索本身和将图像技术应用于其他搜索、推荐、个性化、商品管理等方面），但不只做搜索相关的技术。电商平台上处处都有图像技术的需求，除基于图像的商品搜索（也就是我们的产品“拍立淘”）外，从商品图片的分析理解，例如，商品识别（例如，衬衣）、商品属性识别（白色，长袖等等）、场景识别（街拍，海滩）；到人脸技术，例如人脸检测、人脸属性（年龄、性别、颜值等）、人脸识别（如明星识别）、人脸合成（试妆）；到视频分析技术，例如，视频分割、事件检测、物品检测跟踪、广告投放等。

图像搜索技术的发展

图像搜索技术（以图搜图）这两年取得了比较大的进展。这个问题过去叫基于内容的图像检索（CBIR），上个世纪90年代初开始研究的，但当时能够处理的数据量很小，几千张到上万张图片，而且基本不关注图像理解而直接做检索。后来20世纪初，这个方向陷入低谷，但2005年之后，高维特征索引的技术和视觉词倒排的技术用到图像中了，使得图像检索技术能够处理的数据量大大增加，这个领域又火热了起来。这些技术大概解决了同图和非常近似的图片的搜索问题，但没有解决语义相同或相似图片的检索问题。知道近两年，深度学习技术在图像分析和识别领域的广泛应用，使得图像的描述（特征）有了非常大的进步，从而使这个领域有了很大的进展。但是，这个问题并没有完全解决，任意图像的语义相同或相似图的检索效果仍然不是很好。阿里巴巴将这个问题限定在商品图像领域，加上阿里的大量商品图像数据和用户数据，配合深度学习方面的经验积累和创新，我们在这个领域取得了非常大的进展，搜索结果的相关性不断提升，用户的满意度也在不断提升，用户量、交易量在前半年都提升了很多倍。

几个大的搜索引擎公司都有这方面的研发，包括微软、谷歌和百度。这几家公司是做通用识别和搜索的。识别方面他们比我们做得全面，而我们在电商领域的图像搜索的结果应该是最好的。亚马逊的商品搜索比我早一些发布，但只对刚体的搜索比较好，而且是同款搜索。我们则可以应对象服装那样的变化较多的非刚体，而且可以做相似商品的搜索。还有一些小公司在做类似的产品，提供给中小电商以图像搜索服务，避开技术不谈，我们在数据量和用户量上占用绝对优势。将来，我们可能也会在阿里云提供我们的图搜服务给其他人使用。

图像搜索的核心技术以及难点

图像搜索的核心技术包括图像的表征、图像特征的索引、图像识别。图像的表征和图像识别都不容易，图像特征的索引相对成熟一些。
对于图像的表征，就是要学习出一种或多种图像的描述方式（通常是一个高维向量），让这个描述方式（通常称为“特征”）能够用来比较图像之间的相似性，在语义上的相似性（例如，同一款式上衣的不同形态，不同模特，不同拍摄场景，光线，角度等等）。这个是图像搜索的核心问题。对于图像特征的索引，就是如何将图像的表征中获取的高维特征有效的组织起来，使得一个大的数据库能够以合适的方式组织起来，从而对于一个用户提供的搜索请求，也就是一副图像，我们可以在这个大的数据库中快速找到相同或相似的东西。如果不做索引，可能要几个小时甚至更长时间才能返回给用户结果。对于图像识别，是让搜索结果更加准确的关键因素，我们必须对用户提交的查询图像和数据库中的图像有深入的分析理解，从而使得搜索结果更准确。

深度学习和大数据在图像搜索中的价值

深度学习贯穿这个以图搜索的流程当中，包括图像识别、主体检测、特征提取、排序等等。基于深度学习方法的结果都超越了传统的方法。

大数据方面，包括分布式系统为索引的快速建立和更新，以及高QPS的搜索引擎提供了有效的工具和平台。分布式大数据处理也为我们以图像数据库为整体而进行图像分析理解提供了可能，并且，用户使用数据的高效分析和回流也是一个搜索引擎不断提升搜索质量而必不可少的部分。