@sambodhi 2018-01-09T09:01:09.000000Z 字数 3563 阅读 5182

视觉美学：使用AI技术判断照片的质量

作者|Shashank Gupta
译者|Liu Zhiyong
编辑|Vincent Chen

AI前线导语：在过去的2017年，AI在多个领域里全面开花，以前，评价一张图片好不好看，人们都认为没有情感的机器是无法胜任的。但AI已经突破了人们的想象极限，已经可以评价一张图片好不好看了。Google的AI研究人员就找到了训练AI判断照片质量的方法，而后，ParalleDots也推出了相关API，帮助应用开发者轻松集成API，从而拥有判断照片质量的能力！ParallelDots是一家来自印度的初创深度学习公司，为客户提供品牌、产品或服务的舆情监控；其API还有助于多语言分析、关键词生成、文本分类、实体提取、语义、情感和意图分析。日前，Shashank Gupta写了一篇博文[1]，阐述了ParallelDots是如何让应用判断照片的质量。

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

已有研究表明，视觉美学很大程度上影响了各种构念，如感知可用性、满意度和愉悦度。然而，视觉美学也是一种主观概念，因此，它在训练机器学习算法以学习这种主观性方面提出了独特的挑战。

AI前线：构念（construct），指看不见摸不着的东西，测量的是相对抽象的东西。构念是美国心理学家George Alexander Kelly提出的概念。构念是一个人在其生活中经由对环境中人、事、物的认识、期望、评价、思维所形成的观念。是人们用来解释世界、分析世人的观点，是人们用来对事件整理分类的一种概念，也是人们看待并控制事件的思维模式。由于每个人的生活经验不同，个人构念自然也因人而异，因此个人构念就代表他的人格特征。

鉴于视觉美学在人机交互中的重要性，机器充分评估视觉美学的概念至关重要。机器学习，尤其是深度学习技术，在目标明确的任务上显示出了很大的希望，如在图像中识别物体或从一种语言转换到另一种语言。然而，图像美学的量化一直是图像处理和计算机视觉中最持久的问题之一。

我们决定建立一个深度学习系统，可以高精度自动分析和评分一幅图像的美学质量。请查看我们的演示[2]，测试一下你的图片美学质量。

关于研究

我们提出了一个新的深度卷积神经网络，可以通过训练来识别图像的美学质量。我们在训练算法的同时，也提出了多个破解方法来提高准确性。

我们在arxiv[3]上发表的论文中，提出了一种新的神经网络架构，它可以通过将底层和高层的特征考虑进来，从而有效地对数据进行建模。它是DenseNet的一种变体，在每个密集块(Dense Block)的末尾都有一个跳转连接（skip connection）。

AI前线： DenseNet：Densely Connected Convolutional Networks，密集卷积神经网络。由Gao Huang、Zhuang Liu、Kilian Q. Weinberger和Laurens van der Maaten于2016年提出。DensenCNN具有很多优点，包括缓解梯度消失的问题，强化特征传播和特征的复用，并减少了参数的数目。DenseNets相较于ResNet所需的内存和计算资源更少，并达到更好的性能。

AI前线： skip connection 就是一种跳跃式传递。在ResNet中引入了一种叫residual network残差网络结构，其和普通的CNN的区别在于从输入源直接向输出源多连接了一条传递线，这是一种identity mapping，也就是所谓的恒等映射，用来进行残差计算。这叫是shortcut connection，也叫skip connection。其效果是为了防止网络层数增加而导致的梯度弥散问题与退化问题。

除此之外，我们还提出了提高算法训练精度的训练方法。这些方法是在LAB色彩空间上进行训练，并使用小型图像中的相似图像来训练算法，我们称之为一致性学习（coherent learning）。使用这些技术，我们获得了AVA2数据集的78.7％的准确性。AVA2数据集的最新技术状态精度为85.6％，使用深度卷积神经网络，在imagenet数据集上使用预训练权重。

AI前线： LBA色彩空间既不依赖光线，也不依赖于颜料，它是CIE组织确定的一个理论上包括了人眼可以看见的所有色彩的色彩模式。Lab模式弥补了RGB和CMYK两种色彩模式的不足。Lab模式由三个通道组成，但不是R、G、B通道。它的一个通道是亮度，即L。另外两个是色彩通道，用A和B来表示。A通道包括的颜色是从深绿色（底亮度值）到灰色（中亮度值）再到亮粉红色（高亮度值）；B通道则是从亮蓝色（底亮度值）到灰色（中亮度值）再到黄色（高亮度值）。因此，这种色彩混合后将产生明亮的色彩。

使用手工制作的AVA2数据集的最佳精度为68.55％。我们的研究还显示，将更多的数据添加到我们的训练集（AVA2中不包含的AVA数据集），将其精度提高到AVA2测试集的81.48％，从而显示模型在更多数据的情况下变得更好。

视觉美学的用例

1. 为您的社交媒体帐户选择最佳个人资料照片

社交媒体网站的应用开发者可以帮助他们的用户决定哪张照片最适合作为他们的头像。当我们在社交媒体网站上传照片或更改我们的显示图片时，我们都面临焦虑。通过我们的API集成，应用程序开发人员永远可以帮助让用户看起来不错！

2. 交友应用

好吧，现在这个用例可能不会吸引我们的禅宗、非物质主义者，但说实话，约会导致了最严重的社交焦虑。约会景观在不断变化，因此，如果你在交友应用上很活跃，选择最好的照片来提高你的成功机会是很重要的！交友应用开发人员可以轻松集成我们的API，帮助用户上传他们最好的照片；如果开发人员想在数据集上进行优化，也可以对视觉美学模型进行微调。

3. 集成AI的拍照手机

最近Google推出了具有肖像模式的Pixel 2和Pixel 2 XL。这款手机即使缺少许多其他手机所拥有的第二个镜头，也能提供肖像模式。例如，iPhone X、Galaxy Note 8、OnePlus 5……所有这些手机都提供了肖像模式，因为它们使用两个镜头的数据。一个镜头捕捉图像，另一个捕捉景深信息，除了为模糊的背景提供一些焦距范围的魔法。但是，Pixel手机使用AI来为用户提供HDR+ 图像，与数码单反相机拍摄的图像相当。

类似地，手机制造商可以通过集成视觉美学API来增强其原生摄像头的功能，让用户即使在拍照之前也能实时了解他们的照片质量！这将使您的用户能够自信地分享他们的照片，并最终为您的品牌创造出极具竞争力的优势，而无需额外的硬件成本。

4. 在线内容的病毒式传播

内容为王，要写出能引起受众共鸣、令人信服的内容变得越来越困难。然而，现在最好的内容往往有很棒的图片来补充，因此，你必须包括一些能够让人们不断往下看的东西。

BuzzSumo做了一项分析，涵盖了超过100万篇文章，发现每75~100个单词的图片中有更多的社交份额。使用我们的视觉美学工具，您可以快速检查图像有多大的吸引力，从而提高博客文章的病毒式传播。你可以在这里查看演示[4]。

在这篇博文中，我们介绍了我们的视觉美学API的一些用例。当机器比人类更能胜任这种主观内容的判断时，就开辟了很多利用这些机制的可能性。您可以访问ParallelDots的博客[5]来了解更多关于Visual Analytics（视觉分析）的资讯。

[1] Visual Aesthetics: Judging a photo’s quality using AI techniques
https://hackernoon.com/visual-aesthetics-judging-a-photos-quality-using-ai-techniques-6f2551cc9b0b ↩
[2] Visual Analytics for smarter decision-making
https://www.paralleldots.com/visual-analytics ↩
[3] Visual aesthetic analysis using deep neural network: model and techniques to increase accuracy without transfer learning
https://arxiv.org/abs/1712.03382v1 ↩
[4] Visual Analytics for smarter decision-making
https://www.paralleldots.com/visual-analytics ↩
[5] ParallelDots
http://blog.paralleldots.com/category/product/visual-analytics/ ↩

视觉美学：使用AI技术判断照片的质量

关于研究

视觉美学的用例

内容目录