@cnbeining 2017-08-25T04:01:46.000000Z 字数 668 阅读 1748

Google发布语音指令数据集

Google AI ML

摘要： Google开源了供初学者入门的语音数据集，对语音识别等任务帮助极大。

正文：

深度学习在语音识别方面的使用方兴未艾，但是可用的训练数据集却不多见。虽然Kaldi这种软件可以使用神经网络进行训练，但是复杂的操作吓退了很多小白。Google认识到，互联网上没有可供入门者快速入门深度学习的语言数据集：所以他们开源了语音指令数据集。

TensorFlow和AIY团队开源的数据集有30个命令，时长65000秒，来自数千人的录音。团队贴心地附上了训练和预测的TensorFlow示例代码。数据集使用知识共享署名 4.0 国际协议(CC BY 4.0)发布，Google表示将继续扩充这个数据集。Google表示这个数据集特别适合新手入门，他们也开源了收集录音的工具。

对于想尝鲜的人，Google制作了一个基于TensorFlow的Android程序：程序包含10个命令词，在获取麦克风权限后，程序将点亮你所说的命令词。

这个例子的效果和数据集有很大的关系，有可能不尽如人意：商业语言识别系统比这个复杂的多。Google希望，随着更多的数据加入，模型的识别效果会日趋完善。

使用TensorFlow进行语言识别的教程可以在这里找到：使用最新版本的TensorFlow和主流配置，模型训练只需要几个小时。对神经网络进行微调可以解决不同的问题，例如不同的响应时间、大小、以及在不同平台上的准确度取舍问题。

查看英文原文：Launching the Speech Commands Dataset

Google发布语音指令数据集

内容目录