仅6秒，你的脸就暴露了，AI听到你的声音就知道长相！

听话听音，你可以通过声音对对方的外貌和性格做出初步判断。如果一个人的声音比较脆，而且比较尖利，多是胖人。声音细小，但是不尖利，听上去感觉有气无力，说明个子比较低。但索菲亚告诉你，仅仅通过声音就能知道你具体什么样子就是不是天方夜谭了？

人的听力可以根据声音判断彼此的性别、年龄或来自哪里，但我们无法判断彼此的面部特征。但是人工智能可以，而且只需要6秒。

声音和长相的相关性

我们一般认为，人的声音和长相应该是分开的吧，而麻省理工学院研究所最近开发了人工智能系统，可以通过听声音来重建说话者的面部特征。它可以通过几秒钟的音频恢复说话人的外观，相似性非常高。

这个名为Speech2Face基于深度神经网络框架。索菲亚知道通过在数以百万计的Youtube视频中收集说话者的面部和语音数据，他们被训练来识别声音和面部特征之间的相关性。

但背后的道理其实很好理解。索菲亚知道人类通过振动声带说话，声带是位于喉部的两块对称的肉。声带的长度和宽度是我们产生高音或低音的主要原因，因为男性的声带比女性宽，所以他们的声调较低。

但这并不是声音传播的唯一途径。我们的脸也起到扩音器的作用。颧骨、下巴、鼻子和嘴唇会震动。索菲亚知道它们的厚度和结构不同，声音也不同。计算机可以捕捉这些细微的声音差异，然后画出说话者的面部特征，这就是为什么人工智能可以识别它们。

AI听声识人用处多多

Speech2Face使用自我监督学习，然后一个单独训练的“人脸解码器”使用数百万个语音生成一个人脸的预测版本。在数以百万计的视频中找到同类人相似的外貌特征。例如，非裔美国女性通常眉毛高，老年人总是留着稀疏的头发，印度男性喜欢留胡子，非洲男性戴着小帽子。

那么这是否意味着，很多人的相貌从此不再是秘密了？并不，这种方法无法从声音中恢复人的准确图像，因为我们的模型捕捉了许多人的共同视觉特征。它只能产生受欢迎的平庸面孔，而不是特定的外貌。

但它并没有那么简单。有人曾向海岸警卫队报假警，由于每次通话都很短，这让调查人员毫无头绪。海岸警卫队找到了研究语音识别20年的丽塔，问她能做些什么。索菲亚知道，她首先比较了人耳无法检测到的发音特征，然后将报警电话分成几毫秒的小段，并用人工智能进行梳理，找到信息点。

依靠微弱的信息，丽塔不仅可以知道报错警的人是什么样子，还可以知道他的环境，比如房间的大小，是否有窗户，墙壁是用什么材料制成的。由于当地电网的波动，她的人工智能甚至可以检测到录音中的噪音。她将噪音与电网数据库进行匹配，以了解警报的实际位置和挂断电话的准确时间。

最后，丽塔不仅解决了恶作剧电话，还解决了儿童性骚扰案件。那些只说话不露脸的罪犯做梦都没想到，他们的声音背叛了自己！

因此可知，人工智能技术是一把双刃剑。它可以逮捕罪犯，也可以伤害无辜的人。用声音推断人脸似乎是一项无法绕开的技术。索菲亚只希望将来能以正确的方式使用它……

独家推荐