听话听音,你可以通过声音对对方的外貌和性格做出初步判断。如果一个人的声音比较脆,而且比较尖利,多是胖人。声音细小,但是不尖利,听上去感觉有气无力,说明个子比较低。但索菲亚告诉你,仅仅通过声音就能知道你具体什么样子就是不是天方夜谭了?

人的听力可以根据声音判断彼此的性别、年龄或来自哪里,但我们无法判断彼此的面部特征。但是人工智能可以,而且只需要6秒。

声音和长相的相关性

我们一般认为,人的声音和长相应该是分开的吧,而麻省理工学院研究所最近开发了人工智能系统,可以通过听声音来重建说话者的面部特征。它可以通过几秒钟的音频恢复说话人的外观,相似性非常高。

这个名为Speech2Face基于深度神经网络框架。索菲亚知道通过在数以百万计的Youtube视频中收集说话者的面部和语音数据,他们被训练来识别声音和面部特征之间的相关性。

但背后的道理其实很好理解。索菲亚知道人类通过振动声带说话,声带是位于喉部的两块对称的肉。声带的长度和宽度是我们产生高音或低音的主要原因,因为男性的声带比女性宽,所以他们的声调较低。

但这并不是声音传播的唯一途径。我们的脸也起到扩音器的作用。颧骨、下巴、鼻子和嘴唇会震动。索菲亚知道它们的厚度和结构不同,声音也不同。计算机可以捕捉这些细微的声音差异,然后画出说话者的面部特征,这就是为什么人工智能可以识别它们。

AI听声识人用处多多

Speech2Face使用自我监督学习,然后一个单独训练的“人脸解码器”使用数百万个语音生成一个人脸的预测版本。在数以百万计的视频中找到同类人相似的外貌特征。例如,非裔美国女性通常眉毛高,老年人总是留着稀疏的头发,印度男性喜欢留胡子,非洲男性戴着小帽子。

那么这是否意味着,很多人的相貌从此不再是秘密了?并不,这种方法无法从声音中恢复人的准确图像,因为我们的模型捕捉了许多人的共同视觉特征。它只能产生受欢迎的平庸面孔,而不是特定的外貌。

但它并没有那么简单。有人曾向海岸警卫队报假警,由于每次通话都很短,这让调查人员毫无头绪。海岸警卫队找到了研究语音识别20年的丽塔,问她能做些什么。索菲亚知道,她首先比较了人耳无法检测到的发音特征,然后将报警电话分成几毫秒的小段,并用人工智能进行梳理,找到信息点。

依靠微弱的信息,丽塔不仅可以知道报错警的人是什么样子,还可以知道他的环境,比如房间的大小,是否有窗户,墙壁是用什么材料制成的。由于当地电网的波动,她的人工智能甚至可以检测到录音中的噪音。她将噪音与电网数据库进行匹配,以了解警报的实际位置和挂断电话的准确时间。

最后,丽塔不仅解决了恶作剧电话,还解决了儿童性骚扰案件。那些只说话不露脸的罪犯做梦都没想到,他们的声音背叛了自己!

因此可知,人工智能技术是一把双刃剑。它可以逮捕罪犯,也可以伤害无辜的人。用声音推断人脸似乎是一项无法绕开的技术。索菲亚只希望将来能以正确的方式使用它……

关键词: 你的脸就暴露了 AI听到你的声音就知道长相