开篇寄语
视频伪造意味着您无法相信看到的一切。现在,声音伪造可能意味着您不能再相信自己的耳朵了。此前伯衡君深入了解了换脸视频Deepfake后,又发现了一个新世界,Voice Deepfake,能够伪造你的声音,想想真是刺激呢,分享给大家,于是就有了今天这篇文章。
内容详情
什么是Audio Deepfake
我们大多数人都看过 视频Deepfake,其中使用了深度学习算法,将一个人替换为另一个人的头像。而现在,则是轮到音频了。
音频深度伪造是指使用与真实人可能无法区分的“克隆”声音来产生合成音频的情况。 “就像是声音的Photoshop,” Resemble AI首席执行官Zohaib Ahmed 关于公司的语音克隆技术说,但是,技术不佳的Photoshop作业很容易被揭穿。
我们与之交谈的一家安全公司表示,人们通常只能猜测音频Deepfake是真实的还是伪造的,准确率约为57%,只稍微比翻硬币猜正反面稍微准确一些。 此外,由于这么多的语音记录都是低质量的电话通话(或在嘈杂的位置录音),因此可以使音频深度伪造更加难以区分。
声音质量越差,分辨那些伪造的声音就越难。
Voice成功案例
实际上,对合成音频有巨大的市场需求。根据艾哈迈德所说,“投资回报率非常高。”
在游戏方面尤其如此。过去,语音是游戏中无法按需创建的组成部分。即使在具有实时呈现的影院品质场景的交互式标题中,与非播放角色的语言交互也始终基本上是静态的。
但是现在,技术已经赶上了。制片厂有潜力克隆演员的声音并使用文字转语音引擎,使角色可以实时说出任何话。
在广告,技术和客户支持方面还有更多传统用途。在这里,重要的是要发出真实的人的声音,并在没有人为输入的情况下进行个人和上下文响应。
语音克隆公司也对医疗应用感到兴奋。当然,语音替换在医学上并不是什么新鲜事,斯蒂芬·霍金(Stephen Hawking)在1985年失去自己的语音后就使用了机器人合成的语音。但是,现代语音克隆有望带来更好的效果。
2008年,CereProc(网址:https://www.cereproc.com/en/home)发布了一个网页,允许人们键入消息,然后以前总统乔治·布什的声音说出来。
CereProc首席科学官Matthew Aylett说:“ Ebert看到了,然后想,'如果他们能复制布什的声音,他们就应该能够复制我的声音。' 然后,埃伯特要求公司创建替代语音,他们通过处理大型语音记录库来实现。”
艾利特说:“这可能是人类第一次这样做,这是一次真正的成功。”
近年来,许多公司(包括CereProc)已与ALS(肌萎缩性侧索硬化症)协会合作 ,向患有肌萎缩性侧索硬化症的人提供综合的声音,参考霍金。
合成音频工作原理
语音克隆现在处于大爆发的状态,许多公司正在开发工具。类似于AI(网址:https://www.resemble.ai/)和Descript(网址:https://www.descript.com/)的在线演示程序,任何人都可以免费尝试。您只需录制出现在屏幕上的短语,然后在几分钟内创建您的声音模型。
您可以感谢AI(特别是深度学习算法)能够将录制的语音与文本进行匹配,以理解构成您的语音的成分音素。然后,它将使用由此产生的语言构造块来近似未听到您说的单词。
基本技术已经存在了一段时间,但是正如Aylett指出的那样,它需要一些帮助。 他说:“复制声音有点像做糕点。”
“这很难做,并且有多种方法需要手动调整才能使其正常工作。”
开发人员需要大量记录的语音数据才能获得合格的结果。然后,几年前,闸门打开了。计算机视觉领域的研究被证明是至关重要的。科学家开发了生成对抗网络(GANs),该网络可以首次推断并基于现有数据做出预测。
艾里特说:“我的模型现在可以使马变成斑马,而不是计算机看到一匹马的图片并说'这是一匹马'。”
“因此,语音合成的迅猛发展得益于计算机视觉的学术研究。” 语音克隆的最大创新之一就是总体上减少了创建语音所需的原始数据量。过去,系统需要数十甚至数百小时的音频。
但是,现在,仅几分钟的内容就可以产生胜任的声音。
实际操作
伯衡君在“ AI”和“ Descripet”上测试了工具, 并创建了语音克隆。Descript使用最初称为Lyrebird的语音克隆引擎,效果特别出色。我们对质量感到震惊。听到自己的声音说的话,您知道自己从未说过的话会令人不安。 演讲绝对具有机器人般的品质,但随便听,很难分辨真假。
有兴趣的朋友可以试试,绝对然你怀疑人生,千万不要用它做电信诈骗哈,很危险的。
ArrayArrayArray- 我的微信
- 微信扫一扫加好友
- 我的微信公众号
- 扫描关注公众号