语音识别

唇语识别真会是语言交互的终极战场?

唇语识别到底是何物?未来又有着怎样的想象空间?

在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。

虽说搜狗是国内第一家公开演示这项技术的公司,但早在2017年3月,海云数据创始人兼CEO冯一村在亚洲大数据可视分析峰会上,就发布了重庆市公安科研所与海云数据共同研发的唇语识别技术,它的中文识别模型准确率已达到70%。

而谷歌DeepMind团队,在2016年利用BBC视频对他们的AI系统进行了5000个小时的训练,测试时唇语识别正确率达到了46.8%。

这并不是场独角戏,那唇语识别到底是何物?未来又有着怎样的想象空间?

唇语识别只是语言识别的进化

虽说唇语识别近期才进入公众视野,但唇语识别技术的发展可以追溯到上世纪80年代。

当时,语音识别技术迅速发展,出现了许多实用的语音识别系统,然而这些系统抗干扰能力不强,在有背景噪音与交叉谈话的情况下,它们的性能会大幅降低。而在自然应用环境中,噪音现象十分常见,研究者们为了解决上述缺陷,一方面采用降噪技术降低干扰,另一方面开始寻求其它解决方法。

那唇语识别技术是怎么发展来的呢?语音识别的研究者们突然发现,其实人类的语言识别系统是由两个感知过程构成的,声音虽然是人类语言认知过程中最重要的方式,但在日常交流中,我们还会用眼睛看着对方的口型、对方的表情等,来更加准确的理解对方所讲的内容。受此启发,研究者们开始研究唇语识别。因为唇语识别完全不会受到噪声干扰,在多人对话中也能有效进行区分,这就有望解决语音识别的缺陷。事实上也是,将唇语识别与语音识别结合起来能够大大提高系统的正确率和抗干扰能力,于是唇语识别便有了更多的发挥空间。

换汤没换药,近30年的发展,核心步骤还是三步

经过研究各类资料,智能相对论(微信id:aixdlun)发现,唇语识别技术从摄像头输入到理解输出,中间最

违法和不良信息举报电话:010-64158500-8113,18610056652    举报邮箱:infoweb@zero2ipo.com.cn    举报网上不良信息