“空调空调,请开机”美的IQ智能王空调就会完成开机过程,并告诉你“主人主人,空调已开机”……
“长虹小白,我想看某某电视剧第几集”,长虹语音控制电视就会直接开始播放相关剧集……
“巴迪巴迪唱儿歌”,360儿童机器人便会立即为孩子播放好听的儿歌……
伴随着人工智能产品不断走进我们的生活,作为人机自然交互的最重要的基本途径之一,语音识别技术的发展开始被越来越多的人所关注。纵观过去的一年,微软、苹果、谷歌、科大讯飞、百度、搜狗等国内外巨头科技企业在语音识别技术上均获得了不少突破,并同样成为今年的发展重点之一。
不会思考没灵性 对速记威胁尚不大2016年10月份,微软宣布微软经过训练的神经网络已可以像人工一样识别人类的语音。其让NIST 2000自动化系统与专业速记员进行了比赛,结果显示,自动化系统的错误率首次低于人工。不少人开始据此断定速记人员将面临失业,但果真如此吗?
“语音与文字的双向转换是当下都市工作和生活的一种经常性需求,从声音到文字是语音转写,从文字到声音是语音合成。科大讯飞深耕智能语音业务多年,目前在语音撰写上,已经可以达到97%的识别率和准确度,经过测试,的确已经超过了人类速记员的速度和准确度。但是从细节来看,通过大数据和人工智能实现的语音转写替代简单的人工转写是没有问题的,但是在某些具有专业性特点的场合,语音转写从目前来看,还只能作为一项办公的工具来存在。”科大讯飞相关负责人表示。
简单来说,具体到速记行业,机器想通过自身的技术升级替换掉速记行业金字塔顶端的10%-20%的人是非常不容易的,因为他们不仅可以记录,他们还有思想有灵性,可以在记录的同时对文字内容进行润色修改等,所以说速记员并不会因为机器转写的出现就完全失业的。
97%识别率 国内科技企业的实力与极限值得注意的是,97%的识别率,正代表着目前国内科技企业在语音识别技术上的实力。
有趣的是,2016年的11月21日至23日,搜狗、百度和科大讯飞三家公司接连召开了三场关于语音识别最新进展的发布会。其中搜狗语音团队在2016年 11 月 21 日推出了自己的语音实时翻译技术,包括语音识别和机器翻译,此外据搜狗给出的预测数据,搜狗语音识别的准确率达到了 97%,支持最快 400 字每秒的听写。百度则在2016年 11 月22 日宣布向用户和开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术,并表示百度语音的识别准确率达到了 97%。2016年11 月 23 日的科大讯飞年度发布会上,科大讯飞轮值总裁胡郁表示科大讯飞的语音输入识别成功率也达到了 97%,即使是离线识别准确率也达到了 95%。
大家的语音识别准确率齐齐达到97%,不少业内人士开始质疑,这是否也意味着97%同时也代表着某种技术发展瓶颈?
对此,科大讯飞相关负责人告诉北京晨报记者,对于97%来说,剩下的3%,则需要克服口音、方言、发音习惯、环境噪音等问题,所以无论是深度神经网络技术还是大数据的支持,都不能使当前的语音识别率达到100%准确,97%可以说是目前的极限。想继续提升准确率就需要技术巨大的突破,一般说来,新技术提升准确率30%以上才能降低1%的错误率。
未来可期 人机语音交互的普及仍需时日有数据显示,预计到2020年,全球语音识别的市场规模将从2015年的61.9亿美元增长到200亿美元,可以说语音识别未来的市场发展十分有看头。
但是对于大众消费者来说,大家更关心人机语音交互普及的时代要等到何时才来?
百度首席科学家、深度学习研究院院长吴恩达曾在IT领袖峰会上表示,当识别准确率达到99%的时候将会产生质变,彻底改变人和设备之间的交互方式。
搜狗语音负责人王砚峰则在公开发言中表示什么时候能爆发主要取决于:一、车联网以及智能家居等产业的进一步成熟,能给用户带来真正的价值,让用户在这些产品上产生切实的消费,而不是玩一下就扔,这样产业和产品的需求就会进一步倒逼技术的进步;二、语音的鲁棒性的问题需要进一步解决,比如远场,噪声,多说话人等问题,当然这个过程是一个渐进式的;三,自然语言的理解能力也要有更大的提升,机器更加懂得用户的意图,才能给用户带来更加稳定的体验,产品才真正的可用。

共有条评论 网友评论