24小时服务热线
400-880-1805
智能语音技术与分类
智能语音技术是实现人机语言的通信,包括ASR(Automatic Speech Recognition 语音识别技术)和TTS(Text To Speech 语音合成技术)。
两大核心技术
语音识别技术
定义:指让计算机能接受、识别、理解人的言语信息,将语音信息自动转换成相应文本信息或命令的技术,实现人机交互的输入;比如我们在日常生活用到的微信语音转文字,以及输入法的转文字等,都是运用了语音识别技术。
语音合成技术
定义:指让计算机能像人一样能够说话,将文本信息自动转换成言语信息,实现人机交互输出的一种技术;比如我们使用百度地图时,系统将所要去的地点搜索出来后,以语音播报的形式进行导航,就是用到的语音合成技术。
智能语音技术的发展阶段和发展前景
发展阶段
1、萌芽(1950s—1980s)
1952年,第一个语音识别系统Audry诞生。
2、 起步期(1980s—2011年)
计算机第一次开口说话,IBM(国际商业机器公司)发布的语音识别系统在5000个词汇量级上达到了95%的识别率,语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展;DNN(Deep Neural Networks 深度网络神经)的出现使语音识别错误率第一次大幅度降低(接近90%);1988年,世界上首个非特定人大词汇量连续语音识别系统SPHINX诞生;1997年,语音听写产品问世;1998年,成功开发出可识别上海话、广东话和四川话等地方口音的语音识别系统;2002年,美国首先启动“全球自主语言开发”项目;2009年,微软Win7集成语音功能。
3、变革发展期(2011年—2016年)
机器语言识别准确率第一次达到人类水平(95%);2011年,苹果个人手机助理Siri诞生;2015年,首个可智能打断纠正的语音技术问世。
4、落地可用期(2016年至今)
准确率可达98%,可根据实际应用痛点针对性优化;2017年,智能语音系统集中扩展深度学习应用技术取得突破性进展,2018年至今:在5G快速发展的背景下,高带宽和低时延特性使多模态识别开始普及,未来支持多模态识别的AI芯片、支持多模态识别的物联网操作系统以及AI算法将运用到智能语音技术,将进一步提高准确率。
发展前景
现在,我国的智能语音识别技术已经进入到一个瓶颈期,环境中的噪声干扰问题,方言识别问题以及容错率问题都不能得到很好地解决,限制了语音识别技术的向前发展。而且智能语音识别技术在未来智能设备的发展中有着巨大的市场,能够吸引更多的商业巨头来加入。目前,国内的互联网巨头都在进军语音市场,比如百度的小度语音助手、小米的小爱音箱等都陆续问世。
智能语音技术的应用领域
智能家居
现代家具比如灯,空调,电视,门锁等大多数家具包含智能系统,例如可以利用智能语音进行开锁,省去钥匙解锁的麻烦,再比如可以利用语音打开窗帘或者设置热水器的度数;以及包括疫情期间,为了防止人们之间的接触,出现了智能语音电梯,通过语音识别即可达到想要去的楼层。
智能车载
驾驶员可以直接告诉智能车载设备所要到达的地方,车载系统就会利用语音合成技术将最优化路线告诉驾驶员,不仅提高效率,而且还增加了安全系数。
智能客服
手机目前多数自带智能客服,你可以跟它直接对话,表达你要解决的问题,它会识别出你的需求,回答你的问题。
智能教育
其中有口语测评,可根据学生发音的完整性、语法、语义等得出综合评分,也可纠正学生的发音情况;近年来北京、上海、广州、深圳、重庆、江苏等省市的中考,陆续启用了英语听说机考,以及从2021年起,北京市高考英语增加口语考试,采取机考的方式,这正是智能语音技术在教育中运用的体现;
此次还包括虚拟助教,为学生答疑、提醒等功能,这些工作多为简单重复的脑力工作,比如在美国乔治亚理工的交互计算学院有一门网络课程,这个虚拟助教以97%的确定性,回答了学生们的问题,以至于学生一直以为这个助教Jill Waston是真实的人类。
智能医疗
智能语音系统可以直接将患者的语音转化为病例,大大节省了医生手写病例的时间,提高了效率,也可以为医患纠纷提供佐证。
智能语音技术所面临的问题
(1) 环境中的噪声干扰
语音的信号多种多样,而且在一些嘈杂的环境中,语音很难被识别,目前所公布的语音识别准确率为 97% 这只是在室内环境相对安静的情况下才可以达到,实际中这样安静的情况很少存在,而且现在仍然没有一个行之有效的方法来解决环境中的噪音干扰。
(2) 不标准的语音识别率比较低
智能语音识别技术在机器学习的推动之下进步了许多,但是仍然存在一些不足。目前的语音识别技术大都针对的普通话用户,对于掺杂着方言的语音识别起来可能会比较困难。但是,现在很多人的普通话都不是很标准,多多少少会掺杂一些地方口音,这就使得语音识别软件在识别时会出现差错,与预期的结果不一致。
(3) 容错率的处理
由于语音的发布者有时会说错字,这就会使得软件在识别时无法正确识别其语义,最终使得准确率受到影响,这时需要进行手动修改或者重新输入语音。现在,一些企业也正在研发将不通顺的语句理解过来的语音识别软件。