您的位置:首页 > 其它

能力介绍——ASR语音识别/TTS合成

2020-08-13 23:05 417 查看

ASR(自动语音识别)就是将麦克风采集到的自然声音转化为文字的过程,相当于人的耳朵+大脑(一部分)。

TTS技术(语音合成)是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。TTS的技术实现方法,主要有2种:“拼接法”和“参数法”。

下图是机器识别人类的语音输入(亦即ASR)的

原理和过程:

第一步

建立声学模型

对于同一个单词或汉字,由于不同人的发音、语调、语速等各不相同,比如男人和女人的、大人和小孩的,为了让机器能够识别尽量多的人,声学模型建立过程需要录入大量的原始用户声音,以从中提取特征建立声学模型数据库。大数据在这一步中的重要性体现了出来,可以说谁掌握了数据、谁就成功了一半。

第二步

建立语音模型

和声学模型的建立过程及面临的问题类似,只是这一步针对的是文本而不是声音。语言模型可以调整声学模型所得到的不合逻辑的字词,使识别结果变得正确通顺。

第三步

语音识别

前面两步都是需要预先做好的,最终形成的数据库存储在设备本地或云端,而这一步是实时的语音识别过程。首先,将用户的语音输入进行编码和特征提取( 已被拆分成N份,合在一起才是一个汉字或单词),将提取到的特征拿到声学模型库(第一步中介绍的)中去查询,得到单个的单词或汉字;然后再拿到语言模型库(第二步中介绍的)中去查询,得到最匹配的单词或汉字。

信动联ASR应用场景

语音指令:通过语音命令控制智能设备,实现快捷便利的操作。可以集成到包括智能家居等设备中。

语音搜索:支持各种场景下的语音搜索,比如地图导航浏览器搜索等。可以集成到任何形式的手机应用中,最大限度的解放双手。

语音短信息:通过语音发送来接收短消息。在不方便打字的情况下实现便捷的短信操作,比如音频短信转文字。

智能客服:提供多场景的智能客服语音合成能力。提高解答效率,提升客户满意度,降低呼叫中心人工成本。

信动联ASR/TTS能力优势

集成多家引擎:信动联ASR接口同时集成了讯飞、阿里、百度的ASR能力引擎,同时触发处理,三者选最优,保证实时效果。

独创模型:优化能够结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效。

识别速度保证:结合LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,保证智能交互的反应速度。

多领域覆盖:在房地产、车载、导航、金融、银行、保险、证券、运营商、物流、教育等众多领域积累了大量的词库和谐音库,结果更为准确。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: