info@icroute.com
第 页
2
简介:...................................................................................................................... 3
一、 在识别精度要求高的场景中,使用“触发识
别”模式................................................................................................................ 3
二、 增添“垃圾关键词语”——吸收错误识别........ 3
三、 口令触发模式................................................................................ 4
四、 巧妙运用关键词语的 ID ...................................................... 5
五、 工作电压............................................................................................ 5
六、 用拼音标注外文或者方言.................................................. 5
七、 对于同一关键词 ID 设置多个习惯发音 ................ 6
八、 调节语音结束后得到识别结果的反应时间........ 6
九、 麦克风,相关寄存器设置与识别效果和距离.. 7
十、 语音识别用户使用模式详析............................................ 9
info@icroute.com
第 页
3
简介:
基于语音识别芯片 LD3320 开发产品,可参考《LD3320 开发手册》。为了
提高终端用户对于语音识别的主观体验,本文总结了一些高阶的方法和窍门,
集结成文,与大家共享。
本文档会不定期更新,及时汇总实战中的经验。敬请期待。
一、 在识别精度要求高的场景中,使用“触发识
别”模式
关于 LD3320 的 两 种 使 用 模 式 , 可 以 参 考 网 站 介 绍 :
http://www.icroute.com/web_cn/LD332X_UserModel.html 。
在识别精度要求高的场景中,应该采用“触发识别”模式。原因是:
1) 用户在每次按热键后,精神处于最集中的状态,此时用户说的语音
命令会比较认真,清晰。避免了用户过于随意的发音导致的识别误
差。
2) 每次按热键后,产品应该给以一个明显的开始信号,比如发出
“当”的一声或者其他提示信号,可以给用户一个明确开始的提
示,方便用户掌握说语音命令的时间。
3) 由于按键触发后,用户就会贴近麦克风并说出语音命令,避免了其
他环境声音被录入 LD3320 芯片导致的误识别。
另:这种方式还是一种省电的方式,在不识别时,彻底不让芯片工作以省电。
二、 增添“垃圾关键词语”——吸收错误识别
在设定好要识别的关键词语后,为了进一步降低误识别率,可以再添加一
些其他的任意词汇进识别列表,用来吸收错误识别,从而达到降低误识别率的
目的。
可以把这些关键词语称之为“垃圾关键词语”。
比如,某个应用场景中,需要识别的关键词语是 4 条,“前进”,“后
退”,“开门”,“关门”。在把这 4 个关键词语设置进 LD3320 后,可以再另
外设置 10~30 个词语进 LD3320,比如“前门”,“后门”,“阿阿阿”,“呜
呜”等等。
info@icroute.com
第 页
4
只有识别结果是 4 个关键词语之内的,才认为识别有效。如果识别结果是
“垃圾关键词语”,则说明是其他的声音导致的误识别,产品应该重新开始一
次识别过程。
这样,可以非常非常有效地降低误识别率。极大地提高终端用户的主观使
用体验。
“垃圾关键词语”的选取,最好可以选择一些字数和关键词语一样的词
语,用来吸收可能发生的错误识别。
需要说明的是:这一方法,即可以应用在“触发识别”模式中,也可以应
用在“循环识别”模式中。
这样作的原理如下:
非特定人语音识别技术 ASR,是一个基于关键词语列表的匹配识别技术,
算法本质是在提取输入声音的特征后,在关键词语列表中寻找一个相似度最高
的 词 语 作 为 识 别 结 果 。
(http://www.icroute.com/web_cn/LD332X_principle.html )
因此,任何的声音输入进语音识别芯片,都会去和关键词语列表中的词语
进行匹配对比,并且也都会依次打分。这样,其他人在随意聊天,或者任意说
一个不在关键词语列表中的命令,或者是其他毫无联系的说话声音,都可能会
匹配到某一个关键词语并作为结果输出。从而造成误识别。
虽然算法设计中有一定的算法来避免出现这样的误识别,但还是不可完全
避免。产品开发者可以在芯片外部针对性的处理以降低误识别率。本节提供的
方法,是非常有效的一种方法,在实际应用中具有非常重要的地位。
三、 口令触发模式
在一些应用场合,希望识别精度高,但是又无法要求用户每次都用手按键
来“触发识别”。此时,可以采用“口令触发模式”。
产品定义一句短语,作为触发口令。比如,可以定义“芝麻开门”作为触
发口令。
产品在等待用户触发时,启动一个“循环识别”模式,把触发口令“芝麻
开门”和其他几十个用来吸收错误的词汇设置进 LD3320。只有当检测到识别出
的结果是触发口令时,才认为是终端用户叫了这个口令。此时,给出提示音,
并启动一个“触发识别模式”,并且把相应的识别列表设置进 LD3320,提示用
户在提示音后几秒钟内说出要执行的操作。
在等待用户的过程时,如果识别的结果是那些用来吸收错误的词汇,则认
为是误识别,或者其他的声音干扰,而不进行任何的处理,直接再次进入“循
环识别”模式。
这种口令触发模式,融合了其他两种模式的优点,并且结合第二节提到的
“垃圾关键词语”的方法,可以为产品提供更加方便实用的语音操作特性。