语音识别LD3320

时间：2019-07-23 00:09:14 阅读：479 评论：0 收藏：0 [点我收藏+]

标签：编辑输出用户电话实现技术限制 flash alt

一、概述

1.芯片介绍

LD3320 是一颗基于非特定人语音识（SI-ASR：Speaker-Independent Automatic Speech Recognition）技术的语音识/声控芯片。提供了真正的单芯片语音识解决方案。

LD3320 芯片上集成了高精度的 A/D 和 D/A 接口，不再需要外接辅助的 Flash 和 RAM，即可以实现语音识/声控/人机对话功能。并且，识的关键词语列表是可以动态编辑的。

基于 LD3320，可以在任何的电子产品中，甚至包括最简单的 51 作为主控芯片的系统中，轻松实现语音识/声控/人机对话功能。为所有的电子产品增加 VUI（Voice User Interface）语音用户操作界面。

2.语音识别介绍

语音识 ASR 技术，是基于关键词语列表识的技术。只需要设定好要识别的关键词语列表，并把这些关键词语以字符的形式传送到 LD3320 内部，就可以对用户说出的关键词语进行识别。不需要用户作任何地录音训练。

ASR 技术最重要的现实意义就在于提供了一种脱离按键，键盘，鼠标的基于语音的用户界面 VUI：Voice User Interface

每次识的过程，就是把用户说出的语音内容，通过频谱转换为语音特征，和这个关键词语列表中的条目进行一一匹配，最优匹配的一条作为识结果。比如在手机的应用中，这个关键词语列表的内容就是电话本中的人名/手机的菜单命令/T 卡中的歌曲名字。不论这个列表的条目内容是什么，只需要用户设置相关的寄存器，就可以把相应的待识条目内容以字符形式传递给识引擎。
LD3320 可以识列表中的关键词，用户说的语音可以是这个列表中任意的关键词语，而且不需要用户在识前进行任何训练。识引擎不关心关键词语列表中的关键词语的内容，可以是命令，人名，歌曲名字，操作指令等等任何的汉字字符串。每条关键词语最大可以支持的字数，从算法角度是限制在 30 字以内。但是从实际情况来看，用户一口气说超过 8 个字以上的条目时，几乎肯定会出现说错字/说漏字/说多字/打嗝/停顿等情况，这些情况都会严重影响识并造成识错误。因而一般来说，如果要获得理想的识效果，建议每条关键词语的字数不要过长，避免影响效果。

3.技术参数

技术图片