找回密码
 注册
关于网站域名变更的通知
查看: 572|回复: 1
打印 上一主题 下一主题

离线语音识别芯片技术及对比

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2020-10-20 13:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    离线语音识别芯片对比# D- f' p5 `3 V6 v9 H. p

    & g0 y: Z8 M: E" F5 P% e前言( \& G5 {/ N6 I
    % g8 \1 F5 l+ H* P
    本文关注的重点是语音识别的硬件载体:语音识别芯片,特别是离线语音识别芯片。* {7 r, E0 H% s. D# M5 {8 Z, ]1 f

    - G/ p1 q9 d; o7 l9 A一、 语音识别技术的原理5 p6 U% w3 ?% e
    ) }2 q! d2 E. u8 [- l: L9 e
    定义:语音识别技术(ASR Automatic SpeechRecognition),让智能设备听懂人类的语音。语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。) n: D( @8 _" o2 T5 Y. v' M

    4 m) O7 E% @8 c1.前端处理( ?) A) h1 k% n+ K1 ]( I* F

    , w1 z! w7 d4 I2 l( y% w6 L前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。前端处理关联硬件:麦克风、Codec/ADC、PDM\I2S、音频处理能力(NPU或DSP)以下是前端处理的流程原理简化:4 R  ~, Y5 ~7 V3 X/ i% i( g
    8 P: ?; d; _% M* I/ G
    语音声波转模拟电信号:麦克风分柱极体和硅麦两种,硅麦又分为模拟和数字。1 d' z( |/ x, [2 N/ W* I# f9 n' w
    & s6 G1 ~" [3 g" ^: y
    预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等。
    4 G- ]8 J2 `1 W3 ?/ M! W5 d' o
    . I/ F' d. A! d0 ?' k! p& |特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点。3 ]+ }/ J) m2 I: \  C9 I) v

    8 v- X+ a5 \$ o+ N: d" ~/ z2.模型训练8 V0 F' p+ K' s8 N  w4 h8 d
    9 y3 |/ A$ e! P  N, n
    模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词。
    " s6 C, k6 j/ o/ G+ J3 p" [# |% q, P5 I8 b% \- V" G
    那模板怎么来的呢?这需要通过预先大量地采集语音和语言信息(通常叫语料收集),并通过特定的算法跳出最典型的语音特征值。这就叫做“模板训练”,编辑一本字典出来。语音识别系统的模型训练通常分为两套:
    ) H8 Q, F, I2 d6 w2 s4 ~6 N3 r) T3 g6 n, M' k7 H3 W/ }
    语言模型训练:语言模型是用来计算一个句子出现概率的概率模型,是语音识别中的”字典”它需要综合三个层次的知识:字典,语法,句法,让机器能更好理解人类的自然语言。7 _# N" m2 ~( W; Y. P

    ! U/ M; m+ a0 F* M4 z5 G声学模型训练:声学模型是识别系统的底层模型,是语音识别系统中最关键的部分,算法主要集中优化该部分声学模型是通过大量的语音收集,并根据特定的算法规则获得特征值,用于后面的识别比对。互联网巨头,拥有大量的用户基数和语音收集渠道,相对于传统公司有优势。
    9 P. @* G0 j* i1 W- o4 Y9 `% @9 K, H. U0 i$ r3 U
    3.后端识别处理(语音解码)' \6 M, l  S2 E0 p" W* U8 C1 K

    ) n/ r. F* S" }$ N) {指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别,并输出识别结果。该步骤跟模型建立有深度关联,有时将”模型建立”归类到后端识别处理中,与前端处理对应。
    3 q2 X/ F- \$ d/ T% Y
      J  V& n& d- s  ]: s识别准确率和响应速度,通常取决于主控运算速度,以及前端处理和模型的综合表现。0 p$ c0 p' L! e3 b) \" N$ q8 U) z
    # l5 R; p1 n( E" A, o3 S
    以下是详细语音识别技术的原理分支整理:
    . {$ r7 Y% L" s+ y. S# E6 k
    4 ~/ r3 T; }6 j& d0 B6 P6 D# p& i二、语音识别技术的发展史% @) k5 B1 x. M% m+ O9 D1 i0 |

    3 O6 i$ n$ f6 H6 k: L$ n% L鉴于语音识别芯片,是与算法有着高度关联。所以以下简单探讨了语音识别技术的发展史。" p1 t2 @5 \9 b- e
    + x, j! t0 c6 l7 x6 q
    语音识别技术的核心和发展,主要在声学模型的建模(训练)的领域上,可以分为三个阶段:
    2 H' Z* N' ?" o; n! L
    ) e% U! _& K; K& m  }! @/ S9 k第一阶段 模型匹配法 / 语音标签(70年代)$ R4 M, I* F. j+ H

    1 Z& w1 E. P3 d. w主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配
    6 k* ~' u6 m8 {6 i& Z( K, @" P; `; e' \( l4 D
    模板匹配:测试语音与参考语音 分别进行特征值提取后,直接整段比对吻合度。
    7 H% A  ?* Y( r% _* c2 m8 M8 N4 X) {
    主流算法:动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)。
    - u  Q0 a  V8 |* R$ L
    * }4 c" i* `8 p, W1 h2 U$ X5 \技术局限:同个人感冒就识别不了,匹配方法原始,命令词多了识别效率很慢。第二阶段:概率统计型(1993年~2009年)
    % Y2 W. _: Q$ R9 z8 y6 j+ G
    . Y% g# Y5 x8 _部分厂家称为非特定人语音识别,准确来说是概率统计型,主流的技术是GMM+HMM。
    + L( W! B+ Y# X' \5 M7 t3 N2 B2 _4 l3 {6 j* a. P
    HMM模型将语音转换文本的过程中,增加了两个转换单位:音素和状态GMM 是将状态的特征分部,用概率模型来表述,提升语音帧到状态的准确率。
    4 f# h3 ^; r4 Q% u) y! ^: i* |( s/ a8 f1 h: G' A# q* [
    基于GMM-HMM框架,后续又提出了许多改进方法:动态贝叶斯方法、区分性训练方法自适应训练方法、HMM/NN混合模型方法等 GMM+HMM模型,在大词汇量的语音识别情况下,识别准确率和效率均比较c差。% V' O$ N: q, X
    3 f; O! @* N! }+ }
    第三阶段:辨别器分类方法(2009年至今), v% R7 ]9 I0 ^1 o# C, O) |

    : l7 |' {2 }. W# p+ [0 l, w常被成为深度神经网络识别,是当下最主流语音识别技术类型,包括:
    " e3 g* j, s: c2 S# F: i4 @+ H5 M. Q5 S1 P" }% q5 ]6 m
    1、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)。, a, n$ M  p: K/ I! e* s3 _
    , }' `8 U. c. A$ s" `( F* B- O& A
    2、递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加。3、卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少硬件资源浪费。  `6 w, c3 \* S, N+ f

    % G8 S. U8 {/ I' P  c下一代语音识别技术:端到端CTC?
    2 t& l) I$ I) y' C' }& E* |4 \1 f8 v
    不再需要HMM来描述音素内部状态的变化,而将语音识别的所有模块统一成神经网络模型。国内大厂的技术选择:科大讯飞–深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN、  [4 f$ I# d- j2 C

    ' D4 U& ]  \% c1 P4 O百度SMLTA、Kaldi。
    + q# D/ R2 g9 ?8 F! R4 D* F! L6 T! W& n
    三、语音识别芯片的比对0 ^4 Z6 w* D& p3 p8 f" S) k3 X! F
    " P- L$ W4 T. p- U3 b3 `' r
    按照语音识别的市场应用的发展方向,我们可以将语音识别芯片分为两大类:
    6 y* n1 c6 U0 |
    0 V& V8 n' a: O! i- N; Y在线语音识别:即大词汇量连续语音识别系统$ [/ A3 s9 ~, p( f* y8 Q

    % U3 B1 Z7 R5 A, S典型应用:在线翻译、智能客服、大数据分析、服务机器人等。7 R3 S) k9 `3 y+ M: ^8 P$ ]
    / E3 Q4 I% Q" _& m# Y* r) B
    离线语音识别:即小词汇量、低功耗、低成本的语音识别系统。
    % i" F+ j( S7 c6 [1 y# H1 [/ i  n
    2 [% S- S; f: p典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等。离线和在线的区别在于:语音识别的工作是放在本地设备端还是云端服务器。
    ! y- w, i4 S3 g) a) ?" z( S, w% l2 Q6 K8 X2 p( M
    在线语音识别芯片:
    . u0 d( P  v/ b+ z- a* Z' m( b" D5 Q+ s+ w- `
    在线语音芯片只做前端语音处理,后端识别处理都放在云端服务器,所以才称为在线。在线语音识别芯片,严格来说定义也不大对了,它更像个”万精油”型的芯片。芯片配置强大的CPU、大容量存储、完整的音视频和通讯接口,甚至会内置PMU、WiFi、PHY等功能。它可以被应用于语音识别,也可以应用于其他多媒体的处理,是个万精油型的主控芯片。所以该类别的厂商,通常都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。/ l8 c, B' B2 g' Z& [: E+ m- U; _

    ) t3 F/ q! F7 l4 o7 X( G该类芯片包括:士兰微和阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的应用就是智能音箱。
    7 t( \) U9 g# h0 U7 H8 @" C8 \2 F2 r
    离线语音识别芯片
    9 _0 B7 E+ D3 v" q& A4 j) C9 V! ]
    根据前两个篇章的内容,结合公司背景等因素,我将语音识别芯片分类如下:
    # @- U, k- x- X( j1 h- x5 O
    ' _; O$ e; D: m; l芯片比对参数说明:; E6 }. l0 C& \: r4 J1 X* c7 O* i/ a* H: w
    + j7 d& O, o/ r' E
    识别距离&识别率:属于芯片的两个重要显性指标,与消费者的体验直接相关,但由于每家厂商测试的前提条件各自不同,也跟芯片的市场定位有关,所以并非绝对指标。
    ) \8 C2 U3 V! H0 r2 [8 j* q# p+ o5 Y
    处理器:分为mcu和Audio Core,前者偏芯片与周边期间协同合作的控制器,后者偏处理音频信号和跑识别算法,后者相对于前者更重要些,是直接决定芯片的语音识别的响应速度和准确率的重要因素。
    7 @8 o& W' i) [; t, H7 ~: H& s# C: N$ J
    存储:硬件存储决定了处理器可调用的资源大小,也决定了识别词条数量
    4 b$ W" _7 I- U- r9 {+ J! w# E# x0 u2 K$ f
    语音算法:分前端信号处理算法(降噪\波束成形\回应消除\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这个是偏软的参数
    & R+ q) }$ o' H4 G, u8 S3 o* A: ^4 K- J! p8 i' _
    音频通道&外设接口: 芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要,单独提列出来。音频输入分模拟输入(ADC)和数字输入(PDM),音频输出通常是DAC。. L8 d5 f7 S* \5 \( `( Z
    ) K# z0 K$ D# T4 x. X" o. s
    电源功耗:功耗不能直接比对大小,而是要比能耗比,即同样性能下的功耗对比。
    ; @. m+ k" g5 {6 z7 o0 `* S, h$ q+ P4 ?) m7 b) T& w
    其他因素:工作温度、封装等,以及特殊备注。以上参数,除了通用的硬件参数,其余的各家定义也略微有些不同,不能单独对比。
    3 o' w$ l3 [' @8 L6 |0 W- `) w. e/ B% a
    1.0&2.0时代:传统型
    3 f4 ^: J9 F- d& V1 z, H( m! m
    2 J: x4 R) ^4 L. D% o& e算法模型主流是GMM+HMM,或者模型匹配(语音标签)的。而且,由于芯片配置简单,不具备降噪等功能,识别距离在25m,识别率通常在90%左右。词条数510条。
    8 z: t2 H! s: L* e  y( L- p& j/ W3 m: a* H& C& b7 m. S5 d
    每家的芯片有基本的ASR功能,但各自都有”性能短板”:不带主控、不带存储、语音指令和算法外挂、OTP固定词条、性能低端、接口单一等等,这些短板,都是为了降低成本,在低端市场需要有成本优势。% C; p  X# h2 D+ w/ n+ k4 H
    2 i# @7 L9 v% v1 |/ n  C8 N
    厂商分析:台湾 新塘、凌阳' b8 I- V, K+ H) C3 W7 G. r0 |( D2 ^

    - R* o2 p4 i4 H台湾系早几年前曾是离线语音识别领域最活跃的,包括芯片厂新塘和凌阳,以及台湾赛维这类算法公司。本人就曾推广过新塘ISD9160,当时在家电领域应用挺多,但因识别率差等原因,消费市场反馈差,需求下滑很快。+ {9 d9 g# {8 y; P
    8 `* C0 k& k! a2 _+ f
    都是曾经非常通用的语音识别芯片,有现成的动态指令库,开发简单好用。
    ' u  a# |5 k2 O# z8 w( c$ ?8 W3 v* V; m0 S$ H, V3 a- ?* `: D6 \
    ICRoute 上海音航
    4 B2 j* y5 i# \$ m
    + ^/ p2 _7 T5 Y7 _7 }根据以上表格,这家公司的LD3320除了没有MCU,其余语音识别功能都比较完整,所以识别率达到95%和命令词50条。再看其官网的开发资源和技术介绍非常完整,也有方便用户定制指令的软件工具。如果不考虑价格,个人感觉他们家在传统型中,应该算是最棒的。
    * d" C( e' y* s3 l
    & }5 x5 w/ ^& W. j- a4 u; X另外,该公司的大股东孙放,也是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。果然,大佬们都盯着未来AI人机的两大入口:视觉 & 语音识别。
    , d* p' y- y$ T: I
    6 v7 _2 C4 |6 v; s除了语音识别,都有做语音芯片(常见于儿童玩具),在网上很活跃,成本应该很低。2 J+ a! z1 D% f  A8 V0 v" y7 m- p
      W: `0 u- h2 j5 Y* H* l$ T
    同类的还有深圳盛矽和深圳捷通等,都是集中在广东区域啊,广东的汕头澄海盛产的玩具产品等可是遍及全球呢,产业的发达果然是能带动起周边相关行业的发展啊。
    & f( K8 M2 K! s  ~! Y$ \# ^- m% H4 Z9 J
    3.0时代:互联网型# O+ F  W! P+ G1 ~% Q7 ^* u
    - V$ ?& N5 y& i9 M0 v; U- z
    互联网公司最近几年纷纷活跃于互联网行业之外,寻找新的增长点或加深企业护城河纵深。语音识别和视觉识别作为人机交互两大入口,自然也就得到互联网企业的青睐。但互联网公司自身没有芯片设计能力,往往需要借助外力,战略合作和\收购控股\购买成熟IP等是常见手段。! f0 Q1 G0 Q/ t; M
    # o6 r& K% x! T( Y! W
    互联网公司推出的语音识别芯片,纷纷专注于用上高配置的DSP(功耗自然不低),而且拥有丰富的外设接口,芯片可以实现离在线一体化的功能。主要技术特点侧重于后端识别算法,但前端信号处理能力也不弱。
    6 o. g, H4 I9 O  C' V9 ?1 s6 t8 L; |* q7 B7 }- h( F' l8 i
    互联网型还有个广为人知的特点,以低价杀穿市场,快速获取用户增长。这个我们看在近年来互联网行业大规模烧钱竞争即可知。只是我个人觉得,所谓的互联网思维对于需要长周期精耕细作的芯片行业来说,是否利大于弊还是搞乱一锅粥大家都挨饿?0 ^  T9 @- }( Y0 o% S& S& i
    - q8 Y8 w: T* m" c
    厂商分析:" t% q- Q+ u3 _+ d
    互联网巨头:阿里巴巴和百度
    . D+ L/ }5 S. p' @0 Y' L% H
    , o; a4 V0 ~% }+ H# g两家互联网巨头本身都有各自成功的智能音箱产品:天猫精灵和小度,各自也分别选择多家芯片原厂合作推出在线和离线芯片,实现自产自销。阿里平头哥 将IP卖给合作公司,百度则是购买Candence HiFi4 IP(话说这个IP最近看了至少有三家在用或即将用)
    7 n  E( i6 F) D6 V6 F, Q  w& ?) V& G% g0 B  I% B& K- I
    在线语音识别巨头:讯飞、思必驰、云之声
    & V" @# T0 l0 v' d
    0 r4 J$ d) D9 w! m三家在线语音识别巨头,纷纷从云端幕后往前台站出来,将已有的语音识别算法技术优势,进一步下沉到端侧的离线语音识别芯片,打通线上和线下。三家各自市场侧重点都不同,讯飞侧重教育行业、思必驰侧重车载行业、云之声侧重家电行业,当然这个划分也非绝对,各自肯定有交叉竞争关系。% A9 e" D: k( j" m) e& L, A2 F9 m
    ) w6 t/ Q; o$ A
    语音算法公司:互问、华镇2 F4 ^, H5 Z6 ^9 z
    # y' y7 @% V1 H: A. l
    相比讯飞等三家,互问和华镇的技术更”硬”一些,技术也更偏硬件侧。两家各自都找第三方芯片公司,合作推出自家命名的芯片产品。3.0时代:纯芯片型1 o1 q4 ]) _( U( `: `
    4 C; t# b( U: }
    纯芯片型大部分属于初创新公司,拥有完整得芯片设计到算法开发的能力,相比于传统型,纯芯片型算法技术更优;相比于互联网型,纯芯片型更专注芯片硬件技术。' r  U& Q& Z0 d+ q2 N, U. Q

    0 n) e, a9 e/ @9 b4 K& Y/ D芯片语音处理核心,多为专用的NPU。同等资源下,NPU算力和能耗比远高于通用DSP。而且该类芯片多具有强大的前端信号处理能力,能真正做到降噪\原唱识别等功能。加上不断优化的声学算法模型和语料定制,识别率通常在95%以上。: q, T- \* y4 o: O
    ! ?/ n) W3 e8 O  M
    # {4 r4 _1 y1 A  d0 q$ p; B* Q
    市场角度看,语音识别市场当前还远不成气候,仍然属于比较前言的领域。无论是纯芯片型还是互联网型,各自没有真正意义上你死我活的竞争关系,因为与其争夺现有的小饼干,还不如一起拱成大蛋糕分而食之。增量市场阶段,合作共赢更符合各自利益。: I3 N8 m! s) }- c
    5 [* Q- @5 ~3 x! R8 F5 ~; W
    产品角度看,语音识别技术仍然有很大的技术进步空间,实际消费者的体验也有待优化,包括像自然语言、非连续性回音消除、端到端技术应用等。也有人说,语音识别芯片加上无线通讯技术,实现离在线一体,兼顾响应速度和识别灵活度。' Q# r% Z4 e  J9 j% B0 e

    ) f+ j( Q8 m6 D8 A6 {* V! ^产业链角度看,从我整理的国内射频芯片原厂开始,到这篇语音识别,知名的厂商都更多集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系(华强北),但芯片制造等产业配套是比不了北上。而且半导体本身属于长周期的投入,可能也不能兼容快节奏的深圳?5 i9 a7 o, k. b- [  z/ @

    3 h, c& x3 v' s! i7 k& d) Y3 T离线语音识别模块:可直接用于空调、冰箱、洗衣机、油烟机、饮水机、风扇等。! r; Y; e2 r1 m2 _5 W

      B) K: e) u& G: q* Y1 Y特点:1、长距离和高噪音下的高识别率;2、超高性价比,绝对不玩高大上9 s1 k2 V* v# [$ D9 m) t

    6 O. I% }. [  g) W
  • TA的每日心情
    开心
    2020-8-28 15:14
  • 签到天数: 2 天

    [LV.1]初来乍到

    2#
    发表于 2020-10-20 14:26 | 只看该作者
    语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-6-20 10:32 , Processed in 0.078125 second(s), 23 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表