找回密码
 注册

扫一扫,访问微社区

EDA365大咖直播--《EDA软件互转的疑难杂症 第二期》
查看: 41|回复: 0

除了秒天秒地的配置,小米10背后的自研AI技术更值得关注

[复制链接]

该用户从未签到

发表于 2020-2-14 15:16 | 显示全部楼层 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
本帖最后由 fish1352 于 2020-2-14 15:20 编辑
' o: }9 U$ A  g6 K' H" p" ]
/ h+ N" w; U6 w9 d9 k, O/ b 2月13日,预热许久的小米10终于正式登场。由于肺炎疫情,这场发布会采用了纯线上直播的模式,但这丝毫不影响它极高的关注度。作为国内首款骁龙865旗舰,小米10实现了自我突破,带来了不少惊喜。
- l* p+ N4 G2 |8 w' f& @. b; x* U+ B+ B' Q  u4 F8 z
" `: H: B" D2 _! Z3 g
# g2 R- h3 Z2 |7 O; n$ f
除了骁龙865处理器、LPDDR5内存等亮眼的参数信息外,小米自研AI技术展现出的成果同样值得关注,它们已经渗透到小米产品上的各个角落,对相机、系统、语音等多个方面的使用体验都产生了深远的影响。
" F4 l7 S9 L) B! `  `( ?; W- p( Y! t% Y. R+ J$ K1 Q& b1 A
小米AI语音,变得更强了!$ h7 S& [; R! L) ~% g: T4 ~

+ S  ?$ \% m* m( U7 G. Z1 z9 |$ ^! d/ W 1、小米语音AI技术在快速普及
7 ]7 i& C; {% Q# e4 L, Z6 K+ \: L* B5 |/ V1 s% b  d3 I0 a
2017年7月的一场小米发布会上,小米AI音箱正式发布,小米开启了自研语音AI技术在市场上的试水。( W) j. i$ C  d& I7 y  Q

, s+ ^# r5 \6 H; t4 l1 l 短短两年多的时间,小米自研的语音AI技术已经渗透到各个类型的小米产品中,除了智能音箱,小米手机、小米电视、小爱老师等小米产品都配备了“小爱同学”。集成了小米语音智能助理的设备,通过语音这种新交互方式让产品使用起来更加便利。
) Y9 w$ q% T3 J! i& C0 R; ^) _7 M; ^, ]- t/ v! @
' x6 L; [; V3 w" f) L+ }
3 S% D0 W% ~) m* s8 @$ C/ e
语音交互解放了用户的双手,降低了学习成本、提升了用户体验,而且增强了产品的竞争力。1 ^- B$ t1 @  `5 U7 f+ {( I4 N3 Z

3 V! d9 r' t. } 2、小米10上的智能助理,更有看点1 l9 V; k: I. g7 K% Z' v9 V) ]2 [

1 A; d( V0 \: _" _2 X. j7 D2 C 目前来说,智能手机上的语音助手发出的语音都是人工合成的,基本不会提供个性化的服务,实际使用起来难免感觉机械和不自然,和真人发出的声音差距还是比较大的。
/ I1 K( j5 Y; L' @7 ]2 l- @( G: \2 Y7 m, Q2 x
而小米10上的一大惊喜就是配备了个性化语音合成服务。它采用了最新的合成技术,用户只需要在安静环境下录制少量的声音样本并上传,服务器进行识别、训练并建模后,就能获得定制化的AI语音助手了。7 v/ u5 T& r) M2 e1 a) G* Y; n/ d! a

3 {/ p2 s: P& ?: T

0 A* G; R, P8 O, `
& h- b2 @2 \  E. v# E- q 别人手机的语音助理发出的语音千篇一律,而小米手机上的小爱同学却能做到千人千音,感觉就像手机里有一个真人助理一样。# m+ W) o9 J8 c* a& f6 f

1 V, p7 ]8 s7 t
$ V; o, ~" A/ B% r
; v4 b  n6 {0 G4 [
3、AI语音技术上,小米展现了哪些功力?
1 e5 W+ ?. m7 j; O+ c5 ^0 g4 @
5 |4 A  c& ]( u# K" c( D. q 市面上主流语音合成技术有很多不足,具体表现为发出的语音过于机械,像机器人说话一样,还有就是在中英文混合语音中,双语切换的停顿节奏、过度感觉也不自然等。9 Z( Q9 `+ r7 ~3 t$ y% t

$ _7 ]& p0 R" P' q) D 小米10上的个性化语音合成服务,则瞄准了这些问题进行改进。具体来说,它的实现过程可以分为这么几步。
5 F, _' s# m' X; C- d8 l* a3 o/ q! E$ [( y& }$ a+ }- ?5 V0 ^) H
首先,用户要在安静的环境下录制目标声音;/ B' \& d, x3 d- ]3 x, A8 Y

+ r& L+ [, z) W" z& A 然后,系统会对采集到的声音信息进行降噪、检错等处理;
( R& V5 ^* S2 _1 _. ^
- r8 w! A2 B! F9 v 接着,处理完的目标声音会被提取特征;
7 c# a" u$ X6 O* \1 o
$ C, |# o! N# s, s, i 最后,小米云端服务器将收集到的信息进行在线模型训练、部署,生成语音合成引擎。1 ]+ f2 T. t2 `4 H- y; K& V

2 G  }% @* n2 P- r( Q: X
/ b- \% `. b5 b. R& _# O
+ j  j) D. V8 X1 c! }9 ?
这个技术过程看起来比较清晰,但存在很多难点。例如,它对目标声音的数据质量要求比较高,在线训练模型费时费力以及小数据量能否训练出满意的效果。
" V( W) p. Z8 ^4 J' [) F( Q1 h
不过,小米已经完美地解决了这些问题,模型训练耗时大大缩短,用户完成整个过程只要20-30分钟,此外,它的合成效果稳定,甚至没有英文语料的情况下,也能合成简单的英文语音。
. h+ q- i+ I* i5 y! s8 [* g! N) [! i" R2 P6 q
AI加持,小米10把相机玩出了新花样3 J7 d! \& k6 s5 c  t# a. h+ c% j* Z

9 X4 ^, d' M! C! {5 |1 n: A 相机方面的提升是小米10系列最重要的卖点之一,1亿像素、四颗后置镜头等都吸引了无数人的关注。除了硬件上疯狂堆料外,小米10的相机也展现出了软件算法上的功力。. o' ?3 t& ]3 \5 W8 T- h& t

4 g/ r; w) @. c 1、小米10换天更强了4 J4 i9 ^& E) G( o/ b

+ f+ j$ F, A2 I) [ 小米CC9的“一键换天”功能得到了很多用户的欢迎,照片拍好后,只需要在编辑选项中轻轻一点,就能把照片中的天空换成自己想要的效果,例如晴天、夕阳、暮光等。& h+ F  a% ~" s
+ Y6 E% e* k) k
9 w7 R/ d4 q" K5 O* q$ @) j# L

. k6 x4 H, H$ ]( d8 [ 这次小米10换天功能在之前的基础上,新增了雨天和雪天,更为强大。从小米的演示对比来看,它在和各类第三方APP PK中大获全胜,换天效果非常自然,基本能达到以假乱真的程度。
" `  R1 @; c; ^) m: ~/ _" q
7 O$ B1 i9 M8 h1 k4 N
' W- Y; c; \) y& H$ h. G: S
/ u9 o8 O) E+ \0 b1 M
小米10换天功能背后,是小米在视觉成像技术上的持续投入。MIUI 10推出时,就带来了AI自拍虚化的功能,单摄相机也能有人像虚化效果,就是通过出色的算法实现的。
: I6 m" c: p9 j+ H  k+ J* n' d2 ~' `' u0 a
小米把之前自拍虚化的算法经验和技术运用在了换天功能上,标注了数万张实际拍摄的天空图片进行训练,并且优化天空分割模型,最终达到了现在的惊人效果。不得不说,实际采集样张,用AI技术来训练模型,相当费时费力,需要长期投入大量的成本。& A& V2 g  J8 y5 U7 Z- Z/ Z3 Q

" ^# E6 i5 ~5 }  `9 `9 D& T 当然,这种算法对成像的帮助,也不是一般软件优化所能比的。其实,凭借着出色的成像效果秒天秒地的谷歌Pixel系列,在相机算法上,也是通过实际样张采集训练AI模型的思路。这方面,小米和谷歌想到了一起去。 ! l! T& P7 ?- L; X: Z/ G8 R- l7 P

8 G/ K( u4 F7 v4 |0 B 2、拍vlog也能一键搞定) G1 x: T8 v/ z- S2 e

7 q8 T4 ~! v# C, r 短视频的蓬勃发展让vlog流行起来,但一般人想要剪出很酷很精致的vlog并不容易。首先,视频后期比图片要复杂,而且vlog制作还涉及音乐、字幕、特效等。
& ~$ v0 @" s' M+ l3 k* h7 C5 b1 ?/ L5 q- T( n  H; U# H5 I
而小米已经敏锐地意识到用户的需求,投入了多个团队来帮助大家搞定入门vlog。简单来说,它优化了这么几个方面。
9 O2 H; Y4 z9 Y) U5 e4 [5 D) R/ {5 d! F( M+ e
首先,自动运镜功能让用户不动手机也能有出色的效果,不需要学习滑轨、手摇等很专业的技能。不过具体实现过程中,技术难度不小。
$ ]% `% d6 s8 M& W! U% h1 L5 {- P

, P% g' I6 P+ W4 E0 P
7 \- C7 R6 o" E% c# {5 t4 } 自动运镜时,视频每一帧的角度要精准匹配,还要对4K分辨率的数据做实时的缩放、转场等计算,对算法的精度有很高的要求和考验。小米AI实验室通过算法优化和调校,把CPU、GPU、解码器等多个计算单元结合,“榨干”了手机的计算性能。4 w1 c: v% l; u( M5 r

! s- ?4 W/ s) Q3 o# ?6 X

5 r+ ~% u+ c* x3 S' g1 ?  b' ^1 r
另外,语音转字幕这个功能也值得点赞。给视频手动加字幕非常麻烦,有了语音AI技术后,小米手机就能把录制视频里的语音自动转为文本字幕,帮vlog制作者省了很多事情。! X8 G! ?$ v) B! i
- ?7 v9 ^1 c% `
3、文档扫描这件“小事”,小米10做到了极致
+ b0 c2 M6 [# i( M9 ?0 b  \
" i: Q/ D' A$ f5 R; K  a! t 小米10相机上另外一个极具亮点的功能是“小米拍文档”,它解决了手机文档扫描过程中的诸多痛点:边框识别不准、细节丢失、显示不清晰、变形、阴影等。
/ y7 Y3 ?% Z& i& M' J, h1 \+ f6 N" h) ~9 I
小米拍文档给人印象比较深刻的是AI技术对文档扫描这个功能的巨大帮助,比如说它的裁剪校正能力很强,即使拍摄文档的背景非常杂乱无章,也能精准的定位到文档边界,并准确地裁切和矫正文档区域,将有干扰的多余元素去除。
2 e7 G" }2 T5 ]$ ^6 s+ D# n+ n( t. U4 V: I2 o
此外,很多时候,拍摄文档的环境光学不理想,成像区域一部分很暗、一部分很亮,非常影响最终的扫描效果。小米拍文档通过针对性的阴影消除技术来解决问题,让文档扫描的成功率大大提升。' ]* ^- [$ \# o! `' S+ d
2 ]( }/ ?. y/ X8 f- F& g/ V- J/ I
5 e9 X  G* }# x5 r0 W
3 ^6 a" h5 c1 ?3 M
技术创新铸就了小米拍文档的出色体验,通过神经网络区分图像中光照和阴影部分,利用边缘算法帮助用户对文档进行精确定位,并实际采集多样化的文档使用场景进行训练优化。# O! l4 z- `7 ~  r* y

, n7 h8 S% ?0 T6 j" Y6 L. E! K$ j2 K 值得一提的是,小米拍文档完全由小米AI实验室武汉视觉团队独立负责完成,疫情当前,他们的工作和贡献值得点赞。- R0 R5 {# k9 g& K% [! h) e8 ~

2 Z4 A# Q9 R6 G4 g0 ?
& K3 [' @5 i0 _9 P% K6 J

( |* ?3 ^5 M4 ^. e( |% _4 s 小米自研AI技术,值得更进一步的期待
* j6 s, Q/ ]8 f  l& P" \/ u1 w/ h: [" v5 A! C+ E( E
这次的小米10发布会,让我们看到了很多小米过去容易被忽视的地方,自研AI技术就是其中一个重要的部分。
1 _6 d/ c$ T& Y, U3 K
- s; o9 O# w( \. i/ J1 N7 n 首先,小米10为代表的产品展现出了小米在自研AI技术上的强劲实力。不管是个性化语音合成服务、一键换天、vlog自动字幕等AI助力的具体功能,还是通过采集真实数据训练模型的AI研发思路,都让我们看到了小米在自研AI技术上的用心。1 y/ b" ]% ~8 q! ?! @
2 s/ o& k' Q' Y1 O: Z$ X  t  n4 _6 J
其次,研究AI技术的厂商很多,但像小米这样精准瞄准用户体验的,不太多见。前面我们提到的扫描文档、制作vlog等功能,第三方应用其实都能实现,手机厂商一般不会在这些细节上下太多的功夫。
" W( L. R& N3 U2 f8 D  R8 K! J: z0 T0 |) @9 _
9 V$ e- E$ K: T
# ]2 x- Q; [+ s
但这些看起来不起眼的细节,都和用户需求息息相关。小米把自研AI技术的成果都投入到这些领域,让自家用户能最直接地享受到AI技术发展的红利。小米AI技术更加注重和用户体验相关的场景落地,每个技术创新都能找准用户的实际需求、提升用户体验。当然,这种注重用户体验的基因,从MIUI诞生开始就一直存在,现在刻入到了小米的AI技术研发中。. r2 C; S; m" O, J1 c( g

" n7 H6 b  W3 j( [ 此外,小米涉足的领域远不只手机,家电、智能家居、PC等等行业,都能看到小米活跃的身影。而小米的自研AI技术,也不局限于给手机功能添砖加瓦。未来,我们有望看到小米自研AI技术未来在影像、语音、5G、IoT等多个领域的爆发成果,这非常值得期待。 ; q, K; F7 i. F7 H% O

6 X& {+ l( Q7 Y9 H8 E! d『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
您需要登录后才可以回帖 登录 | 注册

本版积分规则

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号 )

GMT+8, 2020-2-17 03:14 , Processed in 0.078125 second(s), 20 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19925233282

快速回复 返回顶部 返回列表