找回密码
 注册
8月份电巢直播计划
查看: 80|回复: 0

除了秒天秒地的配置,小米10背后的自研AI技术更值得关注

[复制链接]

该用户从未签到

发表于 2020-2-14 15:16 | 显示全部楼层 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
本帖最后由 fish1352 于 2020-2-14 15:20 编辑
1 S6 ^. h4 r8 Q! X* E# a- C) D* c3 J# m/ }( n9 v5 A: ]
2月13日,预热许久的小米10终于正式登场。由于肺炎疫情,这场发布会采用了纯线上直播的模式,但这丝毫不影响它极高的关注度。作为国内首款骁龙865旗舰,小米10实现了自我突破,带来了不少惊喜。
, k& e" V  ]# ], H- t2 s5 h  F
4 Q+ X9 r, }' i  T

2 k' U9 }- J+ ~0 d2 o$ F! @5 d  c
2 O0 M8 a+ o/ @7 b# q 除了骁龙865处理器、LPDDR5内存等亮眼的参数信息外,小米自研AI技术展现出的成果同样值得关注,它们已经渗透到小米产品上的各个角落,对相机、系统、语音等多个方面的使用体验都产生了深远的影响。
& r, W9 z1 Y# s% P
0 r: M  l3 P9 r1 }" D2 x 小米AI语音,变得更强了!" p+ P' d; W  l

7 W; N, }) k* l  }/ f- y; e0 b 1、小米语音AI技术在快速普及
" @6 O* F& S* a7 n" ]0 E9 s  ^% D1 M* d. M3 N  y
2017年7月的一场小米发布会上,小米AI音箱正式发布,小米开启了自研语音AI技术在市场上的试水。
$ ^+ D* W' C( \5 P* O# }  \( ?5 M1 {3 P2 Z- |
短短两年多的时间,小米自研的语音AI技术已经渗透到各个类型的小米产品中,除了智能音箱,小米手机、小米电视、小爱老师等小米产品都配备了“小爱同学”。集成了小米语音智能助理的设备,通过语音这种新交互方式让产品使用起来更加便利。8 q5 y& B% N) @
2 G- D' s: x. K/ B% ]" W' G5 F

" G# s- A. S. f' _% v
2 D! }& K; \9 b/ } 语音交互解放了用户的双手,降低了学习成本、提升了用户体验,而且增强了产品的竞争力。* E  ?# Q' ], K# p" W& |
0 r2 S1 N) m$ j$ e
2、小米10上的智能助理,更有看点
  u8 v7 U' G+ t% {: [
$ R6 K5 V" s: G/ ^: A 目前来说,智能手机上的语音助手发出的语音都是人工合成的,基本不会提供个性化的服务,实际使用起来难免感觉机械和不自然,和真人发出的声音差距还是比较大的。
: V( q0 r2 l7 c% v
% h3 c+ A; h9 q9 X' U  k5 X 而小米10上的一大惊喜就是配备了个性化语音合成服务。它采用了最新的合成技术,用户只需要在安静环境下录制少量的声音样本并上传,服务器进行识别、训练并建模后,就能获得定制化的AI语音助手了。. U# E" J. _4 T# V, R( J& f% w

0 U* B; g& E1 c/ o. e9 s0 h2 W5 ^
* s1 w8 _: y4 z2 p

- B$ T7 Z, ]# M. H( ~ 别人手机的语音助理发出的语音千篇一律,而小米手机上的小爱同学却能做到千人千音,感觉就像手机里有一个真人助理一样。, g% M% f8 q0 R: {

* f  R! O$ V6 Z2 f9 n

! _; m: T9 l, C: ~
* ]3 Y" _# {/ ]2 w5 p8 V 3、AI语音技术上,小米展现了哪些功力?+ v. g) W! a1 }( W& B: R
1 m. b5 ~8 Q, G$ V9 H8 a& U
市面上主流语音合成技术有很多不足,具体表现为发出的语音过于机械,像机器人说话一样,还有就是在中英文混合语音中,双语切换的停顿节奏、过度感觉也不自然等。# S6 X! ?' V6 Y

( ]; `% Q( J% y" R( ^- G 小米10上的个性化语音合成服务,则瞄准了这些问题进行改进。具体来说,它的实现过程可以分为这么几步。
; Q" u$ {2 ~6 c& N/ e+ a% m* \$ C
( K: C; I$ k3 D/ Q( W$ p3 U3 p% P 首先,用户要在安静的环境下录制目标声音;3 b$ o- O9 v7 \, l5 T; P' ~7 F: o
5 L2 {6 t( }* w# C# s8 p2 W% B4 N
然后,系统会对采集到的声音信息进行降噪、检错等处理;
2 ~/ ]/ I' I8 ?* F0 {& J% L
: O3 U, r7 i/ ?0 Y# s& N 接着,处理完的目标声音会被提取特征;' k0 l5 p% Y( z1 R. O5 t4 B" l
; c0 H+ Q4 O) I4 B9 w3 Z7 j
最后,小米云端服务器将收集到的信息进行在线模型训练、部署,生成语音合成引擎。
  P; r! s9 h) w& n7 p- y! k' k5 c) G6 u
5 i, j9 A7 L* e- W- }' W7 }
& }# v! w" w4 q: T" U! M, d8 N
这个技术过程看起来比较清晰,但存在很多难点。例如,它对目标声音的数据质量要求比较高,在线训练模型费时费力以及小数据量能否训练出满意的效果。& c- M" D' V9 t) _/ _' v7 Q8 ?
0 W/ |! Z$ t$ Z0 }! o
不过,小米已经完美地解决了这些问题,模型训练耗时大大缩短,用户完成整个过程只要20-30分钟,此外,它的合成效果稳定,甚至没有英文语料的情况下,也能合成简单的英文语音。
5 u6 F8 Z. x" j+ d# E" t: N8 g" c3 c7 H7 ~0 }+ o, ]. C
AI加持,小米10把相机玩出了新花样
5 x* l4 H6 v9 b. t2 \6 w' r! e1 T! p) `% v
相机方面的提升是小米10系列最重要的卖点之一,1亿像素、四颗后置镜头等都吸引了无数人的关注。除了硬件上疯狂堆料外,小米10的相机也展现出了软件算法上的功力。9 g3 c$ g" n; `( J0 o* C+ g2 T

1 A+ s( B- `& a! I 1、小米10换天更强了
. h" U, u: I6 E: r/ @9 V- L# X4 F- w& Q% O
小米CC9的“一键换天”功能得到了很多用户的欢迎,照片拍好后,只需要在编辑选项中轻轻一点,就能把照片中的天空换成自己想要的效果,例如晴天、夕阳、暮光等。/ W" z- M1 A( d! v) W* S
1 r; U- ~# j& N+ s6 V3 v
2 ]! d7 `  T# y/ b* ~2 E! s: T
' P/ Y5 b7 K6 G0 X9 n
这次小米10换天功能在之前的基础上,新增了雨天和雪天,更为强大。从小米的演示对比来看,它在和各类第三方APP PK中大获全胜,换天效果非常自然,基本能达到以假乱真的程度。4 q  s# z: `# U/ k
8 l, q# J- e" N# n, `
8 S# _9 y2 P( @  ~; z! j- J* y

7 P' Q0 E3 ~* h 小米10换天功能背后,是小米在视觉成像技术上的持续投入。MIUI 10推出时,就带来了AI自拍虚化的功能,单摄相机也能有人像虚化效果,就是通过出色的算法实现的。
' Q" \3 D+ O8 b& P% v1 `9 J) c
' S- l- x8 V4 {% R 小米把之前自拍虚化的算法经验和技术运用在了换天功能上,标注了数万张实际拍摄的天空图片进行训练,并且优化天空分割模型,最终达到了现在的惊人效果。不得不说,实际采集样张,用AI技术来训练模型,相当费时费力,需要长期投入大量的成本。
. `0 o! |# Z' o/ z/ M8 F" Y3 o
8 J8 x5 \  ?) g/ N 当然,这种算法对成像的帮助,也不是一般软件优化所能比的。其实,凭借着出色的成像效果秒天秒地的谷歌Pixel系列,在相机算法上,也是通过实际样张采集训练AI模型的思路。这方面,小米和谷歌想到了一起去。 ) U7 x/ n' ~/ j6 F# J# ?- s. q1 M

4 r. K2 Q7 r+ B: l0 m; ? 2、拍vlog也能一键搞定+ s6 I& e: W4 ?, ?: O

9 t9 k: [, N) p( o8 W5 k 短视频的蓬勃发展让vlog流行起来,但一般人想要剪出很酷很精致的vlog并不容易。首先,视频后期比图片要复杂,而且vlog制作还涉及音乐、字幕、特效等。
$ O& V) C7 h5 y
. n! [5 M% h7 }$ v- b% U 而小米已经敏锐地意识到用户的需求,投入了多个团队来帮助大家搞定入门vlog。简单来说,它优化了这么几个方面。
- Y7 D& F4 a7 p) O: [- r
& d+ \' k, h" C) t$ I 首先,自动运镜功能让用户不动手机也能有出色的效果,不需要学习滑轨、手摇等很专业的技能。不过具体实现过程中,技术难度不小。/ b) Q3 }0 X9 L. ^# b
' g% i; ~, u" A+ N; q1 |

! V+ r2 k9 u+ M0 m) P% B
! ^% v' J4 x# D8 n; `" S0 z* A 自动运镜时,视频每一帧的角度要精准匹配,还要对4K分辨率的数据做实时的缩放、转场等计算,对算法的精度有很高的要求和考验。小米AI实验室通过算法优化和调校,把CPU、GPU、解码器等多个计算单元结合,“榨干”了手机的计算性能。
+ [+ \  m7 n6 h! C+ i7 Z
2 m. ?3 E! m: W! ~: z  R1 w

( X( m; Z) I0 X% K' q% r6 B8 D+ M9 }6 U' ]5 p2 J
另外,语音转字幕这个功能也值得点赞。给视频手动加字幕非常麻烦,有了语音AI技术后,小米手机就能把录制视频里的语音自动转为文本字幕,帮vlog制作者省了很多事情。
, v6 C9 W, o: r$ A+ |6 N: C/ ]. c* i* _6 J0 C6 N; t1 Q2 f2 k$ w
3、文档扫描这件“小事”,小米10做到了极致) x; D& l+ r' m" {( K0 Y4 m
  ^2 v- w. |, d
小米10相机上另外一个极具亮点的功能是“小米拍文档”,它解决了手机文档扫描过程中的诸多痛点:边框识别不准、细节丢失、显示不清晰、变形、阴影等。% w7 l4 J# Z% \+ F

; x0 ~  j0 F' g0 C2 l 小米拍文档给人印象比较深刻的是AI技术对文档扫描这个功能的巨大帮助,比如说它的裁剪校正能力很强,即使拍摄文档的背景非常杂乱无章,也能精准的定位到文档边界,并准确地裁切和矫正文档区域,将有干扰的多余元素去除。
! U+ r7 G$ r- {; i+ X
5 M4 C- {" E7 n/ k 此外,很多时候,拍摄文档的环境光学不理想,成像区域一部分很暗、一部分很亮,非常影响最终的扫描效果。小米拍文档通过针对性的阴影消除技术来解决问题,让文档扫描的成功率大大提升。
( L% M- @, {8 b2 r( u3 K# f9 k* B
, s3 |9 G7 v3 V, }& g, O8 d) X; c

" w3 Y+ H/ N* }) j 技术创新铸就了小米拍文档的出色体验,通过神经网络区分图像中光照和阴影部分,利用边缘算法帮助用户对文档进行精确定位,并实际采集多样化的文档使用场景进行训练优化。
. N% f# A2 w0 v: c1 |2 X3 t
0 |( W- E! K5 P# ~ 值得一提的是,小米拍文档完全由小米AI实验室武汉视觉团队独立负责完成,疫情当前,他们的工作和贡献值得点赞。0 M" H- {8 Q$ i. u

. S. ?# X+ Y1 M; D! u2 P

4 b$ k" l" p* v9 l* s# e1 Y$ i6 s2 y1 b: m
小米自研AI技术,值得更进一步的期待+ r+ q7 z, X. J$ P7 F

3 M7 Y/ U, b' L- I 这次的小米10发布会,让我们看到了很多小米过去容易被忽视的地方,自研AI技术就是其中一个重要的部分。
3 Y* E( j9 H$ o- x% h5 L8 h) O& I) m9 X; G% M# y9 @
首先,小米10为代表的产品展现出了小米在自研AI技术上的强劲实力。不管是个性化语音合成服务、一键换天、vlog自动字幕等AI助力的具体功能,还是通过采集真实数据训练模型的AI研发思路,都让我们看到了小米在自研AI技术上的用心。0 c7 A* ~% a5 x  |# ^

0 \. H& h* D/ X) F1 z$ w6 W! g 其次,研究AI技术的厂商很多,但像小米这样精准瞄准用户体验的,不太多见。前面我们提到的扫描文档、制作vlog等功能,第三方应用其实都能实现,手机厂商一般不会在这些细节上下太多的功夫。
( ~, F: u! C  Q) ~* V* j$ ~6 Y1 U

. I( i3 f; u" {8 `( d7 g+ H1 H+ Y& c* |. y
但这些看起来不起眼的细节,都和用户需求息息相关。小米把自研AI技术的成果都投入到这些领域,让自家用户能最直接地享受到AI技术发展的红利。小米AI技术更加注重和用户体验相关的场景落地,每个技术创新都能找准用户的实际需求、提升用户体验。当然,这种注重用户体验的基因,从MIUI诞生开始就一直存在,现在刻入到了小米的AI技术研发中。
: V8 a* X/ V: }7 d) [, M) y
& o% M* g6 l: L 此外,小米涉足的领域远不只手机,家电、智能家居、PC等等行业,都能看到小米活跃的身影。而小米的自研AI技术,也不局限于给手机功能添砖加瓦。未来,我们有望看到小米自研AI技术未来在影像、语音、5G、IoT等多个领域的爆发成果,这非常值得期待。 . w' Z( |/ E2 n4 v3 w  |) ?* ]
- R+ x3 x* F0 x6 j& n" B" C
『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号 )

GMT+8, 2020-8-11 08:47 , Processed in 0.093750 second(s), 21 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19925233282

快速回复 返回顶部 返回列表