找回密码
 注册
9月份电巢直播计划
查看: 70|回复: 0

AI在数据防泄漏中的应用--知识图谱之知识抽取

[复制链接]

该用户从未签到

发表于 2020-9-16 14:07 | 显示全部楼层 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
本帖最后由 fish1352 于 2020-9-16 14:09 编辑
& }; k* g% \$ v9 C' j7 J" p0 b5 w2 R2 w1 O4 K
随着技术的不断发展,AI(Artificial Intelligence,人工智能)逐渐在社会经济发展的方方面面深入,成为信息化时代最重要的支柱技术之一。
' r  R9 q9 Z8 r$ k$ Z1 U  }/ U
% \7 m, Y$ {( R# d$ g! e 在数据安全领域领域,AI技术所能起到的作用越来越大,如针对数据防泄漏,运用知识图谱技术可以使数据实现结构化,减少人为性工作,从而让数据治理工作趋向智能化,提升工作效率。8 m1 J- f0 m* b" h

  G  ^1 [" c& u! i# R! J6 o% w8 d

, D  E1 @/ m* w2 O6 o% Z* {
9 ?6 k. K) P0 ^ 在之前的文章中,明朝万达数据安全专家已经就“何为 AI在数据防泄漏中的应用--知识图谱”做了详细的介绍。之后我们也将以系列文章形式为大家分享“知识抽取”、“知识融合”、“知识推理”、“知识运用”的相关知识,大家一同探讨,深入了解。
" u2 K1 q) S5 D4 E+ H
$ i" p3 i& z- K/ f 知识图谱之知识抽取
: z7 }. I- V5 i* g7 h$ M* r3 \! F: W+ Y, P# |. Q! `
知识抽取是指从不同来源、不同结构的数据中进行知识提取,提取出数据内涵的事实性信息并供给知识图谱做进一步加工处理后会形成知识,存入到知识图谱。
+ e$ B: r; O; _, N% y7 K: g. X0 Q" n
知识抽取需处理的数据为多源异构数据,一般包括非结构化数据、半结构化数据和结构化数据,其相应的知识抽取的方法和技术各不相同。
* e% {. N: f8 O3 ?: F  U$ j( l4 t) t: u+ w

/ `0 p0 K! F+ m4 E4 t! N; H2 N, Z* f, q
△多元异构数据与对应知识抽取技术
4 U: S: u) w3 s& V! b- F+ H5 m0 Q7 p0 k, x
★ 从非结构化中获取知识用信息抽取,其难点在于结果的准确率与覆盖率;
3 a! l7 q' ~- V' {' S  ?7 J* T! o- s" E7 n. `0 N# {* o3 [. j3 |
★ 从半结构化数据中获取知识用包装器,难点在于包装器的自动生成、更新和维护;
. ]1 N! O; `% Y! H; z3 k, F+ e% t- T2 b4 d' ^8 q
★ 从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等;1 H5 Y- w6 ^6 d6 ?- W5 P$ s

# W0 Z9 G8 D" {$ i1 h6 h/ Q) U ★ 从链接数据中获取知识用图映射,难点在于数据对齐。* T/ W0 [, l* F# C" k1 t1 `% a
# K# b+ d" d# k. b7 _% L5 T7 I. V
知识抽取:非结构化数据9 Y% b' W5 h( b- U8 i: z5 p
; @7 n9 a1 h9 K* m( t+ ?' o6 I
面向非结构化数据的知识抽取使用信息抽取技术解决,信息抽取包括命名实体识别、关系识别、共指消歧、事件抽取及模板填充五个任务,其流程如下图所示:
9 E" m  v8 j0 `- g* J) i+ w& N- V
* S: N/ a# N) y
( n5 H% K! b  v9 w2 R/ T7 R& A, |' @
' L, V( A+ h# ~
知识抽取:半结构化数据! K) W# Z7 _: K' f/ Z3 b& K: x% p

. t4 Y3 U* x3 j% W  w1 j  o% F 半结构化数据是指类似于百科、商品列表等本身存在一定结构但需要进一步提取整理的数据。面向半结构化的知识抽取使用包装器实现,其基本流程如下:8 V9 I- E$ v0 G% |  y: N
  B( l# I/ f7 ]# Z! K; m+ R
* ?* p& J# |1 V  y$ E8 Z3 b

1 g2 n/ A, {* t. C4 W& M/ F2 e- O6 x 知识抽取:结构化数据
; d; I2 A- W& X" p( m9 k3 s4 y4 Q
6 k$ a7 \) P1 C% A 结构化数据就是指类似于关系库中表格形式的数据,该类数据往往在各项之间存在明确的关系名称和对应关系。因此可以简单的将其转化为RDF或其他形式的知识库内容。
: N" K0 x6 t3 v7 @  {/ a: x+ I
: u' ?/ {8 h. E  m& M9 }( @ 关于知识抽取,一种常用的W3C推荐的映射语言是R2RML(RDB2RDF),其映射结果如下:
5 h7 U. @0 z) k0 g# q3 m7 u% v8 P% J7 f
1、数据库表t_student结构
+ ^6 l. _4 Z5 R3 @& k
  c, V" Z2 G" F0 y
/ [8 ?6 W+ w! p6 G' ~
1 D4 R, v+ w: W! \# j7 j
2、按照R2RML语言映射成RDF三元组知识结构. i) M! Y5 U- e  o  d7 K
; k+ z( u& M" j2 I3 ]3 W

9 S6 ~  D; r' f- F& t
+ T9 P# u. B) K! \2 s4 I" g 以及,现有的工具免费的有D2RQ,Virtuoso、MOrph等。 ' p* s& C! ], {4 G) x
* K1 O9 k! g9 l7 H) Y4 x
『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号 )

GMT+8, 2020-9-23 21:31 , Processed in 0.078125 second(s), 21 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19925233282

快速回复 返回顶部 返回列表