TA的每日心情 | 开心 2020-8-28 15:14 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 藏文字构件分解是藏文信息处理的基础,具有重要的理论价值和广阔的应用前景.针对藏文字构件的 复杂性与多样性,文章通过分析现代藏文字的构字规则和结构特点,研究了藏文字构件的分解过程,利用 Mealy机的 输出字符与移动一一对应的特性描述了藏文字构件的行为语义,给出了对于任意字符串能否被 Mealy机分解的判定 定理及基于 Mealy机的藏文字构件分解算法,并设计实现了基于 Mealy机的藏文字构件分解系统,验证了算法的可行 性.关键词: 藏文信息处理;Mealy机;构件;构字分解3 m( D, c; a% j' V/ |* C
; L3 W: s, B$ f z' E
藏文信息处理中,凡与字相关的研究都不仅需要分 析字结构,而且需要确定构件的位置特征.因此,藏文字 构件分解是藏文信息处理的基础.藏文字是以基字、前 加字、上加字、下加字、后加字、重后加字及元音等 1至 7个藏文字符为构件的二维拼音文字,其中前加字、后 加字和重后加字与基字横向拼写,上加字、下加字和元 音与基字纵向拼写[1].前加字、基字、上加字、下加字、后 加字、重后加字和元音是构成藏文字的最小单位构件, 简称构件;上加字、下加字及元音与基字纵向排列而成 的字符组合称组合构件.藏文字构件的复杂性与多样性 是丰富而严谨的现代藏文文法的产物,同时也是藏文信 息处理的重点和难点.长期以来,对藏文字构件的研究 一直被业内人士所关注,文献[2,3]以藏语口语材料中 3926个常用字为研究对象,统计了藏文字长和构词频 度、声、韵母结构方式及组合构件频度;文献[4]对《中华 大藏经·丹珠尔》中藏文字频度和构件进行了统计;文献 [5]从字符、构件、音节和词汇的角度统计了词典中的词 汇;文献[6]对特定藏语语料做了字频、音节频度的统 计;文献[7]对 19380个藏文字的字长、结构方式、构件 的频度及组合构件进行了统计;文献[8]基于常用词典 对藏文字及构件频度进行了统计.上述研究为藏文字构 件分解提供了重要的参考数据,但还存在如下缺憾:(1) 研究范围局限于特定词典或语料中,不具有普遍性;(2) 研究成果为小语料库上以手工与计算机辅助方式结合 得到的构件频度,没有解决构件自动分解问题,不具有 广泛的应用性。
0 A$ l( j* ~' d, e! P* u& N" l% ]* l* H f
% U, b" m6 X: h8 K# ^3 E% W- O- i附件下载:
. b/ e( r3 f# t2 a0 Z. S& G |
|