您的位置: 专家智库 > >

康才畯

作品数:7 被引量:24H指数:3
供职机构:上海师范大学人文与传播学院更多>>
发文基金:国家自然科学基金国家社会科学基金中国社会科学院重大课题更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 5篇期刊文章
  • 2篇会议论文

领域

  • 3篇自动化与计算...
  • 3篇语言文字

主题

  • 3篇藏文
  • 2篇随机场
  • 2篇条件随机场
  • 2篇藏语
  • 1篇地理分布
  • 1篇多级索引
  • 1篇多样性
  • 1篇义类
  • 1篇英文
  • 1篇语言多样性
  • 1篇语义
  • 1篇语义类型
  • 1篇人名
  • 1篇索引
  • 1篇切分
  • 1篇状语
  • 1篇文本
  • 1篇现代藏语
  • 1篇结构进化
  • 1篇句法

机构

  • 7篇中国社会科学...
  • 5篇上海师范大学
  • 1篇北京理工大学
  • 1篇中央民族大学

作者

  • 7篇康才畯
  • 5篇江荻
  • 3篇龙从军
  • 2篇燕海雄

传媒

  • 2篇计算机工程与...
  • 1篇科学通报
  • 1篇民族语文
  • 1篇语言研究

年份

  • 1篇2015
  • 3篇2014
  • 1篇2012
  • 1篇2011
  • 1篇2004
7 条 记 录,以下是 1-7
排序方式:
论词音节结构的多样性演化
康才畯燕海雄江荻
大型藏语词典的优化索引模型(英文)
2004年
A traditional-ordered Tibetan dictionary based on present Tibetan coded character sets (ISO/IEC 10646-1:1993 & GB16959-1997) is of hashing structure, and can make no effective index work because of lacking of ordered internal coded character within computers. This paper establishes a transformational relationship between Tibetan letters and numerical codes with the supplement of analyzing the constructional rules of Tibetan words. According to the statistical analysis of syllabic distribution in a large Tibetan dictionary, we design a multi-level index optimizing project for dictionary data retrieval. The core content includes the idea of layer upon layer processing to the letters of basic consonants and vowels and the matching method based on code prefixes of words. At last we propose a concept of 揵ucket?to process the homographs encountered in data retrieval.
康才畯江荻
关键词:现代藏语多级索引
词形结构进化与世界语言的多样性被引量:7
2014年
世界语言的基本差异源于词形结构(WSS),而不是区别性的音素.语言的多样性似乎来自词形结构的演化结果,取决于音节构造形态类型和词的音节长度.本文采集世界179种语言的Swadesh词表来分析词形结构多样性指数的地理分布,并尝试发现它们在演化过程中的进化位置和深度.通过建立理想词形结构偏移量模型,计算每种语言的偏移距离和偏移方向,根据分析结果把语言划分成3组,每一组代表一种演化类型.得出词形结构的多样性和偏移量模型代表了人类语言演化的多样性方向和演化过程,当今每种语言都在一定程度上保留了词形结构最基本的特征,因此,词形结构可以视为人类语言"基因".
江荻康才畯燕海雄
关键词:语言多样性地理分布
藏语方式状语的语义类型与句法标记被引量:2
2014年
藏语的方式状语与动词的关系最为密切,语义丰富,表现形式多样;句法标记与不同语义之间存在一定的对应关系,这种关系便于句法语义自动标注。本文概括了藏语方式状语的七种语义类型,并对每种类型的句法标记作了具体分析。
康才畯龙从军
关键词:语义类型句法语义状语藏语
基于词位的藏文黏写形式的切分被引量:6
2014年
基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式,其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并对模型选用的特征集进行优化。
康才畯龙从军江荻
关键词:词位条件随机场后处理
基于条件随机场的藏文人名识别研究被引量:9
2015年
基于条件随机场模型在字粒度上识别并切分藏文人名,其优势是可以较好地利用藏文人名在文本中出现的基本特征和上下文特征来确定藏文人名在文本序列中的边界。根据藏文人名自身的特点设定特征标签集,利用条件随机场模型作为标注建模工具来进行训练和测试。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并针对人名与一般词语同形现象进行特征标签集的优化。
康才畯龙从军江荻
关键词:条件随机场
基于Unicode编码的藏文转写拉丁文本的算法
本文以藏文音节字的结构关系和拼写顺序形成的转写规则为基础,结合Unicode编码位置特征,讨论并实现了基于Unicode标准的藏文转写拉丁文本的算法。文章提出了以Unicode编码区域位置为特点的识别思路,提出显示占位符...
康才畯江荻
关键词:UNICODE藏文
文献传递
共1页<1>
聚类工具0