教育部人文社会科学研究基金(08JC870007)
- 作品数:5 被引量:59H指数:4
- 相关作者:章成志王惠临侯汉清陆勇刘飒更多>>
- 相关机构:南京理工大学中国科学技术信息研究所南京信息工程大学更多>>
- 发文基金:教育部人文社会科学研究基金“十一五”国家科技支撑计划中国博士后科学基金更多>>
- 相关领域:文化科学自动化与计算机技术经济管理更多>>
- 多语言文本聚类研究综述被引量:4
- 2009年
- 对多语言文本聚类问题进行综述,说明多语言文本聚类的作用、多语言聚类方法的分类、现有方法存在问题以及今后的研究趋势。
- 章成志王惠临
- 关键词:文本挖掘
- 基于多层术语度的一体化术语抽取研究被引量:19
- 2011年
- 以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响。本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取。该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性。
- 章成志
- 关键词:术语抽取条件随机场
- 基于专业领域平行语料的双语核心术语抽取研究
- 双语术语抽取在双语术语词典编撰、双语本体构建、机器翻译以及跨语言信息检索中具有重要的作用。其中,双语核心术语是双语术语识别和抽取的关键资源之一。本文将专业领域文档的关键词作为候选核心术语,利用中文和英文的专业领域分类语料...
- 章成志王惠临
- 关键词:术语抽取平行语料
- 文献传递
- 面向数字图书馆应用的多语言领域本体学习研究被引量:7
- 2011年
- 首先分析相关应用案例,说明多语言领域本体在数字图书馆领域的潜在应用价值,然后阐述数字图书馆环境下多语言领域本体学习的特点,由此给出面向数字图书馆应用的多语言领域本体学习基本框架,接着说明其中涉及到的若干关键技术与本课题组的相关研究工作,最后对未来的研究提出展望。
- 章成志王惠临
- 关键词:数字图书馆本体学习
- 多语言文本表示研究综述被引量:3
- 2010年
- 对多语言信息处理中的文本表示问题进行阐述。在分析单语言文本表示的模型和过程的基础上,说明多语言文本表示的过程,详细分类并阐述其中的各种方法,对其进行比较分析。概括多语言文本表示的特点,指出尚存在的问题,并对多语言文本表示的发展趋势进行探讨。
- 刘飒章成志
- 关键词:跨语言信息检索潜在语义分析