您的位置: 专家智库 > >

丁溪源

作品数:4 被引量:12H指数:3
供职机构:南京理工大学计算机科学与技术学院更多>>
发文基金:国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...

主题

  • 3篇中文
  • 1篇登录
  • 1篇信息处理
  • 1篇语料
  • 1篇域模型
  • 1篇散列
  • 1篇散列表
  • 1篇时间复杂度
  • 1篇条件随机域
  • 1篇条件随机域模...
  • 1篇中文分词
  • 1篇中文新词
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇中文字
  • 1篇中文字符
  • 1篇中文字符串
  • 1篇字符
  • 1篇字符串
  • 1篇最大熵

机构

  • 3篇中国科学院
  • 2篇南京理工大学
  • 2篇北京理工大学
  • 2篇中国科学技术...
  • 1篇新疆师范大学

作者

  • 4篇丁溪源
  • 3篇张海军
  • 2篇黄河燕
  • 1篇史树敏
  • 1篇朱朝勇
  • 1篇王树梅

传媒

  • 1篇计算机工程与...
  • 1篇中文信息学报
  • 1篇计算机科学

年份

  • 1篇2012
  • 2篇2011
  • 1篇2010
4 条 记 录,以下是 1-4
排序方式:
基于分词提取重复串的未登录词遗漏量化模型被引量:5
2011年
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。
张海军史树敏丁溪源黄河燕
关键词:未登录词识别条件随机域模型中文分词
一种改进的中文字符串排序方法被引量:3
2010年
对中文字符串排序,最快算法的时间复杂度是O(nlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是O(dn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序算法对代表字串的整型数组排序,用以实现对字符串的快速排序。实验表明,提出的算法能快速地进行中文字符串排序,比快速排序算法具有更好的性能,且排序时间与数据规模之间是线性关系,算法的时间复杂度为O(dn)。
张海军丁溪源朱朝勇
关键词:中文字符串散列表时间复杂度
基于大规模语料的中文新词抽取算法的设计与实现
中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。   首先在综合已有定义的基础上,将新词界定为不含命名...
丁溪源
关键词:中文信息处理最大熵模型
基于大规模语料划分的频繁模式查找算法被引量:1
2012年
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。
丁溪源黄河燕张海军王树梅
共1页<1>
聚类工具0