您的位置: 专家智库 > >

龚才春

作品数:25 被引量:99H指数:5
供职机构:北京市计算中心更多>>
发文基金:国家重点基础研究发展计划国家高技术研究发展计划中国科学院知识创新工程重要方向项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 9篇专利
  • 8篇期刊文章
  • 6篇会议论文
  • 2篇学位论文

领域

  • 16篇自动化与计算...

主题

  • 10篇语料
  • 10篇字符
  • 7篇大规模语料
  • 5篇新词
  • 5篇词语
  • 4篇短文
  • 4篇搜索
  • 4篇新词发现
  • 4篇模糊搜索
  • 3篇自然语言
  • 3篇字符串
  • 3篇文本
  • 3篇计算机
  • 2篇单词
  • 2篇对等网
  • 2篇对等网络
  • 2篇有意
  • 2篇语言处理
  • 2篇填充因子
  • 2篇中文

机构

  • 21篇中国科学院
  • 4篇山东大学
  • 3篇中国科学院研...
  • 3篇北京市计算中...
  • 1篇中国信息安全...

作者

  • 25篇龚才春
  • 10篇黄玉兰
  • 7篇许洪波
  • 6篇张华平
  • 6篇程学旗
  • 5篇贺敏
  • 3篇刘荣兴
  • 2篇白硕
  • 2篇刘祥涛
  • 2篇白硕
  • 1篇刘悦
  • 1篇陈海强
  • 1篇曾依灵

传媒

  • 2篇计算机工程与...
  • 2篇中文信息学报
  • 1篇计算机研究与...
  • 1篇通信学报
  • 1篇计算机应用与...
  • 1篇山东大学学报...
  • 1篇2007年全...
  • 1篇第五届全国信...
  • 1篇全国网络与信...

年份

  • 1篇2010
  • 4篇2009
  • 7篇2008
  • 9篇2007
  • 1篇2005
  • 3篇2004
25 条 记 录,以下是 1-10
排序方式:
计算机文字识别的研究与实现
本文在总结学术上已有关于计算机文字识别成果的基础上,描述了计算机文字识别的基本过程,介绍了几种常用的数字字符识别方法和汉字字符识别方法,对已有字符识别方法的改进主要有:1.提出了一种新的数字字符识别方法,即基于整体特征的...
龚才春
关键词:汉字识别模式识别文字识别
文献传递
大规模语料的频繁模式快速发现算法
已有基于内存的频繁模式发现算法需要的物理内存是语料规模的几倍甚至几十倍,本文提出一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算...
龚才春贺敏张华平许洪波程学旗
关键词:物理内存
文献传递
基于伪相关反馈模型的领域词典生成算法被引量:3
2008年
本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。
黄玉兰龚才春许洪波程学旗
关键词:计算机应用中文信息处理领域词典大规模语料
Kad网络节点资源探测分析被引量:5
2010年
Kad网络中存在数以亿计的共享资源,而其中有相当一部分可被评定为敏感资源。为深入了解Kad网络上资源尤其是敏感资源的特征,运用Kad网络采集器:Rainbow对节点拥有的文件资源进行探测分析。该文发现:1)文件流行度和文件所对应的文件名数量都近似符合Zipf分布;2)利用同一个"文件内容哈希"(即file-content-hash)的多个文件名的共现词可以更准确地进行敏感判别;3)敏感资源占随机样本的6.34%,且敏感资源中74.8%为video文件。
刘祥涛龚才春刘悦白硕
关键词:对等网络KAD网络
一种构造用于处理大规模词典的完美哈希函数的方法
本发明涉及信息检索和自然语言处理技术领域,公开了一种构造用于处理大规模词典的完美哈希函数的方法,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为...
龚才春
文献传递
一种新词发现方法和系统
本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈...
龚才春黄玉兰
文献传递
一种基于大规模语料的新词识别方法被引量:34
2007年
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。
贺敏龚才春张华平程学旗
关键词:新词
基于伪相关反馈模型的领域词典生成算法
本文提出了一种基于伪相关反馈模型的领域访词典自动生成算泫。将领域词典生成过程视为领域术语的检索过程:对于绘定的领域语料 C,对于发现的有意思 S,如果 S 是 C 的领域术语, 则称 S 与 C 相关。假设初始检索出来的...
黄玉兰龚才春许洪波程学旗
关键词:领域词典大规模语料
文献传递
大规模语料的频繁模式快速发现算法被引量:5
2007年
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M。
龚才春贺敏陈海强许洪波程学旗
一种新词发现方法和系统
本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈...
龚才春黄玉兰
文献传递
共3页<123>
聚类工具0