您的位置: 专家智库 > >

国家自然科学基金(60272055)

作品数:14 被引量:138H指数:7
相关作者:宋柔许勇熊文新罗智勇荀恩东更多>>
相关机构:北京语言大学北京工业大学北京外国语大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划教育部科学技术研究重点项目更多>>
相关领域:自动化与计算机技术文化科学语言文字更多>>

文献类型

  • 13篇期刊文章
  • 11篇会议论文

领域

  • 21篇自动化与计算...
  • 2篇文化科学
  • 2篇语言文字

主题

  • 6篇百科
  • 5篇自然语言
  • 4篇语言处理
  • 4篇自然语言处理
  • 4篇百科全书
  • 3篇信息处理
  • 3篇信息检索
  • 3篇知识
  • 3篇中文
  • 3篇中文信息
  • 3篇中文信息处理
  • 3篇计算机
  • 3篇查询
  • 2篇大学英语
  • 2篇大学英语写作
  • 2篇隐马尔科夫模...
  • 2篇英语
  • 2篇英语写作
  • 2篇语言模型
  • 2篇域模型

机构

  • 22篇北京语言大学
  • 12篇北京工业大学
  • 3篇北京外国语大...
  • 1篇华南理工大学
  • 1篇上海应用技术...
  • 1篇内蒙古师范大...

作者

  • 22篇宋柔
  • 5篇许勇
  • 5篇尚英
  • 4篇罗智勇
  • 3篇熊文新
  • 2篇葛诗利
  • 2篇王洁
  • 2篇荀恩东
  • 2篇林民
  • 1篇赵瑾
  • 1篇颜伟
  • 1篇钱揖丽
  • 1篇贾爱平
  • 1篇李艳

传媒

  • 3篇计算机工程
  • 3篇中文信息学报
  • 2篇计算机工程与...
  • 2篇计算机科学
  • 1篇外语与外语教...
  • 1篇计算机研究与...
  • 1篇北京工业大学...
  • 1篇全国第八届计...

年份

  • 5篇2008
  • 4篇2007
  • 4篇2006
  • 5篇2005
  • 4篇2004
  • 2篇2003
14 条 记 录,以下是 1-10
排序方式:
基于HMM的百科辞典文本中知识点划分方法
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的...
许勇宋柔
关键词:HMM自然语言处理
文献传递
一种基于可信度的人名识别方法
专名识别是中文自动分词的重要任务。本文分析了目前流行的基于语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法。从我们对《人民日报》...
罗智勇宋柔荀恩东
关键词:自动分词人名识别统计语言模型
文献传递
大学英语作文自动评分中分级词表的效度研究被引量:9
2008年
自动作文评分中的核心问题是对高信度的、机器可用的评分特征的选取。大学英语作文自动评分中的一个基本特征是词汇分布,而词汇分布的衡量需要一个描述清晰、刻画准确的大学英语作文分级词表,也就是一个效度较高的词表。实验证明目前已有的词表难以达到这个要求,但通过改进或者调整,可以取得对不同作文质量效度较高的词表。
李艳葛诗利
关键词:自动作文评分大学英语写作
现代汉语通用分词系统中歧义切分的实用技术被引量:29
2006年
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
罗智勇宋柔
关键词:中文信息处理歧义切分
基于CRF的百科全书文本段落划分被引量:4
2007年
CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。
许勇宋柔
关键词:条件随机域模型隐马尔科夫模型
基于半CRF模型的百科全书文本段落划分被引量:3
2008年
介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能.
许勇宋柔
关键词:自然语言处理隐马尔科夫模型
信息检索需求描述中的词语区域凸显
2008年
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。
熊文新宋柔
关键词:信息检索功能块
相似词及其在计算机辅助校对系统中的应用
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
罗智勇宋柔
关键词:数据稀疏相似词计算机辅助校对
文献传递
基于互连网的术语定义获取系统被引量:21
2004年
文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。
许勇荀恩东贾爱平宋柔
关键词:人工智能自然语言处理信息抽取
《中国大百科全书》人物传记知识提取加工规范
将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投...
颜伟王洁尚英宋柔
关键词:人物传记知识提取
文献传递
共3页<123>
聚类工具0