韩先培
- 作品数:69 被引量:185H指数:7
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字更多>>
- 基于多方面反事实数据的文档筛选方法、装置及介质
- 本发明公开了基于多方面反事实数据的文档筛选方法、装置及介质,属于自然语言处理技术领域。本发明对带有内容质量分数标签的原文档进行内容质量的反事实推理,得到反事实文档,由原文档和反事实文档构成反事实文档对,得到对比文档集;基...
- 韩先培郑家胜林鸿宇陆垚杰孙乐
- 基于半监督学习的语义分析方法及系统
- 本发明提供一种基于半监督学习的语义分析方法及系统。所述方法包括:利用实体对共现构建原始词汇;对所述原始词汇进行打分,得到种子词汇;计算种子词汇中的词语与实验语料中的词语之间的语义相似度;根据所述种子词汇及词语之间的语义相...
- 陈波孙乐韩先培
- 文献传递
- 一种基于自监督学习的无监督机器阅读理解训练方法
- 本发明公开了一种基于自监督学习的无监督机器阅读理解训练方法,其步骤包括:1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;2)利用替换后的段落训...
- 孙乐边宁韩先培陈波
- 文献传递
- 智能科学家——科技信息创新引领的下一代科研范式被引量:15
- 2020年
- 科技创新是国家发展与民族复兴的强大引擎。提高科技创新能力必须透彻理解科研活动本身,包括科学研究发展规律、科技竞争形式特点、科研人员行为方式、科研成果传播影响等。科技信息是大量科研活动信息的承载和记录,科技信息的智能挖掘服务可以有效支撑科研创新能力研究。文章提出"智能科学家"的理念,首先分析了科研范式的演变与发展趋势,然后探讨了科技信息引领下的辅助科研创新、协助科研创新、自主科研创新三阶段构想,最终实现"智能科学家"的目标,最后介绍了"智能科学家"需要依托的若干关键技术方向。
- 罗威罗准辰雷帅程齐凯陆伟张瑾韩涛冯岩松韩先培冯冲张均胜刘志辉乔林波李东升许儒红陈敬一
- 关键词:科研范式领域知识
- 一种针对语言模型知识注入影响的探测方法和系统
- 本发明涉及一种针对语言模型知识注入影响的探测方法和系统,属于自然语言处理领域。该方法包含:(1)面向多种知识注入途径的反事实知识扰动框架:针对两种常见的知识注入途径生成反事实预训练数据集,来训练注入扰动后知识的预训练语言...
- 韩先培曹博希唐乔裕林鸿宇孙乐
- 一种面向文档理解模型的性能评价方法
- 本发明公开了一种面向文档理解模型的性能评价方法,其步骤包括:1)构建性能评价基准;2)根据基准对文档数据进行处理,得到用于测试不同性能的数据集;3)实现以待测试的文档理解模型为主干的文本分类模型,在文档分类数据集上训练并...
- 韩先培林鸿宇徐若曦管新岩孙乐
- 融合知识表示的知识库问答系统被引量:12
- 2018年
- 基于知识库的问答系统能够根据知识库中的事实自动回答自然语言的问题.简单问题是指可以通过知识库中单一的事实来进行回答的问题,这类问题也是最常见的问题.但是当面对大规模的知识库时,简单问题依然存在很大的挑战.当前的端到端(end-to-end)模型主要依赖于对问句、实体和关系的文本描述进行表示学习,进而根据这些表示来计算实体、关系与问句的语义相关度,忽略了知识库中的实体和关系的结构信息.而这些结构信息,对于问句中实体和关系的识别有重要作用.本文采用一种融合文本和知识的表示学习方法,通过文本表示和组合模型来学习问句和知识的表示,同时使用知识的结构信息来约束文本的表示和组合.在基于知识的问答任务上的结果表明,本文提出的方法学习到的问句和知识的表示能很好地反映问句与知识之间的语义相关性,并显著地提升了问句中实体链接和关系识别的准确率.
- 安波安波韩先培
- 关键词:问答系统知识库知识表示文本表示
- 一种基于叠加概念判别的信息抽取主动学习方法及装置
- 本发明提出一种基于叠加概念判别的信息抽取主动学习方法及装置,属于自然语言技术领域。本发明的核心思想是通过判别叠加概念,使信息抽取模型明确标注数据的抽取类别。包含两个主要部分:首先是基于排除法的叠加概念生成方法,通过一种“...
- 孙乐陈家慰林鸿宇韩先培姜姗姗董斌
- 一种基于多特征语义树核的关系抽取方法和信息检索方法
- 本发明公开一种基于多特征语义树核的关系抽取方法,以及应用该方法进行文本信息检索的方法,属于自然语言处理技术领域。该关系抽取方法主要包含:面向句法分析树关系表述表示的特征扩展机制;基于上述特征扩展机制的句法树内容特征扩展;...
- 韩先培孙乐
- 文献传递
- 基于半监督学习的语义分析方法及系统
- 本发明提供一种基于半监督学习的语义分析方法及系统。所述方法包括:利用实体对共现构建原始词汇;对所述原始词汇进行打分,得到种子词汇;计算种子词汇中的词语与实验语料中的词语之间的语义相似度;根据所述种子词汇及词语之间的语义相...
- 陈波孙乐韩先培
- 文献传递