冯冲
- 作品数:71 被引量:287H指数:11
- 供职机构:北京理工大学计算机学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学政治法律电子电信更多>>
- 一种在线资源相关信息抽取的知识图谱生成方法
- 本发明提供了一种在线资源相关信息抽取的知识图谱生成方法,属于自然语言处理信息抽取技术领域。所述方法包括:在输入的在线资源引用句子上枚举生成候选span,基于BERT编码器学习句子中的token表示进而得到每个候选span...
- 冯冲赵赫唐雨馨
- 基于本体的汉语领域命名实体识别被引量:3
- 2009年
- 命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法。该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别。实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%。同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用。
- 史树敏冯冲黄河燕刘东升王树梅
- 关键词:本体CRFS
- 语言工程的软件体系结构研究综述被引量:3
- 2004年
- 语言工程的软件体系结构已经逐渐发展成为语言工程的主要研究领域之一。它面向通用的自然语言应用 ,为其提供架构层次的参考方案。研究内容涵盖与体系结构相关的计算资源、语言资源、方法和应用等多个方面。在一定意义上 ,可以把它看作是在语言工程领域内的特定领域软件体系结构 (DSSA)。本文概要介绍了该领域的发展历程和研究意义 ,然后对其基本概念和当前主要研究进展进行了阐述和分析 ,并展望了进一步的发展趋势。
- 冯冲陈肇雄黄河燕
- 关键词:人工智能自然语言处理软件体系结构自然语言处理
- 一种基于历史记录的知识推送方法
- 本发明涉及一种基于历史记录的知识推送方法,属于计算机应用领域。本方法通过比较两个任务之间的相似度,获取与当前任务相似的任务,并分析其在完成过程中对知识的操作记录,然后通过一个具体的值来对知识列表排序的方法实现知识推送。本...
- 黄河燕史树敏冯冲李侃闫春雷
- 最大熵模型的树-栅格最优N解码算法被引量:1
- 2005年
- 最大熵模型已被广泛应用于多种自然语言处理任务,但一些现有研究工作在解码算法上存在有待改进的地方。本文提出了一个最大熵模型的树-栅格最优N解码算法,并对算法性能进行了分析和比较。算法的另一优点在于可以在解码过程中检测并控制潜在的标注冲突。
- 冯冲陈肇雄黄河燕王江伟
- 关键词:最大熵模型解码最大熵模型解码算法栅格自然语言处理
- 基于多特征融合的中文比较句识别算法被引量:10
- 2013年
- 观点承载着文本的重要信息,而比较句是观点评论中一种常见的句式现象。针对中文比较句识别问题,该文提出了一种基于规则与统计相结合的方法并进行实验。该方法先对语料及其分词结果进行规范化处理,再通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行泛提取。然后设计一种CSR规则提取算法,并利用CRF挖掘实体对象信息及语义角色信息。最后利用SVM分类器,选取不同特征维数,找到使性能达到最优的特征形式完成精提取。
- 张辰冯冲刘全超师超黄河燕周海云
- 关键词:比较句CRFSVM
- 面向大语言模型的藏语指令数据集构建
- 2024年
- 指令微调是增强大语言模型(LLMs)能力的关键技术,受到了学术界和工业界的广泛关注。目前针对英语、汉语等资源丰富的语种的大语言模型取得了超出预期的效果,其重要原因之一是依托丰富的语言资源构建的大规模指令数据集能够有效支撑目标任务的指令微调。而对于低资源语言,LLMs的相关研究与应用尚处于起步阶段。该文以藏语作为低资源语言的代表,研究了面向大语言模型指令微调的数据集构建方法。首先,通过收集网页及社交媒体上的藏语文本构成原始藏语数据,并对此数据进行过滤、去重等预处理,形成质量较好的藏语数据集;然后,根据不同数据的特点,有针对性地进行人工标注,形成高质量的指令数据集。此外,为了保证数据的多样性,该文收集部分高质量的中文指令数据集,采用基于翻译的方法来构造藏语指令数据集以作为人工标注数据的补充,最终形成了包含12个子任务的384K条藏语指令数据,并将数据开源用于相关科学研究。最后通过实验验证了该文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。
- 朱孟笑沙九冯冲
- 融合多源知识的中文医学命名实体和词性联合学习方法
- 本发明涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取技术领域。本发明提出了一种多输入多任务学习模型,首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的...
- 冯冲 赵培雯
- 文献传递
- 一种在线资源相关信息抽取的知识图谱生成方法
- 本发明提供了一种在线资源相关信息抽取的知识图谱生成方法,属于自然语言处理信息抽取技术领域。所述方法包括:在输入的在线资源引用句子上枚举生成候选span,基于BERT编码器学习句子中的token表示进而得到每个候选span...
- 冯冲赵赫唐雨馨
- 文献传递
- 一种面向术语抽取的短语过滤技术被引量:7
- 2009年
- 在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。
- 周浪冯冲黄河燕
- 关键词:术语抽取