穗志方
- 作品数:81 被引量:434H指数:14
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学医药卫生语言文字更多>>
- 本体层级结构的自动生成方法及系统
- 本发明涉及一种本体层级结构的自动生成方法包括以下步骤:S1.基于互联网提取每个概念的属性值列表;S2.对所述属性值列表中相类似的属性值进行合并;S3.根据概念的领域特性对所述属性值列表中的属性值进行过滤;S4.利用所述合...
- 穗志方赵庆亮
- 文献传递
- 中文症状知识库的建立与分析被引量:9
- 2020年
- 构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8 772种症状,共计146 631条属性关系。所构建的症状知识库(CSKB)是中文医学知识图谱的重要组成部分,并为KBQA、知识推理及决策支持等应用提供了数据基础。
- 昝红英韩杨超范亚鑫牛承志张坤丽牛承志
- 面向EBMT的汉语单句谓语中心词识别研究被引量:24
- 1998年
- 在基于实例的汉英机器翻译(EBMT)系统中,为计算语句相似度,需要对句子进行适当的分析。本文首先提出了一种折中的汉语句子分析方法———骨架依存分析法,通过确定谓语中心词来把握句子的整体结构,然后,提出了一种根据汉英例句集中英语例句的谓语中心词来识别相应的汉语例句的谓语中心词的策略。
- 穗志方俞士汶
- 关键词:机器翻译汉语句子汉英机器翻译
- 非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例被引量:10
- 2006年
- 非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文献特点提出了具体的实施方案与方法,展开了相应的工程实施,取得了显著成效,为基于非相关文献的知识发现奠定了坚实的数据基础。
- 刘耀段慧明穗志方
- 关键词:非相关文献知识发现语言知识库数据基础
- 自然语言处理评测数据集质量评估研究被引量:3
- 2023年
- 评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。
- 王诚文董青秀穗志方詹卫东詹卫东常宝宝
- 关键词:自然语言处理评测数据集
- 融合概念与逻辑的中文深层语义描述体系被引量:1
- 2019年
- 自然语言的语义理解涉及多个层面的问题,包括以谓词为中心的基本命题义、命题义之外的概念义、逻辑补足义等。目前主流的浅层语义分析主要集中在对命题义的分析上,缺少对概念义和逻辑义的支持,难以辅助计算机对文本的深度理解与推理。该文借鉴论元结构理论、事件语义学等相关语言学理论,突破语义角色标注等浅层语义分析的局限,建立了一种融合概念与逻辑的中文深层语义描述体系;并在该体系基础上,采用层层渲染的标注策略,构建了基于真实语料的大规模中文深层语义标注语料库,通过语言工程实践验证该描述体系的完备性和覆盖度。这一理论体系的建立和语言资源的构建,有望推动中文自动语义分析技术和人工智能等相关工作的创新发展。
- 夏乔林穗志方常宝宝詹卫东詹卫东张坤丽
- 关键词:中文语义资源构建
- 综合型语言知识库及其前景被引量:8
- 2011年
- 北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。
- 俞士汶穗志方朱学锋
- 关键词:自然语言处理计算语言学综合型语言知识库
- 基于网页中深度并列结构的实例提取算法
- 本文发现了网页文件中一种普遍存在的描述性结构—深度并列结构,并使用它来进行概念实例提取。首先提取网页文件中的深度并列结构,用种子实例对其进行过滤和提取候选实例;在候选实例评价阶段,构造种子、网页文件、并列结构和候选实例之...
- 张星星穗志方
- 关键词:HTML标签PAGERANK算法
- 文献传递
- 一种网页信息抽取方法
- 本发明公布了一种网页信息抽取方法,具体涉及一种从网络百科数据源提取概念属性并对其进行处理的方法。包括:构建实例列表,从多源异构数据源中提取列表中实例的候选属性;对提取到的属性进行同义归纳,将同义属性放在同一个集合中;对归...
- 穗志方李文杰
- 文献传递
- 汉语逻辑补足义标注框架研究
- 2019年
- 逻辑补足义是指附加在以谓词为中心的基本命题成分之上的否定、程度、时体、模态和语气等,具体表现为逻辑语义算子对谓词的语义约束关系,是基本命题成分所表达语义关系的有效补充。在句子中,逻辑补足义所表达的语义是句子深度语义理解的重要层面。该文以深层语义理解为目标,在逻辑补足义已有的研究基础上,建立了否定、程度、时体和语气分类体系,构建了相应的算子词典;制定标注规范,对已经标注了基本命题义语义角色的句子进行各类逻辑补足义的标注;最后,对标注的结果进行统计并对标注过程中出现的问题进行了分析。
- 张坤丽韩英杰贾玉祥穆玲玲穗志方昝红英
- 关键词:时体语气