张书涵
- 作品数:7 被引量:23H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 面向中文电子病历的属性挖掘被引量:1
- 2022年
- 电子病历(EMR)的属性挖掘任务旨在从一组同一科室下的病历文本中抽取该科室医学检查项目。传统的频繁项或序列挖掘技术并不能直接用于该任务。本文提出一种新的不需要人工干预的属性挖掘框架,并借助无标注技术来处理这一难题,即将属性挖掘问题形式化为半结构化的频繁子序列挖掘任务,并提出一种有效的算法从电子病历中挖掘候选的词模式。在中文电子病历上进行的各项综合实验,证明了本文提出的方法可以有效处理属性挖掘任务。
- 费超群张书涵张书涵
- 一种基于智能推理的辅助疾病诊断的系统
- 本发明提出一种基于智能推理的辅助疾病诊断的方法及系统,涉及计算机领域,该方法包括获取用户的输入信息并进行解析,将输入信息中的有效信息进行存储,计算所述有效信息在病例库中的信息匹配度以及在规则库中的规则覆盖率,对所述信息匹...
- 刘鹏鹤张书涵孙晓平孙毓忠
- 文献传递
- 文本摘要常用数据集和方法研究综述被引量:19
- 2019年
- 成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。
- 侯圣峦张书涵费超群
- 关键词:文本摘要自然语言处理人工智能
- 面向智能临床辅助决策支持系统的知识库构建方法与系统
- 本发明提出一种面向智能临床辅助决策支持系统的知识库构建方法与系统,涉及知识库的构建领域,该方法包括获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰...
- 张书涵刘鹏鹤孙晓平孙毓忠
- 文献传递
- 一种基于智能推理的辅助疾病诊断的方法与系统
- 本发明提出一种基于智能推理的辅助疾病诊断的方法及系统,涉及计算机领域,该方法包括获取用户的输入信息并进行解析,将输入信息中的有效信息进行存储,计算所述有效信息在病例库中的信息匹配度以及在规则库中的规则覆盖率,对所述信息匹...
- 刘鹏鹤张书涵孙晓平孙毓忠
- 面向中文的修辞结构关系分类体系及无歧义标注方法被引量:3
- 2019年
- 修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。
- 侯圣峦费超群张书涵
- 关键词:自然语言处理修辞结构理论篇章结构分析
- 工作流网频繁子网挖掘研究进展
- 2022年
- 本文总结了工作流网频繁子网挖掘的主流研究方向,包括从一维的日志进程中构造工作流网及其子网和从二维工作流网中挖掘其频繁子网结构,总结了其中的代表性方法及其优缺点。工作流网具有复杂、异构拓扑结构和完备性语义的特性,本文详细分析了将频繁模式挖掘(FPM)算法直接用于工作流网频繁子网挖掘存在的问题及缺陷。并给出了工作流网频繁子网挖掘的典型应用,包括异常检测、跨组织变体分析等。最后讨论了工作流网频繁子网挖掘中的研究难点和未来研究趋势。
- 张书涵费超群黄锡昆李阳阳
- 关键词:工作流网PETRI网