王世昆
- 作品数:3 被引量:44H指数:3
- 供职机构:厦门大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 基于遗传算法和舍伍德思想的双数组Trie树改进被引量:3
- 2009年
- 对汉语信息处理中常常要涉及汉语词典查询,当所涉及的词典规模较为庞大时如何快速访问词典以获取词语知识便成为了一个需重点解决的问题。将阐述一种简单快捷的基于双数组Trie(Double-Array Trie)原理的词典查询机制。该算法的查询时间为O(n)的线性时间(n为查询词条的长度),由此可见双数组算法在时间上存在着明显优势,但在空间耗费上却存在着浪费现象。前人提出了一些解决方案,其中主要的有:在构造双数组时采用一种启发式排序策略,即每一次都先处理当前分支节点最多的活动节点。考虑到这种启发式思想为确定性算法,容易陷入局部最优陷阱之中,因此在这种思想的基础上引入了舍伍德随机思想和遗传算法中常常运用到的变异思想,在改进算法空间利用率的同时也使得算法跳出了局部最优解的陷阱。
- 王世昆李绍滋柯逍
- 关键词:遗传算法
- 中医症状病机实体识别及其关系挖掘研究
- 中医医案蕴藏着丰富的知识,它们作为中医药理论与经验的载体,贯穿并指导着临床实践,其学术价值和实用价值经久不衰。因此对医案的合理开发利用是中医研究中一项必不可少的工作,其成果具有很高的实用意义。
本文的主要工作是...
- 王世昆
- 关键词:相似度中医症状数据挖掘
- 文献传递
- 基于条件随机场的中医命名实体识别被引量:37
- 2009年
- 中医医案蕴藏着丰富的知识,如何完成对海量医案的自动标注以便对其进行知识挖掘显得尤为重要.针对明清古医案中症状、病机的自动识别标注问题,采用了基于条件随机场(CRF)的方法,提出数据清洗以及缩减合并词性以减少特征空间规模.最后,通过仿真实验将该方法与最大熵、支持向量机这两种统计方法进行对比.结果表明:该方法在针对明清古医案中症状、病机这类中医命名实体识别具有明显的优势.
- 王世昆李绍滋陈彤生
- 关键词:条件随机场数据清洗