朱道辉
- 作品数:3 被引量:4H指数:2
- 供职机构:南华大学计算机科学与技术学院更多>>
- 发文基金:湖南省教育厅科研基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于混合条件模型的Web信息抽取被引量:2
- 2008年
- 针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
- 肖基毅朱道辉邹腊梅
- 关键词:WEB信息抽取最大熵隐马尔可夫模型
- 基于长距离依赖条件随机域的文本信息抽取被引量:2
- 2011年
- 信息抽取中,同一token在文本中可能出现多次,且token多次出现的位置通常相隔很远,传统线性链CRF模型由于Markov假设不能表达长距离依赖关系于是将多次出现的同一token分开标注,丧失了全局信息。提出了长距离依赖条件随机域模型,该模型能结合多次出现的同一token各处的特征,对其进行联合标注。由于长距离依赖使得精确的标注算法不可计算,采用了TRP估计算法。实验表明该模型抽取性能优于线性链CRF模型,尤其是speaker域上的召回率有了很大的提高。
- 朱道辉肖基毅程阳吴诗祥
- 关键词:条件随机域文本
- 基于条件随机域的Web信息抽取研究
- 随着互联网资源的迅速增长,仅仅依靠浏览器以及基于关键字检索查询的搜索引擎,已远不能满足互联网用户的信息需求,Web信息抽取应运而生。本文以条件随机域模型为主要研究内容,研究了结构新颖的条件随机域模型,选择了一种适合Web...
- 朱道辉
- 关键词:条件随机域WEB信息抽取可扩展性