您的位置: 专家智库 > >

博士研究生创新基金(05013)

作品数:2 被引量:8H指数:2
相关作者:孙鹤立黄健斌姬红兵更多>>
相关机构:西安电子科技大学西安交通大学更多>>
发文基金:国家部委预研基金博士研究生创新基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇数据集
  • 2篇数据集成
  • 1篇WEB对象
  • 1篇WEB数据集...

机构

  • 2篇西安交通大学
  • 2篇西安电子科技...

作者

  • 2篇姬红兵
  • 2篇黄健斌
  • 2篇孙鹤立

传媒

  • 2篇西安电子科技...

年份

  • 2篇2007
2 条 记 录,以下是 1-2
排序方式:
多源Web对象与关系数据的集成被引量:2
2007年
利用序列数据语义标注学习方法来解决异构数据源的模式匹配问题,将从多个网站抽取的异构Web对象集成到关系数据库中.在线性链条件随机场的基础上提出了一种可叠加多阶链的组合条件随机场模型.该模型可以在由手工标注数据和关系数据库记录组成的联合样本集上进行训练,因此减少了对繁琐手工标注样本的依赖;此外,通过在线性链条件随机场模型上叠加高阶链,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验和分析结果表明,所提出的方法能显著提高异构Web数据的字段标注性能.
黄健斌姬红兵孙鹤立
关键词:WEB数据集成
近似重复记录的自适应距离度量检测被引量:6
2007年
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
黄健斌姬红兵孙鹤立
关键词:数据集成
共1页<1>
聚类工具0