您的位置: 专家智库 > >

王鹏坡

作品数:1 被引量:4H指数:1
供职机构:解放军电子工程学院网络工程系更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇页面
  • 1篇粒度
  • 1篇粒度分析
  • 1篇后缀树
  • 1篇半结构化
  • 1篇抽取

机构

  • 1篇解放军电子工...

作者

  • 1篇石昭祥
  • 1篇王鹏坡
  • 1篇王晓斌

传媒

  • 1篇计算机工程与...

年份

  • 1篇2009
1 条 记 录,以下是 1-1
排序方式:
自动粒度选择的半结构化页面信息抽取被引量:4
2009年
半结构化页面的数据记录间存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。
王晓斌王鹏坡石昭祥
关键词:信息抽取粒度分析后缀树
共1页<1>
聚类工具0