您的位置: 专家智库 > >

河北省秦皇岛市科学技术研究与发展计划项目(201101A087)

作品数:1 被引量:4H指数:1
相关作者:陈淑平梁东魁更多>>
相关机构:燕山大学更多>>
发文基金:河北省秦皇岛市科学技术研究与发展计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇元数据
  • 1篇元数据抽取
  • 1篇数据抽取
  • 1篇数字化
  • 1篇图书
  • 1篇馆藏
  • 1篇馆藏图书
  • 1篇抽取

机构

  • 1篇燕山大学

作者

  • 1篇梁东魁
  • 1篇陈淑平

传媒

  • 1篇现代情报

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
基于机器学习的扫描图书元数据自动抽取研究被引量:4
2013年
在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVuXML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。
陈淑平梁东魁
关键词:馆藏图书数字化元数据抽取信息抽取
共1页<1>
聚类工具0