韩子扬
- 作品数:61 被引量:59H指数:4
- 供职机构:沈阳建筑大学更多>>
- 发文基金:辽宁省自然科学基金国家自然科学基金住房和城乡建设部科学技术计划项目更多>>
- 相关领域:自动化与计算机技术文化科学电子电信经济管理更多>>
- 基于数值属性的web隐藏数据抽取算法
- 2016年
- 用户通过web查询接口获取后台数据库的数据时,由于返回结果元组数量是受限的,只能获取隐藏数据库中的部分数据.现有的搜索引擎技术也很难有效的爬取隐藏数据库的全部数据.为此,针对后台隐藏数据库的数值属性类型,本文提出了基于数值属性的排序划分算法,通过该算法能够以较少的次数查询获取隐藏数据库数据的全部数据元组,并给出了算法查询代价的理论分析,通过实验验证了算法的有效性.
- 孙阳李贵韩子扬李征宇孙平
- 一种基于云架构的Deep Web数据挖掘及应用系统
- Deep Web网站中包含了海量有价值的结构化数据,通过对Deep Web数据挖掘,可以实现Web数据的增值应用,但是,Web数据挖掘是十分耗费计算资源和网络资源的活动;基于云架构的Deep Web结构化数据抽取与应用服...
- 韩子扬李征宇杜利明孙平
- 关键词:网络资源数据挖掘云计算调度算法
- 文献传递
- Web数据集成中缺失数据处理方法研究
- 2021年
- 数据预处理是web数据集成中的一个重要步骤,修复缺失数据是数据预处理的重要组成部分。在web数据集成中修复缺失数据的关键问题是缺失点没有可直接提供参考的观察值,这导致用户不能使用估算和推理的方法,只能依靠有经验的用户或领域专家通过制定规则才能填充数据。然而,对于具有成千上万个缺失点的大型数据库,由用户理解数据并制定有效的填充规则是不可行的。因为在修复缺失数据时,用户需要了解哪些候选子集对缺失点填充概率和覆盖程度最大。然而,给用户推荐填充概率和覆盖程度最大的候选子集计算量非常大。为了解决这个问题,本文提出了一种基于信息熵的生成候选子集算法,通过用户对初始候选子集的编辑,使用该算法计算出缺失点填充概率和覆盖程度最大的候选子集。通过用户选择的候选子集并依据数据集中一对多的关联关系生成并推荐缺失点覆盖程度更高的规则,并将用户选择的规则通过数据集中一对多的关联关系泛化至更多的缺失点中。经过原型系统实现结果表明,用该方法修复的数据具有较高的精度,同时,实验表明普通用户在短时间内便可修复大量缺失数据,有效地提高了数据修复的效果。
- 袁辉英李贵李征宇韩子扬曹科研
- 关键词:数据预处理WEB数据集成信息熵
- 一种基于树模型的关联实体解析方法
- 2021年
- 在大数据时代,Web数据呈现多样性和关联性,在实体解析(Entity Resolution)中体现为解析的数据集往往包含多个实体集,实体集之间具有关联关系。这种关系导致解析一个实体集的结果可以使另一个实体集的解析受益,这种具有关联关系的实体解析称为关联实体解析(Related Entity Resolution)。本文针对一对多类型关联实体的实体解析问题提出了关联树模型,并引申出相似节点、相似树、相似性传递等概念。我们提出了一种基于树的一对多关联实体解析方法。初始时依据关联实体的关联关系构建关联树;将本节点的属性相似度和关联子节点的部分属性相似度结合起来判断节点是否匹配;基于深度优先原则遍历关联树的每一个节点,依据节点的实体解析结果筛选出满足相似传递性的部分子节点,在遍历完叶子节点的过程中,生成部分相似子树,再对根节点的子节点集中节点进行相似匹配,寻找其他相似子树。本文提出一种相似树索引来表示关联树的匹配结果。用房地产大数据通过实验验证文中提出的关联树搜索算法比已有的关联实体识别算法在一对多关联实体上效率更高。
- 王泽龙李贵李征宇韩子扬曹科研
- 基于表格特征的Web数据抽取方法
- 随着Internet的普及,Web上有价值的信息日益增多,使得Web数据抽取技术成为近年来的研究重点。通过分析近几年Web抽取技术的研究成果,根据现有的抽取技术所面临的可维护性差和实用性不高等不足,提出一种基于表格特征的...
- 李贵冯季昉韩子扬郑新录
- 关键词:WEB数据抽取
- 对象互操作的层次模型被引量:2
- 2008年
- 在分析传统面向过程互操作的基础上,针对大规模环境下对象互操作问题,首先提出了一种对象互操作的分层结构模型,将对象互操作分为说明层、接口层和通信层互操作。针对每层互操作,提出了各自的机制与方法,为对象互操作提供了不同层次的透明性支持。
- 李贵冯季昉韩子扬郑新录王国仁
- 关键词:对象映射
- 人工智能在数据结构智能教学系统中的应用被引量:1
- 2013年
- 智能教学系统(ITS)是人工智能与教育结合的主要形式,本文针对数据结构智能教学系统(DataStructure Intelligent Tutoring System,简称DSITS)的构成进行分析,讨论了人工智能的技术方法在DSITS构建中的应用以及对于教学效果的改善。
- 李征宇韩子扬孙平孙晓娟
- 关键词:ITS人工智能
- 基于Web的实例扩展与属性值扩充方法被引量:1
- 2014年
- 实例扩展与属性值扩充是Web抽取与集成领域中的一个重要研究课题,将Web数据列表和实例建模成二分图,根据扩展实例的质量分数,对扩展集合进行迭代更新直到扩展集合的质量分数最大,且扩展集合不再更新来实现实例的扩展。同时,为了完善扩展实例的属性信息,对结构化数值属性或离散属性进行抽取,提出了基于整数线性规划的属性值扩充方法。实验表明,与以前的方法相比,本方法能更好地处理含有噪声数据的Web网页,并提高了抽取的准确率和召回率。
- 李贵陈韶刚韩子扬李征宇孙平孙焕良
- 关键词:整数线性规划
- 平坦数据记录列表页的Web信息抽取
- 结构化信息抽取是Web内容挖掘的重要组成部分,而平坦数据记录列表页是结构化信息抽取中一种被频繁使用的网页模式。在平坦数据记录列表页构建出的DOM树的基础上,提出了一种改进的数据区域挖掘算法、数据记录识别算法,并利用部分树...
- 李贵商鹏程郑新录韩子扬
- 关键词:WEB信息抽取
- 文献传递
- 基于SOAP技术的安全性策略
- SOAP(Simple Object Access Protocol)是一个基于扩展性标记语言的在分散或分布式环境中实现交换信息的简单协议。其作为Web服务互操作的通信协议基础,在实现Web服务互操作安全性的工程中扮演着...
- 李贵那峰郑新录韩子扬
- 关键词:简单对象访问协议WEB服务可扩展标记语言混合加密技术