您的位置: 专家智库 > >

中央高校基本科研业务费专项资金(BLYX200928)

作品数:10 被引量:34H指数:2
相关作者:陈钊张冬梅武刚邓厚平李嘉更多>>
相关机构:北京林业大学更多>>
发文基金:中央高校基本科研业务费专项资金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 10篇自动化与计算...

主题

  • 5篇林产
  • 5篇林产品
  • 5篇林产品贸易
  • 4篇信息抽取
  • 4篇WEB信息
  • 4篇抽取
  • 3篇WEB信息抽...
  • 1篇对象模型
  • 1篇信息定位
  • 1篇信息分类
  • 1篇信息服务
  • 1篇信息过滤
  • 1篇信息推送
  • 1篇引擎
  • 1篇用户
  • 1篇用户满意
  • 1篇用户满意度
  • 1篇语义
  • 1篇语义词典
  • 1篇视觉特征

机构

  • 10篇北京林业大学

作者

  • 7篇陈钊
  • 3篇武刚
  • 3篇张冬梅
  • 2篇邓厚平
  • 2篇陈剑
  • 2篇李嘉
  • 1篇刘雪琼
  • 1篇王梓
  • 1篇徐前
  • 1篇宋亭亭

传媒

  • 4篇计算机工程与...
  • 1篇电子世界
  • 1篇计算机工程
  • 1篇计算机应用
  • 1篇计算机应用研...
  • 1篇移动信息
  • 1篇数字技术与应...

年份

  • 1篇2016
  • 2篇2015
  • 2篇2014
  • 1篇2013
  • 2篇2012
  • 1篇2011
  • 1篇2010
10 条 记 录,以下是 1-10
排序方式:
基于语义的林产品贸易文本信息结构化研究被引量:2
2011年
根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的文本层次识别规则,采用创建数据库和数据表匹配识别规则,给出识别规则匹配的正则表达式和文本内容截取识别规则,以抽取需要的特定事实信息,并以一种结构化的形式存储于数据库中。通过对实际林产品贸易网站的文本信息结构化抽取,证明该研究在林产品贸易信息推送中具有较好的应用价值。
陈钊李嘉
关键词:语义林产品信息抽取
基于语义的林产品贸易Web信息抽取算法被引量:1
2014年
针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。
李嘉徐前王梓陈钊
关键词:WEB信息抽取
基于SVM的林产品贸易信息分类被引量:1
2014年
随着网络技术的普及与发展,互联网上林产品贸易信息迅速膨胀,在林产品贸易信息聚合的过程中需要对林产品信息进行分类。本文利用TF-IDF(term frequencyinverse document frequency)和SVM(Support Vector Machine)实现了对林产品贸易信息的分类。并以准确率和召回率为评价标准,对该方法进行了实验分析,实验表明该方法能有效的实现林产品贸易信息分类。
田世全陈钊
关键词:林产品SVM
基于改进DSE算法的web信息抽取
2012年
随着我国信息化进程的推进,人们开始认识到互联网作为信息来源的重要性,如何更有效地从网络的海量信息中抽取所需要的内容并进行合理的组织和利用已经成为亟待解决的问题。本文通过对DSE算法和RoadRunner系统中的算法的探讨和改进,提出了一种新的自动生成模板的信息抽取方法,并且在确定同模板网页url的阈值时引入了生物信息学中的FDR方法,为阈值的确定提出了理论根据。实验结果表明,经过改进的抽取方法对抽取结果的准确率有着明显的改善作用。
张冬梅陈钊陈剑
关键词:信息抽取文档对象模型
林产品贸易信息推送梯级过滤技术被引量:1
2012年
目前信息推送服务广泛应用于各类电子商务网站,然而传统信息过滤技术在林产品贸易信息过滤的过程中,存在着不足。在总结林产品贸易信息过滤的特点的基础上,提出梯级过滤技术。该技术根据林产品贸易用户兴趣的不同、用户需求程度的不同、林产品贸易信息特征项权重的不同,在提出林产品贸易信息特征向量空间模型和分析用户兴趣特征向量结构的基础上,采用先进行用户显性需求的严格过滤,再进行用户显性需求的模糊过滤,再进行用户隐性需求的过滤的梯级过滤方法,从而达到准确满足用户需求的目的。实验结果证明该方法能够有效地过滤出用户满意的信息。
陈剑张冬梅陈钊
关键词:信息过滤信息推送信息服务推荐系统
基于点击日志的搜索引擎用户满意度评价研究被引量:1
2015年
针对传统的搜索引擎人工评价方法效率低、成本大的问题,提出一种利用用户点击日志来评价搜索引擎用户满意度的方法。通过分析搜索引擎的用户点击日志,选择网页搜索结果排名、网页点击率、网页平均浏览时间作为用户满意度特征,分别运用多元线性回归分析、多元对数回归分析和BP神经网络方法,建立了基于用户点击日志的搜索引擎用户满意度评价模型。结合具体的实验数据集,通过实验对线性回归模型、对数回归模型和BP神经网络模型的结果进行了比较与分析,验证了模型的有效性。
邓晓妹武刚
关键词:用户满意度
基于爬虫和网站分类的主题信息源发现方法被引量:2
2016年
如何发现主题信息源是主题Web信息整合的前提。提出了一种主题信息源发现方法,将主题信息源发现转化为网站主题分类问题,并利用站外链接发现新的信息源。从网站中提取出能反映网站主题的内容特征词和结构特征词,建立描述网站主题的改进的向量空间模型。以该模型为基础,通过类中心向量法与SVM相结合对网站主题进行分类。提出一种能尽量少爬取网页的网络搜索策略,在发现站外链接的同时爬取最能代表网站主题的页面。将该主题信息源发现方法应用于林业商务信息源,通过实验验证了该方法的有效性。
邓厚平武刚
关键词:网站主题爬虫
Web信息抽取技术综述被引量:24
2010年
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。
陈钊张冬梅
关键词:WEB信息抽取MDR视觉特征
林产品贸易Web信息检测与过滤系统
2015年
本文主要侧重于中文文本信息中不良信息的检测与过滤,主要从网站用户注册和信息发布检测与过滤两个方面进行研究。就用户注册而言,针对许多网站的垃圾注册提出了解决方案,即限制同一IP重复注册、用户等级限制等。当用户发布信息时,需要检测用户权限以及一段时间内的发帖数量,以此判定是否允许用户发帖。用户完成发布后,信息提交给后台,后台根据数据库中的敏感关键词进行检测过滤,并提交给后台管理员来检测是否含有无关或者不良urI地址。本研究使用的语言为c#,开发环境是ASP.NET,数据库采用sqlserver2005,使用的技术包括:加减法验证、垃圾注册检验、urI检测、中文分词、关键词过滤。
宋亭亭陈钊
关键词:林产品贸易不良信息
Web信息整合中的数据去重方法被引量:4
2013年
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。
刘雪琼武刚邓厚平
关键词:相似重复记录
共1页<1>
聚类工具0