国家自然科学基金(20273076)
- 作品数:6 被引量:30H指数:4
- 相关作者:郭力夏诏杰杨章远聂峰光祝宇更多>>
- 相关机构:中国科学院过程工程研究所中国科学院大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- Internet化学资源导航系统中的相关资源链接被引量:7
- 2003年
- 化学家利用Internet通用资源搜索引擎如Yahoo、Google获取Internet资源时,检索结果常包含大量相关性较小的内容。Internet化学资源导航系统如ChemDex用人工方法收集和组织资源使资源内容质量和相关性比通用搜索引擎有所提高,但进行细致的分类仍比较困难。由中国科学院过程工程研究所建立、Internet化学化工资源导航系统ChIN的维护工具ChIN-Manag-er采用把两个内容相关的资源简介页互链来表示资源之间的密切相关关系,目前维护人员主要通用测览分类目录来确定相关资源,但这种方式在被索引的资源数量日益增大时其可用性降低。本论文开发了一种新的基于ChIN数据库检索的链接两个关系密切的相关简介页的方法。该方法针对ChIN数据库中简介页的组织特点设计了面向不同资源类型数据表的多种检索策略,这些策略侧重于被检索字段的确定;并为20余种不同类型的资源描述表建立了实现相应检索策略的检索界面。这些检索界面无缝集成到了ChIN-Manager相应的资源编辑界面中,为ChIN提供了一种快速确定被索引资源的密切相关资源的方法。
- 王华彦李晓霞郭力杨章远
- 关键词:CHIN
- 化学主题网络爬虫的设计和实现被引量:10
- 2006年
- 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。
- 夏诏杰梁春燕郭力
- 关键词:主题爬虫主题搜索引擎分类器
- 面向化学领域网络资源的文本自动分类算法被引量:1
- 2004年
- 为了提高化学主题搜索引擎的查询效果,采用距离加权七一近邻分类算法来进行自动分类.为了测试该算法对化学领域网络资源进行分类的效果,文中使用化学化工资源导航系统ChIN人工积累的资源和描述信息作为数据集,并采用基于化学领域的多层次分类体系进行分类.经测试,系统微平均值Fmicro最高可达到71%.文中还就文档的关键词和数据集的熵对分类性能的影响进行了讨论.结果表明,该算法能较好地应用于化学领域网络资源的自动分类.
- 梁春燕夏诏杰郭力
- 关键词:文本自动分类
- 网络搜索引擎的性能优化策略和相关技术被引量:8
- 2004年
- 由于检索结果的不准确性,使网络搜索引擎有时难以满足用户的查询需求。因此,在传统搜索引擎技术的基础上,采用其它理论和技术来提高搜索引擎的查准率,可以对搜索引擎进行性能优化。该文提出了几种对网络搜索引擎进行性能优化的策略,并对相关的实现技术进行了探讨。根据网络资源的权威性及其与用户查询的相关性对检索结果进行排序,可以有效提高结果的准确度;通过基于概念的信息检索技术和信息的自动分类技术可以有效地对用户查询进行语义的扩充和理解,更好地满足用户需求;实现搜索引擎的个性化查询和专业化查询,也是提高搜索引擎性能的重要途径。
- 梁春燕郭力夏诏杰杨章远
- 关键词:信息检索搜索引擎用户兴趣模型
- 利用未标记数据提高SVM分类器性能的研究被引量:2
- 2006年
- 监督学习算法的一个主要困难在于需要大量标记过的训练集数据,采用人工的方法不够现实。文章提出了SVM分类器在少量标记训练样本情况下,采用Rocchio法和KNN方法从大量的未标记数据中,挑选相似度较高、区别度较大的数据加入到训练集中,弥补训练样本的不足。实验表明该算法有效地利用了丰富的未标记数据,减少了人工标记量,较好地提高了SVM分类器的性能。
- 祝宇聂峰光郭力
- 关键词:文本分类K近邻法
- 支持向量机在化学主题爬虫中的应用被引量:9
- 2006年
- 爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。
- 祝宇夏诏杰聂峰光郭力
- 关键词:文本分类搜索引擎