您的位置: 专家智库 > >

河北省教育厅科研基金(2001206)

作品数:9 被引量:300H指数:8
相关作者:袁方湛燕王熙照陈昊王丽娟更多>>
相关机构:河北大学哈尔滨工业大学东北大学更多>>
发文基金:河北省教育厅科研基金河北省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 9篇中文期刊文章

领域

  • 8篇自动化与计算...
  • 2篇文化科学

主题

  • 4篇聚类
  • 3篇数据挖掘
  • 2篇文本分类
  • 2篇聚类算法
  • 2篇决策树
  • 2篇高校学生
  • 2篇高校
  • 1篇信息检索
  • 1篇信息检索技术
  • 1篇学生成绩分析
  • 1篇学习成绩分析
  • 1篇数据仓库
  • 1篇数据库
  • 1篇数据挖掘技术
  • 1篇特征权值
  • 1篇特征选取
  • 1篇权值
  • 1篇中文
  • 1篇中文文本
  • 1篇中文文本分类

机构

  • 9篇河北大学
  • 1篇东北大学
  • 1篇哈尔滨工业大...
  • 1篇中国人民解放...

作者

  • 8篇袁方
  • 4篇王熙照
  • 4篇湛燕
  • 3篇陈昊
  • 2篇王丽娟
  • 1篇丁智斌
  • 1篇王利伟
  • 1篇于戈
  • 1篇孟增辉
  • 1篇王亚东
  • 1篇郝亚南
  • 1篇李驰
  • 1篇董贺伟
  • 1篇丁知斌

传媒

  • 4篇计算机工程与...
  • 1篇河北大学学报...
  • 1篇计算机研究与...
  • 1篇微机发展
  • 1篇计算机工程与...
  • 1篇河北大学成人...

年份

  • 1篇2006
  • 1篇2005
  • 3篇2004
  • 4篇2003
9 条 记 录,以下是 1-9
排序方式:
基于数据仓库的数据挖掘技术在高校学生成绩分析中的应用被引量:21
2004年
随着高校招生规模的扩展 ,在校生人数越来越多 ,学生成绩分布越来越复杂 ,除了传统的学生成绩分析得到的一些结论外 ,还有一些不易察觉的信息隐含其中 ,故而把基于数据仓库的数据挖掘技术引入到学生成绩分析中 ,以找到影响学生成绩的真实原因 。
丁知斌袁方
关键词:数据仓库数据挖掘学生成绩分析
Lazy和Eager分类算法的比较研究被引量:1
2004年
数据挖掘的两个高层目标是预测和描述,这个过程中分类算法的应用是非常广泛的。分类算法在机器学习领域中可以分为Lazy和Eager两种类型,分别具有不同的算法特点。文章基于实验对这两种类型的分类算法进行了分析,概括出适宜两种类型的环境条件,旨在提出实际应用中进行算法选择的经验性结论。
陈昊王熙照袁方湛燕
关键词:数据挖掘K-近邻决策树
数据挖掘在高校学生学习成绩分析中的应用被引量:56
2006年
随着高校的扩招,学生的数量越来越大,传统的对学生成绩的统计分析方法已不适应深入分析的需要。针对学生情况数据库应用数据挖掘中的ID3算法进行了情况分类,并对得到的结果进行了分析,得出了影响学生成绩的内部原因以及其它一些结论。
丁智斌袁方董贺伟
关键词:数据挖掘学习成绩分析决策树ID3算法
基于XML的信息检索技术被引量:10
2005年
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的。文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势。目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microsoft公司的.NETFramework为例,介绍了如何从XML文档中检索信息。试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难。
李驰袁方郝亚南
关键词:超文本标记语言可扩展标记语言信息检索
对k-means聚类算法的改进被引量:66
2004年
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。
袁方孟增辉于戈
关键词:K-MEANS聚类算法聚类模式识别
基于中文文本分类的分词方法研究被引量:37
2003年
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。
湛燕陈昊袁方王熙照
关键词:文本分类分词查询数据库
传递闭包聚类中的模糊性分析被引量:13
2003年
传递闭包聚类是根据其相似矩阵的传递闭包生成一个聚类图(模式空间的若干个精确划分),聚类过程的模糊性主要体现在相似矩阵上,并可以通过模糊信息熵函数度量。聚类过程中模糊性的大小是衡量聚类效果好坏的一个重要指标。降低聚类的模糊性,有利于最终的决策(指定一个精确的划分)。论文引入了交叉熵的概念,通过学习权重,极小化交叉熵,可以有效地降低聚类的模糊性。
王熙照王丽娟王利伟
关键词:聚类
文本挖掘研究进展被引量:27
2003年
数据挖掘是将人工智能技术和数据库技术紧密结合 ,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式 ,以满足人们不同应用的需要 .由于存储信息最多的自然形式就是文本 ,因此文本挖掘具有重要的意义 .结合笔者研究工作 ,主要介绍了文本挖掘的研究内容 ,挖掘过程 ,挖掘算法及应用前景 .
湛燕陈昊袁方王丽娟
关键词:文本挖掘特征选取文本分类文本聚类
学习特征权值对K-均值聚类算法的优化被引量:73
2003年
K 均值 (K means)算法聚类的结果依赖于距离度量的选取 传统的K 均值算法选择的相似性度量通常是欧几里德距离的倒数 ,这种距离通常涉及所有的特征 在距离公式中引入一些特征权参数后 ,其聚类结果将依赖于这些权值 ,从而可以通过调整这些权值优化聚类效果 由于K 均值算法是迭代算法 ,很难直接确定其权值以优化聚类结果 ,因此提出了一种间接的学习权值算法以改进聚类结果 从数学意义上讲 ,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换
王熙照王亚东湛燕袁方
关键词:K-均值聚类相似度量特征权值
共1页<1>
聚类工具0