赵宇海
- 作品数:33 被引量:34H指数:3
- 供职机构:东北大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术生物学自然科学总论更多>>
- 一种用于基因表达数据的无参数聚类算法被引量:2
- 2005年
- 提出了一种用于基因表达数据的无参数聚类算法。该算法把多维数据的模糊聚类方法与CTWC相结合,并引入基于范数的方法进一步对该方法加以改进和论证。将该算法应用于真实的结肠癌基因表达数据集,确定了含8个基因的特征基因组合,该特征基因组合不仅达到了90%左右的结肠癌样本识别率,还能鉴别结肠癌样本的亚型。实验结果充分验证了这种算法的可行性。
- 赵宇海王国仁印莹
- 关键词:基因表达数据模糊聚类范数
- 一种考虑基因间相互关系的投影聚类算法
- 2009年
- 针对现有基因表达数据投影聚类算法假定基因相互独立,根据每个基因的独立区分度选择相关投影空间的不足,提出了根据基因间相互关系进行投影聚类的算法MOLION.通过将基因表达数据转换为序列数据,基于设定的用户偏好函数,采用分界判定法对样本穷举树进行快速地深度优先遍历,同时应用了高效的削减和优化策略.几个真实微阵列数据集上的实验证实了提出的算法具有较高的效率和预测准确性,为考察疾病表型的形成原因提供了一个新视角.
- 赵宇海王国仁于长永毛克明
- 关键词:基因表达数据投影聚类基因序列数据挖掘
- 时序微阵列数据中的同步和异步共调控基因聚类被引量:5
- 2007年
- 基因的共调控可分为同步和异步两种.文中提出了一种新的聚类模型Reg-Cluster,将具有相同编码的同步和异步共调控基因聚集到同一个共调控基因类中.在此基础上,提出了一种有效的聚类算法FBLD,采用先宽度优先、后深度优先的搜索策略,并结合高效的削减规则,挖掘得到所有符合条件的最大Reg-Cluster.聚类结果中包含了详细而完备的共调控信息,有助于基因调控网的研究.算法可扩展用于三维基因-样本-时间微阵列数据集的分析.FBLD算法已经应用到真实和人造微阵列数据集中,其结果被提交到Gene Ontology,实验结果证明了算法的高效性和有效性.
- 印莹赵宇海张斌王国仁
- 关键词:聚类时间序列基因本体
- 关系数据库中OLAP系统的分析与设计被引量:12
- 2005年
- 提出一种基于关系数据库的OLAP系统.介绍在该系统中各种模块的功能,包括OLAP建模、视图实例化、OLAP结果展示等几个模块.该设计能通过对数据仓库中的数据进行抽取得到用户感兴趣的数据,建立Cube模型,生成实例化的视图,在用户端可以发出对Cube的查询,并且通过友好多维报表和图形界面展示出来;可方便地交互式地进行钻取、旋转,通过在维之间进行切换实现切片和切块操作.本文着重讨论该系统各个部件的功能、设计和实现.
- 赵宇海李秋菊
- 关键词:OLAP数据仓库
- 基于使用信息和聚类方法的多模式集成
- 数据集成是解决多数据源整合问题的有效手段。如何准确高效地集成多数据源模式具有重要研究意义。本文在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法。首先从数据库的查询日志中为模式属性提取特征向量,并对其进...
- 丁国辉王国仁赵宇海
- 关键词:数据集成特征向量聚类
- 文献传递
- 一种基于CUBE的语义OLAP的I/O优化算法
- 2010年
- 数据仓库中多维数据立方计算对联机分析有着极为重要的作用,完全实例化的数据立方体上进行查询是非常简单的,只要返回所需数据即可,但是,实际中完全实体化一个数据立方体开销是非常大的,所以,既能缩减存储空间又能将数据立方体进行完全实体化针对查询来说是一个非常重要的研究问题。而完全实体化的数据cube是非常庞大的,那么在生成过程中I/O问题一直是影响性能的一个很重要的指标。有效的提高I/O操作,是我们解决问题的主要切入点。本文提出基于语义OLAP的Dwarf算法的频繁访问I/O问题提出了一个优化算法。实验表明,新的算法提高效率在10%以上。
- 王晓明印莹赵宇海张明泽
- 关键词:数据仓库OLAP
- 多显型疾病中致病模式和保护模式的挖掘
- 在多显型疾病中发现致病模式和保护模式具有很大的挑战性.以前的研究都是针对两类数据,即通过发病人群和正常人群对照得到疾病的发病模式,在多显型疾病(多种疾病或多亚型疾病)中同时发现致病模式和保护模式没有得到进一步研究.而关联...
- 印莹张斌赵宇海张明卫张晓红
- 关键词:兴趣度
- 文献传递
- 基于使用信息和聚类方法的多模式集成被引量:3
- 2010年
- 数据集成是解决多数据源整合问题的有效手段.如何准确高效地集成多数据源模式具有重要研究意义.关于模式集成已有大量的研究工作,但均忽略了用户使用信息.在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法.首先从数据库的查询日志中为模式属性提取特征向量,并对其进行聚类.然后根据结果聚类间的最小差异性,为每个结果聚类引入最大相似性阈值,利用该阈值发现结果聚类中与该类语义不相似的异常属性.最后针对结果聚类中的3类异常属性,设计3种异常属性去除规则,进一步提出异常属性去除算法EPKO.实验结果表明,该方法具有较高的准确度,可以有效地解决多个模式的集成问题.
- 丁国辉王国仁赵宇海
- 关键词:数据集成特征向量聚类
- 一种基于图压缩的重叠社区发现算法
- 2015年
- 为提高单机处理复杂网络规模的能力,提出一种新的重叠社区发现算法.首先,通过基于图压缩的社区结构表示模型(压缩社区图),对网络进行无损压缩;然后,在压缩社区图上基于种子迭代的思想,通过不断优化社区适应度函数将种子扩展成社区;最后,将相似度高的社区进行合并,得到最终的重叠社区结果.由于压缩后的凝聚图大大降低了待处理的网络规模,并能在一定程度上减少重复计算,该方法可以大大提高计算效率和单机处理的网络规模.
- 赵宇海印莹王雪
- 关键词:社会网络数据挖掘聚类
- 一种基于投影聚类的无监督表型区分算法
- 高通量微阵列技术与手工表型标定方式间的矛盾导致了基因表达数据的获取与表型确定间的不平衡.然而,已有的表型区分方法大多是有监督的,并且通常忽略了基因间广泛存在的相互作用,根据单个基因的独立区分能力划分样本表型,选择相关基因...
- 王章辉赵宇海王国仁李源
- 关键词:投影聚类基因表达数据序列数据
- 文献传递