王峻 作品数:15 被引量:68 H指数:5 供职机构: 西南大学计算机与信息科学学院 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 黑龙江省杰出青年科学基金 更多>> 相关领域: 自动化与计算机技术 生物学 文化科学 理学 更多>>
基于标记与特征依赖最大化的弱标记集成分类 被引量:3 2017年 弱标记学习是多标记学习的一个重要分支,近几年已被广泛研究并被应用于多标记样本的缺失标记补全和预测等问题.然而,针对特征集合较大、更容易拥有多个语义标记和出现标记缺失的高维数据问题,现有弱标记学习方法普遍易受这类数据包含的噪声和冗余特征的干扰.为了对高维多标记数据进行准确的分类,提出了一种基于标记与特征依赖最大化的弱标记集成分类方法 En WL.En WL首先在高维数据的特征空间多次利用近邻传播聚类方法,每次选择聚类中心构成具有代表性的特征子集,降低噪声和冗余特征的干扰;再在每个特征子集上训练一个基于标记与特征依赖最大化的半监督多标记分类器;最后,通过投票集成这些分类器实现多标记分类.在多种高维数据集上的实验结果表明,En WL在多种评价度量上的预测性能均优于已有相关方法. 谭桥宇 余国先 王峻 郭茂祖关键词:高维数据 特征子集 基于多网络数据协同矩阵分解预测蛋白质功能 被引量:1 2017年 准确预测蛋白质功能是生物信息学的核心任务之一,也是人工智能在生物数据分析中的重要应用点之一.高通量技术的广泛应用产生了大量的生物分子功能关联网络,整合这些网络可更为全面地分析理解蛋白质功能机理,提升蛋白质功能预测精度.已有多种基于数据整合的蛋白质功能预测方法,但它们通常难以应用到较大功能标签空间,未利用标签间关联性和差异性整合多个网络.提出一种基于多网络数据协同矩阵分解的蛋白质功能预测方法(ProCMF).该方法首先利用非负矩阵分解将蛋白质-功能标签关联矩阵分解为2个低秩矩阵,挖掘蛋白质与标签之间的潜在关联.其次,为利用标签间关联关系和多种蛋白质特征数据,ProCMF分别基于上述2个低秩矩阵定义平滑正则性,约束指导低秩矩阵的协同分解.为了差异性地集成多个网络,ProCMF对不同的网络设置不同的权重.最后ProCMF将上述目标统一到一个目标方程中,并用一种交替迭代的方法分别优化求解低秩矩阵和网络权重.在酵母菌、人类和老鼠3个模式物种的多网络数据集上的实验结果表明:ProCMF获得了较其他相关算法更好的预测性能,ProCMF能有效地处理大量的功能标签和区分性地整合多个网络. 余国先 王可尧 傅广垣 王峻 曾安关键词:蛋白质功能预测 网络集成 非负矩阵分解 单核苷酸多态性分析算法的研究与应用 单核苷酸多态性(SNPs,Single Nucleotide Polymorphisms)研究是目前生物信息学领域中的重要课题之一。2000年人类全基因组草图的完成和2003年人类全基因组序列测定的彻底完成,极大地促进了... 王峻关键词:单核苷酸多态性 生物信息学 文献传递 基于网络约束双聚类的癌症亚型分类 被引量:5 2019年 癌症亚型识别在肿瘤异质性分析中具有重要意义.双聚类可以在大规模基因表达数据的基因和样本维度上同时进行聚类分析,发现部分样本在部分基因子集上表达相似的双聚类簇,进而发现相应的癌症亚型,为癌症的精准基因治疗等提供了重要的信息.双聚类算法通过结合基因相互作用网络数据,可进一步提高癌症亚型分类的准确度,但已有整合基因网络的双聚类算法通常仅基于基因的度加权选择基因,易受网络中噪声互作的干扰和缺失互作的误导.为此,该文提出了一种基于基因互作网络正则化的双聚类算法(Network Regularized Bi-Clustering algorithm, NetRBC). NetRBC首先通过最小化聚类簇上的均方残差分别求取癌症基因表达数据矩阵上的基因簇和样本簇指示矩阵;然后利用基因网络和基因簇指示矩阵构建图正则项;最后将此正则项结合到基于均方残差的非负矩阵分解中,约束基因簇和样本簇矩阵的协同分解,以期提高癌症亚型分类的精度.在多个癌症基因表达数据上的实验结果表明,NetRBC比已有相关方法能够更准确地区分癌症亚型. 王星 王峻 余国先 余国先关键词:非负矩阵分解 基因网络 面向真实语料的汉语动词次范畴化自动获取的研究 动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,作为自然语言处理进一步发展所不可或缺的知识,汉语中的相关研究还很薄弱。探索面向真实语料的汉语动词次范畴化自动获取方法对于中文信息处理来说具有重要的理论研究... 王峻关键词:真实语料 支持向量机模型 文献传递 基于线粒体SNP的疾病人群分类方法研究 本文提出了一种基于线粒体SNP位点分析的疾病人群分类方法。采用基于关键字树的多序列比对算法将线柱体DNA对齐,通过卡方统计量和信息含量差值筛选获取与疾病关联的显著性线粒体SNP位点集合作为分类特征,使用k*算法生成有效分... 王峻 郭茂祖 邹权关键词:线粒体 疾病人群 基因组序列 帕金森症 文献传递 基于0-1矩阵分解的蛋白质功能预测 被引量:2 2019年 准确地标注蛋白质功能是功能基因组学的核心任务之一.蛋白质功能标注信息存在大量缺失且功能标签空间巨大.近期一些标签压缩方法被提出并应用于蛋白质功能预测,但是这些方法获取的压缩标签可解释性差,且面临着多标记学习中的阈值划分难题.为解决这些问题,本文提出一种基于0-1矩阵分解的蛋白质功能预测方法 (zero-one matrix factorization, ZOMF). ZOMF首先将蛋白质–功能标签关联矩阵分解成两个低秩0-1矩阵,挖掘蛋白质和功能标签间的内在关联.其次它利用蛋白质互作网和基因本体结构信息分别针对上述两个低秩矩阵定义了平滑正则项,约束指导低秩矩阵的优化.最后它利用优化获取的低秩矩阵重构关联矩阵,进而实现蛋白质功能预测.通过在酵母菌、拟南芥、老鼠和人类数据集上的实验表明, ZOMF比已有的相关算法能够更准确地预测蛋白质功能,它无需对重构的关联矩阵进行阈值划分,压缩的0-1标签可解释性更直观. 赵颖闻 王峻 郭茂祖 张自力 余国先关键词:蛋白质功能预测 矩阵分解 基因本体 转录因子结合位点识别算法的研究 被引量:2 2007年 转录因子结合位点的识别是生物信息学中的一个重要领域.本文从计算机等信息科学的角度,对转录因子结合位点的识别方法进行了综合分析,包括该问题的生物学意义、主要算法思想以及每种算法的优缺点.使用TRANSFAC数据库中几组样例对具有代表性的6种主要软件进行测试,对其结果进行了详细地比较分析.最后,在总结分析现有算法的基础上探讨了该领域进一步的研究方向. 王峻 郭茂祖关键词:转录因子结合位点 基于正负样例的蛋白质功能预测 被引量:6 2016年 蛋白质功能预测是后基因组时代生物信息学的核心问题之一.蛋白质功能标记数据库通常仅提供蛋白质具有某个功能(正样例)的信息,极少提供蛋白质不具有某个功能(负样例)的信息.当前的蛋白质功能预测方法通常仅利用蛋白质正样例,极少关注量少但富含信息的蛋白质负样例.为此,提出一种基于正负样例的蛋白质功能预测方法(protein function prediction using positive and negative examples,ProPN).ProPN首先通过构造一个有向符号混合图描述已知的蛋白质与功能标记的正负关联信息、蛋白质之间的互作信息和功能标记间的关联关系,再通过符号混合图上的标签传播算法预测蛋白质功能.在酵母菌、老鼠和人类蛋白质数据集上的实验表明,ProPN不仅在预测已知部分功能标记蛋白质的负样例任务上优于现有算法,在预测功能标记完全未知蛋白质的功能任务上也获得了较其他相关方法更高的精度. 傅广垣 余国先 王峻 郭茂祖关键词:蛋白质功能预测 面向科研创新的MATLAB课程教学模式探索 被引量:18 2018年 总结多年MATLAB课程教学经验,基于MATLAB课程教学实践和应用性强的特点,设计多层次分阶段模块化的教学步骤,以大学生数学建模和实际工程应用案例为实践教学素材,积极探索面向大学生科研创新能力培养的MATLAB课程教学模式,以激发学生对创新活动的积极性,提高学生的科研创新能力为教学目标,为培养创新复合型人才提供一个可行的教学实践探索方向. 余国先 王峻关键词:创新能力培养 案例教学法