国家自然科学基金(60903082) 作品数:21 被引量:75 H指数:5 相关作者: 高雪瑶 王永贵 刘宪国 张春祥 林琳 更多>> 相关机构: 哈尔滨理工大学 辽宁工程技术大学 哈尔滨工程大学 更多>> 发文基金: 国家自然科学基金 中国博士后科学基金 黑龙江省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种融合ACNN和Bi-LSTM半监督缩略语消歧方法 2022年 为了提高生物医学缩略语的消歧准确率,提出了一种融合ACNN和Bi-LSTM半监督缩略语消歧方法。以缩略语为中心,提取左右4个邻接词汇单元的词形信息、词性信息和语义信息作为消歧特征。使用Xgboost算法和LightGBM算法扩充训练语料,将扩充完的训练语料输入到这个模型中,使用非对称卷积神经网络(asymmetric convolutional neural networks,ACNN)和双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)来提取特征,使用softmax函数进行语义分类。使用MSH语料来优化该模型并测试其消歧性能,实验结果表明:本文所提出模型只需使用少量的有标注语料,可以有效的提高缩略语消歧准确率。 张春祥 逄淑阳 高雪瑶关键词:缩略语 基于模拟退火算法的模型检索 被引量:3 2020年 为了从模型库中检索到最相似的CAD(Computer-Aided Design)模型,采用模拟退火算法检索相似模型。利用源模型面与目标模型面之间的边数差异,来构造两个模型之间的面相似度矩阵。利用模拟退火算法对面相似度矩阵进行搜索,得到两个模型之间的最优面匹配序列。以最优面匹配序列为基础,来计算源模型与目标模型之间的相似性。实验结果表明:该方法能够准确地度量两个模型之间的差异。 高雪瑶 谭涛 张春祥关键词:模拟退火算法 边数 一种受限玻尔兹曼机的词义消歧方法 被引量:2 2019年 针对汉语一词多义现象,根据上下文所蕴含的语言学知识,采用受限玻尔兹曼机(restricted boltzmann machine,RBM)来确定歧义词汇的真实含义。选取歧义词汇左右邻接的四个词单元中的词形、词性和语义类作为消歧特征。同时,使用RBM来构建词义消歧模型。结合SemEval-2007:Task#5的训练语料和哈尔滨工业大学的语义标注语料来优化RBM的参数。利用SemEval-2007:Task#5的测试语料对词义消歧模型进行测试。实验结果表明:相对于贝叶斯词义消歧分类器而言,受限玻尔兹曼机词义消歧方法的消歧准确率有所提高。 张春祥 李海瑞 高雪瑶关键词:词义消歧 基于半监督集成学习的词义消歧 被引量:1 2020年 为了解决自然语言中的一词多义问题,本文提出了半监督集成的词义消歧方法。以歧义词左右4个邻接词汇单元的词形、词性和语义类作为消歧特征,利用逻辑回归模型、梯度提升决策树和支持向量机来确定其含义。采用软投票策略融合3个基本分类器获得集成词义消歧模型。以少量人工语义标注语料为基础,结合大量无标注语料,使用半监督学习方法来提高集成词义消歧模型的性能。使用SemEval-2007:Task#5的测试语料来度量词义消歧的性能。实验结果表明:所提出方法的平均准确率达到了72.80%,词义消歧的性能有所提升。本文提出方法能够降低人工标注语料的规模,提高词义消歧准确率。 张春祥 熊经钊 高雪瑶关键词:词义消歧 逻辑回归 支持向量机 多点种子预划分的二阶段社区发现算法 随着移动互联网技术的迅速发展,在线社交媒体服务已经融入到人们的日常工作及生活当中。人们根据需求加入不同的兴趣群组,形成具有高属性相关性的社区结构。社区发现是在线社交网络分析中的重要研究内容,其根本任务在于对相似性较高的节... 佟帅关键词:K-MEANS 文献传递 MapReduce模型下的模糊C均值算法研究 被引量:10 2014年 针对模糊C均值算法需要不断迭代来计算样本数据的隶属度值以及聚类中心的特点,利用MapReduce模型解决海量数据下的模糊C均值问题,进而提出高效的模糊C均值算法。在Map阶段和Reduce阶段分别完成隶属度和聚类中心的计算,每次迭代都需要启动一次完整的MapReduce执行过程。通过多次迭代计算出隶属度值以及聚类中心,并更新聚类中心文件,供下一轮作业使用,重复执行这一过程直至得到最终聚类结果。实验结果表明,该算法能够有效减少MapReduce计算过程中的迭代次数,从而提高整体执行效率。 王永贵 李鸿绪 宋晓关键词:模糊C均值算法 MAPREDUCE模型 海量数据 迭代 融合Hopfield与混沌粒子群的三维模型相似性计算 随着数字建模技术在三维模型领域的广泛应用和计算机网络的不断扩张,计算机三维CAD模型库中可重复利用和共享的模型的数量也随之剧增。一个现代工程通常是由来自不同领域、学科的工程师共同协作完成。由于工程师们来自不同领域,他们会... 李佳伟关键词:HOPFIELD神经网络 蚁群算法 粒子群算法 文献传递 Clustering method based on data division and partition 被引量:1 2014年 Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP) was proposed to solve the problem.DP cut the source data set into data blocks,and extracted the eigenvector for each data block to form the local feature set.The local feature set was used in the second round of the characteristics polymerization process for the source data to find the global eigenvector.Ultimately according to the global eigenvector,the data set was assigned by criterion of minimum distance.The experimental results show that it is more robust than the conventional clusterings.Characteristics of not sensitive to data dimensions,distribution and number of nature clustering make it have a wide range of applications in clustering VLDS. 卢志茂 刘晨 S.Massinanke 张春祥 王蕾关键词:CLUSTERING DIVISION PARTITION 结合词形词性和译文的汉语词义消歧 被引量:2 2020年 针对汉语中存在的词汇歧义问题,根据左右邻接词汇的词形、词性和译文信息,采用卷积神经网络(convolution neural network,CNN)来确定它的真实含义。选取歧义词汇的消歧词窗,共包含两个邻接词汇单元,抽取其词形、词性和译文作为消歧特征。以消歧特征为基础,结合卷积神经网络来构建词义消歧分类器。利用SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化CNN的参数。采用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。实验结果表明:相对于贝叶斯(Bayes)模型和BP神经网络(BP neural network)而言,本文所提出方法的消歧平均准确率分别提高了14.94%和6.9%。 张春祥 赵凌云 高雪瑶关键词:词汇歧义 词义消歧 结合微博关注特性的UF_AT模型用户兴趣挖掘研究 被引量:5 2015年 微博作为国内主流社交网站,信息量与日俱增。目前微博用户兴趣挖掘方法大多停留在研究用户浏览网页时点击行为、用户所发微博内容或所在社区等表象层面,尚未深入到微博用户使用特性层面。从用户微博内容出发,结合用户关注对象微博,提出一种改进作者主题模型UF_AT(users focus-author topic)。最后对真实数据进行实验得出,模型在用户兴趣主题以及主题词概率值上均高于AT模型,而且用户兴趣主题准确、全面,同时验证了UF_AT模型在挖掘用户兴趣中的有效性。 王永贵 张旭 任俊阳 刘宪国