基于片段的药物设计(Fragment-Based Drug Design,FBDD)是药物研发的主流方法之一。如何高效从海量药物大数据中筛选出具有相似分子片段的药物小分子成为生物化学研究领域的挑战性问题。针对目前人工筛选耗时长、效率低、药物筛选周期长等问题,提出一种基于2D模型的药物小分子筛选方法(SMS-2D)。利用计算机自动化筛选出与目标分子片段具有相似片段的药物小分子。实验结果表明:SMS-2D方法能高效地筛选出包含与分子片段具有相似片段的小分子。
为了解决海量电商评价信息中每个评价对象的情感倾向性和评价对象与评价词不匹配问题,提出一种结合句法关系与语义关系的多粒度条件随机场模型抽取评价单元方法SSMCRFs(syntactic semantic and multi-grained conditional random fields,SSMCRFs).首先,爬取京东商城的评论数据为基础数据,将评论文本进行句法关系,语义关系等处理;然后,使用TF-IDF算法对预处理后的数据集进行统计分析,以确定用户的关注度;最后,使用条件随机场模型进行评价单元识别.实验结果表明,SSMCRFs在识别评价单元上准确率达到92.92%,召回率达到93.25%,F值达到93.08%.相对于马晓君等(2017)的方法,SSMCRFs方法在准确率,召回率,F值上均有较大的提高.
如何将带有大量标记数据的源域知识模型迁移至带有少量标记数据的目标域是少样本学习研究领域的热点问题.针对现有的少样本学习算法在源域数据与目标域数据的特征分布差异较大时存在的泛化能力较弱的问题,提出一种基于伪标签的半监督少样本学习模型FSLSS(Few-Shot Learning based on Semi-Supervised).首先,利用pytorch深度学习框架建立一个关系型深度学习网络,并使用源域数据对网络进行预训练;然后,使用此网络对目标域数据进行分类预测,将分类概率最大的类标签作为数据的伪标签;最后,利用目标域的伪标签数据和源域的真实标签数据对网络进行混合训练,并重复伪标签标记与混合训练过程.实验结果表明,相对于现有主流少样本学习算法,FSLSS模型有更好的泛化能力及知识迁移效果.