基于高通量测序的RNA-Seq(RNA-sequencing)是用于转录组研究的一种新技术,针对该技术在转录组表达分析研究中存在的读段多源映射和读段非均匀分布等难点,提出一个改进的转录组表达研究方法 LDASeqII(Improvement of latent Dirichlet allocation for sequencing data)。模型利用剪接异构体结构信息对参数进行约束并进行外显子读段数目归一化处理,解决了读段非均匀分布下的多源映射问题。通过引入"伪外显子"和"伪转录本"分别处理接合区读段和噪声读段。将模型应用到真实数据集上,并与原LDASeq(Latent Dirichlet allocation for sequencing data)模型和目前流行的Cufflinks与RSEM(RNA-Seq by expectation maximization)方法进行对比。结果显示,改进方法获得了更为准确的转录本及基因表达水平计算结果。
快速准确地计算出转录组表达水平对转录组研究具有重要的作用。本文针对伽玛分布的概率模型(Gamma model for exon array data,GME)在处理大规模外显子芯片数据集上效率低下的特点,提出一种充分利用多核处理机或者集群环境来提高效率的并行计算方法。首先分析GME模型的原理,其次分析模型并行算法的选择,最后在不同规模的数据集上分析并行计算的效率。通过实验验证了并行计算极大地提高了模型的计算效率。实验结果表明,与先前的串行计算相比,并行计算使得GME模型更适用于大规模的外显子芯片分析。
在林业智能应用问题中,经常需要对遥感图像中的非刚性目标如“火”“烟”“云”等进行识别。由于此类目标物受限于颜色不确定(或渐变)以及无固定形状,导致现有图像标注方法的性能不佳甚至失效。因此,针对如何准确地选择目标物的兴趣区域(region of interest,ROI),进而提高像素标记的速度以及准确率进行了研究。针对图像目标物形状的非凸性,提出了任意形状ROI的像素级自动标注算法,该算法可将任意形状的兴趣区域转化为多个凸区域问题,针对分解后的每个凸壳内的像素进行提取、训练、标记。基于无人机拍摄的高清图像集,通过将其与边界框法、凸壳法、图像分割以及图像抠图方法进行实验对比,证明该方法存在易操作,符合人类视觉,求解速度快,可批量操作,且能够实现非刚性目标的像素级自动标注等特点。
近年来,基于单分子测序技术的ISO-seq数据以其超长读段长度被越来越多地应用于转录组新型异构体预测研究,但目前大多数研究工作只用到全长读段数据,丢失了非全长读段数据中较多有用信息,因而数据没有得到充分利用。针对这一问题,本文在保留非全长读段的基础上提出了两个能同时预测异构体结构和计算其表达比例的模型基于狄利克雷采样的异构体探测与预测(Dirichletsampling for isoform detection and prediction,DSIDP)和基于马尔科夫链的异构体探测与预测(Markovchain for isoform detection and predition,MCIDP)。两个模型均从全长读段中建立异构体预测集,并采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题,MCIDP使用马尔科夫链模拟基因外显子之间的选择性剪切,该模型还能预测出数据中没有全长读段的异构体。本文采用模拟数据和真实数据验证了两个模型的有效性。