肖景发 作品数:8 被引量:28 H指数:4 供职机构: 中国科学院北京基因组研究所 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 中国科学院战略性先导科技专项 更多>> 相关领域: 生物学 经济管理 更多>>
GSA-Human:人类遗传资源数据管理的公共系统 被引量:7 2021年 GSA-Human是人类遗传资源数据汇交、存储、管理与共享的数据库系统,可提供人类遗传资源数据的上传、下载、浏览、检索等公共服务,并有效支撑了国家重点研发计划科技项目数据的汇交与管理工作。系统具有符合《中华人民共和国人类遗传资源管理条例》数据安全管理策略,提供公开访问和受控访问相结合的数据使用模式。公开访问数据允许用户自由下载与获取;受控访问数据采用申请-审核的模式,即需要通过数据管理委员会(Data Access Committee,DAC)的授权方可获得下载和使用权限。系统自上线以来,截至2021年7月,汇集数据总量已超5.27 PB。 张思思 张思思 陈婷婷 陈旭 唐碧霞 陈婷婷 董丽莉 朱军伟 孙艳玲 唐碧霞 翟爽 孙玉彬 陈焕新 杜政霖 肖景发 章张 鲍一明 王彦青 陈焕新关键词:数据汇交 数据共享 遗传密码的新排列和起源探讨 被引量:5 2009年 根据DNA核苷酸组分的动态变化规律将遗传密码的传统排列按密码子对GC和嘌呤含量的敏感性进行了重排.新密码表可划分为2个半区(或1/2区)和4个四分区(或1/4区).就原核生物基因组而言,当GC含量增加时,物种蛋白质组所含的氨基酸倾向于使用GC富集区和嘌呤不敏感半区所编码的氨基酸,它们均使用四重简并密码,对DNA序列的突变具有相对鲁棒性(Robustness).当GC含量降低时,大多数密码子处于AU富集区和嘌呤敏感半区,这个区域编码的氨基酸具有物理化学性质的多样性.因为当密码子第三位核苷酸(CP3)在嘌呤和嘧啶之间发生转换时,密码子所编码的氨基酸也倾向于发生变化.关于遗传密码的进化存在多种假说,包括凝固事件假说、共进化假说和立体化学假说等,每种假说均试图解释遗传密码所表现出来的某些化学和生物学规律.基于遗传密码的物理化学性质、基因组变异的规律和相关的生物学假说,本研究提出了遗传密码分步进化假说(The Stepwise Evolution Hypothesis for the Genetic Code).在人们推断的最原始的RNA世界里,原初(Primordial)遗传密码从只能识别嘌呤和嘧啶开始,编码一个或两个简单而功能明确的氨基酸.由于胞嘧啶C的化学不稳定性,最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码,却可得到一组7个多元化的氨基酸.随着生命复杂性的增加,鸟嘌呤G从主载操作信号的功能中释放出来,再伴随着C的引入,使遗传密码逐步扩展到12,15和20个氨基酸,最终完成全部进化步骤.遗传密码的进化过程同时也伴随以蛋白质为主体的分子机制和细胞过程的进化,包括氨酰tRNA合成酶(AARS)从初始翻译机器上的脱离、DNA作为信息载体而取代RNA以及AARS和tRNA共进化等基本过程.分子机制和细胞过程是生命的基本组成元件,它们不但自己不断地趋于完善,也促使生命体走着不尽相同的道路,或� 肖景发 于军关键词:遗传密码 GC含量 面向国际的生命组学大数据管理体系建设 被引量:4 2016年 组学数据是生命科学研究中的一类极其重要的大数据,特别是二代测序技术的发展推动了组学大数据的爆炸式增长。通过借鉴国际数据中心建设的成功经验,分析国内组学产出数据及数据库建设、数据管理现状及应用需求,构建了面向国际的生命组学大数据管理体系,涵盖组学原始序列归档库、基因组序列数据库、基因表达数据库、基因组变异数据库、DNA甲基化数据库系统等,初步形成中国组学数据资源的存储、共享与应用体系。 赵文明 张思思 唐碧霞 陈婷婷 郝丽丽 桑健 李茹姣 肖景发 章张关键词:大数据 数据共享 生物信息学 基因组 DNA测序技术引领中国基因组科学走向未来 被引量:4 2010年 1人类基因组计划10年后,全球科学家对基因组研究的看法10年前,人类基因组草图完成,全世界都在期待着这一计划能最大限度地对人类疾病起到革命性的影响(2000年6月26日,美国总统比尔-克林顿在白宫的讲话), 吴佳妍 肖景发 张若思 于军关键词:人类基因组计划 DNA测序技术 人类基因组草图 人类疾病 美国总统 革命性 小鼠乳腺发育的转录组学研究--怀孕哺乳周期乳腺的关键调控基因 被引量:2 2014年 乳腺是哺乳动物特有的器官,90%的发育过程集中在出生之后.此外,在生殖过程中乳腺发育会经历怀孕、哺乳和退化3个阶段(称为怀孕哺乳周期).为了在转录组水平上更好地了解乳腺发育的机制,利用核糖体RNA去除法构建了小鼠乳腺3个时期(怀孕12天、哺乳14天和退化7天)的总RNA文库,每个文库产出的数据量均大于5×107条reads.3个文库分别得到17344,10160和13739个蛋白编码基因以及1803,828和1288个ncRNAs.其中,从怀孕期到哺乳期有4843个差异表达基因(包括749个上调表达的基因和4094个下调表达的基因);从哺乳期到退化期共有4926个差异表达基因(包括4706个上调表达和220个下调表达的基因).此外,还观察到与溶酶体酶相关的基因在哺乳期乳腺中有较高的表达.通过对转录因子及ncRNAs的分析,还得到一些可能在乳腺发育的不同时期有重要调控作用的调控因子基因(如转录因子基因Trps1,Gtf2i,Tcf7l2,Nupr1,Vdr,Rb1和Aebp1;miRNA基因mir-125b,Let-7,mir-146a和mir-15等). 周媛媛 龚未 肖景发 吴佳妍 潘林林 李小暖 王绪敏 王伟伟 胡松年 于军关键词:小鼠乳腺 乳腺发育 转录组 MIRNAS 中国人群参考基因组及基因组变异图谱资源库 被引量:4 2018年 随着人类基因组计划和国际千人基因组计划的实施,已公开数百个中国人个体的全基因组数据。建立高精度的中国人群参考基因组序列,发现并解析中国人群特有的序列变异,是我国未来精准医学研究的基础。为满足未来精准医学研究中国人基因组数据持续增长的科学管理和深入研究的需求,中国科学院北京基因组研究所发展并建立了基于中国人群全基因组测序数据的虚拟中国人基因组数据库(Virtual Chinese Genome Database,VCGDB)和中国人群基因组变异数据库(Genome Variation Map, GVM),面向国内外用户提供数据检索、共享、下载和在线分析服务。本文重点介绍了这两个数据库的特点和功能,以及未来发展与应用前景,以期为中国人群参考基因组及基因组变异图谱资源库的推广使用、发展完善提供有益信息。 宋述慧 滕徐菲 肖景发基于8种真核生物的整合分析揭示种属特异性小蛋白的功能和进化特征(英文) 2012年 小蛋白(<100个氨基酸)广泛存在于三界生命中,具有重要生物功能.早期涉及小蛋白的研究主要集中于少量特殊物种中的蛋白质家族,以及在全基因组尺度预测短小开放读码框(sORFs)的算法开发,但并无跨真核物种的大规模组学分析来揭示小蛋白的功能和进化特征.通过对已知小蛋白和拥有短小开放读码框的基因进行全基因组尺度的计算分析,长度小于100个氨基酸的RefSeq proteins按照其序列保守性被划分为存在于所有8种真核生物、只存在于脊椎动物和只存在于哺乳动物三个进化分类中,此三个进化分类所对应的生物学功能揭示了小蛋白行使种属特异性功能的特征.进一步研究发现,大多数人类特有的小蛋白也是组织表达特异性的,并且绝大多数古老的小蛋白在人体内普遍表达.因此认为,一些真核小蛋白出现并在自然选择压力下富集,行使种属特异性功能,并且以特殊的方式进化和表达. 赵倩 肖景发 于军关键词:种属特异性 组织特异性表达 计算预知未来——基于国家高性能计算环境的生物医药应用服务社区 被引量:2 2016年 基于国家高性能计算环境的生物医药应用服务社区得到了国家十三五重点研发专项的继续支持,通过项目实施将进一步推进高性能计算在生物信息和药物研发领域的应用服务。项目将从生物医药应用服务社区、精准医疗和个性化药物应用示范两个课题开展社区建设和应用服务推广的研究,为患者量身设计出最佳治疗方案,以期达到疗效最大化和副作用最小化;为医院临床研究提供可能的更精准更个性化的医疗解决方案,产生经济和社会效益。 金钟 刘倩 肖景发 于坤千关键词:高性能计算环境