三维基因组学的发展现状研究的意义是什么?

KEGG和DAVID是目前常用的信号通路查阅网站。大多数做pathway分析的,都会用到它们。然而16年Nat Methods就有人比较过这些pathway分析网站:DAVID数据库更新慢,跟不上最新的pathway文献结果,导致预测pathway并不准确。KEGG早就停止数据库下载,更新也不及时。这两家做pathway分析非常早,很出名,大家都爱用。可当时再怎么好的网站,无论从数据还是算法上,经过这么多年更新换代,已经被很多新网站超越了。就好像一件以前很时髦的衣服,你不想扔,缝缝补补穿在身上,加入每一年的潮流元素,过了这么多年,还不如重新买件衣服。这种事情在生物学网站工具里还挺多。比如大家做基因敲除时,设计sgRNA爱用MIT自带的设计工具,这个工具完全靠blast序列比对,没有实验数据支持。然而从13年到现在,很多研究组在细胞里随机设计sg,从不同sgRNA的基因敲除效率反推,知道更符合实验规律的sg设计原理,同时结合染色质开放还是沉默这些信息(染色质开放区,sgRNA更易结合),大大提高sgRNA敲基因的效率。有段时间连MIT也出了更新版,和旧版同时存在,有人还在用MIT最初始的版本。再比如我之前做同源基因比对,用到这个领域常用的orthoMCL,安装的时候简直吐血。这个软件是2013年出的,当时调用了blastp SQL等其他工具,而今其他工具都升级,orthoMCL却没升级,拿旧版的软件调用新版工具,非常酸爽。后来问了专门做进化的,改用orthofinder。回到这个问题。KEGG这些工具对于学习粗浅pathway知识非常有用,但是很多信息已经老旧了,如果要准确了解知识,可以查最新的review;如果做pathway分析,用新一些的工具。KEGG引文量确实高,因为它老牌它出名,大家爱引用它。一般研究,拿它就够用了,深入做哪条通路的话,还是找下review吧。如果想比较各pathway工具优劣,可以参考2016年的这篇Nat Methods:Impact ofoutdated gene annotations on pathway enrichment analysis,可以从中挑选更适合自己的分析工具。KEGG是所谓“知识库”,有别于序列数据库。他的作用是在组学数据和实验生物学之间建立联系的“桥梁”。对于纯组学研究来说,KEGG得到的通路分析结果是组学分析的某种终点,到这里已经可以为实验生物学提供思路的。对于实验生物学来说,从海量数据中挖掘出可以进行实验验证的候选功能基因是首先要做的事情,所以KEGG是纯实验研究的起点(手段之一)。但是在实际工作中,常出现的情况是组学研究与实验研究的脱节,造成组学方法得到的结果基因是“编故事”,实验工作的候选基因有的在KEGG里信息不足等等。作为一个桥梁,KEGG是有用的,至于得炸药奖。这不算一个原创性的发现,应该不会。
前言基因组是生命体完整的遗传信息。而基因组学则是研究基因组结构、功能与进化的学科。自上世纪八九十年代以来,随着技术的发展,基因组学取得长足发展:从过去获得核酸的序列,到如今对序列功能的描绘。生物学中有一个基本观点:结构与功能相适应。尽管提到核酸链的结构,绝大多数人的第一反应是“双螺旋”模型,但是,基因组的物理结构,却远比双螺旋来得复杂——核酸链会在蛋白质的辅助下,形成更加高级的结构。这也催生了基因组学中一门子学科的诞生:三维(3D)基因组学。在正式介绍3D基因组学之前,不妨先来回顾人类对遗传奥秘探索的历程。这将有助于我们认识,我们走过了哪些路,如今处在什么位置,而未来还能朝何处走。1.
一点历史背景倘若仅是回望基因组学本身的发展历程——从1977年首个生物基因组噬菌体φX174序列被测定,到2003年人类基因组计划完成,再到2012年ENCODE计划完成——还不足以代表人类解读生命遗传奥秘的历史。我们更应该回顾和基因组学不分家的遗传学之发展历程。高中的生物学课堂就已经学到,Gregor Johann Mendel(孟德尔)是遗传学的奠基人,他的“豌豆杂交实验”(1856-1863年),依然是中学生物考题的常用材料。随后,对孟德尔由路转粉的Thomas Hunt Morgan(摩尔根)利用果蝇的突变体,首次确认基因位于染色体上,提出“连锁互换定律”,成为了现代遗传学的奠基人(1908-1915;摩尔根的贡献非常多,这个时间段只是一个粗略的标记)。对如今的我们来说,不难理解DNA与RNA是携带遗传信息的物质。不过在上世纪中期以前,世人还认为蛋白质才是遗传物质。1928年,Frederick
Griffith(格里菲斯)的“肺炎双球菌转化实验”,提出了转化因子学说。但直到1944年,Oswald Avery、Colin MacLeod和Maclyn McCarty三人通过比较蛋白质、多糖与DNA等的转化效应,才逐渐树立了DNA是遗传物质的地位。到了1952年,Alfred Hershey与Martha Chase利用同位素分别标记蛋白质和DNA,最终确认了DNA是遗传物质。早在DNA发现之初(1869年,Friedrich Miescher),科学家便展开了对其物理结构的鉴定。但一直到1953年,才由James Watson和Francis Crick阐明了DNA的双螺旋结构。真核生物的基因组含有大量的结合蛋白,包括组蛋白。在原核生物中,也有组蛋白样的DNA结合蛋白。1974-1976年间,科学家首次获得DNA缠绕在组蛋白上的电镜照片(Science.
1974 Jan 25;183(4122):330-2.,Exp Cell Res. 1976
Jan;97:101-10.),并最终在1997年获得结晶结构(Nature.
1997 Sep 18;389(6648):251-60.)。DNA-组蛋白这种beads on
a string“串珠式”的结构,能够显著缩短DNA链在一维水平的尺度,大概7倍。形象一些,对于人类全部DNA而言,将DNA链线性展开,能得到约为2米的长链,再经串珠式压缩,也还有约29厘米。显然,这对于袖珍的细胞核来说,这种结构依然太大了。对染色体的形态观察也提示,DNA与结合蛋白一定形成了更加高级的结构。2005年,Timothy J.
Richmond团队首次报道了chromatin fiber(染色质纤维)的结构。2014年,中国科学家Ping Zhu和Guohong Li小组得到了更加精确的染色质纤维结构。他们的研究都证明,DNA-组蛋白的串珠式结构,还会进一步被压缩成直径仅有30纳米的纤维结构。而在目前的理论模型中,这些染色质纤维还会在包括Cohesin、CTCF等蛋白的帮助之下,扭曲成环,形成更加复杂的结构,最终被压缩成染色体。(如下图所示。以及参考这个有点魔性的视频:DNA Molecule: How DNA is Packaged (Advanced))2.
3D基因组学的时代讲了半天历史,目的是为了让各位读者能够得到这样一个基本认识:生命体的遗传功能元件,包括编码基因、非编码基因、顺式调控元件等,在空间结构上,并不是在染色体上呈线性地一字依次排开,而是随着DNA形成复杂高级结构的同时,具备了三维组织形式。为了加深印象,我们不妨再来看下方另外一幅染色体结构的卡通。简而言之,DNA双链就跟纠缠在一起的电话线一般,一圈圈地绕行、压缩,最终形成了染色体。也正因为有这种绕圈圈的压缩方式,我们不难想象,DNA能够密密麻麻地形成许多环状结构。这些环状结构还能再继续绕圈压缩下去。换句话说,在DNA一维层面上相隔比较远的区域,反而有可能靠得更近。比方说下图中的ABCD四个点,若以A为参照物,C比B远,但由于基因组形成了高级结构,反而把A和C拉得更近。这个示意图还提示了另外一个问题,即同一条染色体上的某些区域,可能很难互相接触,比如B和D之间就,被环状结构给隔开了。DNA这种相对稳定的高级结构,是由蛋白质来维持的。这同时也为破解基因组的三维结构奠定了技术基础。我们再来利用上面那个ABCD四个小点的图来理解这一项技术。假如说,A和C是帮助DNA凹造型的蛋白,并且它们靠得很近,甚至有蛋白-蛋白相互作用。这时,我们使用甲醛等交联剂,就可以把DNA-结合蛋白以及他们之间形成的高级结构给固定下来。但这种复合物体积非常庞大,为了方便测序建文库,我们需要将DNA利用超声或限制性内切酶打碎。这时候我们得到的,就是许许多多由蛋白质紧紧锁住的包含缺口的小结构。我们再用酶把这些断裂的DNA给修复回去,就会得到许多能够发生相互作用的、具备环状结构DNA了。最后,我们再通过测序的方法就能发现,原本中间隔了个B的A和C位点,居然靠到一起,而C和D虽然很靠近,但却可能测不到它们在一起。上面所述的方法,便是染色质构象捕获(Chromatin Conformation Capture)技术。大致的流程,可以看下面的图片。最早的技术路线(简称3C,源自英文名首字母),只能研究一个位点对另外一个位点的相互作用(一对一)。而后又发展出了4C(一对全),5C(多对多),Hi-C(全对全),Capture-C(多重一对一)等技术。只是随着复杂度的提高,分辨率也会降低。相关综述可以看这篇文章Unraveling the 3D genome: genomics tools for multi-scale exploration,这里就不详述了。3.
基因组的三维结构形成遗传功能结构域通过构象捕获技术,从全基因组的角度而言,科学家都得到了什么样的发现呢?许多小组都发现了一个共同现象:如下图所示,基因组的相互作用,因其三维的物理结构,形成了许多分区。为了读懂这个图,我们需要先理解它是如何绘制。假设线性的染色体座位的蓝、橙、绿三点之间能够发生相互作用,我们就用线段把它们连起来,形成一个等腰三角形,并在线段的交叉点,用颜色的深浅,来代表相互作用的频率,或者说强度。通过这种方法作图,可以得到许多三角形结构,密集排布在染色体之上。有些小的三角形,颜色比较深,代表着这个三角形内部的相互作用更频繁,同时它们之间甚至有些“泾渭分明”地相邻排布,即甚少与相邻区域发生相互作用,从而形成不同的结构域。科学家将这样的结构域称为Topologically Associating Domain(TAD,中文名姑且翻译为“拓扑相关结构域”)。但又不是说,小结构域之间就绝对不会发生相互作用了,只是频率会比较低。数个相邻且又能发生相互作用的TAD,就形成了Superdomain(超结构域)。随着在染色体上的物理距离增大,相互作用的频率会呈负指数式降低。TAD里面会是些什么东西呢?在哺乳动物基因组中,TAD通常由CTCF这个转录抑制因子给分割开来。CTCF还会和Cohesin蛋白复合物结合,帮助基因组形成相对稳定的三维结构。正由于此,两个TAD之间的转录活性是非常低的(转录需要打开DNA),而结合CTCF等转录抑制因子的DNA元件,也被称为insulator(绝缘子)。不过,在TAD内部可就热闹了。CTCF在帮助基因组DNA凹造型的同时,就把线性展开时距离较远的DNA元件给绑到了一起。而这样相互作用的元件,通常是enhancer(增强子)和promoter(启动子)。这样做有两个好处。一是缩短了enhancer和promoter之间的空间距离,增强了基因的转录。二是给调控元件合理分区,使得基因转录在不同发育阶段、不同生理条件下,受到特定enhancer的调控。比方说,在胚胎发育早期,干细胞那套基因的表达会占主导。随着发育的进行,表达模式会逐渐替换成特定lineage的基因,再到成熟细胞的基因。倘若没有这样的动态调整的三维分区,这种基因的空间与时序性表达机制,估计就很难实现了。当然,这里并不是在表达一种设计论的观点。这种精致的调控机制,是在漫长的进化过程中,逐渐选择、适应的结果。TAD除了形成相对稳定的遗传信息表达功能结构之外,还有其他重要的生物学意义。比如它同样也是细胞周期S期时,DNA复制的结构单元。在不久的将来,科学家还将发现更多的三维基因组功能。4.
基因组的三维结构与人类疾病读到这里,我想各位读者应该不难理解,假设基因组的三维结构出了差错,后果可是相当严重。这里本司机举两个例子来说明。首先,维系正常的基因组三维结构,对保持正常的发育进程有重要的意义。早有文献通过经典的遗传学方法,将F syndrome(表现为手指、脚趾、腭和胸骨发育异常)这种遗传疾病定位到了染色体2q36处。这个区域含有对发育具有重要意义的IHH、WNT6A、WNT10A、PAX3和STK36等基因。如下图所示,最近的研究证明,在有些F syndrome的病例中,WNT6A基因所在的TAD边界染色体区域发生了翻转,使得相邻TAD的增强子跑到WNT6A所在的TAD之中,导致WNT6A异常表达。在小鼠模型中,用CRISPR敲除PAX3基因所在TAD的边界,同样会导致相邻TAD的增强子跑过来调控PAX3,使其表达量异常升高,造成小鼠指骨发育异常。与此对照,用CRISPR敲除相邻TAD内部的序列,不碰及PAX3所在TAD的边缘,PAX3基因的表达水平就不会异常升高,也不会有发育异常现象。第二个例子来自于癌症。肿瘤细胞的基因组是非常混乱的,有许多扩增、缺失和易位。拿原癌基因为例,它的高表达可以来自于原癌基因本身的拷贝数增加,也可以是其表达调控机制得到了增强。这篇综述(Copy number alterations unmasked as enhancer hijackers.)为我们详解,非编码区域拷贝数的异常,是如何导致原癌基因的过度表达的。比如说,MYC基因座位的易位,导致它跑到一个IGH增强子附近(a)。MYB基因附近的染色体区域缺失,把远处的QKI增强子给带到它身边(b)。TAL1所在TAD边缘的染色体区域缺失,导致相邻增强子越俎代庖(e)。IGF2基因座位跨TAD的倍增,导致原本不能调控IGF2的、来自隔壁TAD的增强子,推动了IGF2的表达(f)。其他的机制,就请读者自行读图。而这种现象,科学家将其命名为enhancer
hijacking(增强子绑架)。结语自孟德尔以来,遗传学与基因组学的历史不过百余年。但也就在这百余年中,这两个领域的发展如同其他生物学学科一般,可谓突飞猛进。对80后而言,我们在中学课堂方才学到人类基因组计划,但转眼之间,基因组学就进入了3D的时代。而在六七十年前,人类甚至还搞不清楚DNA是一种遗传物质。虽然研究基因组三维结构的染色质构象捕获技术3C早在2002年就诞生了,但直到近年更高复杂度的捕获技术的出现,3D基因组领域才变得火热起来。毫无疑问,3D基因组学也面临着和经典基因组学同样的挑战:如何将结构与功能联系起来。在不久的将来,科学家们还必须回答另外一个问题,即如何结合3D基因组学的成果,用于治疗人类疾病。

我要回帖

更多关于 基因组学的发展现状 的文章

 

随机推荐