作者: [英] 马特·里德利
出版社: 机械工业出版社
副标题: 生命之书23章
原作名: Genome: The Autobiography of a Species in 23 Chapters
译者: 尹烨
出版年: 2021-2-28
页数: 392
定价: 69.00元
装帧: 平装
ISBN: 9787111674207
人体有大约100万亿个细胞,其中大多数的直径不到0.1毫米。每个细胞内部都有一个黑点,称为细胞核
。细胞核内有两套完整的人类基因组(例外的情况是:精、卵细胞中都只有一套,红细胞中则没有)。一套基因组
来自母亲,一套来自父亲。理论上而言,每套都有同样23条染色体
,且染色体上都有一样的6到8万个基因
。可实际上,每个基因的父本和母本之间通常存在着细微的差别,就好比有的差别可以决定人的眼睛是呈蓝色抑或棕色。在生育过程中,父本和母本在进行被称为重组
的染色体交换过程中,会传递一整套基因组给后代。
若把基因组比成一本书,那么此书:
共有23章,每一章即是一对染色体。
每章均包含数千个故事,每个故事就是一个基因。
每个故事都由不同的段落组成,即外显子。段落之间插播广告,而这些广告就是内含子。
每个段落均由单词组成,此单词就是密码子。
每个单词是用字母写就的,此字母就叫作碱基。
英文书是用26个字母组成的单词所书写的,单词长短不一。而基因组则全然以3个字母的单词进行书写,且仅使用了4个字母:A
,C
,G
和T
(分别代表腺嘌呤
,胞嘧啶
,鸟嘌呤
和胸腺嘧啶
)。此外,它们并非写在平面纸张上,而是写在由糖和磷酸构建的长链上。这种长链被称为DNA分子
,碱基作为侧梯连接在上面。每条染色体是一对(非常)长的DNA分子。
基因组是一本非常精巧的书,在适当的条件下它既可以复印,也可以自读。复印即为复制
,自读则是翻译
。之所以可以复制,是因为这四个碱基的新奇特性:A总是与T配对,G总是与C配对。因此,单链DNA可以将T与A,A与T,C与G以及G与C通过互补配对的方式来进行自我复制。实际上,DNA的通常状态是那著名的双螺旋
,由原始链和互补配对链相互缠绕而成。
因此,复制互补链即可得到原文内容。在复制过程中,序列ACGT变为TGCA,再复制便又转录回原来的ACGT了。这使得DNA可以无限复制下去,却仍携带着同一套的信息。
翻译稍微复杂一点。首先,通过相同的碱基配对过程将一个基因的文本转录成一份副本,但是这份副本并非由DNA而是由RNA(一种略有不同的化学物质)
构成的。RNA也可以携带线性密码,除了用U(尿嘧啶)
代替T之外,它使用与DNA一样的字母。该RNA副本称为信使RNA
,通过切除所有内含子而将所有外显子拼接在一起(见上文)。
之后,信使RNA结合被称为核糖体
的微型分子机器,而该机器自身的一部分亦是由RNA构成的。核糖体沿着信使RNA进行移动,将三联密码子依次翻译成另一份字母表。这份字母表由20种不同氨基酸
组成,每种氨基酸均由被称为转录RNA
的不同分子携带转运而来。每个氨基酸都以与密码子相同的顺序首尾相连,形成一条链。翻译完全部信息后,氨基酸链会依据其序列折叠成独特的形状,成为现今所称的蛋白质
。
从头发到激素,人体内几乎所有东西都是由蛋白质构成或制成的。每个蛋白质都是被翻译出来的基因。特别值得一提的是,人体的化学反应被称为酶
的蛋白质所催化。甚至连DNA和RNA分子本身的加工,拷贝、纠错和组装(复制和翻译),都是借助蛋白质来完成的。蛋白质还通过将自身附着在基因上游附近的启动子和增强子序列上,从而调节基因的开关。不同基因在人体的不同部位被开启。
复制基因,有时会出错。有时会漏掉一个字母(碱基)或插入错误的字母。整个句子或段落有时会出现重复,丢失或次序颠倒,这称为突变
。许多突变既无害也无益,好比,如若将一个密码子更改为具有相同氨基酸“含义”的另一个密码子。要知道,共有64个不同的密码子,但只有20种氨基酸,因此许多DNA“单词”便具有相同的含义。人类的每个世代会累积约100个突变,考虑到人类基因组中有超过100万个密码子,这似乎也并不算多。然而,要是出现在错误的地方,即便只有一个突变,都可能是致命的。
凡事均有例外,人类基因亦如此。并非所有人类基因都能在这23对主要染色体上找到,有少量的基因存在于被称为线粒体
的膜囊之中,并且很可能自线粒体还是非寄生的细菌以来,便一直如此;并非所有基因都是由DNA组成的,某些病毒改用的是RNA;并非所有的基因都能生产出蛋白质,一些基因被转录成RNA,但没有被翻译成蛋白质。这些RNA要么作为核糖体的一部分,要么作为转运RNA而直接发挥作用;并非所有的反应都由蛋白质来催化,有少数反应可由RNA催化;并非所有的蛋白质都来自单个基因,有些是由多个基因共同合成的;并非所有的64个三联密码子都能转译为氨基酸,其中有3个负责传达停止信号;最后,并非所有的DNA都能形成基因,DNA中的大部分是重复或随机的杂乱序列,很少或从未被转录,是所谓的垃圾DNA
。
生命很难定义,但它有两种截然不同的技能:复制能力和建立秩序的能力。兔子的作用远不止于此。它们吃草,将其转化为兔肉,并以某种方式在随机而混乱的世界里构筑有序而复杂的身体。这并没有违背热力学第二定律——在封闭的系统中,一切都会从有序向无序发展,不过兔子不是封闭的系统。兔子通过消耗大量能量,构建起有序而复杂的身体堡垒。
人类并没有24对染色体,这着实令人惊讶。黑猩猩、大猩猩和红毛猩猩都有24对染色体。在猿类中,我们人类是个例外。很快就发现,其原因并非人类缺少一对猿染色体,而是两个猿染色体在我们体内融合在了一起。实际上,人类的第二大染色体——2号染色体,是由两个中等大小的猿染色体融合而成的,这可以从相应染色体上的黑色条带的图案中看出。
除2号染色体融合之外,黑猩猩和人类染色体之间的可见差别微乎其微。有13对染色体是看不出来明显差异的。
无论是哪种机制,我们都会猜想到,人类的祖先是被隔绝的一小支,而黑猩猩的祖先是主流分支。我们可以这样进行猜测是因为从人类基因里,我们发现人类经历了比黑猩猩更为严重的遗传瓶颈(即人口骤减期):人类基因组中的随机变异比黑猩猩的要少得多。
黑猩猩的滥交和短暂性关系,以及大猩猩的一夫多妻制,都被一种类似于一夫一妻制的形式所取代:雌雄异形比例的下降就是确凿的证据。但是在一夫一妻制的体系中,两性都会更为谨慎地选择配偶。在一夫多妻制中,只有雌性是挑剔的。在这种长久的配偶关系之下,猿人生育期内的大部分时间就都和配偶绑定在了一起。此时,质量而非数量,突然变得重要起来。
强大的大脑不能没有肉(今天的素食主义者只能通过吃豆类来避免蛋白质缺乏),分享食物可以吃到肉(因为这使捕猎失败的男性也能免费享用到),分享食物得有个强大的大脑(没有精密的计算存储能力,会很容易被吃白食的人欺骗),两性的分工推动了一夫一妻制(一对配偶就是一个经济实体),一夫一妻制导致更倾向于选择青春年少的配偶(年轻的配偶有更大的优势)。如此这般,周而复始,不断调整,螺旋上升,我们便成为今天的我们。
基因的主要用途是存储制造蛋白质所需的配方。正是蛋白质完成了人体内几乎所有的化学、结构和调节功能:它们产生能量,抵抗感染,消化食物,形成毛发,转运氧气等。人体内的每一种蛋白质都是通过翻译基因的遗传密码而得来的。这句话反过来说就不完全正确了。因为有些基因,例如1号染色体的核糖体RNA基因,从不翻译蛋白质。但即使是这些基因,也会间接参与到其他蛋白质的制造过程。
马勒通过用X射线照射果蝇的方法使果蝇的基因发生突变,这样果蝇后代会出现新的畸形。他认为,突变“并不像遥不可及的上帝一样,站在遗传物质的坚固城堡里捉弄我们”。就像原子一样,孟德尔的遗传颗粒也必定有一些内在结构。这些结构可被X射线改变。改变之后仍是基因,只是不再是以前的基因了。
人工诱导突变开启了现代遗传学。1940年,两位科学家乔治·比德尔(George Beadle)和爱德华·塔特姆(Edward Tatum)利用马勒发现的X射线诱导基因突变的方法,制造出了一种名为脉孢菌(Neurospora)的面包霉菌的突变体。然后他们发现,突变后的面包霉菌无法产生某种化学物质,因为它们的某种酶失活了。他们提出了一条生物学法则:一个基因对应一种酶。这条法则后被证明是基本正确的。3年后,莱纳斯·鲍林(Linus Pauling)得出了一个惊人的推断:一种主要影响黑人的严重贫血症,究其病因,是由于其血红素蛋白基因产生了错误,从而使得红细胞变成镰刀状。这个基因错误看起来就像是一个真正的孟德尔突变。事情逐渐变得明朗起来:基因是蛋白质的配方;突变其实就是基因改变所引起的蛋白质改变。
沃夫-贺许宏氏症候群特别罕见,且造成的后果也尤为严重。也就是说,其基因的作用非常关键,以至于患者常常早逝。然而,位于4号染色体上的这个基因,实际上是所有“致病”基因中最为著名的,因为该基因还会导致另外一种非常不同的疾病:亨廷顿舞蹈症
。基因突变会导致亨廷顿舞蹈症,而该基因完全缺失则会导致沃夫-贺许宏氏症候群。这个基因包含一个一再重复的“词”:CAG,CAG,CAG,CAG……这种重复有时是6次,有时是30次,有时超过100次。人的命运、神智和生命,都被这种重复所束缚。如果这个“词”重复不超过35次,你就会没事,而我们大多数人都有大约10到15次的重复。如果“词”重复了39次及以上,你就会在步入中年之时慢慢开始失去平衡,生活变得越来越不能自理,最后过早地死去。这种衰退开始于智力的轻微衰退,然后是四肢抽搐,最后令人陷入深度抑郁,偶尔出现幻觉和妄想。
亨廷顿舞蹈症发病的年龄完全取决于CAG这个“词”在一个基因的某个位置上重复出现的次数,一点通融的余地都没有。如果一个人带有39次重复,到75岁时便有90%的概率患上痴呆症,且大概会在66岁时首次发病;如果带有40次重复,那么平均来说会在59岁时发病;如果带有41次重复,54岁时发病;如果带有42次重复,37岁时发病;以此类推,那些带有50次重复的人,会在大约27岁时发病。
1993年,终于发现了这个基因。人们对它进行解读并找到了致病的突变。随后该基因所编码的蛋白被分离了出来,并命名为亨廷顿蛋白。基因中间重复的CAG这个“词”会使得蛋白质的中部含有一长串谷氨酰胺(在基因语言里,CAG特指谷氨酰胺)。而且,对亨廷顿舞蹈症来说,谷氨酰胺越多,发病年龄就越小。对此疾病进行这般解释,似乎很没有说服力。如果亨廷顿基因有问题,为何它在病人生命的前30年里没有异常呢?显然,突变型的亨廷顿蛋白逐渐聚集成块。就像阿尔茨海默病和疯牛病那样,正是这种黏糊糊的蛋白质在细胞内的聚集导致了细胞的死亡,也许是因为它诱发了细胞自杀。在亨廷顿舞蹈症中,这种情况主要发生在大脑专用的运动控制室中。其结果是,会出现运动失调或失控。
CAG这个词的一再重复并不只限于亨廷顿舞蹈症。另外还有5种神经系统疾病,也是由所谓的“CAG发生了错误的重复”所引起的,已发现有6种病是由CAG所导致的。此外,在X染色体起始处的CCG或CGG一旦重复超过200次,就会导致“脆性X综合征”。这是一种很常见的痴呆症,不同病人之间症状差别很大。在正常人体内,这种重复一般少于60次,而在病人体内,常常超过1000次。如果CTG在19号染色体上的一个基因中重复50到1000次,就会导致强直性肌营养不良。有十几种人类疾病都是由三字母词重复过多所引起的,它们被统称为多聚谷氨酰胺病。在所有病例中,过长的蛋白质都倾向于积累成无法正常降解的蛋白质块,进而导致它所在的细胞凋亡。这些疾病有不同症状,只是因为在身体的不同部位上,基因的表达不太一样。
一种被称为“预期效应”的现象给了人们一些启发。人们早就知道,那些患有严重亨廷顿舞蹈症或脆性X综合征的人,其子女发病时间一般早于父母,且病情也更为严重。预期效应意味着,父母体内的重复越多,复制到下一代时,所增加的长度就越长。我们知道,这些重复片段形成了一种叫作发夹的DNA小环。DNA会自身回折,形成一个像发夹一样的结构,把以C开头、以G结尾的单词中的字母C和字母G在“发夹”中连接了起来。当DNA复制时,“发夹”被打开,复制过程偶尔会出个小错,就把更多的词插入到了DNA里。
打个简单的比方,也许会有助于理解。如果把CAG这个词重复6次——CAG,CAG,CAG,CAG,CAG,CAG,你会很容易数得一清二楚。但如果重复36次——CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,CAG,恐怕就会数错了。DNA也是如此。重复次数越多,复制机器在复制DNA的时候就越有可能插入一个额外的重复。
在那些制造精子的细胞里,CAG的重复次数逐渐增加,这就解释了为什么亨廷顿舞蹈症的发病与父亲的年龄有关:年龄越大的父亲,其儿子发病年龄越早,病情越严重。顺便提一句,现在已经知道,在整个基因组中,男性的突变率大约是女性的5倍。这是因为男性终其一生都在不断提供新鲜的精子细胞,而基因的不断复制对此是必需的。
号称“哮喘基因”的几个主要候选基因就位于5号染色体。提起这些基因,就不得不提及一个专业术语——基因的多效性
,它是指多个基因的多种影响。研究表明,很难简单地把哮喘的发病原因归结到基因身上,毕竟个体差异很大。
哮喘只不过是诸多“特异反应性”中的一种,大多数哮喘患者也对其他某些东西过敏。哮喘、湿疹、过敏和过敏反应,都属同一种综合征,都是由体内的一种“肥大”细胞所引起的,而这种细胞受一种名为免疫球蛋白E的分子所激活和触发。每10个人中就有1个会出现某种过敏,不同的人症状不同。有些人对花粉过敏,只是感到些许不适;有些人是因蜂蜇或误食花生而引发过敏,其后果可能是致命的。
哮喘的产生过程是这样的:人体内的免疫球蛋白E对某些分子非常敏感,一旦遇到这些分子就会激活,进而引起肥大细胞释放组胺,而组胺会导致呼吸道收缩,从而引发哮喘。在生物学上,这就是很简单的因果串联事件。哮喘有多种诱因,会受到免疫球蛋白E结构的影响。这种蛋白质有多种形式,每一种都对应着特定的外界分子或过敏原。虽然一个人的哮喘可能是由尘螨诱发的,而另一个人的哮喘可能是由咖啡豆诱发的,但潜在的机制都一样:免疫球蛋白E系统被激活了。
链上的所有蛋白质都是由一个基因所编码的(免疫球蛋白E例外,它由两个基因所编码)。有些人天生(或后天)就对动物毛发过敏,这大概是因为他们的基因与其他人略有不同,这得归功于某些突变。
所有这些研究得到的一致结论是你的智商大约一半由遗传决定,不到1/5由你与你的兄弟姐妹们共同生活的环境——家庭所决定,剩下的受子宫环境、学校教育及其他诸如同龄人等外部因素的影响。但这个结论也存在误导性。一个人的智商会随着年龄的变化而变化,遗传因素对它的影响同样也会变化。随着年龄的增长、经验的积累,基因的影响也在不断增加。遗传因素对儿童智商的影响占比约为45%,而到青春期末期会上升到75%,所以随着一个人的成长,先天智商会逐渐凸显出来,而其他因素的影响逐渐减弱。人会选择适合自己天性的环境,而非通过调整自己以适应环境。这证明了两件至关重要的事情:遗传对智商的影响并非在受孕时就固定下来了,环境对智商的影响不会一直累积下去。智商是遗传的,并不意味着它是一成不变的。
IGF2R是个异常庞大的基因,总共包含7473个字母,其中有义信息散布在基因组里由98 000个字母所组成的一段上,中间被一些无意义的序列,即内含子打断了48次,就像杂志上的一篇文章中间插入了48段广告一样,怪烦人的。在基因内部存在一些重复片段,其长度不是固定的,或许会对不同人的智商差异带来影响。它看起来似乎与胰岛素样蛋白和糖分的分解相关,这正好与另一项研究的发现有关,即高智商的人在大脑中利用葡萄糖的效率更高。高智商的人在学习玩俄罗斯方块的电脑游戏时,上手之后,同低智商的人相比,其体内葡萄糖下降的幅度更大。
有两种遗传病会影响语言能力,一种是由11号染色体上一个基因突变引起的威廉斯综合征(Williams Syndrome)
,罹患这种病的孩子一般智力低下,但说起话来生动丰富,十分健谈。他们常喋喋不休,用词复杂、句式考究。如果让他们描述一种动物,与别人选择猫或狗不同,他们常会选择一个颇为奇怪的动物,比如土豚。他们学习语言的能力很强,但是理解力低下,智力迟钝。我们中的很多人曾经都认为思考就是一种不发声的语言,然而威廉斯综合征患者的存在似乎证明了这种想法是错误的。
另一种被称为特定型语言障碍(SLI)
的遗传病则有着相反的症状,患者语言能力降低,但智商不会受到明显的影响,至少不会长时间地对智商造成影响。这种疾病是一场科学争论的核心议题,争辩双方分别支持新兴的演化心理学和旧的社会科学,论题是应该用基因来解释行为还是用环境来解释行为。处在争论旋涡之中的这个基因,正是位于7号染色体。
这个基因是否存在,并非双方争辩的焦点。对双胞胎的细致研究明确地指出特定型语言障碍具有极强的遗传性,这种病与出生时的神经损伤无关,与成长过程中接触的语言较少也无关,亦不是由智商低下所造成的。虽然对于这种疾病有着不同的定义,但经过一些检查,发现这种病的遗传性接近100%。也就是说,同卵双胞胎患病的概率大约是异卵双胞胎的2倍。
毫无疑问,这个基因位于7号染色体上。1997年,来自牛津大学的一组科学家在7号染色体的长臂上发现了一个总是与特定型语言障碍同时出现的遗传标记。
故事围绕着一个英国的大家族展开,我们在此称他们为K家族。这个家族一共有3代人。1个患有特定型语言障碍的女子与1个正常的男子结婚,两人育有4女1子,除1女外,其余4个孩子都是特定型语言障碍患者。而这些孩子又结婚生子,总共生了24个孩子,其中10个孩子为特定型语言障碍患者。牛津大学的研究团队通过研究他们的血液,在7号染色体上发现了这个基因。
1990年,戈普尼克首次提出,K家族和其他类似病症的患者在理解英文的基本语法规则方面存在障碍,他们不是不能理解语法规则,而是需要专门的用心学习才能掌握这些规则,但对于正常人而言,这些语法规则是一种本能。有这样一个案例,戈普尼克向某人展示一幅画着卡通动物的图片,图面上配有“这是一个Wug”的标识,然后给他们一张画有两只这种卡通动物的图片,问道“这是……”,大多数人会不假思索地回答“Wugs”,但是对于特定型语言障碍患者,他们很少能回答得出来,即便是回答出来了,也要经过深思熟虑,看起来他们并不知道英文中大多数词的复数规则是在其末尾加一个“s”。但是,特定型语言障碍患者可以记住大多数名词的复数形式,只是碰到以前没有见过的新词时会被难倒,此外,他们还会犯这样的错误,即在那些我们正常人不会加s的词后面加s,比如“saess”。戈普尼克提出这样一种假设,认为这些患者是把每个单词的复数形式都作为一个新的单词来记,但他们记不住相应的语法规则。当然,特定型语言障碍患者不仅仅是在名词的复数形式方面存在问题,还在过去时态、被动语态、词序规则、后缀、词汇组合以及所有这些本该知道的英文语法规则方面存在问题。
猴子的大脑中正好存在两个对应的区域。与人类布罗卡区
对应的区域负责控制猴子面部、喉部、舌头及口腔肌肉,与人类韦尼克区
对应的区域负责辨别声音和识别其他猴子的叫声。许多特定型语言障碍患者所面临的语言问题以外的其他问题正是不能很好控制面部肌肉和聆听声音。换句话说,人类祖先最先演化出的语言本能,起源于大脑中控制发声的区域,该区域仍保留了控制面部肌肉和辨别声音的功能,并在此基础上演化出了负责语言本能的区域,使人类天生能够将语法规则附加在所使用的词汇之上。