-
Notifications
You must be signed in to change notification settings - Fork 3
/
notes.txt
94 lines (77 loc) · 8.57 KB
/
notes.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
1.基因表达数据
基因表达数据反应的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,这些数据可以用来分析哪些基因的表达发生了改变,
基因之间有何关联性,在不同条件下基因的活动是如何受影响的。
它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前,高通量检测基因组mRNA丰度的方法主要是cDNA微阵列、
寡核苷酸芯片,随着cDNA微阵列和寡核苷酸芯片等高通量 检测技术的发展,我们可以从全基因水平定量或定性检测基因转录产物mRNA。
由于生物体中的细胞种类繁多,同时基因表达具有时空特异性, 因此,基因表达数据与基因组数据相比,
要更复杂,数据量更大,数据的增长速度更快。
2.基因表达
基因表达是用基因中的信息来合成基因产物的过程。产物通常是蛋白质,但对于非蛋白质编码基因,如转运RNA(tRNA)和小核RNA(snRNA),
产物则是RNA。所有已知生物都通过基因表达来生成生命所需的 高分子物质。
基因表达的过程可分为:转录、RNA剪接、翻译、蛋白质的翻译后修饰这几步。基因表达调控控制细胞的结构与功能,
同时也是细胞分化、形态发生及生物体的多功能和适应性的基础。不同的时间、 不同的环境,以及不同部位的细胞,
或是基因在细胞中的含量差异,皆可能使基因产生不同的表现。基因调节也可以进化变化的底物,因为基因表达的时间,
位置和数量的控制可以对基因在细胞或多细胞 生物体中的功能(作用)具有深远的影响。
3.RNA测序(简称 RNA-Seq)
RNA测序是基于第二代测序技术的转录组学研究方法。RNA测序是使用第二代测序的能力,在给定时刻从一个基因组,
揭示RNA的存在和数量的一个快照的技术。 首先提出生物样品的全部转录的RNA,然后反转录为c-DNA后进行的二代高通量测序,
在此基础上进行片段的重叠组装,从而可得到一个个的转录本。进而可以形成对该生物样品当前发育状态的基因表达 状况的全局了解。
进一步说,若和下一阶段的生物样品的RNA-Seq转录组进行比较,则可以得到全部的(在转录层面)基因表达的上调及下调--这就形成了表达谱,
针对关键基因则可以形成你想要的通路的构建。
4.DNA微阵列
DNA微阵列又称DNA阵列或DNA芯片,比较常见的名字是基因芯片(gene chip)。是一块带有DNA微阵列(microarray)的特殊玻璃片或硅芯片,
在数平方公分的面积上布放数千或数万个核酸探针;检体中的DNA、cDNA、RNA等与探针结合后,借由荧光或电流等方式侦测。经由一次测验,
即可提供大量基因序列相关信息。它是基因组学和遗传学研究的工具。
研究人员应用基因芯片就可以在同一时间定量的分析大量(成千上万)的基因表达,具有快速、精确、低成本之生物分析检验能力。
5.批次效应
研究者在数据整合过程中常面对由于平台设计、合成及探针注释不同带来的跨平台基因表达研究的难题。
另外,同一方面的微阵列实验研究可能在不同时间或地点进行,其系统误差会给数据整合带来困难。
上述系统在文献上称之为批次效应(batch effect)。Scherer和Andreasd将批次效应定义为样本在不同批次处理和测量中系统上的技术差异。
当批次效应引入的误差足够强以至于混杂真实的生物学差异时,未经移除批次效应的数据分析可能出现误导性的结果。
微阵列信号强度的归一化(normalization)是一种标准化分析技术,如MAS5和RMA方法,但这是一种在特定数据集内部的标准化
方法,无法移除批次效应。
随着高通量技术的出现,可以以合理的成本测量很多信息(转录、代谢、表达基因),这些丰富的基因组数据为系统的识别生物标志物提供了机会。
相比基因表达特征,DNA层面上基因突变和拷贝数变异与药物敏感性的关系更为直接。
目前有各种各样的抗癌药物,预测抗癌药物的敏感性,既可提高药物疗效,
免无效抗癌药物给患者带来的毒副作用和经济负担,因此抗癌药物的敏感性预测具有重大意义。
背景1:每个人都有自己独一无二的基因这让身体对药物的吸收代谢能力也因人而异,这对药物的有效和安全性有着至关重要的影响。经过世界卫生组织调查,
全球病人有1/3死于不合理用药而非疾病本身,在我国死于不合理用药的人数更是高达19万。
研究意义1:基因的不同决定了人们对各类药物吸收代谢能力的差异。药物敏感性分析通过收集人群样本的基因数据,
旨在构建最全面的药物基因组数据库。我们从基因角度研究药物和不同人群基因型之间的
匹配关系,使用国际公认的权威指南,科学分析各类药物的药效和毒副作用,全面满足个性化用药的临床和科研需求。
从实际的角度出发,患者更加关心一个药物是否对他起作用(即sensitive或resistant),而不是一个具体的值(如数据集中的IC50值),
因此将抗癌药物的预测问题转化为一个二分类问题。
异构数据整合:
The Cancer Cell Line(CCLE)是来自哈佛大学和麻省理工
Broad研究院、诺华生物研究所等处的研究人员发布的首个全新、可免费获取的,
详细介绍癌症基因组数据并且包含药物敏感性数据的大型公共资源平台。CCLE
整合了来自大约1036个人类癌症细胞系的基因表达、染色体拷贝数等大规模数
据,并且还包含504个细胞系对于24种抗癌药物的敏感性数据,覆盖了36种常
见的癌症类型。该项目旨在通过更深入了解癌症细胞系与药物之间的关系,以获
取抗癌药物潜在的敏感性相关标志物,为癌症治疗寻找合适的药物,及为更多
的癌症研究困体提供数据支持获得更多的新发现。
CCLE通过对培养的细胞系注入不同浓度的药物,测算在药物影响下8个时
间点抑制细胞增长的比例来量化药物敏感性。CCLE中量化药物敏感性的指标有
以下3种:1)Activity area。该方法首先通过logistic回归拟合出24种药物对
504个细胞系的药物反应曲线,其中activityarea代表logisticsigmoidal函数曲线
上的面积;EC50表示完全抑制细胞生长时所需的最大活性药物浓度的一半:IC50
表示达到抑制50%细胞生长时的药物浓度。其中Activity area和IC50是最常用的
两种药物敏感性刻画指标,从它们的定义方式可以看出,细胞系对药物具有高的
Activity area或者具有低的IC50表明细胞对药物具有很强的敏感性,反之具有低
的Activity area或者具有高的IC50表明细胞系对于药物的敏感性较弱。
Cancer Genome Project(CGP)是英国发起的另外一项针对癌症研究的计
划,它针对癌症遗传变异进行全面整合分析。该项目最早发起于2005年,目的
是绘制各种癌症类型的基因异常特征的"一览表"。与CCLE类似,该项目同样
规模较大,因此可以获得比往更深入的遗传特征及药理反应拴释。CGP数
据库提供了789个细胞系的原始基因表达数据,75个癌症基因的突变信息,以
及全基因组范围的拷贝数变异信息。
我们从CGP数据库中下载了727个细胞系对于138个药物的敏感性数据。与CCLE不同的
是CGP中药物敏感性指标是通过焚光细胞活为分析获取的。首先让细胞系经过72小时的
药物反应,然后通过拟合荧光信号强度获取浓度一药物反应曲线。CGP官方网站提供的数据
包括包含AUC和IC50等几个不同的药物敏感性测量指标,其中IC50代表达到
最大抑制量一半时所需的药物浓度,AUC指的是"浓度一药物反应曲线"下的
面积。对于CGP中的细胞系而言,较低的AUC或者IC50表明细胞系对药物敏
感,而AUC或者IC50高表明细胞系对药物不敏感。CGP所有的细胞系中,同
时具有基因表达数据和药物敏感性数据的细胞系共有653个,数据量比较大,为
我们模型的建立提供了丰富的数据资源。