生物信息学
一:绪论
1、基因(Gene):基因是DNA 分子上携带有遗传信息的功能片断。
2、基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。
3、人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2×109个碱基对的序列测定,主要任务包括做图、测序和基因预测,其根本任务是解读和破译生物体的生老病死以及与疾病相关的遗传信息。
4、有人称德利思为“人类基因组计划之父”——他不是第一个提出人类基因组计划的人,但他促成了第一个人类基因组研究项目的启动。
5、4张图:
遗传图
物理图
序列图
转录图
HGP的终极目标:
阐明人类基因组全部DNA序列;
识别基因;
建立储存这些信息的数据库;
开发数据分析工具;
研究HGP实施所带来的伦理、法律和社会问题。
6、遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。
7、遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。
8、物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
9、转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
10、随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。
11、大规模测序基本策略:
逐个克隆法:小片段针对图谱的!!
全基因组鸟枪法:大片段-测序-组装(美国Celera公司)
Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。
12、人类基因组计划的实施意义:
(1)人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。
(2)人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。
(3)研究多种模式生物基因组将有助于研究地球生物的进化史。
13、生物信息学:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
14、生物信息学主要研究内容:
1)、生物分子数据的收集与管理
2)、数据库搜索及序列比较
3)、基因组序列分析
4)、基因表达数据的分析与处理
5)、蛋白质结构预测
15、生物信息学主要研究两种信息载体:DNA分子、蛋白质分子
16、生物分子信息的特征:
生物分子信息数据量大;
生物分子信息复杂;
生物分子信息之间存在着密切的联系。
17、基因组序列分析:
遗传语言分析——天书
基因组结构分析
基因识别
基因功能注释
基因调控信息分析
基因组比较
18、目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能 。
19、基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。
20、蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径。
21、蛋白质结构预测分为:二级结构预测、空间结构预测。
22、蛋白质复杂结构分析: X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法。
23、生物信息学研究意义:
1)认识生物本质
了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系
2)改变生物学的研究方式
改变传统研究方式,引进现代信息学方法
3)在医学上的重要意义
为疾病的诊断和治疗提供依据
为设计新药提供依据
24、生物信息学当前的主要任务:
基因组
蛋白质组
蛋白质结构
药物设计
25、什么事件大大促进了生物信息学的发展——人类基因组计划
26、生物信息学中最重要的贡献是什么?
Needleman 和 Wunsch 提出了著名的序列比对算法,是生物信息学发展中最重要的贡献
二: 数据库检索
1、生物分子数据库应满足5个方面的主要需求
(1)时间性
(2)注释
(3)支撑数据
(4)数据质量
(5)集成性
2、生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快、数据量呈指数增长趋势
(2)数据库使用频率增长更快
(3)数据库的复杂程度不断增加
(4)数据库网络化
(5)面向应用
(6)先进的软硬件配置
3、分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。
4、序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。
5、不连续基因:基因的编码序列在DNA分子上是不连续的,为不编码的区域所隔开。
6、cDNA去除了“非编码区域”,因而很容易用来定位蛋白质编码区域。
7、DNA测序不能从染色体进行,首先必须克隆化,构建基因组的物理图谱。
8、根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,也称专门数据库、专业数据库、专用数据库。
9、My NCBI的功能:
保存和管理检索
保存检索结果
过滤检索结果
置设LinkOut
10、GenBank 序列提交规范:
序列长度小于50bp
没有内含子而只有多个外显子组成的染色体序列
只有引物序列
只有蛋白序列
非生物学相邻序列包含有未测序区域
序列包含有混合的染色体和mRNA序列的混合体而被当作单条序列
EST提交(要通过dbEST)
GSS提交(通过dbGSS)
11、ReqSeq的特性:
无冗余
核酸和蛋白质序列之间有明确的联接
更新序列数据和生物学之间的对应关系
数据有效性和格式一致性
清楚明确的访问号
由NCBI和其合作者维护
三:PCR引物设计
1、聚合酶链反应(Polymerase Chain Reaction ,PCR)是80年代中期发展起来的体外核酸扩增技术。它具有特异、敏感、产率高、快速、简便、重复性好、易自动化等突出优点。
2、引物设计是PCR 技术中至关重要的一环。使用不合适的PCR 引物容易导致实验失败:表现为扩增出目的带之外的多条带(如形成引物二聚体带),不出带或出带很弱,等等。
3、引物设计的原则:
引物与模板的序列要紧密互补
引物与引物之间避免形成稳定的二聚体或发夹结构
引物不能在模板的非目的位点引发DNA 聚合反应(即错配)。
4、一般原则
引物的长度一般为15-30 bp,常用的是18-24 bp,但不应大于38。
引物过短又同时会引起错配现象,一般来说引物长度大于16bp是必要的(不容易引起错配)。
5、Tm = 4 (G+C) + 2(A+T)
6、Primer Premier 5.0 的使用:
引物设计
限制性内切酶位点分析
DNA 基元(motif)查找
同源性分析
7、用Oligo 设计引物时的3个标准
Tm 值曲线以选取5’到3’的下降形状有利于引物引发聚合反应。
Frq 曲线宜选用3’端Frq 值相对较低的片段。
ΔG 值在5’端和中间值比较高,而在3’端相对低。
四:核酸序列分析
1、DNA序列分析可大体分为两类:(1)测序DNA序列分析;(2)特定DNA序列分析。后者内容一般包括:DNA碱基组成、密码子偏向性、内部重复序列、酶切位点、编码区分析、二级结构预测等,但不局限于这些内容。
2、大多数分子生物学软件都具有限制性酶切分析功能,完全可以轻松地实现限制性酶切分析功能,这方面的软件如:DNAMAN、Bioedit、DNAStar软件包等。
3、电子克隆也称为虚拟克隆(virtual cloning)
原理:根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列。
电子克隆以部分cDNA为起始,和GenBank的EST数据库进行BLAST搜索,得到与5’或3’端相似序列的EST,然后以该EST为模板,进一步搜索EST数据库,一直往前延伸,直到找到终止密码子,得到全长cDNA。
4、电子克隆
a将待分析核酸序列(或蛋白序列,称为种子序列)用blast软件搜索GenBank的EST数据库,选择与之具有较高一致性的EST序列(称匹配序列)。
b将匹配序列与种子序列装配产生新生序列,此过程称为片断重叠群分析(Contig Analysis)。(如果种子序列不是核酸,则不必拼装新序列)。
c以新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。
d对延伸产物进行ORF分析,确定cDNA的完整性。
5、mRNA序列需要翻译为蛋白质才能发挥其生物学作用,因此核酸序列的可读框架(Open Reading Frame,ORF)分析也是核酸序列分析一个重要方面。对真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框。非全长cDNA序列如ESTs,通过所有位相搜索也可很快获得结果。GenBank的ORF Finder是一个较好的ORF分析网络资源。
6、对延伸产物进行 ORF 分析,确定 cDNA 的完整性。
7、所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律。Kozak规则可以帮助确定ORF的起始密码子。加尾信号须自行搜索。
若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:
(1) 第4位的偏好碱基为G;
(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;
(3)在-3,-6和-9位置,G是偏好碱基;
(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。
Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。
8、CpG岛:是一些富含GC的小区域,大小范围为0.5~5kb,基因中平均每100kb即可出现。因这些区域未发生甲基化,故富含CpG(60~70%),目前认为,基因表达与CpG岛甲基化程度呈负相关。
9、启动子是一段位于结构基因5’端上游区的DNA序列。真核基因启动子在-25~-35区含有TATA序列,在-70~-80区含有CCAAT序列,在-80~-110区含有GCCACACCC或GGGCGGG序列。
10、Sanger双脱氧终止法:单链DNA模板与寡核苷酸引物杂交,新的DNA链在DNA聚合酶催化下从引物末端进行合成。在反应混合物中除了有模板DNA、引物、 DNA聚合酶和4种底物dNTPs之外,还加入一定比例的四种2',3'-双脱氧核苷酸三磷酸ddNTPs(终止核甘)之一。
11、 序列比较的任务:
发现序列之间的相似性;
辨别序列之间的差异。
目的:
相似序列
相似的结构,相似的功能
判别序列之间的同源性
推测序列之间的进化关系
五:蛋白序列分析
1、α螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成 亲水残基往往出现在疏水残基之间,对功能有重要的作用。
2、信号肽预测:指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。
3、信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域,信号肽切割位点的-3和-1位为小而中性氨基酸。
4、同源建模模型评估:
步骤一:上传文件
步骤二:加氢原子
步骤三:开始检测模型
步骤四:选择要分析的参数,一般采用默认值
第五步:查看结果,这里有图形分析和具体表格分析。
5、同源建模:模版的搜寻(FASTA与BLAST)。
6、结构生物学:是以生物大分子特定空间结构、结构的特定运动与生物学功能的关系为基础,来阐明生命现象及其应用的科学。以生物大分子三级结构的确定作为手段,研究生物大分子的结构与功能关系,探讨生物大分子的作用机制和原理作为研究目的。
7、蛋白质数据库(Protein Data Bank,PDB)是一个生物大分子(如蛋白质和核酸)数据库, 内容包括由全世界生物学家和生物化学家上传的蛋白质或核酸的X光晶体衍射或者NMR核磁共振结构数据。蛋白质结构预测就成为研究结构生物学的一个有效手段。
8、蛋白质结构预测方法:
同源建模,折叠识别和从头计算。
9、同源建模基本原理:
1)、一个蛋白质的结构由其氨基酸序列唯一的决定。由一级结构,在理论上,足以获取其二级、三级结构。
2)、三级结构的保守型远远大于一级结构的保守型。
应用限制:模板蛋白和目标蛋白的序列一致性需要大于30%
10、同源建模步骤: 1、模板蛋白搜索 PDB 数据库、 BLAST(或 PSI-BLAST) 、获取模板(一 个或多个) 2、比对结果的校正 3、主链生成 4、环区建模 5、模型优化 6、合理性检测。
11、同源建模评价 1. 拉氏图:前三项(核心区+允许区+最大允许区) 之和大于 95%即可 2. ERRAT: 计算 0.35 nm 范围之内,不同原子类型对之间形成的非键相互作用的数目(侧链)。得分>85 比较好。
六:分子进化
1、系统发生(phylogeny)——是指生物形成或进化的历史。
2、系统发生学(phylogenetics)——研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示。
3、系统发生树(phylogenetic tree)——表示形式,描述物种(遗传学特征: 形态, 基因序列, 蛋白质序列等等) 之间进化关系。进化树: 从低等到高等, 有始有终。
4、有时候亲缘关系远的物种也能进化出相似的表型,所谓的趋同进化(convergent evolution).所以表型为依据的进化分析有时候并不正确.
5、从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小.
6、同源------具有共同祖先
同源性状:1. 它们与这些物种的祖先类群中所发现的某个性状相同
2.它们是具有祖先-后裔关系的不同性状
同源性:分子进化研究中,两核苷酸序列之间或AA序列之间的相似程度。
直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的,可能具有相同的功能。
旁系同源(paralogs): 同源的基因是由于基因复制产生的,可能具有不同的功能。
这两个概念代表了两个不同的进化事件,而用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。
7、祖先类群(ancestral group):如果一个类群(物种)至少有一个子裔群,这个原始的类群就称为祖先类群。
单系类群(monophyletic group)包含一个祖先类群所有子裔的群组称为单系类群,其成员间存在共同祖先关系。
并系类群(paraphyletic group)和复系类群(polyphyletic group):不满足单系类群要求,各成员间又具有共同祖先特征的群组称为并系类群;各成员不具有共同衍生特征也不具有共同祖先特征,只具有同型特征的分类群组称为复系类群。
内类群(ingroup):一项研究所涉及的某一特定类群可称为内类群
外类群(outgroup):不包含在内类群中又与之有一定关系的类群,为了比较内类群中各成员的特征差异.
姊妹群(sister group):与某一类群在谱系关系上最为密切的类群称为姊妹群,是单系类群的一种常见类型。
8、有根树(rooted tree)和无根树(unrooted tree):以外类群作为树根的系统树为有根树,没有外类群作为树根的系统树为无根树。
9、拓扑(Topology)是将各种物体的位置表示成抽象位置。拓扑不关心事物的细节也不在乎什么相互的比例关系,只将讨论范围内的事物之间的相互关系表示出来,将这些事物之间的关系通过图表示出来。
10、基因树(gene tree)和物种树(species tree):基因树由来自各个物种的一个基因所构建的系统树,物种树则表达了某一特定类群的进化路径.代表一个物种或群体进化历史
11、常用系统进化树构建方法:
NJ 邻接法(neighbour joining)
MP 最大简约法(maximal parsimony)
ML 最大似然法(maximal likelihood)
BI 贝叶斯法
12、Ka,Ks的概念和意义。
七:植物EST-SSR标记开发
1、表达序列标签(Experssed sequenee Tags EST,是将mRNA反转录成cDNA并克隆到质粒或噬菌体载体构建成cDNA文库后,大规模随机挑选cDNA克隆,对其5’或3’端进行单向单次测序后所获得序列,其长度约为150-500bps。
2、简单重复序列 (SSR,simple sequenee Respts),也称作微卫星DNA (Mierosatellite DNA)是指一 类 由几个(多为1-6个)碱基组成的基元串联重复而成的DNA序列,在染色体上呈随机分布,由于重复次数不同及重复程度的不完全而造成了每个座位的多态性。 3、SNP:单核苷酸多态性
4、PDB:蛋白质数据库( Protein Data Bank,PDB)
您需要 登录账户 后才能发表评论