群体遗传进化分析笔记(一)
文章目录
群体遗传学涉及几个进化学说,包括中性学说、正选择vs负选择这些,传统群体遗传学是基于观察到的等位基因频率与预期频率的分析。近些年来群体遗传进化研究方向主要包括驯化机制、 适应性进化、 种群历史等方向
驯化机制
动植物的驯化是指野生动物、植物经人工长期饲养或培育而 逐渐改变原来的习性,成为家畜、家禽或栽培植物,这一过 程中动植物按照人类的需求积累变异,驯化群体与对应的野 生种群在基因组上就存在差异,因此研究驯化机制需同时选 取野生型、驯化型样本。
适应性进化
生物的适应性进化涉及到生物对极端自然环境的适应,如高 原、洞穴、光照、温度、水分、海拔等,以及动物对食性转 换与特化的适应等。物种特定环境的适应会积累有利于在特 定环境下生存的变异,因此,针对这方面研究需要选取有明 显差异的不同环境条件的样本。
种群历史
种群历史动态,可用于阐明过去的地质气候变化以及人类活 动等历史事件对当前物种分布的影响。群体进化研究基于群 体数据推算种群历史,因此需要在物种的可能起源地以及各 个分布区域进行选材。
群体遗传进化主要分析内容包括群体结构分析、选择清除分析、 种群动态分析、 基因交流分析这些。
选择清除分析
自然选择促使有利突变在群体中保留下来,与之连锁的中性位点突变频率提升,非连锁的中性位点突变频率下降;简单的说就是基因组某区域由于受到了选择而消除多态性,即遗传多样性降低,在群体中出现高频的等位基因和低频的等位基因。主要用于:挖掘驯化过程中受选择的基因和挖掘物种适应性进化过程中受选择的基因。
FST:遗传分化指数,取值范围是[0,1],最大值为1表明两个群体完全分化,最小值为0表明群体间无分化。
π:表示核苷酸多态性,受选择程度越高,多态性越低。
受人工选择的群体,遗传多样性相对单一,π值较小
野生群体遗传多样性大,π值比较大
Tajima’D:在标准中性进化模型下,Tajima’s D的理论值为零
常用的群体受选择基因SNP位点的筛选一般有这三个就可以做一些分析了,
个人感想总结:多态性下降,pi值越高,受到的选择作用越强,fst值越大。
pi值从小到大排序筛选前5%,fst值从大到校筛选前5%
联合该如何筛选?筛选完的行如何到vcf文件中去提取出对应的SNP信息转换成一个表:
使用r和perl语言,将前5%、1%的fst和pi都筛选出来,通过统一坐标进行绘图得到选择消除区域,确定候选基因,联合筛选确定符合条件的行,脚本来自github
实际上就是把共同的列筛选出来,然后形成pi比值新的列,再通过一些包进行画布的分割再用横坐标和纵坐标一起进行作图。联合做出来的图大致如下图所示,根据自己所设的阈值和坐标轴是否有转换,图的筛选效果可能不一样。
综上所述,其实群体遗传进化分析的手段和思路还有很多,包括很重要的LD连锁不平衡分析,即衰减距离越长表明群体受到的选择作用更大,更接近驯化种,越短的可能就是野生种。
文章作者 craftor18
上次更新 2023-02-11