基因型数据:WGS数据首先经过bwa比对、samtools排序、GATK Call SNP 和vcftools等程序过滤,最后只要提取出SNP位点进行后续的GWAS分析。芯片数据我不太熟悉,但是应该是类似数据,但是可能中间多一步基因型填充用于填补缺失的基因型。由于做的是非模式生物的,所以vcf注释采用的是snpEFF进行注释。首先build构建好注释用的索引,然后java一下运行一下注释,这一步主要是为了将SNP位点与基因对应,每个有注释的SNP位点都应该在某个基因的内含子区域或者5-端上游或者3-端下游等区域。最后使用一个python脚本(网上大佬的)将ID替换成染色体_position,得 …
种群历史动态分析主要是为了理解种群的进化历史,所利用的数据是重测序数据经过与参考基因组比对过的bam文件进行后续的分析与计算。基本原理是:由于重组的存在,基因组被打断成许多小的片段,利用高深度重测序数据,我们可以找出这些小片段上的变异位点,进而可以推断这些小片段之间的最近共祖时间(the time since the most recent common ancestor,TMRCA)。有的片段之间相似度高,最近共祖时间比较短,有的片段之期差异度比较高,最近共祖时间就比较长。计算基因组各个片段的最近共祖时间,就可以得到最近共祖时间的分布。而最近共祖时间的分布情况包含群体大小随着时间的推移变化信 …