性状划分性状种类分为质量性状分类任务与数量性状回归任务性状表现分为易感性susceptibility 由个体的遗传基础决定的一个个体患病的风险称为易感性易患性 liability 由遗传因素和环境因素共同作用并决定个体是否易患某种遗传病的可能性下面都是由表型--预测基因的技术和术语遗传力遗传度是什么怎么计算的输入基因型SNP和个体表型值就可以计算遗传度一般用百分率% 来表示多基因累加效应对疾病易患性变异的贡献大小。遗传度高如 70%80%遗传因素作用较强。遗传度低如 30%40%环境因素作用相对较大控制环境因素对预防发病更有意义。怎么计算的输入数据个体的全基因组 SNP 基因型每个个体的表型值最好还要有协变量性别、年龄、批次、群体主成分 PC 等计算个体之间的遗传相似性用 SNP 数据算一个 GRMgenomic relationship matrix表示任意两个个体在基因组上有多相似看遗传相似性是否对应表型相似性如果基因型越相似的人表型也越相似模型就会把这部分表型差异归为遗传方差估计遗传力说白了遗传力的计算也是属于统计学上进行统计也不一定就能说明这些SNP高遗传力就一定是与遗传高度相关对面这不是精标准什么是连锁不平衡 LD两个 SNP 经常一起遗传不是随机组合就叫有 LDSNP 之间的相关性也就是哪些 SNP 经常一起遗传。比如有两个 SNPSNP1A / GSNP2C / T如果携带SNP1 的 A的人常常也携带SNP2 的 C那么这两个位点之间就存在LD。为什么会有 LD主要因为这些 SNP 在染色体上距离比较近重组时不容易被分开所以常一起传给下一代。距离越近通常 LD 越强距离越远重组机会越多LD 越弱。在 GWAS 里为什么重要GWAS 发现某个 SNP 显著相关时它不一定是真正的因果变异。它可能只是和真正的因果变异处于强 LD所以一起被检测出来。所以GWAS 找到的是关联信号不一定直接找到因果 SNP。Fine mapping 就是进一步在这些有 LD 的 SNP 中找最可能真正起作用的变异。常见 LD 指标常见用r²表示 LD 强度r² 接近 1两个 SNP 高度相关LD 强r² 接近 0两个 SNP 基本独立LD 弱GWAS是什么GWAS的输入是大量SNP基因型和性状它对每个SNP分别做一次关联检验输出每个SNP和性状关联的强度P值关系越大P值越小和方向效应量最后挑出那些显著超过阈值5×10⁻⁸的SNP作为可能和这个性状有关的候选。找到SNP的一般方法 使用SNP芯片预先在芯片上设计好几十万到上百万个已知的SNP位点的探针然后直接问每个样本你在这个已知位点上是A还是G它只检测这些事先选定的位点不读整条序列。双生子研究是什么和GWAS的区别估计“遗传因素有多重要”它主要回答这个性状或疾病的遗传度有多高比如某病遗传度约 70%。双生子研究比较同卵双生子基因几乎相同异卵双生子平均共享约 50% 基因如果同卵双生子的性状一致率明显高于异卵双生子说明该性状受遗传因素影响较大。“双生子研究”本身通常需要同卵双生子和异卵双生子。经典双生子研究的核心输入需要同卵双生子 MZ基因几乎 100% 相同异卵双生子 DZ平均共享约 50% 遗传变异表型数据比如是否患病、身高、智商、血压等然后比较 MZ 和 DZ 的相似程度估计遗传度。基因型不是必须的传统双生子研究不一定要测全基因组基因型。只要知道这对双生子是同卵还是异卵再有表型数据就可以做遗传度估计。现在有些研究会用基因型来确认是否同卵/异卵但这不是最核心条件。只有“基因型 表型”算不算双生子研究一般不算。如果你有很多人的基因型表型但他们不是双生子关键区别双生子研究靠同卵和异卵双生子的相似度差异估计遗传影响。GWAS靠基因型和表型的关联寻找具体遗传位点。GWAS 主要结果一般有什么1. 关联结果表这是最核心结果通常每个 SNP 一行包括SNP ID例如 rs123456染色体位置效应等位基因非效应等位基因等位基因频率效应值这个 SNP 对性状的影响是增加还是降低影响幅度多大数量性状通常是β 值例如0.5 cm表示携带某个效应等位基因每多一个该等位基因身高平均增加约 0.5 cm。β -0.3 cm表示该等位基因与身高降低有关。疾病/二分类性状通常是OR 值例如OR 1.20表示该等位基因使患病风险升高风险约增加。OR 0.80表示该等位基因可能有保护作用。OR 1表示基本没有影响标准误 SEP 值这个 SNP 和表型的关联看“这个关联靠不靠谱”2. 曼哈顿图 Manhattan plot用来看全基因组中哪些位点和表型显著相关。一般横轴是染色体位置纵轴是-log10(P value)点越高关联越显著。3. QQ 图它是用来判断GWAS 结果有没有异常比如群体分层样本结构问题通胀现象如果 QQ 图前面大致贴近对角线尾部明显上翘通常说明结果比较合理并且存在真实关联信号。4. 显著关联位点 / 风险位点一般会列出达到全基因组显著性的 SNPP 5 × 10⁻⁸这些 SNP 可能位于某些基因附近提示这些区域可能与疾病或性状有关。5. 候选基因或功能注释GWAS 后常会进一步分析这个 SNP 附近有什么基因是否影响基因表达是否落在调控区与哪些生物通路有关Fine mapping精细定位是什么通常结果有什么Fine mapping是在 GWAS 找到一个显著关联区域后进一步判断这个区域里哪些变异最可能是真正的致病/影响性状的因果变异因为 GWAS 里很多 SNP 会因为连锁不平衡 LD一起显著但不一定每个 SNP 都是真正有作用。Fine mapping 的目的就是把一大片关联区域缩小到更少、更可能的候选变异。通常输入有什么一般需要GWAS summary statistics每个 SNP 的 β/OR、SE、P 值LD 信息SNP 之间的相关性有时加入功能注释比如是否在调控区、是否影响基因表达有些方法比如 SuSiE可以用 GWAS summary statistics 加 LD 参考数据来做 fine mapping。通常结果有什么1. 候选因果变异列表每个 SNP 会有一个概率表示它是真正因果变异的可能性。常见指标叫PIPposterior inclusion probabilityPIP 越高说明该 SNP 越可能是因果变异。2. credible set 可信集合这是 fine mapping 最常见结果之一。比如95% credible set意思是这个 SNP 集合中包含真正因果变异的概率约为 95%。集合越小说明定位越精确。3. 每个区域的可能 causal signal一个 GWAS 区域里可能不止一个因果变异所以结果可能显示这个区域有几个独立信号每个信号对应一个 credible set每个 SNP 的 PIP 值4. 功能注释结果常见会进一步标注这个 SNP 靠近哪个基因是否在 enhancer/promoter 等调控区是否是 eQTL是否影响蛋白编码可能关联到哪个组织或细胞类型下面都是由基因--预测表型的技术PheWAS是什么Phenome-wide association study (PheWAS): 从已知 遗传变异出发 探索其与多种表型特征的复杂联系。 它可以理解成GWAS 的反向思路GWAS 是找“哪些基因变异影响这个表型”PheWAS 是看“这个基因变异影响哪些表型”也就是看它有没有“一位点多效应”。1. GWAS 是什么思路GWAS一个表型 → 全基因组变异比如研究糖尿病哪些 SNP 和糖尿病有关2. PheWAS 是什么思路PheWAS一个 SNP / 基因 / PRS → 很多表型比如已知某个 SNP 和糖尿病有关再问这个 SNP 还和哪些疾病或性状有关可能发现它还和肥胖血脂高血压肝功能指标其他疾病风险有关。GS genomic selection基因组选择是什么GS就是通过基因型来预测表型核心区别GWAS找关联位点回答的是哪些 SNP / 基因区域和某个性状有关目的偏向解释机制、找候选基因、找风险位点。GS做预测和选择回答的是根据全基因组标记能不能预测一个个体的表型或育种价值目的偏向预测个体表现、辅助育种选择。
【DNA基础】GWAS、GS、双生子研究、Fine mapping、性状、遗传力(遗传度)
性状划分性状种类分为质量性状分类任务与数量性状回归任务性状表现分为易感性susceptibility 由个体的遗传基础决定的一个个体患病的风险称为易感性易患性 liability 由遗传因素和环境因素共同作用并决定个体是否易患某种遗传病的可能性下面都是由表型--预测基因的技术和术语遗传力遗传度是什么怎么计算的输入基因型SNP和个体表型值就可以计算遗传度一般用百分率% 来表示多基因累加效应对疾病易患性变异的贡献大小。遗传度高如 70%80%遗传因素作用较强。遗传度低如 30%40%环境因素作用相对较大控制环境因素对预防发病更有意义。怎么计算的输入数据个体的全基因组 SNP 基因型每个个体的表型值最好还要有协变量性别、年龄、批次、群体主成分 PC 等计算个体之间的遗传相似性用 SNP 数据算一个 GRMgenomic relationship matrix表示任意两个个体在基因组上有多相似看遗传相似性是否对应表型相似性如果基因型越相似的人表型也越相似模型就会把这部分表型差异归为遗传方差估计遗传力说白了遗传力的计算也是属于统计学上进行统计也不一定就能说明这些SNP高遗传力就一定是与遗传高度相关对面这不是精标准什么是连锁不平衡 LD两个 SNP 经常一起遗传不是随机组合就叫有 LDSNP 之间的相关性也就是哪些 SNP 经常一起遗传。比如有两个 SNPSNP1A / GSNP2C / T如果携带SNP1 的 A的人常常也携带SNP2 的 C那么这两个位点之间就存在LD。为什么会有 LD主要因为这些 SNP 在染色体上距离比较近重组时不容易被分开所以常一起传给下一代。距离越近通常 LD 越强距离越远重组机会越多LD 越弱。在 GWAS 里为什么重要GWAS 发现某个 SNP 显著相关时它不一定是真正的因果变异。它可能只是和真正的因果变异处于强 LD所以一起被检测出来。所以GWAS 找到的是关联信号不一定直接找到因果 SNP。Fine mapping 就是进一步在这些有 LD 的 SNP 中找最可能真正起作用的变异。常见 LD 指标常见用r²表示 LD 强度r² 接近 1两个 SNP 高度相关LD 强r² 接近 0两个 SNP 基本独立LD 弱GWAS是什么GWAS的输入是大量SNP基因型和性状它对每个SNP分别做一次关联检验输出每个SNP和性状关联的强度P值关系越大P值越小和方向效应量最后挑出那些显著超过阈值5×10⁻⁸的SNP作为可能和这个性状有关的候选。找到SNP的一般方法 使用SNP芯片预先在芯片上设计好几十万到上百万个已知的SNP位点的探针然后直接问每个样本你在这个已知位点上是A还是G它只检测这些事先选定的位点不读整条序列。双生子研究是什么和GWAS的区别估计“遗传因素有多重要”它主要回答这个性状或疾病的遗传度有多高比如某病遗传度约 70%。双生子研究比较同卵双生子基因几乎相同异卵双生子平均共享约 50% 基因如果同卵双生子的性状一致率明显高于异卵双生子说明该性状受遗传因素影响较大。“双生子研究”本身通常需要同卵双生子和异卵双生子。经典双生子研究的核心输入需要同卵双生子 MZ基因几乎 100% 相同异卵双生子 DZ平均共享约 50% 遗传变异表型数据比如是否患病、身高、智商、血压等然后比较 MZ 和 DZ 的相似程度估计遗传度。基因型不是必须的传统双生子研究不一定要测全基因组基因型。只要知道这对双生子是同卵还是异卵再有表型数据就可以做遗传度估计。现在有些研究会用基因型来确认是否同卵/异卵但这不是最核心条件。只有“基因型 表型”算不算双生子研究一般不算。如果你有很多人的基因型表型但他们不是双生子关键区别双生子研究靠同卵和异卵双生子的相似度差异估计遗传影响。GWAS靠基因型和表型的关联寻找具体遗传位点。GWAS 主要结果一般有什么1. 关联结果表这是最核心结果通常每个 SNP 一行包括SNP ID例如 rs123456染色体位置效应等位基因非效应等位基因等位基因频率效应值这个 SNP 对性状的影响是增加还是降低影响幅度多大数量性状通常是β 值例如0.5 cm表示携带某个效应等位基因每多一个该等位基因身高平均增加约 0.5 cm。β -0.3 cm表示该等位基因与身高降低有关。疾病/二分类性状通常是OR 值例如OR 1.20表示该等位基因使患病风险升高风险约增加。OR 0.80表示该等位基因可能有保护作用。OR 1表示基本没有影响标准误 SEP 值这个 SNP 和表型的关联看“这个关联靠不靠谱”2. 曼哈顿图 Manhattan plot用来看全基因组中哪些位点和表型显著相关。一般横轴是染色体位置纵轴是-log10(P value)点越高关联越显著。3. QQ 图它是用来判断GWAS 结果有没有异常比如群体分层样本结构问题通胀现象如果 QQ 图前面大致贴近对角线尾部明显上翘通常说明结果比较合理并且存在真实关联信号。4. 显著关联位点 / 风险位点一般会列出达到全基因组显著性的 SNPP 5 × 10⁻⁸这些 SNP 可能位于某些基因附近提示这些区域可能与疾病或性状有关。5. 候选基因或功能注释GWAS 后常会进一步分析这个 SNP 附近有什么基因是否影响基因表达是否落在调控区与哪些生物通路有关Fine mapping精细定位是什么通常结果有什么Fine mapping是在 GWAS 找到一个显著关联区域后进一步判断这个区域里哪些变异最可能是真正的致病/影响性状的因果变异因为 GWAS 里很多 SNP 会因为连锁不平衡 LD一起显著但不一定每个 SNP 都是真正有作用。Fine mapping 的目的就是把一大片关联区域缩小到更少、更可能的候选变异。通常输入有什么一般需要GWAS summary statistics每个 SNP 的 β/OR、SE、P 值LD 信息SNP 之间的相关性有时加入功能注释比如是否在调控区、是否影响基因表达有些方法比如 SuSiE可以用 GWAS summary statistics 加 LD 参考数据来做 fine mapping。通常结果有什么1. 候选因果变异列表每个 SNP 会有一个概率表示它是真正因果变异的可能性。常见指标叫PIPposterior inclusion probabilityPIP 越高说明该 SNP 越可能是因果变异。2. credible set 可信集合这是 fine mapping 最常见结果之一。比如95% credible set意思是这个 SNP 集合中包含真正因果变异的概率约为 95%。集合越小说明定位越精确。3. 每个区域的可能 causal signal一个 GWAS 区域里可能不止一个因果变异所以结果可能显示这个区域有几个独立信号每个信号对应一个 credible set每个 SNP 的 PIP 值4. 功能注释结果常见会进一步标注这个 SNP 靠近哪个基因是否在 enhancer/promoter 等调控区是否是 eQTL是否影响蛋白编码可能关联到哪个组织或细胞类型下面都是由基因--预测表型的技术PheWAS是什么Phenome-wide association study (PheWAS): 从已知 遗传变异出发 探索其与多种表型特征的复杂联系。 它可以理解成GWAS 的反向思路GWAS 是找“哪些基因变异影响这个表型”PheWAS 是看“这个基因变异影响哪些表型”也就是看它有没有“一位点多效应”。1. GWAS 是什么思路GWAS一个表型 → 全基因组变异比如研究糖尿病哪些 SNP 和糖尿病有关2. PheWAS 是什么思路PheWAS一个 SNP / 基因 / PRS → 很多表型比如已知某个 SNP 和糖尿病有关再问这个 SNP 还和哪些疾病或性状有关可能发现它还和肥胖血脂高血压肝功能指标其他疾病风险有关。GS genomic selection基因组选择是什么GS就是通过基因型来预测表型核心区别GWAS找关联位点回答的是哪些 SNP / 基因区域和某个性状有关目的偏向解释机制、找候选基因、找风险位点。GS做预测和选择回答的是根据全基因组标记能不能预测一个个体的表型或育种价值目的偏向预测个体表现、辅助育种选择。