跳至內容

全基因組關聯分析

維基百科,自由的百科全書

全基因組關聯分析Genome-wide association study, GWA study, GWAS)是指在人類全基因組範圍內找出存在的序列變異,即單核苷酸多態性(SNP),從中篩選出與疾病相關的SNPs。 全基因組關聯分析研究通常側重於單核苷酸多態性(SNP)與人類重大疾病等性狀之間的關聯,但也同樣適用於任何其他遺傳變異和任何其他生物。

An illustration of a Manhattan plot depicting several strongly associated risk loci. Each dot represents a SNP, with the X-axis showing genomic location and Y-axis showing association level. This example is taken from a GWA study investigating microcirculation, so the tops indicates genetic variants that more often are found in individuals with constrictions in small blood vessels.[1]

當應用於人類數據時,GWA 研究會比較特定性狀或疾病的不同表型參與者的 DNA。這些參與者可能是患有某種疾病的人(病例)和沒有這種疾病的類似的人(對照組),也可能是某種特質(如血壓)具有不同表型的人。這種方法被稱為 "表型優先"(phenotype-first),即首先根據參與者的臨床表現進行分類,而不是"基因型優先"(genotype-first)。每個人提供一份 DNA 樣本,使用 SNP 陣列從中讀取數百萬個基因變異。如果有重要的統計證據表明,一種變異類型(一種等位基因)在疾病患者中更為常見,那麼這種變異就被認為與疾病相關。然後,相關的 SNPs 就被認為是人類基因組中可能影響疾病風險的區域的標記。

GWAS研究調查的是整個基因組,而不是專門測試少量預先指定基因區域的方法。因此,GWAS 是一種非候選基因驅動(non-candidate-driven)的方法,與基因特異性候選基因驅動的研究(gene-specific candidate-driven studies)不同。GWA 研究能確定 DNA 中與疾病相關的 SNPs 和其他變異,但它們本身並不能確定哪些基因是致病基因[2][3][4]

首個成功的 GWAS 研究於 2002 年發表,研究對象為心肌梗死。 [5] 隨後,這一研究設計被應用於具有里程碑意義的 GWA 2005 研究中,該研究調查了患有年齡相關性黃斑變性的患者,發現與健康對照組相比,兩個 SNP 的等位基因頻率發生顯著改變。 [6] 截至2017年 (2017-Missing required parameter 1=month!),已有 3,000 多項人類 GWA 研究檢查了 1,800 多種疾病和特徵,發現了數千個 SNP 關聯。 [7] 除罕見遺傳病外,這些關聯都非常弱,儘管每個單獨的關聯可能無法解釋太多風險,但它們提供了對關鍵基因和途徑的洞察,從總體上看具有重要意義。

研究歷史

應用前景

GWAS為人們打開了一扇通往研究複雜疾病的大門,將在患者全基因組範圍內檢測出的SNP位點與對照組進行比較,找出所有的變異等位基因頻率,從而避免了像候選基因策略一樣需要預先假設致病基因。同時,GWAS研究讓我們找到了許多從前未曾發現的基因以及染色體區域,為複雜疾病的發病機制提供了更多的線索。

統計分析原理

基於無關個體的關聯分析

  • 病例對照研究設計:主要用來研究質量性狀,即是否患病。
  • 基於隨機人群的關聯分析:主要用來研究數量性狀。

基於家系的關聯研究

在研究基於家系的樣本時,採用傳遞不平衡檢驗(TDT)[17]分析遺傳標記與疾病數量表型和質量表型的關聯可以排除人群混雜對於關聯分析的影響,但其在發現陽性關聯的檢驗方面不如相同樣本量的病例對照研究有效。

FBAT是運用十分廣泛的基於家系的統計分析工具,能夠分析質量性狀及數量性狀、調整混雜因素、分析基因-環境相互作用、分析單倍型、調整多重比較等。

單體型分析研究的必要性[18]

  1. 多位點單體型分析能夠發現單體型-疾病表型之間的關聯,這種關聯要明顯強於單個位點-疾病表型之間的關聯。
  2. 單體型分析能夠發現非TagSNPs與疾病之間的因果關係。

研究設計表型選擇

  1. 選擇遺傳度較高的疾病或者表型進行檢測能夠提升遺傳學關聯研究的把握度[19]
  2. 由於有時病症很難測量或是多種病症混雜在一起造成疾病狀態的分辨困難,研究疾病相關的數量表型要優於研究疾病狀態。
  3. 由於測量數量表型的難易程度和該表型的遺傳度相關,通過控制測量誤差、噪音和總體變異能夠加強數量表型變異與遺傳因素的比例關係,因此一般選擇測量簡單準確並且遺傳度相對較高的數量表型。

研究設計類型

單個階段研究

單個階段研究即在有了足夠大的病例和對照樣本數量後,一次性地對其所有選中的SNP進行基因分型,然後分析每個SNP與疾病的關聯,計算其關聯強度和OR值。由於樣本數量需求量大,單階段研究基因分型一般耗資巨大。

兩個或多個階段研究

採用小樣本數量進行第一階段的全基因組範圍SNP基因分型,統計分析過後一般能夠篩選少量陽性SNPs,之後的第二階段再在更大數量的樣本中對這些陽性SNPs進行基因分型,最後整合兩個階段的結果進行分析。研究證明DNA pool和微陣列試劑盒均能夠降低基因分型的工作量,能夠進行低成本高效益的SNP篩選。

多重假設檢驗調整

研究的重複

由於GWAS研究的各種研究設計方法以及遺傳統計方法無法從根本上消除人群混雜、多重比較造成的假陽性,我們需要通過重複研究來保證遺傳標記與疾病間的真關聯[20]

  1. 通過增大樣本數量來提高檢驗效率,增加與疾病相關聯的SNPs的概率。
  2. 在兩個人群中分別對樣本中所有的SNP進行基因分型,之後再交換重複測量對方得到的陽性SNPs。這樣做首先保證了低假陰性率,隨後在較大樣本中重複陽性結果又最大程度地避免了假陽性的產生。

臨床應用和實例

未來成功的 GWA 研究面臨的一個挑戰是如何應用研究結果,加快藥物診斷方法的開發,包括將基因研究更好地融入藥物開發過程,以及關注基因變異在維持健康方面的作用,以此作為設計新藥和診斷方法的藍圖。有幾項研究探討了使用風險 SNP 標記作為直接提高預後準確性的手段。一些研究發現預後準確性有所提高,[21] 而另一些研究報告稱,這種使用方法只帶來很小的好處。[22] 通常,這種直接方法的一個問題是觀察到的效果很小。小的效果最終會導致病例和對照之間的區分不充分,因此預後準確性只會得到很小的改善。因此,另一種應用是 GWA 研究闡明病理生理學的潛力。[23]

丙型肝炎治療

其中一項成功案例與識別與抗丙型肝炎病毒治療反應相關的遺傳變異有關。對於用Pegylated interferon alfa-2a 或Pegylated interferon alfa-2b 聯合利巴韋林(英語:Ribavirin,俗稱'病毒唑')治療的 1 型丙型肝炎,GWA 的一項研究[24]表明,編碼干擾素 lambda 3 的人類 IL28B 基因附近的 SNP 與治療反應的顯著差異有關。後來的一份報告表明,相同的遺傳變異也與 1 型丙型肝炎病毒的自然清除有關。[25]這些重大發現促進了個性化醫療的發展,並允許醫生根據患者的基因型定製醫療決策。[26]

心房顫動

例如,2018 年完成的一項元分析揭示了與心房顫動相關的 70 個新位點。已鑑定出與轉錄因子編碼基因相關的不同變體,例如 TBX3 和 TBX5、NKX2-5 或 PITX2,這些基因參與心臟傳導調節、離子通道調節和心臟發育。還鑑定出與心動過速 (CASQ2) 或與心肌細胞通訊改變 (PKP2) 相關的新基因。[27]

精神分裂症

使用高精度蛋白質相互作用預測 (HiPPIP) 計算模型進行的研究發現了 504 種與精神分裂症相關基因相關的新蛋白質-蛋白質相互作用 (PPI)。[28][29][30] 雖然支持精神分裂症遺傳基礎的證據並無爭議,但一項研究發現,從 GWAS 發現的 25 種候選精神分裂症基因與精神分裂症幾乎沒有關聯,這表明僅靠 GWAS 可能不足以識別候選基因。[31]

保育應用

種群水平的 GWA 研究可用於識別適應性基因,以幫助評估物種在全球氣候變暖的情況下適應不斷變化的環境條件的能力。[32] 這可能有助於確定物種的滅絕風險,因此可能成為保育規劃的重要工具。利用 GWA 研究確定適應性基因有助於闡明中性和適應性遺傳多樣性之間的關係。

農業應用

植物生長階段和產量構成

GWAS 研究是植物育種的重要工具。通過大量的基因分型和表型數據,GWAS 能夠有效分析作為重要產量構成因素的性狀的複雜遺傳模式,例如每穗粒數、每粒重量和植物結構。在一項關於春小麥 GWAS 的研究中,GWAS 揭示了穀物產量與抽穗數據、生物量和每穗粒數之間存在很強的相關性。[33] GWAS 研究在研究水稻複雜性狀的遺傳結構方面也取得了成功。[34]

植物病原體

植物病原體的出現對植物健康和生物多樣性構成了嚴重威脅。考慮到這一點,鑑定對某些病原體具有天然抗性的野生型可能至關重要。此外,我們需要預測哪些等位基因與抗性有關。GWA 研究是檢測某些變異與植物病原體抗性關係的有力工具,有利於開發新的抗病原體品種。[35]

2007 年,Abasht 和 Lamont [36] 首次對雞進行了 GWA 研究。該 GWA 用於研究之前發現的 F2 群體的肥胖性狀。在 10 條染色體上發現了顯著相關的 SNP(1、2、3、4、7、8、10、12、15 和 27)。

存在的問題

  1. 人群混雜(Population Stratification)是在大樣本研究中導致假陽性、假陰性結果出現的重要原因之一[37]。使用分層分數法(Stratification-score approach)控制人群分層、運用統計分析手段控制人群混雜的影響、採用基於家系的關聯研究均能夠避免人群混雜對關聯結果分析的影響。
  2. 解釋基因-變異-環境因素之間的相互作用關係需要使用GWAS對更多微效的與疾病關聯的基因變異進行研究。
  3. 數據共享是使用GWAS得到遺傳標記與疾病確切關聯的必要手段,儘管難度很大,但是在研究複雜疾病的遺傳變異中能夠發揮重要的作用。

參看

參考文獻

  1. ^ Ikram MK, Sim X, Xueling S; et al. McCarthy, Mark I , 編. Four novel Loci (19q13, 6q24, 12q24, and 5q14) influence the microcirculation in vivo. PLoS Genet. October 2010, 6 (10): e1001184. PMC 2965750可免費查閱. PMID 21060863. doi:10.1371/journal.pgen.1001184. 
  2. ^ Manolio TA. Genomewide association studies and assessment of the risk of disease. The New England Journal of Medicine. July 2010, 363 (2): 166–76. PMID 20647212. doi:10.1056/NEJMra0905980可免費查閱. 
  3. ^ Pearson TA, Manolio TA. How to interpret a genome-wide association study. JAMA. March 2008, 299 (11): 1335–44. PMID 18349094. doi:10.1001/jama.299.11.1335. 
  4. ^ Genome-Wide Association Studies. National Human Genome Research Institute. 
  5. ^ Ozaki K, Ohnishi Y, Iida A, Sekine A, Yamada R, Tsunoda T, et al. Functional SNPs in the lymphotoxin-alpha gene that are associated with susceptibility to myocardial infarction. Nature Genetics. December 2002, 32 (4): 650–4. PMID 12426569. S2CID 21414260. doi:10.1038/ng1047. 
  6. ^ Klein RJ, Zeiss C, Chew EY, Tsai JY, Sackler RS, Haynes C, et al. Complement factor H polymorphism in age-related macular degeneration. Science. April 2005, 308 (5720): 385–9. Bibcode:2005Sci...308..385K. PMC 1512523可免費查閱. PMID 15761122. doi:10.1126/science.1109557. 
  7. ^ GWAS Catalog: The NHGRI-EBI Catalog of published genome-wide association studies. European Molecular Biology Laboratory. [2017-04-18]. 
  8. ^ Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389.
  9. ^ Samani NJ, Erdmann J, Hall AS, ect. Genomewide associationanalysis of coronary artery disease. N Engl J Med, 2007,357(5): 443−453.
  10. ^ 10.0 10.1 Herbert A, Gerry NP, McQueen MB, ect. A common geneticvariant is associated with adult and childhood obesity.Science, 2006, 312(5771): 279−283.
  11. ^ 11.0 11.1 Rosskopf D, Bornhorst A, Rimmbach C, ect. Comment on 「A common genetic variant is associatedwith adult and childhood obesity」. Science, 2007,315(5809): 187: author reply 187.
  12. ^ 12.0 12.1 Frayling TM, Timpson NJ, Weedon MN, ect. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Science, 2007,316(5826): 889−894.
  13. ^ Saxena R, Voight BF, Lyssenko V, ect. Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels. Science, 2007, 316(5829): 1331−1336.
  14. ^ Ubeda M, Rukstalis JM, Habener JF. Inhibition of cyclindependent kinase 5 activity protects pancreatic beta cells from glucotoxicity. J Biol Chem, 2006, 281(39): 28858−28864.
  15. ^ Foley AC, Mercola M. Heart induction by Wnt antagonists depends on the homeodomain transcription factor Hex. Genes Dev, 2005, 19(3): 387−396.
  16. ^ Samani NJ, Erdmann J, Hall AS, Hengstenberg C,ect. Genomewide association analysis of coronary artery disease. N Engl J Med, 2007, 357(5): 443−453.
  17. ^ Spielman RS, McGinnis RE, Ewens WJ. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM). Am J Hum Genet, 1993, 52(3): 506−516.
  18. ^ Newton-Cheh C, Hirschhorn JN. Genetic association studies of complex traits: design and analysis issues. Mutat Res, 2005, 573(1-2): 54−69.
  19. ^ Sham PC, Cherny SS, Purcell S, Hewitt JK. Power of linkage versus association analysis of quantitative traits, by use of variance-components models, for sibship data. Am J Hum Genet, 2000, 66(5): 1616−1630.
  20. ^ Chanock SJ, Manolio T, Boehnke M, ect. Replicating genotype-phenotype associations. Nature, 2007, 447(7145): 655−660.
  21. ^ Muehlschlegel JD, Liu KY, Perry TE, Fox AA, Collard CD, Shernan SK, Body SC. Chromosome 9p21 variant predicts mortality after coronary artery bypass graft surgery. Circulation. September 2010, 122 (11 Suppl): S60–5. PMC 2943860可免費查閱. PMID 20837927. doi:10.1161/CIRCULATIONAHA.109.924233. 
  22. ^ Paynter NP, Chasman DI, Paré G, Buring JE, Cook NR, Miletich JP, Ridker PM. Association between a literature-based genetic risk score and cardiovascular events in women. JAMA. February 2010, 303 (7): 631–7. PMC 2845522可免費查閱. PMID 20159871. doi:10.1001/jama.2010.119. 
  23. ^ Couzin-Frankel J. Major heart disease genes prove elusive. Science. June 2010, 328 (5983): 1220–1. Bibcode:2010Sci...328.1220C. PMID 20522751. doi:10.1126/science.328.5983.1220. 付費文獻
  24. ^ Ge D, Fellay J, Thompson AJ, Simon JS, Shianna KV, Urban TJ, Heinzen EL, Qiu P, Bertelsen AH, Muir AJ, Sulkowski M, McHutchison JG, Goldstein DB. Genetic variation in IL28B predicts hepatitis C treatment-induced viral clearance. Nature. September 2009, 461 (7262): 399–401. Bibcode:2009Natur.461..399G. PMID 19684573. S2CID 1707096. doi:10.1038/nature08309. 
  25. ^ Thomas DL, Thio CL, Martin MP, Qi Y, Ge D, O'Huigin C, Kidd J, Kidd K, Khakoo SI, Alexander G, Goedert JJ, Kirk GD, Donfield SM, Rosen HR, Tobler LH, Busch MP, McHutchison JG, Goldstein DB, Carrington M. Genetic variation in IL28B and spontaneous clearance of hepatitis C virus. Nature. October 2009, 461 (7265): 798–801. Bibcode:2009Natur.461..798T. PMC 3172006可免費查閱. PMID 19759533. doi:10.1038/nature08463. 
  26. ^ Lu YF, Goldstein DB, Angrist M, Cavalleri G. Personalized medicine and human genetic diversity. Cold Spring Harbor Perspectives in Medicine. July 2014, 4 (9): a008581. PMC 4143101可免費查閱. PMID 25059740. doi:10.1101/cshperspect.a008581. 
  27. ^ Roselli C, Chafin M, Weng L. Multi-ethnic genome-wide association study for atrial fibrillation.. Nature Genetics. 2018, 50 (9): 1225–1233. PMC 6136836可免費查閱. PMID 29892015. doi:10.1038/s41588-018-0133-9. 
  28. ^ Ganapathiraju MK, Thahir M, Handen A, Sarkar SN, Sweet RA, Nimgaonkar VL, Loscher CE, Bauer EM, Chaparala S. Schizophrenia interactome with 504 novel protein-protein interactions. npj Schizophrenia. 2016-04-27, 2: 16012. PMC 4898894可免費查閱. PMID 27336055. doi:10.1038/npjschz.2016.12. 
  29. ^ New Schizophrenia Study Focuses on Protein-Protein Interactions. psychcentral.com. May 3, 2016 [April 22, 2023]. (原始內容存檔於January 11, 2020). 
  30. ^ Ganapathiraju M, Chaparala S, Lo C. F200. Elucidating The Role of Cilia in Neuropsychiatric Diseases Through Interactome Analysis.. Schizophrenia Bulletin. April 2018, 44 (suppl_1): S298–9. PMC 5887623可免費查閱. doi:10.1093/schbul/sby017.731. 
  31. ^ Johnson EC, Border R, Melroy-Greif WE, de Leeuw CA, Ehringer MA, Keller MC. No Evidence That Schizophrenia Candidate Genes Are More Associated With Schizophrenia Than Noncandidate Genes. Biological Psychiatry. November 2017, 82 (10): 702–708. PMC 5643230可免費查閱. PMID 28823710. doi:10.1016/j.biopsych.2017.06.033. 
  32. ^ Willi Y, Kristensen TN, Sgrò CM, Weeks AR, Ørsted M, Hoffmann AA. Conservation genetics as a management tool: The five best-supported paradigms to assist the management of threatened species. Proceedings of the National Academy of Sciences of the United States of America. January 2022, 119 (1): e2105076119. Bibcode:2022PNAS..11905076W. PMC 8740573可免費查閱. PMID 34930821. doi:10.1073/pnas.2105076119可免費查閱. 
  33. ^ Turuspekov Y, Baibulatova A, Yermekbayev K, Tokhetova L, Chudinov V, Sereda G, et al. GWAS for plant growth stages and yield components in spring wheat (Triticum aestivum L.) harvested in three regions of Kazakhstan. BMC Plant Biology. November 2017, 17 (Suppl 1): 190. PMC 5688510可免費查閱. PMID 29143598. doi:10.1186/s12870-017-1131-2可免費查閱. 
  34. ^ Zhao K, Tung CW, Eizenga GC, Wright MH, Ali ML, Price AH, et al. Genome-wide association mapping reveals a rich genetic architecture of complex traits in Oryza sativa. Nature Communications. September 2011, 2 (1): 467. Bibcode:2011NatCo...2..467Z. PMC 3195253可免費查閱. PMID 21915109. doi:10.1038/ncomms1467. 
  35. ^ Bartoli C, Roux F. Genome-Wide Association Studies In Plant Pathosystems: Toward an Ecological Genomics Approach. Frontiers in Plant Science. 2017, 8: 763. PMC 5441063可免費查閱. PMID 28588588. doi:10.3389/fpls.2017.00763可免費查閱 (英語). 
  36. ^ Abasht B, Lamont SJ. Genome-wide association analysis reveals cryptic alleles as an important factor in heterosis for fatness in chicken F2 population. Animal Genetics. October 2007, 38 (5): 491–498. PMID 17894563. doi:10.1111/j.1365-2052.2007.01642.x. 
  37. ^ YAN Wei-Li, GU Dong-Feng. Issues on association studies on complex disease. Acta Genetica Sinica, 2004, 31(5): 533−537.