Soru:
Tek örneklemle eklem genotiplemesi karşılaştırması
llevar
2017-05-17 18:02:17 UTC
view on stackexchange narkive permalink

Ortak genotiplemenin faydalarını anlamaya çalışıyorum ve eğer birisi ortak genotiplemeye karşı tek örneklem genotiplemenin faydasını açıkça gösterecek bir argüman (ideal olarak matematiksel olarak) sunabilirse minnettar olurum.

Bu diğer kaynaklardan (Biostarlar, GATK forumları, vb.) topladığım şey budur

  • Ortak genotipleme, FDR'nin kontrol edilmesine yardımcı olur, çünkü ayrı ayrı genotiplenmiş örneklerden gelen hatalar toplanır ve arama setler ( https://www.biostars.org/p/10926/ adresinde Heng Li)

Biri bunu anlarsa, lütfen ne olduğunu açıklayabilir misiniz? iki senaryo arasındaki genel FDR oranındaki fark (yine ideal olarak bir örnekle)

  • Düşük frekanslı varyantlar için daha yüksek hassasiyet - Tüm örnekler arasında bilgi paylaşarak, ortak görüşme, Bir taşıyıcının kapsama alanının düşük olduğu, ancak çağrı setindeki diğer örneklerin o konumda güvenilir bir varyantı olduğu yerlerde "kurtarma" genotip çağrıları. ( https://software.broadinstitute.org/gatk/documentation/article.php?id=4150 adresinden)

Varlığın nasıl olduğunu anlamıyorum Başka bir bireyde aynı lokusta güvenle adlandırılan bir varyantın, kapsamı düşük bir bireyin genotiplemesini etkileyebilir. Birinin başka bir kişiden okumaları üçüncü bir kişide belirli bir varyantın kanıtı olarak görmesine izin veren geçerli bir argüman var mı? Böyle bir argüman için varsayımlar nelerdir? Ya bu kişi, o varyant için tamamen farklı alel frekanslarına sahip farklı bir popülasyondan geliyorsa?

Haplotipe duyarlı en son SNP arama yöntemlerini (HaplotypeCaller, ücretsiz ödemeler) açıklayan birkaç makaleyi (veya yöntem açıklamasını) okuduktan sonra , Platypus) genel çerçeve şöyle görünüyor:

    1. Daha önce dbSNP, ExAC gibi yerleşik varyasyon modellerine dayalı olarak, daha önce Wright Fisher gibi, önceki popülasyon genetiği modeline dayalı, bilgilendirici olmayan önceki, popülasyon genetiği modeline dayalı, veya gnomAD.
    1. Yerel derlemeyi kullanarak ilgi alanı çevresindeki bir bölgede makul haplotiplerin bir listesini oluşturun.
    1. Öncekine göre en yüksek olasılığa sahip haplotipi seçin ve verileri okur ve lokus genotipini buna göre çıkarır.

Yukarıdaki prosedürün hangi noktasında / noktalarında numuneler arasındaki bilgiler paylaşılabilir veya havuzda toplanabilir? Örneğin, gnomAD gibi büyük ölçekli bir kaynaktan gelen AFS'ye, nominal olarak aynı "kohort" un partisi olan, ancak farklı soydan dolayı birbirleriyle çok az ilgisi olabilecek diğer örneklerden elde edilen dağıtımdan daha fazla güvenilmemeli mi?

Çok örneklemli genotiplemenin sunduğu gerekçeleri ve faydaları gerçekten anlamak istiyorum ve görüşlerinizi takdir ediyorum.

Iki yanıtlar:
#1
+10
user172818
2017-05-17 19:08:22 UTC
view on stackexchange narkive permalink

2X kapsama sıraladığınızı varsayalım. Bir yerde örnek S'nin bir referans tabanı ve bir alternatif tabanı olduğunu varsayalım. Bunun bir dizileme hatası mı yoksa bir heterozigot mu olduğunu söylemek zor. Şimdi, tümü 2X okuma derinliğinde 1000 başka örneğiniz olduğunu varsayalım. Birinin iki ALT tabanı vardır; 10 tanesinde bir REF ve bir ALT var. Bu örneklerin hepsinin aynı sıralama hatasına sahip olması genellikle olası değildir. O zaman örnek S'nin het'i olduğunu iddia edebilirsiniz. Çoklu örnek arama, çok nadir olmayan SNP'lerin hassasiyetini artırmaya yardımcı olur. Burada önemli olan şeyin hatadan bağımsızlık varsayımı olduğunu unutmayın. Ataların yalnızca çok küçük bir dolaylı etkisi vardır.

Çoklu örnek arama çok nadir SNP'leri, özellikle de tekilleri cezalandırır. Yalnızca çeşitleri önemsediğinizde, bu iyidir. Tek örnekli çağrıları saf bir şekilde birleştirmek, daha yüksek bir hata oranı sağlar. Çoklu örnek arama, daha sonraki bir aşamada varyant filtrelemeye de yardımcı olur. Örneğin, 30X kapsama sekanslı bir örnek için, 45X derinliğindeki bir sitenin potansiyel bir CNV / yanlış eşlemeden mi yoksa istatistiksel dalgalanmadan mı kaynaklandığını bilemezsiniz. 45X derinlikte 1000 30X örnek gördüğünüzde, bir CNV / sistematik eşleştirmeye baktığınızı kolayca anlayabilirsiniz. Birden çok örnek, çoğu istatistiksel sinyali geliştirir.

Daha eski yöntemler, varyantları çağırırken tüm BAM'leri bir havuzda toplar. Bu gereklidir, çünkü tek bir düşük kapsamlı örnek gizli INDEL'leri kurtarmak için yeterli veriye sahip değildir. Bununla birlikte, bu stratejinin kitlesel olarak paralelleştirilmesi o kadar kolay değildir; yeni bir örnek eklemek yeniden aramayı tetikler ve bu da çok pahalıdır. Bugünlerde çoğunlukla yüksek kapsama alanı sıralaması yaptığımız için, INDEL aramasıyla ilgili eski sorunun şu anda önemi yok. GATK, daha sonraki bir aşamada örnek başına gVCF'leri birleştirdiğiniz bu yeni tek örnekli çağrı ardışık düzenine sahiptir. Bu tür bir örnek birleştirme stratejisi, 100 bin örnekle uğraşırken belki de tek mantıklı çözümdür.

Sözde haplotip tabanlı varyant çağrısı ayrı bir sorudur. Bu tür bir yaklaşım INDEL'leri aramaya yardımcı olur, ancak çoklu örnek arama ile pek alakalı değildir. Ayrıca, sorunuzdaki üç arama çeşidinden yalnızca GATK (ve bahsetmediğiniz Scalpel) genel olarak assembly kullanır. Ücretsiz ödemeler yapmaz. Platypus bunu sadece sınırlı bir ölçüde yapıyor ve pratikte pek işe yaramıyor.

Sanırım gerçekten bahsetmek istediğiniz şey isnat temelli çağrı. Bu yaklaşım, LD ile hassasiyeti daha da artırır. Yeterli örnekle, iki konum arasında LD'yi ölçebilirsiniz. 1000 konumunda bir REF okuması gördüğünüzü ve ALT okumadığını varsayalım; 1500 konumunda, bir REF okuması ve iki ALT okuması görürsünüz. Birden fazla örnek verilse bile 1000 konumundaki herhangi bir SNP'yi çağırmazsınız. Bununla birlikte, iki pozisyonun güçlü bir şekilde bağlantılı olduğunu ve baskın haplotiplerin REF-REF ve ALT-ALT olduğunu bildiğinizde, araştırılan örneğin eksik bir ALT aleline sahip olduğunu bilirsiniz. LD, sinyalleri siteler arasında aktarır ve doğru genotipleme çağrıları yapma gücünü artırır. Bununla birlikte, günümüzde çoğunlukla yüksek kapsamlı sıralama yaptığımız için, isnat temelli yöntemlerin yalnızca küçük bir etkisi var ve nadiren uygulanıyor.

Teşekkürler, birkaç yorum (birkaç yoruma ayrılmıştır): En üst paragraf, büyük ölçekli yüksek kapsamlı çalışmalar veya devam eden klinik odaklı sıralama bağlamında bir şekilde mümkün olmayan genotiplemeden çok varyant çağrısına benziyor. Aynı mantığın genotiplemeye de uygulandığını görüyor musunuz, yani mahalde bir varyantın olması koşullu? Mücadele ettiğim şey anlamak, toplu etki tespiti bir yana, neden AFS hakkındaki bilgilere gnomAD gibi büyük bir örnek kaynağından daha çok rastgele bir örnek koleksiyonundan (genetik olarak konuşursak) daha fazla güveniyoruz?
Neden "Tek örnekli aramaları saf bir şekilde birleştirmek daha yüksek bir hata oranı veriyor" anlamıyorum. Genotipleme bağlamında ayrıntılara girebilir veya bir örnek verebilir misiniz?
wrt. haplotip veya montaj tabanlı arama, en iyi yöntemlerin sadece lokusun kendisi değil bir lokusun etrafındaki bir bölge üzerinde mantık yürüttüğü ve benim birden fazla örnekten gelen böyle bir yöntem bilgisinin nerede kullanılabileceğini anlamaya çalıştığım gerçeğinin bir yansımasıdır. . Özellikle, birden fazla örnek grubunun periyodik olarak analiz için geldiği ve mutlaka nihai bir örnek boyutunun olmadığı yüksek kapsamlı tüm genom dizileme bağlamında.
Üst paragraf, örnek S'nin * genotipine * karar vermekle ilgilidir - bu genotiplemedir. Daha büyük bir popülasyonda site alel sıklığını (burada AFS yanlış ifadedir) bildiğinizde, daha iyi bir önceliğiniz vardır. Bu öncül, popülasyonlar arasında daha az doğrudur, ancak önceki bir usta balıkçıdan daha iyidir. Tüm bu teoriler yalnızca lowCov için yararlıdır. HighCov için genotip olasılığı, önceki ve çapraz örnek bilgilerinden çok daha büyük bir etkiye sahiptir.
Geri kalanı için ayrı sorular sormalısınız. Bu tek soru altında birden fazla konuyu bir araya getirmek sizin için, benim için ve okuyucular için anlamak zor.
Her neyse ... Montaj tabanlı aramada, çoklu örnek arama ile çok az ilgisi olduğunu söyledim. Tek örnekli aramaları birleştirirken, üst paragrafta birden fazla örneği birlikte düşünmenin genotiplemeye yardımcı olduğunu - bu da bilgiyi kullanmamanın genotiplemeye zarar verdiği anlamına geldiğini zaten açıklamıştım. BTW, sorunuzun gövdesi varyant çağrısı ile genotiplemeyi karıştırmaktır (örneğin, FDR varyant çağrısı ile ilgilidir), bu da benim için ve aşağıdaki Devon için kafa karışıklığına neden oluyor.
#2
+2
Devon Ryan
2017-05-17 18:13:19 UTC
view on stackexchange narkive permalink

Ek örneklemlerin faydası, 1. noktanızda görülmektedir. Varyant çağrısı yapma olasılığı, (1) belirli bir varyantı destekleyen kapsam derinliğinin (eşleme / temel kalite hususlarını göz ardı ederek) ve (2) arka plan bilgisi verilen varyantın mevcut olma olasılığı Derinliği düşük ve arka plan bilgisi olmayan, yetersiz şekilde kapsanan varyantların sıralama hataları olduğu varsayılacaktır. Daha fazla örnek eklemek o zaman bir pozisyonla ilgili arka plan bilgisini artırmaya hizmet edebilir.

Teşekkürler Devon, soru özellikle genotiplemeyi hedefliyor, yani zaten orada bir varyant olduğunu düşünmeniz gerekiyor.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...