Soru:
Varyant arama için puanların yeniden kalibre edilmesinde bir nokta var mı?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

Ardışık düzen GATK'yı çağıran en varyant, bilinen varyantların bir listesini gerektiren Temel Kalite Puanı Yeniden Kalibrasyonunu (BQSR) içerir. Son zamanlarda, puanların referanstan bağımsız olarak yeniden kalibre edilmesi için de bazı çalışmalar yapılmıştır: aDNA ve düşük kapsama veri kümeleri için en iyi şekilde yararlanılarak motive edilen Lacer ve atlas.

aDNA'nın önemi bu derste açıklanmıştır, ancak BQSR'nin yeterli (> 15x) kapsama alanına sahip taze DNA örnekleri için önemli olup olmadığı / nasıl önemli olduğu benim için net değil. Özellikle model olmayan organizmalarla çalıştığımda ve sadece standart araçları kullanamadığımda.

Puanların yeniden kalibre edilmesinin varyant çağrıları üzerinde ne kadar büyük bir etkisi var? Çabaya değip değmeyeceği bir pratik kural var mı?

Dört yanıtlar:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Şahsen BQSR'nin değişken arama üzerinde büyük bir etkisi olduğunu düşünmüyorum, ancak gerçekten tahmin etmenize gerek yok. GATK BQSR'yi çalıştırırsanız, tam olarak ne kadar kalite puanının ayarlandığını gösteren bir tablo ve grafikler çıkarır. Ayar, okuma ve genomik bağlamdaki konuma (önceki ve sonraki temel) bağlı olarak değişecektir. Deneyimlerime göre, fark en fazla birkaç nokta, ancak kesinlikle dikkat çekicidir.

GATK, normalde 15 kattan çok daha yüksek olan hem genom hem de ekzom verileri için BQSR'yi önerir.

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

Bu iyi bir soru.

Düşük sayıda örnek için (ör. yalnızca iki örnek)

  • varyant yeniden kalibrasyonuyla uğraşmanıza gerek olmadığını söyleyebilirim. üçlüler); Yine de GTAK'ın varyant puanlarının yeniden kalibre edilmesini sağlayamadım
  • DNA örneklerinin kendilerinin yüksek, karşılaştırılabilir kalitede olduğu ve tutarlı bir şekilde sıralandığı yüksek kapsamlı örnekler (örn., X 30x kapsama alanına sahip on genom) teknoloji.

Genel olarak, GATK'da yerleşik birçok düşünce ve gelişmiş istatistiksel modelin 1000 Genom projesinin önceki aşamalarından geldiği izlenimi uyandırıyor. Bu, (1) düşük kapsama alanı, (2) farklı kapsama genomları (3) (4) farklı örnekler ve (5) popülasyon sıralaması ile değişen teknoloji sürümleriyle sekanslanmış anlamına gelir.

Klinik bir ortamdaysanız X Ten platformunda 30x sıralama yaptığınızda, varyant yeniden kalibrasyonu muhtemelen size pek yardımcı olmayacaktır.

Öte yandan, farklı veri merkezlerinden ve makine sürümlerinden vb. birçok veri kümesini entegre ediyorsanız ., varyantın yeniden kalibrasyonu denemeye değer olabilir.

İyi bir kontrol, yeniden kalibrasyondan önce ve sonra genotip kalite dağılımlarına ve varyant / kalite ile ilgili diğer metriklere bakmak olacaktır.

Herkes: Lütfen düzeltin ben yanılıyorsam!

Burada temel kalite puanı yeniden kalibrasyonundan (BQSR) veya varyant kalite puanı yeniden kalibrasyonundan (VQSR) mı bahsediyorsunuz? Bence OP BQSR'ye atıfta bulunuyor ama siz VQSR'yi tartışıyorsunuz.
Evet, OP onayladı. Soru BQSR ile ilgili, bu yüzden korkarım yanlış soruyu cevaplıyorsunuz.
* iç çekiş * ve orada bir şeye katkıda bulunabileceğimi düşündüm.
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

İdeal olarak, bu BQSR yöntemleri, teknik hataların temel kalite çağrılarını gerçekte nasıl bozacağı ve makinelerin 1000G projesi için kullanılırken daha geliştirme aşamasında olduğu akılda tutularak yapılmıştır. Şu andan itibaren makineler, kullanma ihtimalinin düşük olduğu yerlerde daha güçlü ve güçlüdür, ancak yine de ortak değişkenleri bulmak ve bu temel çağrıların kalitesini artırmak için makine öğrenimi hileleriyle bilgileri kullanarak verilerin etrafında bir model oluşturmak için listelenen SNP'lerle kullanıyoruz. . İdeal olarak, Illumina veya diğer standart şirketlerin eski makineleri kullanıldığında daha uygun olmalı, ancak çok güçlü ve yüksek verime sahip yeni makinelerde düşme eğiliminde olmaları gerekir. Bu tür testlerin yapılıp yapılmadığını hatırlamıyorum, ancak açıkçası yeni sıralama makinesinin her zaman bu tür hataları azalttığını göstermek için bu tür testler yaptığını biliyorum, ancak yine de varyant çağrıları için bu tür BQSR'yi tavsiye ediyorum. Şimdi sorun SNP'lerin listesi, benim için gerçek sorun bu çünkü kullandığımız liste Altın standardı olmaktan uzak ve eğer bu doğru bir şekilde yapılmazsa, kalite hakkında çıkardığımız her şey hala titrek. Bu bağlantı oldukça bilgilendirici ama eski bir bağlantı. Yeni sıralayıcılarla gerçekten iyileştirmeler görürdüm. Ancak akademik araştırmalarda bu tür testleri çok daha az insan önemsiyor ve ayrıca çeviri laboratuvarı, enstitü için yeni bir sıralayıcı satın alırken bu tür testleri her zaman yapan bazı biyoinformatisyenlere sahip olmadıkça, bu tür testlere gerçekten zaman ve para yatırmayacaktır. Varyantları bulmak için klinik genomik açısından, en güçlü ve güncel sıralayıcıların kullanılması gerektiğini düşünüyorum, ancak yine de BQSR kullanıp kullanmadıklarından emin değilim ve eğer öyleyse, veriler etrafında ortak değişkenlik modeli oluşturmak için kullandıkları liste nedir.

Sorunun model dışı organizma araştırmasıyla motive edildiğine dikkat edin - Bilinen varyantların bir listesini kullanamıyorum, çünkü türüm için böyle bir liste mevcut değil. Bu nedenle, QS'yi yeniden kalibre etmenin ne kadar önemli olduğunu bilmek istedim, çünkü temelde bu mümkündür, ancak sadece GATK işlem hattında bir adım daha çalıştırarak değil.
Bunun model olmayan bir organizma olduğunu kabul ediyorum ve bu yüzden böyle bir varyant listesine sahip olmayacaksınız. Ancak yaklaşımın motivasyonu aynı zamanda BQSR'yi sormak olduğu için ben de dedim. Nasıl kullanılacağına ilişkin bu https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf adresine bir göz atabilirsiniz. yeniden kalibre etmek için numunenizin HC varyantları. Ayrıca bu gatlk bağlantısı da yardımcı olabilir. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Şimdi karar, kullanmak veya karşılaştırmak için sizin elinizde.
Model olmayanlar için @KamilSJaron bunu yapmanın bir yoludur, ancak dizileme makineniz oldukça yeni ve gelişmiş doğrulukta ise bu adımı ortadan kaldırabilirsiniz. Ne yaptıklarını görmek için yayınları okurdum ama yine de benim için BQSR olmadan ve HC varyantlarıyla BQSR ile aramalar yaparım ve bunları veritabanı olarak kullanır ve kendim sonuca varmak için karşılaştırırdım. Benim fikrim bu. Aynı zamanda projenin erdemine de bağlıdır.
İlk bağlantı orijinal sorumla çok alakalı: "GATK UnifiedGenotyper, yeniden ayarlama ve yeniden hizalama olmadan dahili arama sırasında sıkıntı yaşarken, hem HaplotypeCaller hem de FreeBayes bu adımlar olmadan iyi veya daha iyi performans gösteriyor." Teşekkürler. İkinci bağlantı da alakalı, ancak yeniden kalibrasyon için yaklaşımlarını seçecek yeterli sayıda kişiye sahip değilim.
@KamilSJaron Konuyla ilgili olmasına sevindim ama yine de hem birlikte hem de onsuz koşabileceğinizi ve bazı tahminlerde bulunabileceğinizi söyleyeceğim. Kendi HC SNP veritabanınızı oluşturmak için çok fazla örneğiniz olmadığı için, bunu bireylerinizden katı sıkı SNP'ler ile de yapabilirsiniz. Veya çok fazla örneğiniz olmadığı için, sadece BQSR adımından kaçının ve en iyi varyantları çıkarın ve varyantların büyük bir kısmını çıkarın. Skor çok doğru olmasa da en iyi varyantlar, ancak aramalar yine de kendinden emin ve tercihen gerçek pozitif olacaktır. Sanırım akış yaptığınız varyantların sayısına bağlı.
BQSR hala geçerli, bunun nedenlerinden biri, NextSeq gibi bazı yeni aydınlatma donanımlarının yalnızca binlenmiş Q puanlarını verebilmesi, BQSR temelde Q puanlarını "bölmelerini kaldırarak", derin somatik varyant çağrılarında kullandığı daha fazla ayrıntıyı veriyor. http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Ek olarak, NextSeq yüksek güvenilirlikli bir poli G sorunundan muzdariptir, BQSR burada da yararlı olacaktır https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah şimdi bu, NextSeq ile henüz karşılaşmak zorunda olmadığım için farkında olmadığım bir şeydi. Bu iyi bir nokta. O zaman OP de bunu düşünmeli ve evet sadece BQSR'nin ilk kez nasıl ortaya çıktığını düşünüyordum. Ancak bu, ikiye bölünmüş Q puanları ve poli G sorunu için iyi bir püf noktasıdır.
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

BQSR'nin bir seçenek olmaması durumunda (yani model olmayan organizmalar), illumina platformu için PhiX gibi bazı dahili kontrol dizilerinin kullanılması en iyisidir. Bunun yaygın bir uygulama olduğu varsayılsa da, bazı tesisler bunu görmezden geliyor. Prensipte, puanlamanın daha doğru olması için makineler bu dizileri referans olarak kullanmalıdır. Tecrübelerime göre illumina okumalarının ilk 10-15 tabanı her zaman daha düşük kaliteye sahipti. Bu, nükleotid dağılımlarında kolayca görülebilir. Düşük kapsama yeniden sıralama veya de-novo genom montaj uygulamaları gibi bireysel okumaların kalitesi önemliyse, ilk 10-15 bazın kırpılmasını ve kaliteye dayalı uç kırpmayı tavsiye ederim.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...