Soru:
Çift uçlu kısa okuma yeniden sıralama verilerinden yapısal varyantları (SV'ler) nasıl çağırabilirim?
Kamil S Jaron
2017-05-18 19:28:48 UTC
view on stackexchange narkive permalink

Bir referans genomum var ve şimdi Illumina çift uçlu tüm genomu yeniden sıralama verilerini (700bp giriniz) yapısal varyantlarını çağırmak istiyorum.

SV aramaları için pek çok araç var (aşağıda eksik bir araç listesi yaptım). Birden çok yöntemden / örnekten gelen SV çağrılarını birleştirmek için bir araç da vardır - SURVIVOR. Hassasiyet ve özgüllük arasında optimum dengeye sahip SV tespiti için yöntemlerin bir kombinasyonu var mı?

Simüle edilmiş çift kullanılarak bireysel yöntemlerin SV çağrılarının duyarlılığını ve özgüllüğünü değerlendiren bir kıyaslama belgesi var -son okur. Bununla birlikte, yöntemlerin kombinasyonuna ilişkin ayrıntılı bir açıklama yoktur.

Yapısal varyantları çağırmak için araçların listesi:

Tam bir cevap olmadığı için sadece bir yorum ekleyeceğim. Şişe konsorsiyumundaki Genomu kontrol edin. En iyi arayan (lar) ın nasıl belirleneceği ve yeni yaklaşımların kıyaslanması ve test edilmesi için standart bir çağrı dizisi üzerinde tanımın nasıl yapılacağına dair tartışmalar var. Çalışmamda Socrates ile iyi sonuçlar aldım, şimdi [GRIDSS] ile değiştirdim (https://github.com/PapenfussLab/gridss).
@nuin - Genome in a Bottle konsorsiyumunu bilmiyordum, ilginç görünüyor, ancak bir tartışmanın kamuya açık bir kaydını bulamadım. Bağlantınız var mı?
Iki yanıtlar:
#1
+6
roblanf
2017-05-19 15:18:41 UTC
view on stackexchange narkive permalink

En iyi yöntemin veya yöntem kombinasyonunun, verilerin bir veri kümesinden diğerine değişebilen yönlerine bağlı olacağını düşünüyorum. Örneğin. yapısal varyantların türü, boyutu ve sıklığı, SNV sayısı, referansın kalitesi, kirleticiler veya diğer sorunlar (örneğin, okuma kalitesi, sıralama hataları) vb.

Bu nedenle, iki yaklaşım:

  1. Birçok yöntem deneyin ve bunların örtüşmesine bakın
  2. Farklı yöntemlerden gelen bir arama alt kümesini ıslak laboratuvar deneyleriyle doğrulayın - sonuçta bu, belirli bir durum için doğruluğunu bilmenin tek gerçek yolu.
"Farklı yöntemlerden gelen bir arama alt kümesini doğrula" ile neyi kastediyorsunuz?
Komik, inceleme kağıdı (sim verileri) sizinle aynı fikirde - tüm yöntemlerin birçok yanlış pozitif yanı var - üst üste binmek daha iyidir. Bununla birlikte, "Bir yapısal varyasyon haritası" (Germain'in cevabı) tam tersini yaptı - yanlış pozitifleri azaltmak ve hepsini almak yerine her yazılımı ince ayarladı.
Doğrulamaktan kastım, tahmin edilen bir grup değişkeni içeri alıp yeniden sıralayın. Biyoninformatik yöntemlerin tümü, çok sayıda yanlış pozitif (ve birçok yanlış negatif sonuç verir, ancak olumsuzları bulmak elbette daha zordur). Dolayısıyla, aramalarınızın doğruluğunu bilmenin tek gerçek yolu, bağımsız bilgiler elde etmektir. yeniden dizilemeden.
#2
+3
German Demidov
2017-05-20 13:33:59 UTC
view on stackexchange narkive permalink

Kendinizi gerçekten mükemmel sonuçlar elde etmeye adadıysanız, 1000GP 3. Aşama SV algılama belgesinde orada açıklanan stratejiyi kullanabilirsiniz - bu araçları kullanın, IRS testi ile çağrılarınızı doğrulayın, çağrıları birleştirin tek bir çağrı setine.

Bu kağıt hazırlığı sırasında harcanan binlerce insan saatini harcamak istemiyorsanız, benim deneyimlerime göre, 1 çift uçlu uç mesafe yöntemi ve bir okuma derinliğine dayalı yöntem kullanmak daha iyidir. Her biri genomdaki "farklı" bölgeleri kapsar. (Çok büyük örtüşmeler olsa bile, eşleştirilmiş uç algılama, her iki SV kesme noktasının da iyi eşlenebilirliğe sahip bölgelerde konumlandırılmasını gerektirir, bu her zaman geçerli değildir, ancak okuma derinliği yöntemlerinin çözünürlüğü genel olarak daha düşüktür, eşleştirilmiş uçlar için iyi çalışır silme / ardışık yineleme / ters çevirme, ancak ardışık olmayan yinelemelerde sorunlar var).

Yardımcı olacağını umuyoruz.

Makalenin eki olsa da gittim, gerçekten çılgınca - farklı hesaplama yöntemlerinde çok az örtüşme var gibi görünüyor, ancak Yanlış keşif oranı, tersine çevrilemeyen SV türleri için oldukça iyi (% 2-10). Ancak, çok büyük bir nüfus veri seti kullandılar, referans dahil 9 kişiden oluşan dizilim var.
Evet, örtüşme biraz küçüktür, ancak bunun başlıca nedeni, farklı araçların farklı CNV türlerini aramasıdır (yukarıda Okuma Derinliği ve Ekleme Mesafesi tabanlı yöntemleri karşılaştırarak açıkladığım gibi). Bu, alabileceğiniz en iyi doğruluktur. Yalnızca 9 bireyle, popülasyonda>% 1 sıklıkta meydana gelen CNV'leri hariç tutmanız (makaleye bakın) ve ardından örneğin DELLY ve cn.mops'u kullanmanız daha iyi olur (sadece bir örnek, bunun ideal bir seçim olup olmadığından emin değilim, ikisi de oldukça iyi).


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...