Tekrarlayan bir genom ile uzun okunan bir derlemeyi nasıl geliştirebilirim?

gringer

2017-05-25 16:46:36 UTC

view on stackexchange narkive permalink

Şu anda, Nippostrongylus brasiliensis adlı kemirgen parazitinden bir genom oluşturmaya çalışıyorum. Bu genomun mevcut bir referans genomu var, ancak oldukça parçalanmış. Mevcut Nippo referans genomunun iskeleleri için bazı devamlılık istatistikleri (Illumina okumalarından derlenmiştir):

  Toplam dizi: 29375Toplam uzunluk: 294.400206 MbEn uzun dizi: 394.171 kb En kısa dizi: 500 bOrta Uzunluk: 10.022 kbMedian Uzunluğu: 2.682 kbN50: 2024 dizi; L50: 33.527 kbN90: 11638 dizisi; L90: 4.263 kb

Bu genomun, genomik dizilerin oldukça tekrarlayan doğası nedeniyle bir araya getirilmesi büyük olasılıkla zordur. Bu tekrarlayan diziler (en az) üç sınıfa girer:

Illumina sıralayıcılarının okuma uzunluğundan daha büyük bir tekrar birimi uzunluğuna sahip ardışık tekrarlar (ör. 171bp)
kümülatif uzunluk Illumina sıralayıcılarının parça uzunluğundan daha büyük veya bağlantılı okumalar için şablon uzunluğundan (ör. 20 kb)
Karmaşık (yani tekrarlayan) genomun birçok yerinde görünen dizi

Canu, genomdaki tekrarlayan yapı bolluğuna rağmen, ilk iki tür yineleme ile oldukça iyi başa çıkıyor gibi görünüyor. Canu tarafından denediğim montajlardan birinde üretilen birleştirici özet burada. Okumaların yaklaşık% 30'unun ya aralıklı ya da uzun bir tekrar içerdiğine dikkat edin:

  kategorisi% okuma uzunluğu özelliği boyutunu veya kapsam analizini okur -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- orta eksik 694 0.07 7470.92 + - 5552.00 953.06 + - 1339.13 (kötü kırpma) orta -hump 549 0.05 3770.05 + - 3346.10 74.23 + - 209.86 (kötü kırpma) no-5-prime 3422 0.33 6711.32 + - 5411.26 70.92 + - 272.99 (kötü kırpma)
no-3-prime 3161 0.30 6701.35 + - 5739.86 87.41 + - 329.42 (kötü kırpma) düşük kapsama 27158 2.59 3222.51 + - 1936.79 4.99 + - 1.79 (montajı kolay, düşük kalitede fikir birliği potansiyeli) benzersiz 636875 60.76 6240.20 + - 3908.44 25.22 + - 8.49 (montajı kolay, mükemmel, yay) tekrar-devam 48398 4.62 4099.55 + - 3002.72 335.54 + - 451.43 (mutabakat hataları için potansiyel, montaj üzerinde etkisi yok) (montajı zor, muhtemelen doğru bir şekilde monte edilemeyecek veya hatta hiç yapılmayacak) aralıklı tekrar 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (montajı büyük bir tekrarı okuyun, genellikle montajı kolaydır) uniq-tekrar-cont 155725 14.86 6529.83 + - 3463.16 (benzersiz bir şekilde yerleştirilmeli, fikir birliği hataları için düşük potansiyel, montaj üzerinde etkisi yok) uniq-tekrar-dove 28248 2.70 12499 .99 + - 8446.95 (contigleri sona erdirecek, yanlış birleştirme olasılığı) uniq-anchor 5721 0.55 8379.86 + - 4575.71 3166.22 + - 3858.35 (benzersiz bölümle tekrar okuma, olası kötü okuma)

Bununla birlikte, üçüncü tür tekrar bana biraz keder veriyor. Yukarıdaki derlemeyi kullanarak, burada birleştirilmiş kontiglerin süreklilik parametreleri verilmiştir:

  Toplam diziler: 3505Toplam uzunluk: 322.867456 MbEn uzun dizi: 1.762243 Mb En kısa dizi: 2.606 kbOrtalama Uzunluk: 92.116 kbMedyan Uzunluğu: 42.667 kbN50: 417 dizi; L50: 194.126 kbN90: 1996 dizileri; L90: 35.634 kb

Özellikle genomun karmaşıklığı göz önüne alındığında, kötü bir montaj değil, ancak karmaşık genomik tekrarların üstesinden gelinerek iyileştirilebileceğini düşünüyorum bir şekilde. Bu derlemedeki yaklaşık 60 MB üye, devasa bir ağda birbirine bağlı (Canu'nun GFA çıktısına göre):

Yinelenen bölgeler tipik olarak 500bp'nin üzerinde uzunluktadır, ortalama yaklaşık 3kb'dir ve birden çok bölgede yinelenen 20kb'lik bir dizi gibi görünen en az bir durum gördüm.

Canu varsayılanları öyle görünüyor Bir istisna dışında denediğim birkaç parametre için en iyi montaj sonuçlarını verin: kırpma. Kırpma parametreleriyle biraz oynamayı denedim ve ilginç bir şekilde 5X'lik bir kırpma kapsamı (500bp'lik üst üste binme ile) 2X'lik (aynı örtüşme ile) kırpma kapsamından daha bitişik bir montaj sağlıyor gibi görünüyor.

Bu verilere bizzat bakmak isteyen varsa, Nippo dizileme çalışmalarından gelen FASTQ dosyaları burada bulunabilir. Hâlâ ham nano-gözenekli sinyal dosyalarını yükleme sürecindeyim, ancak ENA projesi PRJEB20824 ile ilişkili önümüzdeki birkaç hafta içinde hazır olacaklar. Ayrıca KÇA ve montaj çalışmalarını içeren burada bir Zenodo arşivi var.

Bu karmaşık tekrarları nasıl çözebileceğim konusunda başka önerileri olan var mı?

Açıklığa kavuşturmak için: hesaplamalı çözümler mi istiyorsunuz yoksa montajı iyileştirmek için belirli teknikler kullanarak yeniden sıralama yapmaya açık mısınız?

Hesaplamalı çözümler tercih edilir, ancak yeniden sıralama söz konusu değildir.

Soru ile kafam karıştı. Bir illumina derlemesinden istatistiklere ve rapor edilen istatistiklerin bir parçası olmayan nanogözenek verilerine sahipmişsiniz gibi görünüyor. Öyleyse, açık yanıt şu şekilde görünüyor: Canu + pilon (veya benzeri), her iki veri türünü birleştiren daha iyi bir montaj denemesi için. Ama peşinde olduğun şeyin bu olmadığını tahmin ediyorum. Açıklayabilir misin?

Ix Canu [bu montajcı] (https://github.com/marbl/canu)? İllumina ile toplantıyı kim yapıyor. NanoPore ile montaj çok daha iyi görünüyor.

Evet, Illumina verilerini Canu derlemesini düzeltmek için kullanabilirim, ancak bu "tip 3" tekrarlarının çözümüne yardımcı olmuyor. Bölgeler, illumina okumalarının genomdaki birçok noktaya eşlenmesini sağlayacak kadar benzerdir.

Illumina contigs yüksek kalitededir (yani, birkaç varyant hatası olduğunu gösteren iyi BUSCO puanlarına sahiptirler), ancak oldukça kısadır. Herhangi bir tekrar koklama ve contig biter Bir Illumina okumasını (hatta 10x bağlantılı okumaları) korkuyla korkutacak birkaç bölge örneğim var.

Illumina contigs yüksek kaliteli olsa bile, bu tür tekrarlanan bir genom için iyi çalıştıkları anlamına gelmez.