Soru:
Verileri sıralayarak bir referans genomu geliştirin
Scott Gigante
2017-05-18 08:11:37 UTC
view on stackexchange narkive permalink

Referans genomumla tam olarak eşleşmediğini bildiğim bir DNA örneğim var - kültürüm, referansın oluşturulmasından bu yana önemli mutasyona uğramış bir alt popülasyondan geliyor.

IGV ile görsel incelemeden, önemli sayıda SNP ve SV var görünüyor, ancak tamamen kendi sıralama verilerimden oluşturulan bir montaj, amaçlarım için yeterince yüksek kalitede değil.

Bu referans genomu, örneğimi yeni sıralama verileriyle eşleştirmek için nasıl değiştirebilirim (tercihen Oxford Nanopore Technologies uzun okumalarıyla, ancak bunları gerekirse kısa okumaları desteklemek için de kullanabilirim) Mevcut referansın, başlangıçta referans genomu oluşturmak için kullanılan okumalara erişmek zorunda kalmadan çoğunlukla çok iyi olduğunu?

Girdi veri kaynakları söylediğiniz kadar çeşitlilik gösteriyorsa (önemli miktarda SNP ve yapısal varyantlar) bir montaja gerçekten nasıl güvenebilirsiniz?
Yeni bir referans oluşturmak istememenizin bir nedeni var mı? Bir MinION çalışması ~ 5Gbp veri üretir, bu da numunelerinizi barkodlasanız bile de-novo genomunu oluşturmak için yeterli kapsama sahip olmanız gerektiği anlamına gelir.Projenin amacı nedir?
Aklımdaki örnek E. coli, evet. Birkaç farklı alet kullanarak montajı denedik ve de-novo montajı tonlarca veriye sahip olmasına rağmen istediğimiz kadar yüksek kalitede değil. Buna Bayesçi bir bakış açısından yaklaştığımızda, referans genom, eğer akıllıca kullanabilirsek, çok iyi bir ön bilgi sağlar.
Önceden iyidir, ancak projenin amacı kaç SV'nin biriktiğini bulmaksa, referans tabanlı montajla çıktıyı saptıracaksınız. Ayrıca "yüksek kalite" nin ne anlama geldiği açık değil.
Projenin amacı, SV'lerin nerede olduğunu belirlemek değil, verileri aşağı akış analizi için (makine öğrenimi için eğitim seti olarak) kullanmak için sadece örneğimi doğru bir şekilde temsil eden bir referansa ihtiyacım var. Yani yüksek kaliteli bir referansla Sıralanan numuneyi mümkün olduğu kadar iyi temsil eden birini kastediyorum. Sorunları daha da kötüleştirmek için, nanogözenek dizilemede olduğu gibi sistematik sıralama hataları varsa en yüksek hizalama kimliğine sahip olan bu olmayabilir!
Beş yanıtlar:
#1
+4
roblanf
2017-05-18 16:07:14 UTC
view on stackexchange narkive permalink

Buna bir yaklaşım, referans genomu yinelemeli olarak güncellemek için sahip olduğunuz verileri kullanmaktır. Zincir dosyalarını yol boyunca tutabilirsiniz, böylece koordinatları (örneğin gff dosyalarında) orijinal referanstan yeni sözde referansınıza dönüştürebilirsiniz.

Basit bir yaklaşım şu olabilir:

  1. Yeni verileri mevcut referansla hizalayın
  2. Çağrı varyantları (ör. Samtools mpileup, GATK veya sizin için en iyisi)
  3. 2'den varyantları içeren yeni referans oluşturun
  4. Durulayın ve tekrarlayın (yani 1'e gidin)

Bunu yaparken bazı basit istatistikleri izleyebilirsiniz - ör. Yukarıdaki döngünün her yinelemesinde yeni varyantların sayısı azalmalı, eşlenen okuma sayısı artmalı ve uyuşmazlık oranı azalmalıdır. Sözde referans stabilize olduğunda, daha fazlasını yapamayacağınızı bilirsiniz.

#2
+4
Daniel Standage
2017-05-21 12:43:44 UTC
view on stackexchange narkive permalink

Verilerinizin kapsamına ve genomun karmaşıklığına bağlı olarak, de novo genomunu yeniden birleştirebilir veya referans kılavuzlu (veya referans destekli) bir montaj çalıştırabilirsiniz. Görünüşe göre ikincisine daha çok eğiliyorsunuz.

Kullanabileceğiniz birkaç referans kılavuzlu montaj aracı vardır: AlignGraph ve Ragout. Bunlar, ilgilenilen organizmaya ve veri türlerinize bağlı olarak uygun olabilir veya olmayabilir. Örneğin, bu araçların, Nanopolish veya Canu -correct kullanılarak hata düzeltmesi yapılmamış Oxford Nanopore okumalarında iyi çalışması pek olası değildir.

Bu aracı ekleyebilirim, Ragout: https://www.ncbi.nlm.nih.gov/pubmed/24931998 ve makalenin içinde oldukça fazla yararlı referans var. Makalenin başlığında bakteri genomlarıyla çalışması gerektiği belirtilse bile, memeli genomlarıyla da çalışır.
#3
+3
madhu bioinfo
2017-05-18 10:29:39 UTC
view on stackexchange narkive permalink

Illumina okumalarını kullanarak nanopolish kullanabilirsiniz. Ayrıca pilon 'a da bir göz atın.

#4
+3
haegglund
2017-05-18 10:38:32 UTC
view on stackexchange narkive permalink

Kısa okunan bir taslak derlemeyse ve uzun okumalarınız varsa (ONT veya Pacbio), genomu iskele yapmak için bağlantıları çalıştırın ve ardından denemek için yinelemeli olarak Pilon çalıştırın kısa okumaları kullanarak boşlukları cilalamak ve doldurmak için.

#5
  0
bedeabc
2017-08-05 00:08:29 UTC
view on stackexchange narkive permalink

Kindel (yazdığım) kısa okumaların düşük kaliteli hizalamalarından viral referanslara kadar fikir birliğine varabilir ve bunu tek molekül okumaları ve daha büyük genomlarla çalışacak şekilde genişletebilir ve yapılacaklar listemde daha büyük genomlar var. bunun biraz yeniden tasarım gerektireceğini düşünmeme rağmen. Muhtemelen bu durumda bir bakteri veya mantar genomu ile uğraşıyorsunuz? Ayrıca temel bir C ++ sürümüne sahibim, ancak kullanıcı dostu olmaktan çok uzak. Her neyse, bir göz atmaya değer olabilir - karşılaştığınız herhangi bir sorunla iletişime geçmekten çekinmeyin. Pilon'u yukarıda belirtildiği gibi kullanırım



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...