Soru:
Bir sam dosyasının okunmasında mutasyonlar nasıl hızlı bir şekilde belirlenir?
rraadd88
2017-05-18 08:14:29 UTC
view on stackexchange narkive permalink

DNA diziliminden sonra, bir fastq dosyasını hizalayarak bir sam dosyası oluşturdum. İyi bilinen değişken arama programlarını (örneğin, Annovar vb.) Kullanmadan önce, bazı okumalar seçmek ve ne tür mutasyonların olduğunu bilmek istiyorum.

Bunu yapmanın hızlı bir yolu var mı?

Uyuşmazlıkları [IGB] gibi bir şeyle görselleştirebilirsiniz (https://wiki.transvar.org/display/igbman/Visualizing+read+alignments#Visualizingreadalignments-Loadsequencedatatoviewmismatches)
üç yanıtlar:
#1
+8
Scott Gigante
2017-05-18 08:24:19 UTC
view on stackexchange narkive permalink

Niteliksel analiz için, IGV veya IGB gibi daha az ayrıntılı bir şey kullanmanız muhtemelen daha iyidir. Ancak, birkaç okumaya gerçekten bakmak istiyorsanız:

Sıralama hatalarını görmezden gelmek istiyorsanız, her ikisi de hizalama hakkında bilgi veren CIGAR dizesini veya MD etiketini inceleyebilirsiniz.

CIGAR dizisi eklemeler, silmeler, kırpmalar, eşleşmeler ve uyumsuzluklarla ilgili ayrıntıları verir. Genom Analizi Wiki 'den,

Bir referansa hizalanan sekans, referansta olmayan ek bazlara sahip olabilir veya referanstaki eksik bazlar olabilir. CIGAR dizisi, temel uzunlukların ve ilişkili işlemlerin bir dizisidir. Referansla hangi tabanların hizalandığı (bir eşleşme / uyumsuzluk), referanstan silindikleri ve referansta olmayan eklemeler gibi şeyleri belirtmek için kullanılırlar. Örneğin:

  RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19Referans: CCATACTGAACTGACTAA CRead: ACTAGAATGGC TW Yukarıdaki hizalamayla şunu elde edersiniz : POS: 5CIGAR: 3M1I3M1D5M  

CIGAR dizesinin en yaygın kullanımı M (eşleşme / uyumsuzluk), I (ekleme), D (silme), S (yumuşak kırpma) ve H kullanır (sert kırpma). = (Eşleşme) ve X'in (uyumsuzluk) daha az bilgilendirici olan M'ye alternatif olarak mevcut olduğunu, ancak daha az yaygın olarak kullanıldığını unutmayın.

MD etiketi, uyumsuzluklar ve silmeler hakkında belirli ayrıntılar verir. SAMtools etiketleri spesifikasyonundan,

MD alanı, referansa bakmadan SNP / indel çağrısını gerçekleştirmeyi amaçlamaktadır. Örneğin, bir "10A5 ^ AC6" dizesi, hizalamada en soldaki referans tabanından, 10 eşleşme ve ardından hizalanmış okuma tabanından farklı olan referans üzerinde bir A olduğu anlamına gelir; sonraki 5 referans tabanı eşleşmelerdir ve ardından referanstan 2bp çıkarılır; silinen dizi AC'dir; son 6 baz maçtır. MD alanı CIGAR dizesiyle eşleşmelidir.

Bunların hiçbirinin kısa okumalarda size yapısal varyantlar hakkında herhangi bir fikir vermeyeceğini ve hiçbirinin özellikle okunabilir (veya uzun okumalarda daha yüksek hata oranı).

#2
+7
dariober
2017-05-21 22:47:47 UTC
view on stackexchange narkive permalink

Genomik verilere hızlıca göz atmak istediğiniz durumlarda kullanışlı bulduğum ASCIIGenome adlı bir program yazdım. Komut satırı için bir genom tarayıcısı.

Yalnızca uyuşmazlık içeren okumaları görüntülemek için awk dahili işlevini kullanabilirsiniz. NM etiketinin (uyuşmazlık sayısı)> 0 olduğu okumaları filtrelemek için:

  ASCIIGenom -fa genom.fa aln.bam ... [h] yardım için: awk 'getSamTag (" NM ") > 0 ' 

Terminal ekranındaki görünüm şöyle görünebilir: enter image description here

Benzer şekilde, yalnızca awk '$ 6 ~ "D | I"' kullanabileceğiniz indelleri içeren okur

Bunun yardımcı olacağını umar ve & sorunlarını bildirmekten çekinmeyin.

Bu gerçekten havalı. Bunu sevdim.
#3
+4
gringer
2017-05-18 21:23:10 UTC
view on stackexchange narkive permalink

samtools mpileup bunu hızlı bir şekilde yapabilir:

  samtools mpileup -f reference.fasta -uv input.sam > varyants.vcf  

Bu, SAM dosyasında hangi varyantların görüldüğüne ilişkin bilgileri içeren ve tüm eşlenmiş okumalar için bir araya getirilmiş VCF biçimli bir dosya oluşturur.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...