Soru:
Referans genomda büyük ve küçük harfler
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

NCBI 'den indirilen mm10 fare için bir referans genom kullanıyorum ve genomun kabaca eşit parçalarını oluşturan küçük ve büyük harfler arasındaki farkı daha ayrıntılı olarak anlamak istiyorum. N'nin 'sert maskeleme' (genomdaki bir araya getirilemeyen alanlar) için ve tekrar eden bölgelerde 'yumuşak maskeleme' için küçük harfler kullanıldığını anlıyorum.

  1. Bu yumuşak maskeleme aslında ne yapıyor anlamına gelmek?
  2. Bu bölgelerdeki sıra konusunda ne kadar emin olabilirim?
  3. Küçük n harfi neyi temsil eder?
üç yanıtlar:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

Bu yumuşak maskeleme aslında ne anlama geliyor?

Genomlardaki pek çok dizi tekrarlı. Örneğin insan genomu, (en az) üçte iki tekrarlayan elemente sahiptir [1].

Bu tekrarlayan öğeler, büyük harfleri küçük harfe dönüştürerek yumuşak bir şekilde maskelenir. Bu yumuşak maskeli bazların önemli bir kullanım durumu homoloji aramalarında olacaktır: Bir atatatatat hem insan hem de fare genomlarında görünme eğiliminde olacaktır, ancak muhtemelen homolog değildir.

Bu bölgelerdeki sekans konusunda ne kadar emin olabilirim?

Yumuşak maskeli olmayan temel konumlarda olabileceğiniz gibi. Yumuşak maskeleme, genomda muhtemelen tekrarlayan kısımlar belirlendikten sonra yapılır. Belirli bir tabanın "A" veya "G" olup olmadığına dair bir belirsizlik yoktur, sadece bir tekrarın parçası olduğu ve bu nedenle bir "a" olarak temsil edilmesi gerektiğidir.

Küçük harf ne yapar? n temsil eder?

UCSC, potansiyel tekrarları yumuşak maskelemek için Tandom Tekrar Bulucu ve RepeatMasker kullanır. NCBI büyük olasılıkla TANTAN kullanıyor. N'ler, bu baz için herhangi bir dizi bilgisinin mevcut olmadığını gösterir. Bunun yerine 'n' gelmesi, muhtemelen genomun bir kısmının da muhtemelen bir tekrar olduğunu belirtmek için bir 'N'yi yumuşak bir şekilde' n 'ile maskelediği tekrar maskeleme yazılımının bir yapıtıydı.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Bilgilendirici cevap, ancak insan genomunun "(en azından) üçte iki tekrarlayan element" olduğunu söylemenin tartışmalı olduğunu düşünüyorum; Alıntı yaptığınız P-bulutları yöntemi oldukça müsamahakârdır ve yarısı daha yaygın olarak kabul edilen bir rakamdır. Ve yumuşak maskeleme, genel olarak tüm tekrarları maskelemeyi içermez, sadece serpiştirilmiş tekrarlar ve düşük karmaşıklık dizileri. Ayrıca, temel çağırma ve montaj inşası ve daha fazlası, tekrarlayan diziler için her zaman belirsizlik vardır, ancak mm10 elbette en iyi montajlardan biridir ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

Genom dizilerinde küçük / büyük harflerin ve N / n harflerinin kullanımı tamamen standartlaştırılmamıştır ve her zaman kullandığınız kaynağın özelliklerini kontrol etmelisiniz .

Küçük harfli harfler en yaygın olarak "yumuşak maskeli dizileri" temsil etmek için kullanılır; bu, RepeatMasker tarafından popüler hale getirilen ve serpiştirilmiş tekrarların (transpozonları, retrotranspozonları ve işlenmiş sözde genleri kapsar) burada popülerdir ve düşük karmaşıklık dizileri küçük harflerle işaretlenmiştir. Büyük ölçüde ardışık tekrarlar, segmental kopyalar ve tüm gen kopyaları gibi daha büyük tekrarların genellikle maskelenmediğini unutmayın.

Ancak, küçük / büyük harfler için başka kullanımlar da vardır, örneğin, Ensembl sırasıyla eksonik ve intronik dizileri temsil etmek için büyük / küçük harf kullanmışlardır.

N ve n nükleotidleri "sabit maskeli dizileri temsil edebilir ", Burada serpiştirilmiş tekrarlar ve düşük karmaşıklık dizileri N ile değiştirilir. Ancak N / n s alternatif olarak belirsiz nükleotidleri temsil edebilir, aslında bu IUPAC spesifikasyonudur.

Ayrıca ara sıra not edin ( Neyse ki nadiren de olsa) X / x belirsiz nükleotidleri veya "sabit maskeli dizileri" temsil etmek için de kullanılır.

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. Küçük nükleotidler genellikle yumuşak maskelenmiş dizileri belirtir. NCBI SSS bölümünde genom tam olarak nasıl maskelenmiştir:

Ökaryotik genomlardaki tekrarlayan diziler maskeleniyor mu?

Ökaryotik genom birleştirme dizisi dosyalarındaki tekrarlayan diziler, WindowMasker tarafından tanımlandığı gibi, küçük harfe göre maskelenmiştir.

Bulunan tekrarların konumu ve kimliği RepeatMasker tarafından da ayrı bir dosyada sağlanır. Bu aralıklar, istenirse genomik dizileri maskelemek için kullanılabilir. Bununla birlikte, daha az çalışılmış organizmaların RepeatMasker'ın kullanabileceği iyi tekrar kitaplıklarına sahip olmadığını unutmayın.

  1. IMHO, düşük karmaşıklık bölgeleri her zaman yüksek karmaşıklıktaki dizilerden daha yanlış bir araya getirilme olasılığı daha yüksektir. Ancak bu, model olmayan organizmalar için sorun olacaktır. Fare genomunun yumuşak maskeli bölgelerinin güvenilirliğinin çok yüksek olacağını tahmin ediyorum.

  2. Hiçbir fikrim yok, bir eser gibi görünüyor.

  3. ol >

    Yumuşak maske kullanımına bir örnek

    Dizinin referansa eşlenmesi genellikle eşlenen okumaların tohumları (alt dizeler) ve referans dizinin mükemmel eşleşmeleriyle başlar. Yumuşak maskeli (düşük karmaşıklık) bölgeler, tohum eşleşmeleri için kullanılmazlar, ancak bunlar, yalnızca komşu bölgede bir tohum varsa hizalamanın uzatılması için kullanılır. Uzun okuma montaj problemine uygulanan bu yumuşak maske uygulaması bu blogda açıklanmıştır.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...