Soru:
Koruma puanları almaya çalışarak 6-12bp uzunluğunda DNA motiflerine sahip olun
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

İnsan genomundan yaklaşık 200 kısa nükleotid motifim var (6-12 bp uzunluğunda) ve omurgalılar arasında ne kadar korunmuş olduklarını görmeye çalışıyorum.

Her motif için, insan genomundaki tüm oluşumlarını listeleyen bir yatak dosyası yapmam gerektiğini düşünüyordum. Oradan, yatakları PhastCons puanlarının büyük dosyaları ile eşleştirebilirim (esasen PhastCons yazılımının tasarlandığının tersini yaparak). Bu en iyi yaklaşım gibi geliyor mu?

Motiflerden yatak dosyalarına geçme adımına takılıyorum. Tüm motif oluşumlarını bulmak için BLAST'ı kullanmayı denedim, ancak kısa uzunlukları sorunlara neden oluyor.
e-değer eşiği, kelime boyutu ve filtre parametreleriyle uğraşmayı denedim, ancak hala anlamıyorum herhangi bir isabet.

Bu sorun için bir çözüm var mı yoksa tüm yaklaşımımı yeniden düşünmeli miyim?

Benzer bir şey yaptım, ama hepsi aynı n değerine sahip "motifler" yerine iyi tanımlanmış n-merlerin bir listesiyle. Bunun herhangi bir yardımı olması durumunda, yatak dosyasını yapmak için kullandığım kod şudur: https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at=master&fileviewer=file-view- default: Kod süper bellek açısından verimli olmayabilir.
üç yanıtlar:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

Motiflerinizde sadece ACGT varsa

Kısa motifler, sanki bir kmer sayacı arıyormuşsunuz gibi görünmesini sağlar. Mevcut yazılımı kullanmayı veya kendi yazılımınızı oluşturmayı seçebilirsiniz.

  1. Mevcut yazılımı kullanmak en kolay yolunuz olabilir. 2014'ten daha eski bir gönderi muhtemelen size orada neler olduğuna dair bir ilk fikir verecektir: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Orada bahsedilen birkaç algoritmanın halefleri olduğunu unutmayın, bu yüzden biraz araştırma yapmaya değer. Küçük kmer boyutu, bunların çoğunu ihtiyaçlarınız için kullanılabilir hale getirecektir.
  2. kmer'lerinizin maksimum boyutu nispeten küçük olduğundan (12 nt, 24 bite ihtiyaç duyar, yani kmer tablonuzda maksimum 16,7 milyon giriş), Kendi kmer sayınızı istediğiniz herhangi bir dilde ve günümüz bilgisayarlarının herhangi birinde kolayca döndürebilmelisiniz. Kmers için Wikipedia girişindeki sözde kod bölümü size bunun için ilk işaretçileri verecektir. Biraz daha iş olabilir, ancak ihtiyaçlarınıza bağlı olarak daha esnek olabilir.

Motiflerinizde IUPAC tabanları (N, W vb.) Olması durumunda

İhtiyacınız olanı yapan önceden var olan herhangi bir yazılım bilmiyorum. Kısa motiflerin bu tür aramalar için normal ifadeleri mümkün kıldığını hayal edebiliyordum, ama yanılıyor olabilirim. Tüm büyük programlama dillerinde RE'ler için modüller veya kitaplıklar olduğundan, bunu test etmek basit bir komut dosyasıyla kolay olmalıdır. Veri kümenizde çalışması birkaç saat sürse bile, bu tek seferlik bir hesaplama için yeterli olacaktır.

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

Bir genomdaki (veya veri tabanındaki) motifleri taramak için, size bu motiflerin genomunuzdaki tam konumlarını verecek olan FIMO 'yu kullanırdım.

Konumları edindikten sonra , temel koruma puanlarını hesaplamak için UCSC'den bir phastCons bigiwig kullanabilirsiniz. Bununla birlikte, lütfen phastCons puanlarının pencereler boyunca yumuşatıldığını ve motif eşleştirme sitelerinizdeki koruma düzeylerini onları çevreleyen dizilerle karşılaştırmaya çalışıyorsanız en iyi ölçü olmayabileceğini lütfen unutmayın.

Bunu yapmak için bir süre önce de-novo motif keşfi yapmak da dahil olmak üzere bir paket yazdım. Ancak, kullanım durumunuz için fazla bir şey olabilir.

Aslında daha önce FIMO'yu kullandım, ancak motifleri PWM'lerle karşılaştırmak için (JASPAR'dan). Aptalca bir soru olabilir, ancak PWM'lerin bir veritabanı yerine bir genomla karşılaştırmak oldukça kolay mı?
@EricBrenner Web sürümünde bir sıra dosyası yükleyebilirsiniz.
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

Transkripsiyon faktör bağlama siteleri söz konusu olduğunda, makalelerimizde düzgünleştirilmiş phastCons puanları yerine baz başına phyloP koruma verilerini kullandık.

Belirli bir motif modeli için çoklu, yastıklı ciltleme sitelerinde (BED formatlı) puanları eşlemek için BEDOPS yatak haritası kullanıyoruz. PhyloP puanları, UCSC goldenpath'ten elde edilen ve wig2bed aracılığıyla BED'e dönüştürülen WIG dosyalarıdır.

Sonuçta ortaya çıkan bağlanma sahası aralıkları matrisi ve bunların baz başına puanları sıralı hale getirilebilir ısı haritası veya bir motif modeli için taban başına ortalama korumayı belirlemek için toplanır.

TF bağlama siteleri doğaları gereği yüksek bilgi içeriği ve dolayısıyla yüksek koruma gösterirken, matrisler ayrıca ChIP-seq veya DNaseI-seq etiket yoğunluğunun skor haritalarına göre sıralanabilir.

Bu, ilginç düşük parazitli, yüksek sinyalli modellerin filtrelenmesine yardımcı olabilir ve matris pencerelendiğinde ve pencere, ana motifin dışında birkaç yüksek bilgi kalıntısı bulunan düşük bilgi bölgeleri içerdiğinde yararlıdır örneğin CTCF'de olduğu gibi.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...