Soru:
İki sıfır şişirilmiş yatak grafiği benzeri sinyal nasıl ilişkilendirilir?
Ian Sudbery
2017-05-17 21:52:04 UTC
view on stackexchange narkive permalink

Bu soru iCLIP ile ilgilidir, ancak aynı şekilde kolayca ChIP-seq veya ATAC-seq veya mutasyon frekansları olabilir.

Transkriptom boyunca iCLIP okuma sayılarım var ve sinyallerin ilişkili olup olmadığını bilmek istiyorum - yani, birinin yüksek olduğu yerde, diğerinin yüksek olma olasılığı yüksektir.

Genellikle bu tür verilerle (örneğin iCLIP verileri) uğraşırken verilerin genellikle seyrek olduğunu biliriz - yani çoğu pozisyonda her iki sinyal de sıfırdır ve bu doğrudur ve ayrıca sıfır şişirilmiş - bu veriler eksik bir sinyaldir. Yani sadece Spearman'ın korelasyonunu hesaplamak, yapay olarak düşük bir değer verecektir.

İlişkilendirmeyi değerlendirmenin bir yolu ne olabilir? Buradaki amacın, genler arasındaki (veya aynı zamanda) genler arasındaki bağlanma örüntülerinin ilişkisini değerlendirmek olduğunu eklemeliyim.

Düşündüğüm şeyler:

  • Verilere bir çeşit yumuşatma uygulayın (örn. yuvarlanan bir ortalama). Her iki örnekte de 0 olan bazları çıkarın. Mızrakçıları hesaplayın.
  • Birinci örnekteki her okuma ile ikinci örnekteki her okuma arasındaki ortalama ikili mesafeyi hesaplayın. Bunu, okumaların genler içinde rastgele hale getirildiği verilerle karşılaştırın.

İlk durumda, her iki örnekte de 0 olan tüm tabanları kaldırmak yanlış görünüyor. Ancak her iki örnekte de tüm bazların% 99,99'unda sıfır varsa, bu Spearman için gerekli gibi görünüyor.

İkinci durumda, sonucun yorumlanması sezgisel olmayacak gibi görünüyor. Ve ayrıca bunu hesaplamak, büyük ölçüde hesaplama açısından yoğun olacaktır.

Dört yanıtlar:
#1
+4
Devon Ryan
2017-05-17 23:04:17 UTC
view on stackexchange narkive permalink

Dürüst olmak gerekirse, bunun için multiBigwigSummary ve ardından deepTools'tan plotCorrelation kullanırdım, ancak biraz önyargılıyım. Burada fikir, her geni bir birim olarak düşünmek olacaktır (bunun yerine kutuları kullanabilirsiniz, ancak bunun istediğinizi iyi bir şekilde yapacağını sanmıyorum), yani araçlara bir BED veya GTF dosyası girdisi vererek. Daha sonra her gen / transkriptteki ortalama sinyali hesaplar ve mızrakçı korelasyonunuzu yapabilirsiniz. Tüm örneklerde 0 olan özellikler isteğe bağlı olarak kaldırılabilir ( plotCorrelation --skipZeros ).

Kesinlikle 9 yarda kadar gidip taban başına karşılaştırmaları kullanabilirsiniz, ancak bu bir biraz abartıyor ve gerçekten kayda değer ölçüde daha fazla bilgi sağlamayacağından şüpheleniyorum (özellikle ek süre ek yükü düşünüldüğünde).

Açıklamama bakın. - Genler arasındaki uzamsal kalıplara bakmak istiyorum, aralarındaki değil.
@IanSudbery Ah, bilmek güzel, cevabım o zaman geçerli değil.
#2
+3
rightskewed
2017-05-17 23:08:39 UTC
view on stackexchange narkive permalink

Temel düzeyde çalışmak yerine, muhtemelen gen düzeyi sayıları üzerinde çalışabilirsiniz. Sıralı bir ilişki ölçütü olan Kendall'ın tau daha sonra uygun bir korelasyon ölçüsü olarak kullanılabilir.

iCLIP replikatlarınız $ X $ ve $ Y $ ise, $ i $ geni temsil eder index ve $ (x_i, y_i) $, $ i ^ {th} $ geni için sırasıyla $ X $ ve $ Y $ içindeki RBP bağlama sitelerinin sayısını temsil eder, Kendall'ın tau şu şekilde tanımlanır:

$ $ \ frac {\ text {# (uyumlu çiftler)} - \ text {# (uyumsuz çiftler)}} {n (n-1) / 2} $$

Herhangi iki çift $ (x_i , y_i) $ ve $ (x_j, y_j) $ şu durumlarda uyumludur:

  • $ x_i > x_j $ VE $ y_i > y_j $

VEYA

  • $ x_i < x_j $ VE $ y_i < y_j $

Buna bağlı olarak, şu durumlarda uyumsuzdurlar:

  • $ x_i < x_j $ AND $ y_i > y_j $

VEYA

  • $ x_i > x_j $ VE $ y_i < y_j $
Tex oluşturmanın neden kapalı olduğundan emin değilim.
Açıklamama bakın: Genler arasındaki modellerden çok genlerin içindeki kalıplarla ilgileniyorum. Tau, birçok gözlemin sıfır olduğu verilerle başa çıkmada daha mı iyidir?
İlgi alanınız genler içindeki kalıbı incelemekse, ikinci örneğiniz bir kopya görevi görüyor mu? Burada "genlerin içinde" ne anlama geldiğini tam olarak anladığımdan emin değilim.
Hayır, iki proteinin gen bağlama modellerinde benzer olup olmadığını belirlemeye çalışıyorum.
Mathjax desteği etkinleştirilmemişti. Şimdi öyle oldu, bu yüzden cevabınız doğru şekilde işliyor.
#3
+3
CloudyGloudy
2017-05-18 01:18:09 UTC
view on stackexchange narkive permalink

Tepe yoğunluklarını ikili (kümelerdeki tepe noktalarının varlığını / yokluğunu karşılaştırarak) veya sürekli (zirvelerin göreli büyüklüklerini karşılaştırarak) olarak ele almak isteyip istemediğinize bağlıdır.

İkili

Başlamak için, basit bir ikili karşılaştırma uygun olabilir. İstediğiniz kriterlere göre her örnekteki zirveleri belirlemek için seçtiğiniz bir en çok arayıcıyı kullanabilirsiniz. Ardından, iki örnekteki zirveler arasındaki uyuşma düzeyini ölçmek için Jaccard endeksi gibi bir benzerlik ölçütü kullanabilirsiniz.

Olası engellerden biri, sınırlarınızı belirlemektir. zirveler tamamen basit olmayacak. Örneğin, bir numunedeki bir tepe, diğer numunede, her bir uçta birer tane olmak üzere 2 örtüşen tepe noktasına sahip olabilir. Bunun için kaba bir çözüm, genomu kutulara bölmektir (arzu ettiğiniz çözünürlüğe bağlı olarak belki yaklaşık 100-1000 bp). Zirvenin yarısından fazlası çöp kutusunda bulunuyorsa, bir tepeyi bir bölmede olduğu gibi işleyebilirsiniz. Bu şekilde, bir numunedeki kutular, diğer numunedeki karşılık gelen kutularla doğrudan karşılaştırılabilir. Açıkçası, bunu yapmanın tek yolu bu değil; diğer uygun yöntemler de mevcuttur.

Sürekli

Pik yoğunluklarını sürekli olarak ele almak istiyorsanız, " o bölme içindeki konumlarda ortalama tepe yoğunluğu olarak bir bölmenin "puanı". Daha sonra, genom boyunca tepe noktası olmayan veya yalnızca düşük yoğunluklu tepe noktaları olan tüm kutuları atabilirsiniz. Sonra kalan kutular için Spearman'ın korelasyonunu hesaplayabilirsiniz. Doğası gereği mevcut olan deneysel değişkenlik miktarı nedeniyle sürekli yoğunluklar için güçlü bir korelasyon bulmanın daha zor olacağını tahmin ediyorum.

Bu adımları izledikten sonra Spearman korelasyonu hala "yapay olarak" ise düşük "önerdiğiniz gibi, bu durumda bu büyük olasılıkla genel analizle değil, temeldeki verilerle ilgili bir sorundur; belki iki veri kümeniz aslında o kadar da uyuşmuyor.

Çoğu gözlem 0 olduğunda yapay olarak düşük değerler konusunda endişeliydim. Her iki sinyalde de gözlemlerin 0 olduğu durumlar hariç tutulduğunda, doğru "hissettirmedi".
@IanSudbery Anlıyorum. Yani, "zirve yapmayanların" birbirleriyle ne derece uyuştuğuyla da ilgileniyorsunuz. O halde bir olasılık, her iki değerin de sıfır olduğu kutuları atmamak ve Spearman korelasyonunu rapor etmektir. Bununla birlikte, zirvelerin oldukça seyrek olduğunu söylediğinizden, sıfır değerleriniz gerçek pozitifler arasındaki korelasyon kapsamını görmeyi zorlaştıracaktır. Spearman korelasyon puanlarında sıfır değerlerini hariç tutmanın "doğru" olmadığını kabul ediyorum, ancak bunun yerine set kesişimleri için bir metrik kullanırsanız (Jaccard indeksi gibi) sıfırları hariç tutmanız uygun olacaktır.
Kesişme noktasına bakmak seyreklik sorununu çözer, ancak sıfır şişirilmiş olanı çözmez: benzer görünümlü izlerden gelen sinyaller birbirine yakın olma eğilimindedir, ancak birbirinin tam üstünde değildir. Açıkçası, ikinci önerinizin en iyisi olduğunu düşünmeye başlıyorum.
Bu doğru, ancak kesin örtüşme aramak yerine kavşakları tanımlamak için binning yaklaşımını kullanırsanız, bu yardımcı olabilir. (yani, aynı bölme her iki yolda tepe noktaları içeriyorsa, tepelerin kendileri doğrudan üst üste gelmese bile, bir kesişim olarak sayılır)
#4
+2
Sasha Favorov
2017-05-31 00:18:23 UTC
view on stackexchange narkive permalink

En sevdiğim hikayelerden biridir.

Genomik parça korelasyonu için StereoGene yazılımına bir göz atın, ön baskıda açıklanmıştır.

Şunları da yapabilirsiniz MACS veya başka bir tepe arayanı çalıştırın ve GenomtriCorr paketini kullanarak iki aralık kümesinin korelasyonunu tahmin edin.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...