Soru:
Nükleotid bazlı filogenetik ağaç oluştururken GC içeriği değişimini hesaba katmanın en iyi yolu nedir?
Iakov Davydov
2017-05-18 23:52:28 UTC
view on stackexchange narkive permalink

Diyelim ki ortolog nükleotid dizilerine dayalı olarak filogenetik bir ağaç inşa etmek istiyorum; Daha iyi bir çözünürlüğe sahip olmak için protein dizilerini kullanmak istemiyorum. Bu türlerin farklı GC içeriği vardır.

JC69 veya diğer herhangi bir klasik nükleotid modeli ile maksimum olasılık gibi basit bir yaklaşım kullanırsak, benzer GC içeriğine sahip uzak türlerin korunmuş protein kodlama dizileri yapay olarak birlikte kümelenecektir. Bu, GC içeriğinin esas olarak yalpalama kodon konumlarını etkileyeceği ve nükleotid düzeyinde benzer görüneceği için gerçekleşecek.

Bunu aşmanın olası yolları nelerdir? Şimdiye kadar aşağıdaki seçenekleri değerlendirdim:

  1. Protein dizisi kullanmak. Elbette bu mümkün, ancak kısa mesafe hakkında çok fazla bilgi kaybediyoruz. Kodlamayan diziler için geçerli değildir.

  2. Kayıt. Bu yaklaşımda C ve T, tek bir pirimidin durumu Y'de birleştirilebilir (G ve A, bazı uygulamalarda da birleştirilebilir). Kulağa ilginç geliyor, ancak önce burada bazı bilgileri de kaybediyoruz. Ortaya çıkan sürecin matematiksel özellikleri net değildir. Sonuç olarak, bu yaklaşım yaygın olarak kullanılmamaktadır.

  3. Üçüncü kodon pozisyonu analizden çıkarılır. Yine bazı kısa mesafe bilgilerini kaybediyorum. Ayrıca, eşanlamlı ikamelerin tümü üçüncü kodon konumlarına özgü değildir, bu nedenle hala bazı önyargıların olmasını bekliyoruz. Kodlamayan diziye uygulanamaz.

Teoride GC içeriğinde kaymalara izin veren bir modele sahip olmak mümkün olmalıdır. Bu, zamanın geri dönüşü olmayan bir Markov süreci olacaktır. Anladığım kadarıyla bu tür modellerin olasılığını tahmin etmede bazı hesaplama zorlukları var.

Eklemek isterim ki, buradaki kurulumda anahtar bir varsayım olduğunu düşünüyorum: "Daha iyi bir çözünürlüğe sahip olmak için protein dizilerini kullanmak istemiyorum". Burada "daha iyi" yi ayrıştırabiliriz - muhtemelen daha kesin ama aynı zamanda daha önyargılı, ikincisi, taslağını çizdiğiniz tüm nedenlerden dolayı.
İlgilenmeniz durumunda, bahsettiğiniz yaklaşımlardan bazılarını ve ayrıca birkaç başka yeniden kodlama şemasını (http://dx.doi.org/10.6084/m9.figshare.732758) aşağıdaki makalelerde test ettim: http: // arxiv.org/abs/1307.1586 ve http://dx.doi.org/10.1093/molbev/msu105
üç yanıtlar:
#1
+5
Leo Martins
2017-05-19 03:38:52 UTC
view on stackexchange narkive permalink

Hem maksimum olasılık hem de Bayesçi çerçeveleri altında bileşimsel heterojenliği hesaba katan modeller vardır. İkame süreci zamanla tersine çevrilebilir olmasa da, anlık oran matrisinin bir "denge frekans vektörüne" (homojen olmayan) ve simetrik, sabit bir döviz kuruna ayrıştırılabileceği varsayılarak hesaplamalar basitleştirilmiştir matrix.

Tüm önerilerinizin de geçerli olduğunu tahmin ediyorum ve yeniden kodlamanın GC içeriği önyargısını azaltmak için başarıyla kullanıldığını hatırlıyorum (yukarıdaki referanslarda ve buradaki örnekler).

#2
+3
bli
2017-05-19 14:18:46 UTC
view on stackexchange narkive permalink

Aşağıdaki 2004 makalesi, ağaçtaki kompozisyon değişikliklerini Bayesian çerçevesinde modellemenin bir yolunu açıklamaktadır: https://doi.org/10.1080/10635150490445779

Bir python bunu ("p4") uygulayan paket ve yıllar boyunca eklenen iyileştirmeler burada bulunabilir: https://github.com/pgfoster/p4-phylogenetics

Başlamak için , burada yararlı örnekler bulabilirsiniz: http://p4.nhm.ac.uk/scripts.html

Bu, birkaç büyük ölçekli filogenetik analizde kullanılmıştır.

#3
+1
Michael
2019-04-09 14:49:39 UTC
view on stackexchange narkive permalink

Cevap, logDet algoritmasının GC% kümelemesinin üstesinden gelmek için oluşturulmuş olmasıdır.

O zamanlar sadece bir mesafe yöntemi mevcuttu / uygulanıyordu, bu yüzden çok güçlü değildi. Buradaki yayınlar, Bayesian veya ML yaklaşımının mevcut olduğunu ve bunların modele sıkı sıkıya bağlı olduğunu ima ediyor.

Orijinal yayın burada

Aklınızda bir yayın veya web sayfası var mı? Bağlayabilir misin?
Yukarıda sağlanan bağlantı. Uzun bir yoldan geri gider ... 1996'ya kadar


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...