Soru:
Genomdaki gff ek açıklamaları kapsamlı çoğaltmalarla nasıl aktarılır?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Mikrobiyal genomlar, kapsamlı kopyalar içerebilir. Genellikle ek açıklamaları, açıklamalı türlerden yeni dizilene aktarmayı isteriz.

Mevcut araçlar (örneğin, RATT, LiftOver, Kraken) ya türlerin ne kadar yakından ilişkili olduğuna dair belirli varsayımlar yapar ya da yeni genomda birden fazla eşleşme bulunduğunda, özellikle diziler oldukça benzerse, aktarılamaz.

Spesifik olarak, genlerin kapsamlı bir şekilde kopyalanabildiği sentetik bir biyoloji uygulamam var. Sırayla aynıdırlar, ancak birçok kez kopyalanırlar ve yeniden yerleştirilebilirler (yani, sadece birbirine bitişik değil). Yukarıda bahsedilen araçların hiçbiri, ek açıklamaların koordinatlarını özelliklerin birden çok kopyasına sahip genomlara aktaramaz.

Bu senaryoda ek açıklamaları aktaran önceden var olan araçlar veya yazılımlar var mı? Bunu sağlam bir şekilde yapmanın yolları için fikirler mi?

Daha fazla ayrıntı verebilir misiniz? Girdiniz nedir (ör. Ham okumalar, derlemeler, açık okuma çerçeveleri)? ne tür bir sıralama? tam olarak istediğiniz çıktı nedir? Varsayımlar hakkındaki düşüncenizi anladığımdan emin değilim. Ayrıca, LiftOver ve Kraken, farklı kullanımlara sahip tamamen farklı araçlardır.
Bu teorik olarak mümkün olabilir mi? Kapsamlı çoğaltmalar varsa ek açıklamaların aktarılabilir olduğunu nasıl varsayabilirsiniz? Bunun yerine homolog aramak muhtemelen daha iyidir.
@terdon ortologları mı kastediyorsunuz? homologlar = ortologlar (çoğaltılmamış) + paraloglar (çoğaltılmış)
@Chris_Rands Hayır, homologları kastetmiştim. Tam da orto- mu para mı olduklarını bilemediğimiz için ([burada] (https://biology.stackexchange.com/a/4964/1306) ikisi arasındaki farkla ilgili güzel bir yazım var. yol), yani ilk önce yapabileceğiniz tek şey homologları bulmak ve sonra herhangi bir ek açıklamayı taşıyacak kadar benzer olup olmadıklarını bulmaktır.
@terdon Ortologları / paralogları iyi çözmenin elbette kolay olmadığını görüyorum, ancak kesin verilere bağlı olarak yapılabilir (OP'nin verilerinin neye benzediğini bilmiyorum), örneğin bazı meslektaşlarım ortodb http: / /www.orthodb.org/
Oh, tabii ki yapılabilir! Demek istediğim, homoloji bölgelerini aramak (hangi türden olursa olsun), farklı türlerin genomları arasındaki genomik koordinatları çevirmeye çalışmaktan daha iyi bir açıklama aktarımı yolu gibi görünmesiydi.
@Chris_Rands: Girdisi derlemeler olabilir, ör. gDNA diziliminden de novo. Çıktı, karakterize edilmiş türlerden yeni birleştirilmiş genoma (koordinat aktarımı) ek açıklamaların (örneğin gff formatı) aktarımı olacaktır. Hem LiftOver hem de Kraken (bu, aynı sayfada olduğundan emin olmak için: https://github.com/nedaz/kraken) bunu yapın. LiftOver, yakından ilişkili diziler arasında koordinat aktarımı için daha uygundur, örn. farklı meclisler; Kraken, genom hizalamasını (MUMer, Satsuma) kullanır, çok daha farklı diziler için daha iyidir.
@terdon: homolojinin türü / kökeni arasında ayrım yapmak, başarmak istediğim şeyin kapsamının ötesine geçecektir, ancak sizin de belirttiğiniz gibi fark önemlidir. özellikle farklı türler için daha küçük homolog bölgelerin aktarılmasının daha iyi olacağını söylemek doğru. Uygulama hakkında bilgi: Genlerin kapsamlı bir şekilde kopyalanabildiği bir syn bio uygulamam var. sırayla aynıdırlar, ancak birçok kez kopyalanırlar ve yeniden yerleştirilirler (yani bitişik değildirler). Yukarıda bahsedilen araçların hiçbiri, ek açıklamaların koordinatlarını birden çok ek açıklama kopyasıyla genomlara aktaramadı.
Evet, onlardan da beklemiyorum. Ben de öyle söylüyordum. Liftover araçları, koordinatları haritalandırır, bu tür şeylerle başa çıkamazlar. Korkarım bunu, ilgilenilen genlerin / proteinlerin bir listesini alarak, homologlarını bularak ve ek açıklamaları aktararak manuel olarak yapmanız gerekecek (ek açıklamaların aktarılabilir olup olmadığına dair bariz uyarılarla birlikte). Maalesef pek eğlenceli olmayacak.
özür dilerim kraken'i kastettiğinizi sanıyordum: http://ccb.jhu.edu/software/kraken/, bu araçları kim adlandırıyor? her neyse, bunu düzgün bir şekilde yapmak hiç de önemsiz değil. genom montajı, gen tahminleri ve ortolog / paralog ataması yapmanız gerekecek; çeşitli ardışık düzenler vardır (bazıları burada incelenmiştir: https://www.ncbi.nlm.nih.gov/pubmed/27043882), ancak biraz zaman alacaktır. alternatif olarak, daha 'hızlı ve kirli' bir şey için, @terdon'nin önerileri mantıklı görünüyor
Iki yanıtlar:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

Yaptığınız iş için işe yarayabilecek kullandığım çok basit bir yol var, bu terdon'un önerdiği gibi.

De-novo mikrobiyal genom ek açıklamasını alın araç (Benim kendime sahibim, ancak prokka 'yı kullanabilir / değiştirebilirsiniz). Bunun gibi araçlar genellikle önce gen sınırlarını tahmin eder ( prodigal veya pırıltı gibi diğer araçlarla) ve sonra bulunan genlere bir işlev atamaya çalışır. Bu işlev ataması genellikle BLAST ve diğer araçlarla yapılır ... ve ihtiyaç duyduğunuz şeyi yapmak için içeri girip değişiklik yapabileceğiniz yerdir.

İstediğim genlerin "bilgi" protein veri tabanını kullanıyorum Ek açıklamanın ilk satırı olarak çok katı bir şekilde açıklama eklemiş (örneğin sizin durumunuzda: ek açıklamalı genomlar). Bunun için kademeli olarak gevşeyen çok katı kimlik / benzerlik parametrelerinden geçiyorum.

Örneğin: Döngü 0: yalnızca% 100 DNA kimliği, aynı uzunluktaki ek açıklamaları aktarın. Döngü 1: yalnızca% 100 benzerlikte ek açıklamaları aktarın Döngü 2: ek açıklamaları yalnızca% 99 benzerlikte, uzunluk +/-% 1'de aktarın .... Döngü n: yalnızca 100- (n-1)% benzerlikte, uzunluk +/- (n-1) ek açıklamaları aktar )%.

Her döngüde, yalnızca önceki döngülerde not verilmeyenlere açıklama ekleyin.

Bundan sonra, geri kalanına açıklama eklemek için aracın "normal" açıklama ardışık düzenini kullanın.

Bu, hedef genomun genlerinin önce bulunmasını gerektirmiyor mu? Veya aracınız de-novo gen tahmini yapabilir mi? (kulağa çok kullanışlı bir araç gibi geliyor, bu arada, tebrikler!)
Prokaryotik gen bulma / tahmin, az ya da çok çözülmüş bir sorundur, mevcut araçlar oldukça iyi çalışır. Bkz. Http://prodigal.ornl.gov/ ve http://prodigal.ornl.gov/ (sadece iki isim).
Evet, biliyorum, cevabınızda bundan bahsetmemenize şaşırdım. Doğru anlarsam, OP'nin yeni dizilenen genomundaki varsayılan genlerin listesini bulması için ilk adım olurdu, değil mi?
Doğru. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) bir genom de-novo'ya açıklama eklemek için bir dizi üçüncü taraf araçları (prodigal dahil) kullanıyor, kendi genomu yazmadan önce prokka'yı değiştirerek başladım , prokka boru hattından bazı fikirleri kullanır.
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Öncelikle GFF'nizde tanımlananlara benzer bölgeleri tanımlamanız ve ardından ek açıklamaları aktarmanız gerektiğini düşünüyorum. Tabii ki, oradaki varsayım, homologun da aynı ek açıklamaya sahip olacağıdır ki bu genellikle doğru değildir. Bununla birlikte, genomik koordinatları kullanamayacağınız için (ve yine de yapabilseniz bile yine aynı varsayımı yapıyor olursunuz), genomlar çok farklı olduğunda bunu başka şekilde nasıl yapabileceğinizi anlamıyorum.

Çok basit bir yaklaşım için (dediğiniz gibi dizileriniz neredeyse özdeşse yeterli olabilir), aşağıdaki gibi bir şey yapabilirsiniz:

  1. İlgilendiğiniz dizileri toplayın

  2. genewise veya exonerate code gibi bir araç kullanın. > bunları hedef genomla eşlemek için. Her iki araç da gff formatlı çıktı döndürebilir ve her ikisi de hedef genomda birden çok isabet bulabilir. İstediğiniz şey için, çok yüksek bir dizi benzerliği ve sorgu kapsamı eşiği kullanmanızı öneririm (burada bulunan hedef dizi, kullanılan sorgu dizisinin tamamını veya çoğunu kapsar).

    Bunlar mikrobiyal genomlar ve dolayısıyla ekleme sorun değildir, protein dizilerinden başlarsanız basit bir BLASTn veya tBLASTn ile bile aynı şeyi yapabilirsiniz.

  3. Bu noktada, bir listeniz olmalıdır homologlar (bazıları ortologlar ve diğerleri paraloglar olacaktır) ve sorgu dizisinin ek açıklamalarını hedefe aktarabilirsiniz.

Yine, bunun çok büyük bir varsayım yaptığını vurguluyorum: homolog diziler aynı işleve sahiptir ve sorgu genomunda sahip olduğunuz her şeyle otomatik olarak açıklanabilir. Bu birçok durum için doğru olacak, ancak diğerleri için de yanlış olacaktır. Özellikle paraloglara bakıyorsanız (türleşme olayından sonra çoğalmaları meydana gelen ve bu nedenle büyük olasılıkla işlev bakımından farklılaşmış olan genler).

Ancak, daha önce de söylediğim gibi, yalnızca genomların 1 ortak bölgelerini tanımlayarak ek açıklamaları aktarmayı başarmış olsanız bile bu sorun tamamen aynı olacaktır, dolayısıyla burada pek bir fark yoktur.


1 Yorumlarda da söylediğim gibi, bunun nasıl mümkün olabileceğini anlamıyorum. Tanım gereği, kapsamlı kopyalarınız varsa, genomik koordinatlar tamamen farklı olacaktır ve bir genomdan diğerine haritalamak imkansızdır.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...