Soru:
Genom çapında tekrarlanan eleman açıklamaları için herhangi bir RepBase alternatifi var mı?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

RepeatMasker ile birlikte RepBase kitaplıklarını, özellikle de yeri değiştirilebilen öğeler için genom çapında tekrarlanan öğe ek açıklamaları almak için kullanıyorum.

Bu yeterince iyi çalışıyor ve görünüyor Bu alanda fiili standart olmak.

Ancak, RepBase kullanımıyla ilgili iki sorun var, bu yüzden ben (ve diğerleri) alternatifler arıyordum (şimdiye kadar başarılı olamadık):

  1. RepBase açık veri değildir. Akademik lisans sözleşmeleri, RepBase'den elde edilen verilerin yayılmasını açıkça yasaklayan bir madde içerir. Bunun ne ölçüde bağlayıcı / uygulanabilir olduğu açık değil, ancak kullandığım ve oluşturduğum verilerin en azından bir kısmının yayınlanmasını etkili bir şekilde engelliyor. Bu, açık bilim için kabul edilemez.

    • Buna bağlı olarak RepBase'in abonelik modeli, RepBase'i tam otomatikleştirilmiş ardışık düzenlere entegre etmeyi imkansız kılıyor çünkü kullanıcı etkileşimi gerekli. RepBase'e abone olmak ve oturum açma kimlik bilgilerini sağlamak için.
  2. RepBase büyük ölçüde manuel olarak seçiliyor. Bu hem iyi hemde kötü. İyi, çünkü sıra verilerinin manuel olarak iyileştirilmesi genellikle en güvenilir iyileştirme biçimidir. Diğer taraftan, manuel küratörlük doğası gereği önyargılıdır; ve daha da kötüsü, bu önyargıyı ölçmek zordur - bu RepBase yöneticileri tarafından kabul edilmektedir.

Sadece tanımlanmış tekrarlanan kütüphaneleri mi soruyordunuz? Bunu biraz daha geniş bir şekilde kitaplıkları oluşturmak için kullanılan araçlarla ilgili olarak yorumladım (bu, yeni taksonlardan genomlar sıralandığında alakalı hale gelir)
@Chris_Rands Her ikisi de (kitaplıklar ve araçlar). Cevabınız yerinde.
Amaç, açıklamalı tekrarlar kitaplığını oluşturmak mı, yoksa bir genomun tekrarlayan kısımlarını maskelemek mi?
@KamilSJaron TE'ler ile çalışıyorum, bu yüzden (yalnızca) tekrarlanan bir maskelenmiş sekans değil, açıklamalı kitaplığa ihtiyacım var.
Ouch, ancak TE'ler için yalnızca tekrar eden bölgelerin bir alt kümesi için, bunlara açıklama eklemek için özel araçlar vardır ([DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) ve [REPET] (https: //urgi.versailles gibi. inra.fr/Tools/REPET)). Belki soruda belirtebilirsiniz.
@KamilSJaron Nice ve bu bir cevaba değer olabilir. Ayrıca soruyu da güncelleyeceğim. Bununla birlikte, TE'lerin ötesinde tekrar eden unsurları da istiyorum.
Ayrıca RepBase'in, verilerine dayanarak bilgi türeten yayınlara karşı olduğuna emin misiniz? Sağladıkları ham verileri ve dosyaları paylaşmanızı istemiyor olabilirler. Farklı alanlarda çok sayıda alıntı yaptıkları için: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319
@story Link verdiğim akademik kullanıcı sözleşmesinde tam anlamıyla öyle söylüyorlar. İşte ilgili alıntı: "Repbase'i (veya Repbase Raporları, Repeat Maps ** ve diğer türetilmiş materyaller, değiştirilmiş olsun ya da olmasın ** da dahil olmak üzere herhangi bir bölümünü araştırma grubunuz dışındaki herhangi birinin kullanımına sunmamayı kabul ediyorsunuz.” Vurgu benim. Aslında, anlaşmadaki bir başka madde teknik olarak imzalamamı bile yasaklıyor çünkü enstitüm kamuya açık veri biriktirmeyi gerektiriyor, bu yüzden muhtemelen bu tür anlaşmaları imzalamama izin verilmiyor. "
Ya bu önceki ifademe katılıyor. Sanırım benim açımdan, veritabanlarından düşünülebilecek olan (orijinal gönderinize göre) tam olarak neyi paylaşmanız gerektiğidir? Bunun özelliklerin sayısını içermeyeceğini düşünüyorum, ancak diziler bir sorun olabilir.
@story Analizimde kullanılan / oluşturulan tüm verileri potansiyel olarak paylaşmam gerekiyor. Bu, özellikle RepBase'den türetilen, kullanılan spesifik tekrar açıklamasını ve bu tekrarlardan potansiyel olarak sekans verilerini içerir.
Bu eski bir soru olabilir, ancak birisi repBase'e yeni, açık, bir alternatif oluşturmaya çalışıyor (ki bu tamamen ticari olarak kar yağıyorum), ya da en azından ben öyle anlıyorum: https://twitter.com/ Değiştirilebilir Adam / durum / 1060519887897067521
Altı yanıtlar:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

Dfam kısa süre önce belirtilen amacı RepBase'in yerini almak olan Dfam_consensus adlı bir kardeş kaynak başlattı. Duyurudan:

Dfam_consensus, topluluğun hem çekirdek hizalamalarını (belirli bir aile için birden fazla örnek hizalaması) hem de karşılık gelen fikir birliği dizisi modelini depolaması için açık bir çerçeve sağlar.

Hem RepeatMasker hem de RepeatModeler, Dfam_consensus'u desteklemek için güncellendi.

Henüz denemedim ama umut verici görünüyor.

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

Önceden var olan güvenilir TE kitaplıkları için durum biraz karışıktır çünkü herkes türe özgü TE kitaplıklarını RepBase gibi bir veritabanına depolamaz. Ve bildiğim kadarıyla DFAM yalnızca insan kaynakları içeriyor mu yoksa yanılıyor muyum?

Türe özgü TE kitaplıklarının de novo oluşturulmasına gelince (bu, herhangi bir tür için yapılmalıdır) RepBase'de zaten mevcut değil): Bununla en iyi nasıl başa çıkılacağı konusunda "altın standart" diye bir şey yoktur. Prensipte iki ana parçayı düşünmek gerekir - tekrar algılama-ek açıklama

Tekrar için algılama İki şeyin bir arada kullanılmasını tavsiye ederim (bu gereklidir, çünkü tekrar eden bölgelerin montajı zor olduğundan ve son montajda atılmaya meyilli olduğundan TE kopyaları montajlarda kaybolabilir).

I) Ham okumalardan tekrar algılama (örneğin, DNApipeTE veya tedna veya RepeatExplorer ile olduğu gibi). Benim için DNAPipeTE oldukça iyi çalıştı, ancak her şeyin artıları ve eksileri var. II) Montajlardan tekrar algılama (ör. REPET'te veya RepeatModeler'den önce bahsedildiği gibi)

Sonra şu ek açıklama bu tekrarlar da aldatıcıdır, çünkü çoğu yöntem de novo TE'ler ile bazı (muhtemelen uzak) ilgili türlerin TE'leri arasındaki homolojiye dayanır. Ancak bazı programlar da yapıyı hesaba katar (REPCLASS gibi). REPET hem algılama hem de açıklama yapabilir, ancak çalıştırılması zor bir iştir.

İlgilendiğiniz türler üzerinde hem ham okumalarda hem de derlemede de novo tekrar tespiti yapmak için bazı programları kullanmanızı, bu kitaplıkları bir arada kümelemenizi (örneğin uclust ve% 95 özdeşlikle) ve ardından bir ek açıklama çalıştırmanızı öneririm Homoloji ve yapısal tanımlama ile.

Muhtemelen programlar size eksiksiz, tam uzunlukta TE 'leri değil, TE ailelerinden birkaç kopyadan oluşan konsensüs dizilerini verecektir. İsterseniz, bir ailenin tüm kopyalarını arayabilir, bunları komşuların artı sınırlarından çıkarabilir ve manuel olarak hizalayabilir ve sınırları manuel olarak düzenleyebilirsiniz. Ardından, LTR'ler veya TIR'ler gibi TE'lerin çevreleyen (hizalanamayan) bölgelerine veya yer işaretlerine çarpmıyorsanız sınırları genişletin. Ancak, örneğin türler arasında sadece TE bolluğunu karşılaştırmak istiyorsanız, bu çok zaman alıcıdır, bunu yapmam ve bolluğu okuma kapsamını kullanarak karşılaştırmak yerine ( Bast ve diğerleri 2016 'da olduğu gibi). Sormak istediğiniz tüm sorulara bağlıdır.

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

Sınırlı sayıda tür için (insan, fare ve sıçan dahil) tekrar kitaplıkları tanımlayan RepeatScout 'u kullanabilirsiniz. Taksonunuz temsil edilmiyorsa, RepeatMasker'ı beslemek için kendi kitaplığınızı oluşturmak için RepeatScout ile de novo tekrar tahmini yapabilirsiniz. RepeatScout yayını, RepBase ile bazı karşılaştırmalar içerir. İlgili diğer bir araç, RepeatScout'u RECON ve diğer bazı programlarla sarmalayan ve yazarları RepeatMasker ekibiyle paylaşan RepeatModeler 'dir.

Artı tarafta RepeatScout / RepeatModeler açık kaynaktır ve ölçütlerinizi karşılayan manuel iyileştirme kullanmaz. Negatif olarak, RepeatModeler ve bileşen araçlarının tam olarak nasıl korunduğundan emin değilim. RepeatScout web ve github sayfaları, RepeatModeler sayfasının en son sürümünün 2017'de olduğunu göstermesine rağmen birkaç yıldır güncellenmemiştir. Yine de, bazı oldukça yakın zamanda tekrarlara açıklama eklemek için bazı RepeatScout / RepeatModeler kombinasyonlarının kullanıldığını biliyorum. yeni dizilenen genomlar, ör. çiklitler, coelacanth ve Darwin ispinozu için, bu yüzden bu tür bir yaklaşımın sahada kabul edildiğini söylemek doğru olur, en azından omurgalı genom projeleri.

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK Dfam ve Repbase şu anda (çeşitli) TE dizilerinin en iyi iki kaynağıdır.

Genom ek açıklamalarımda RepeatModeler + RepeatMasker kullandım ve daha sonra Repbase + tblastx ve Dfam + nhmmer kullandım

Ardışık düzenim PhyLTR'deki ( https://github.com/mcsimenc/PhyLTR) sınıflandırma süreci Dfam ve Repbase'e dayanmaktadır. LTR tanımlama için kullandığım süreç

  1. LTRHarvest ile varsayılan kimlik (yapısal sıra özelliklerine göre)
  2. Repbase ve Dfam için homolojiye göre sınıflandırma
  3. Repbase veya Dfam'daki dizilere homolojisi olmayan öğelerin kaldırılması.

Bu, tam uzunlukta ve LTR-R olduklarına dair kanıtları olan bir dizi LTR-R ile sonuçlanır.

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

RepBase ile sorun almak için +1.

TEtoolkit ile birlikte sundukları Hammell Lab GTF'lerinden ek açıklamaları kullanıyorum. Kullanmak için tanımladığınız şeye benzer, bu yüzden bu gereksiz ve gereksiz bir cevap olabilir, ancak yaptığım kazıdan kapsamlı ve iyi seçilmiş gibi görünüyorlar (en azından Drosophila için).

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

Bu sorunun biraz eski olduğunu biliyorum, ancak bu hala birçok araştırmacı için RepBase'e erişemeyen bir sorundur. Görünüşe göre, RepeatMasker'ın en son sürümü, insan dışındaki herhangi bir şeyi maskeliyorsa tam işlevsellik için RepBase'e bağlı (şu anda DFAM'de yalnızca insan modelleri var). Yakın zamanda REpeat Detector (Kırmızı) adında bir de novo tekrar maskeleme yaklaşımı keşfettim. Bu, açıklama için bir genom derlemesindeki tekrarları maskelemek isteyenler için bir çözüm olabilir. Kağıt burada. Daha sonra, burada bulabileceğiniz bir genomu yumuşak maskelemeyi biraz daha kolaylaştırmak için Red'in etrafına bir sarmalayıcı da yazdım.

Red ile ilgili sınırlamalardan biri, tekrarların sınıflandırılmaması, dolayısıyla sadece tanımlanmasıdır. Bunları sınıflandırmaya çalışmak için yukarıda bahsedilen diğer araçlardan bazılarını kullanmanız gerekir.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...