Ek açıklama biçimi tasarımı

Daniel Standage

2017-06-08 12:06:30 UTC

view on stackexchange narkive permalink

Dosya formatlarına darbe vurmak, biyoenformatikte favori bir eğlencedir ve GFF ve BED gibi ek açıklama dosya formatları özel ilgi görüyor gibi görünüyor. Bu hayal kırıklığının çoğu, topluluğun şartnamelere ve kurallara şok edici derecede tutarsız bağlılığından kaynaklanıyor, ancak bu formatların her birinde bazı (nesnel olarak söylemeye cesaret ediyorum) sorunlu tasarım seçenekleri de var.

GFF (ve daha yaygın türevleri GTF ve GFF3), 1 tabanlı kapalı aralık gösterimini kullanır; bu, insan kavrayışını optimize eder, ancak aralık aritmetiğini içeren hesaplamalar için 0 tabanlı yarı açık aralık gösteriminden (BED tarafından kullanıldığı gibi) çok daha düşüktür.
BED ve GTF çok özel kullanım durumları için tasarlanmış olsalar da (sırasıyla görselleştirme ve gen tahmini), çok daha geniş bir bağlamda kullanılmış ve kötüye kullanılmıştır. Örneğin, kalın kısım ile ilgili BED alanları, onları bir genom tarayıcısında çizmiyorsanız alakasızdır.
BED, tek bir özellik ayrıştırma seviyesi (bir özellik bloklara bölünebilir). GTF iki seviyeyi destekler (transkript_id ile gruplandırılan eksonlar, gen_id ile gruplanan transkriptler). Buna karşılık, GFF3, rastgele sayıda düzeyi destekler ve özelliklerin yönlendirilmiş döngüsel olmayan grafiğini bildirmek için ID ve Parent öznitelikleri tarafından tanımlanan üst / alt ilişkilerini kullanır.
Zorunlu önceden tanımlanmış alanlara uymayan veriler, isteğe bağlı alanlara veya serbest biçimli öznitelik anahtar / değer çiftlerine yerleştirilmelidir. Bu esneklik güçlü olsa da, yaygın bir şikayet, bu isteğe bağlı / serbest biçimli alanlarda "tüm eylemin" gerçekleşmesidir.
Doğrulama araçları konusunda bir eksiklik vardır ve var olanlar, anlambilimin değil, sözdiziminin doğrulanmasına odaklanır. Eskiyen bir analoji kullanmak için, bir XML dosyasının geçerli olduğunu söylemek bir şeydir, ancak onu bir şemaya göre doğrulamak tamamen farklıdır. Esasen, ek açıklama dosyaları için ikincisini yapan yaygın olarak kullanılan hiçbir araç yoktur.

Yeni bir ek açıklama formatı oluşturma görevi alsaydık ve bunu yapmak için gereken kaynaklar garanti edilseydi geliştirin ve daha geniş topluluktan ilgi ve geniş çapta benimseme (hayal edebilirsiniz!), bu yeni formatın geliştirilmesinde hangi tasarım kriterleri dikkate alınmalıdır? Nesnel olarak iyi bir ek açıklama veri biçimini oluşturan şey nedir?

Sadece genomik özellikleri açıklayan bir format mı soruyorsunuz? "Ek açıklama" çok geniş bir terimdir, ancak burada yalnızca genomik bölgeleri veya en azından i) tanımlanmış bir "bölge" ve ii) tanımlanmış bir "işlevi" olan şeyleri düşündüğünüz gibi görünüyor. Bu yine de proteinler için fenotip açıklamalarını veya genler için GI açıklamalarını vb. Hariç tutar. Ne tür "ek açıklamaları" düşündüğünüzü [düzenleyebilir] ve açıklayabilir misiniz?

AutoSql'in BED konsepti, bir açıklama formatının oldukça hoş bir özelliğidir ve birçok genişletilebilirliğe izin verir. Özellik hiyerarşisi kavramı hala temelde tek seviyelidir