Soru:
Büyük çeşit mağazaların durumu, sınırlamaları ve karşılaştırmaları
agapow
2017-05-22 21:14:17 UTC
view on stackexchange narkive permalink

Arka plan: Pek çok konuyla ilişkili çok sayıda değişken veriyi depolamanın bir yoluna giderek daha fazla ihtiyacımız var: Hastalığa neden olan veya ilgili genleri arayan klinik deneyleri ve hastane hastalarını düşünün. Başlayacağımız yer bin konu, ufukta milyonlarca konu var. Çeşitli genomik tıp girişimleri söz konusu olduğunda, bu muhtemelen daha geniş bir ihtiyaçtır.

Sorun: Piyasada çok sayıda platform varken, bu hızla gelişen bir alandır. Nasıl performans gösterdiklerini (ve yapıp yapmadıklarını) ve birbirleriyle nasıl sıralandıklarını anlamak zordur:

  • Ölçeklenebilir olan ve birçok veriyi idare edebilen nedir? Ne tür sınırlar var?
  • Sağlam olan ve birbirine karıştırılmış bileşenlerden oluşan bir yığın değil?
  • Arkasında büyük bir topluluk olan ve aslında yaygın olarak kullanılan nedir?
  • Başka bir hizmetten erişimi ve aramayı kolaylaştıran nedir? (Komut satırı, REST veya yazılım API'leri)
  • Ne tür varyantları işliyorlar?
  • Aramada ne tür parametreler kullanılabilir?

Şimdiye kadar gördüğüm çözümler:

  • BigQ: i2b2 ile birlikte kullanıldı, ancak daha geniş kullanımı net değil
  • OpenCGA: en gelişmiş görünüyor, ancak tükürdüğü verilerin boyutuyla ilgili şikayetler duydum
  • Bir Google Genomics db yerine BigQuery kullanmak: genel bir çözüm gibi görünmüyor
  • Gemini: önerilir, ancak gerçekten ölçeklenebilir ve diğer hizmetlerden erişilebilir mi?
  • SciDb: ticari bir genel db
  • Ayva
  • LOVD
  • Adam
  • DIVAS & RVD hangi platformda çalışırsa çalışsın: ücretsiz olarak kullanılamayabilir
  • Çeşitli grafik / grafik genom çözümleri: Biz (ve diğer birçok insan) Muhtemelen şu anda grafik genom verileriyle uğraşmıyorlar, ancak bu olası bir çözüm mü?
  • Kendi kararınızı verin: Sıkça tavsiye edilir, ancak bu büyük bir veri kümesi için makul bir çözüm olduğundan şüpheliyim.

Tecrübesi olan herkes bu platform alanı için bir inceleme veya üst düzey rehberlik veriyor mu?

Benim iki sentim: MongoDB'yi basit bir REST çerçevesi içinde kullanın. Esnek model ve sorgulara izin verir ve tek bir düğümde milyarlarca kayda ölçeklenmelidir. Şu anda bunun için bir FLOSS projesi üzerinde çalışıyoruz, ancak henüz üretime hazır değil.
@woemler Diğer yaklaşımlarla karşılaştırıldığında nasıl? 5 yıl önce 1000g genotipte MongoDB'yi denedi. MongoDB'nin paralel sorgularda bcf2'den 10 kat daha yavaş olduğunu ve disk / bellek ayak izinin çok daha büyük olduğunu söyledi. Bununla birlikte, o zamanlar MongoDB'de yeniydi ve bunu en uygun şekilde yapmıyor olabilir.
@user172818: MongoDB'nin (3.2+) yeni sürümleri, birkaç yıl önceki sürümlerden önemli ölçüde daha hızlıdır. Bunu diğer ücretsiz RDBMS'lerle karşılaştırdım ve tipik olarak, özellikle değişken çağrıları gibi karmaşık veri gösterimleri için olduğu kadar veya daha iyi performans gösteriyor.
Verileri burada depolamak daha mı önemli, yoksa verilerle ilgili istatistikleri işlemek (Python, R, vb .. kullanarak) daha mı önemli?
@macgyver: iyi gözlem. Veriler - sözde insanlar özet istatistiklere ve analizlere bakmak yerine verileri araştırmak ve sorgulamak isteyecek.
Bir cevap:
#1
+13
user172818
2017-05-23 03:13:53 UTC
view on stackexchange narkive permalink

Destansı bir soru. Maalesef, kısa cevap: hayır, yaygın olarak kullanılan çözümler yok.

Birkaç bin örnek için, VCF'nin ikili temsili olan BCF2 iyi çalışmalıdır. Bu ölçekte yeni aletlere ihtiyaç olduğunu görmüyorum. Daha büyük bir örneklem boyutu için, ExAC çalışanları kıvılcım bazlı dolu kullanıyor. Genotiplere ek olarak örnek başına tüm açıklamaları (GL, GQ ve DP gibi) tutar. Dolu, şimdiye kadar çoğunlukla birkaç grup tarafından olsa da, en azından pratikte yoğun bir şekilde kullanılan bir şey.

Daha basit bir sorun, yalnızca genotipleri saklamaktır. Bu, son kullanıcıların çoğu için yeterlidir. Genotipleri depolamak ve sorgulamak için daha iyi yaklaşımlar vardır. Gemini ekibi tarafından geliştirilen GQT, numunelerin hızlı bir şekilde sorgulanmasını sağlar. Belirli genotip konfigürasyonları altında hızlı bir şekilde numune almanıza olanak sağlar. Hatırladığım kadarıyla, GQT, PCA yapmak için google genomics API'sinden daha hızlıdır. Diğer bir araç da BGT'dir. Çok daha küçük bir dosya oluşturur ve siteler üzerinden hızlı ve rahat sorgular sağlar. Makalesi, ~ 32 bin tüm genom örneğinden bahsediyor. GQT ve BGT gibi özelleşmiş ikili formatların genel veritabanları üzerine kurulu çözümlerden daha hızlı olduğuna inanan kamptayım. Yalnızca genotipleri sorgulamak istiyorsanız, bir göz atmanızı tavsiye ederim.

Intel'in GenomicDB'si soruna farklı bir açıdan yaklaşıyor. Aslında dahili olarak bir "karesi" çok örnekli VCF tutmaz. Bunun yerine, örnek başına genotipleri / ek açıklamaları tutar ve anında birleştirilmiş VCF oluşturur (bu benim anlayışım, yanlış olabilir). GenomicDB ile ilk elden deneyimim yok, ancak bu çizgideki bir şeyin 1M numuneleri çağında nihai çözüm olması gerektiğini düşünüyorum. GATK4'ün onu bir adımda kullandığını biliyorum.

Listenizdeki diğerlerine gelince, Gemini o kadar iyi ölçeklenmeyebilir, sanırım. Kısmen GQT üzerinde çalışmanın nedeni budur. En son kontrol ettiğimde BigQuery tek tek genotipleri sorgulamadı. Yalnızca site istatistiklerini sorgular. Google genomics API'leri bireysel genotiplere erişir, ancak bunun performanslı olabileceğinden şüpheliyim. Adam denemeye değer. Yine de denemedim.

Dolu için +1, bu noktada açıkça Doğru Cevap
BigQuery'yi kullanarak ayrı genotipleri sorgulayabilirsiniz. Bu noktada en büyük zorluk, analiz yapmak için kendi sorgularınızı yazmak zorunda kalmaktır.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...