Soru:
CRAM'den aradığınızda değişken aramalar değişir mi?
morgantaschuk
2017-06-08 19:54:57 UTC
view on stackexchange narkive permalink

Depolama biçimimizi BAM'den CRAM'e geçirmeyi düşünüyoruz. Çok düşük yaygınlık varyantlarına sahip olabilen (yani diploid frekansı olmayan) insan kanser numuneleriyle çalışıyoruz.

Daha fazla alan kazanmak için kayıplı CRAM kullanırsak, bu CRAM dosyalarından çağrılan varyantlar ne kadar değişecek? Hangi sıkıştırma stratejisi en düşük etkiye sahiptir?

Sonraki araçlar üzerinde düşünmediğimiz başka etkiler var mı?

CRAM'in kayıplı olması ** gerekmez, olması için bir sebep var mı?
Disk alanı tasarrufu. GB'ye göre ödeme yapıyoruz ve verileri 10 yıl boyunca tutmamız gerekiyor.
Bütçenin iyi bir neden olmadığı söylenemez :)
İlginç soru. Bence bu güzel bir yan proje yapan türden bir şey. Bir bam dosyası alın, varyantları çağırın, onu tıka basa dönüştürün ve varyant arayanı çalıştırın. Bir dizi farklı dosya kullanarak iki yaklaşım arasındaki farkı ve varyant uyumunu ölçün.
Verilerin mutlak bütünlüğü / yeniden üretilebilirliği konusunda endişeleriniz varsa, bütçenin dikkate alınması iyi bir neden değildir.
Cevap şu değilse: bazı kayıplı sıkıştırma türlerinin değişken çağrıları üzerinde herhangi bir etkisi yoktur.
BAM dosyaları standart gzip sıkıştırmasıyla sıkıştırılır. Onları "benim terminolojim değil" "çıplak BAM" olarak açın ve 7zip / LZMA gibi daha güçlü bir şeyle yeniden sıkıştırın. Yeniden gerçek BAM formatında geri ihtiyacınız olduğunda, her zaman bgzip aracıyla yeniden sıkıştırabilirsiniz. Bu, formatı gerçekten değiştirmeden dosya boyutu açısından size yolun çoğunu götürür, bu da işleri istediğiniz gibi ayarladıysanız iyi olabilir. Cevap değil çünkü sorunuza cevap vermiyor ama probleminizi çözebilir.
Iki yanıtlar:
user172818
2017-06-08 21:20:00 UTC
view on stackexchange narkive permalink

Varsayılan olarak, samtools ile oluşturduğunuz bir CRAM kayıpsızdır. Genellikle, dosya boyutu açısından giriş BAM'sini yarıya indirir. Daha fazla sıkıştırmak istiyorsanız, samtools'un çoğu okunan adı tamsayılara dönüştürmesine izin verebilirsiniz. Optik kopyaları okunan adlardan ayırt edemezsiniz, ancak bu küçük bir endişe kaynağıdır. Eşleştiricinize ve kullanımda olan aşağı akış arayana bağlı olarak işe yaramaz etiketleri de bırakabilirsiniz. Kanser verileri için, kapsamlı kıyaslamalar olmadan temel kalitenin çözünürlüğünü azaltmam. Ne yazık ki, temel kalite CRAM'de yer kaplar. Orijinal okuma adlarını ve bazı etiketleri atmak muhtemelen size fazla yer açmayacaktır.

Bunların tümü, bilgi kaybetmeden dosya boyutunu küçültmek için harika önerilerdir, ancak ana soruyu ele almayın: kayıpların değişken aramalar üzerindeki etkisi.
@DanielS Bazlara, niteliklere ve isim eşleştirmeye dokunmazsanız, değişken çağrılarını değiştirmezsiniz.
Evet, ama o zaman bu gerçekten kayıp değil, değil mi? Kayıplı sıkıştırma, daha yüksek sıkıştırma verimliliği için geleneksel olarak sekansın ve / veya kalite değerlerinin değiştirilmesini içermez mi?
Bu, "kayıplı" nın tanımına bağlıdır :) Bana göre, okunan adları ve etiketleri kaybetmek kayıptır.
¯ \\ _ (ツ) _ / ¯ Sıra ve kalite değişmezse aramaların değişmemesi gerektiğini kendiniz söylediniz. Yani diğer her şey yardımcıdır. Beni yanlış anlamayın, sırayı veya kaliteyi değiştirmeden dosya boyutunu küçültmenin mümkün olduğunu belirtmenin değerli olduğunu düşünüyorum, ancak OP'nin dizinin ve / veya kalite puanlarının kayıplı sıkıştırılmasından bahsettiği bana oldukça açık geldi. .
Yine, bu yanıt "Hangi sıkıştırma stratejisi en düşük etkiye sahiptir?" Sorusuna makul bir yanıttır. Tamam, hepsini geri alıyorum! :-)
chrisamiller
2017-06-09 21:28:26 UTC
view on stackexchange narkive permalink

Ana sorun, her zaman CRAM sıkıştırması yoluyla meydana gelen kalite puanlarının "gruplanması" olmuştur (ve ayrıca HiSeqX, HiSeq4000 ve NovaSeq platformlarında standarttır). Anekdot olarak, 4 bin kalite puanları ile kanser numunelerindeki tam kalite puanları arasında çok az fark olduğunu bildirebilirim, ancak doğrudan birebir karşılaştırma görüp görmediğimi bilmiyorum.

+1. Meslektaşlarım, 4 kutunun * germ hattı * örnekleri üzerinde çok az etkisi olduğunu göstermek için bazı kıyaslamalar yaptı. Ben benzerini gördüm. Yine de kanser örnekleri beni her zaman ihtiyatlı yapar. Birinin kanser örnekleri üzerinde sistematik bir değerlendirme yapması harika olurdu. Şimdiye kadar görmedim.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...