Soru:
Bowtie2 için bir referans Genomu indirme
EMiller
2017-06-01 03:56:27 UTC
view on stackexchange narkive permalink

Bowtie2 ile kullanabileceğim bir referans genomu nasıl indirebilirim? Özellikle HG19. UCSC'de birçok dosya seçeneği vardır.

Iki yanıtlar:
#1
+11
Konrad Rudolph
2017-06-01 14:38:53 UTC
view on stackexchange narkive permalink

Sanırım bu bir tercih meselesi ama Ensembl yapılarını tavsiye ediyorum. Üst seviyeyi mi yoksa birincil montajı mı istediğinize ve yumuşak maskeli, tekrar maskeli veya maskesiz dosyalar isteyip istemediğinize karar verin. Adlandırma şeması çok basittir; kombinasyonlar README dosyasında açıklanmıştır ve tüm dosyalar tek bir dizinde bulunur.

Örneğin, eğer maskelenmemiş birincil derleme istiyorsanız, indirilecek dosya Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz olacaktır.

GoldenPath / UCSC , ayrı kromozomları indirmeye ve birleştirmeye gerek yoktur (diğer cevabın söylediğinin aksine); bigZips dizininden tüm (üst düzey) referansı indirebilirsiniz; README:

adresinden

Bu dizin, insan genomunun Şubat 2009 montajını içerir (hg19, GRCh37 Genom Referans Konsorsiyumu İnsan Referansı 37 (GCA_000001405.1)), ek açıklamalar ve GenBank dizilerinin yanı sıra.

Burada esasen üç seçenek vardır:

  1. chromFa.tar.gz , dosya başına bir kromozomdaki tüm genomu içeren;
  2. chromFaMasked.tar.gz , N ile maskelenen tekrarlarla aynı;
  3. hg19.2bit , tek bir dosyadaki tüm genomdur, ancak ayrı olarak indirilmesi gereken twoBitToFa yardımcı programı kullanılarak çıkarılması gerekir.

Her durumda, her zaman referansı indiririm ve haritalama için kendi dizinimi oluştururum, çünkü bu bana daha fazla kontrol sağlıyor; Herkesin bu kadar kontrole ihtiyacı olmayabilir, ancak bu durumda dizini bir kez oluşturmak zaten oldukça hızlıdır.

Sanırım bu, "aynı genom yapısının farklı versiyonları arasındaki fark nedir?" Sorusunu tetikliyor. Sorunun cevabı, DNA ve RNA sekansı / fonksiyonel genomik analizi arasındaki farkı içermelidir. DNA / varyant dünyasında, insanlar genellikle büyük sıralama projeleri / Heng Li'nin "en iyi" olduğuna karar verdiklerine sadık kalacaklardır. RNA sekansı / fonksiyonel genomik dünyasında, okuma eşleştiricisine ve ayrıca aşağı akış araçlarının neyi desteklediğine bağlı olarak genomların dikkatli bir şekilde oluşturulması önemlidir (daha büyük araçlar, kendine özgü gereksinimleri olan daha az kullanılan araçların daha uzun kuyruğu anlamına gelir).
#2
+9
Manuel
2017-06-01 04:21:54 UTC
view on stackexchange narkive permalink

tl; dr: Yalnızca Bowtie2 ana sayfasındaki indirmeleri veya Illumina iGenomes ’u kullanın. Veya UCSC goldenpath'te bulunan FASTA dosyalarını açıp birleştirin ve ardından dizini oluşturun.

Biraz daha uzun yanıt:

" "Bowtie veya BWA gibi" bir okuma eşleyicisi için genom.

Öncelikle, gerçek diziyi seçmeniz gerekir (GRCh37 / hg19 veya GRCh38 / hg38 gibi genom salımı). GRCh37.p3 gibi bazı bazların değiştirilebileceği ve sürüme bağlı olarak bazı "eşlenmemiş" lokus kontiglerinin eklenebileceği, ancak genel olarak GRCh37.p1, kabaca GRCh37.p2 ile aynıdır. Genellikle, insanlar her okuma için belirli bir yama sürümü üzerinde anlaşmışlardır ve bunu okuma haritalama için kullanırlar.

Genel olarak, UCSC çeşidi hg19 / hg38 vb. Ve NCBI / GRC çeşidi GRCh37, GRCh38 vb. (fareye benzer). UCSC'nin genom yayınından başka versiyonlama yoktur ve (bildiğim kadarıyla) bir hg19 FAŞTA dosyası yayınladıktan sonra genom dizisini güncellemez.

İkinci olarak, her genom için dizin dosyalarını oluşturmanız gerekir. Kullandığınız okuma eşleştiricisine bağlı olarak, hizalama için orijinal FAŞTA dosyalarına ihtiyacınız olabilir veya olmayabilir. Bowtie ve Bowtie 2 için, dizini oluşturduktan sonra orijinal FAŞTA dosyalarına ihtiyacınız yoktur çünkü Bowtie 1/2, dizini dizin dosyalarından "anında" yeniden oluşturabilir.

HTH

Papyon ana sayfasındaki indirmeyi nasıl kaçırdığımı bilmiyorum. Umarım bu başka birine yardımcı olur!


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...