Soru:
Bir insan genomunun VCF'si verildiğinde, kaliteyi bilinen SNV'lere karşı nasıl değerlendirebilirim?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Sahip olduğum insan genomuna ait bir VCF'nin kalitesini kontrol etmek için araçlar arıyorum. VCF'yi diğer insan genomlarında herkes tarafından bilinen varyantlara karşı kontrol etmek istiyorum, ör. Ekleme / silme işlemlerinin bilinen konumlarda, ekleme / silme uzunluğu dağılımı, diğer SNV'ler / SV'ler, vb. olsun, halka açık veritabanlarında halihazırda kaç SNP var? İnsan alt popülasyonlarına göre bilinen SNP'leri ve InDel'leri kontrol etmek için önceki projelerden kaynaklar olduğundan şüpheleniyorum.

Bunun için hangi kaynaklar var ve bunu nasıl yaparım?

üç yanıtlar:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Hedeflerinize (en azından bazılarına) ulaşmak için, Variant Effect Predictor (VEP) 'i tavsiye ederim. Bir girdi .vcf dosyasında çeşitli türlerde ek açıklamalar sağlayan esnek bir araçtır. ExAC'ın, kodlama bölgelerindeki insan genetik varyasyonu için fiili altın standart katalog olduğunu kabul ediyorum. Varyantların global alt popülasyona göre frekans dağılımını görmek için 1000 genoma ek olarak "ExAC alel frekanslarının" kontrol edildiğinden emin olun. VEP ExAC

Web tarayıcısında çıktı: VEP_ExAC_res

Ek açıklamalı .vcf dosyasını indirirseniz, frekanslar INFO alanında olacaktır:

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Ensembl VEP'den sonuç ek açıklamaları. Biçim : Alel | Sonuç | ETKİ | SEMBOL | Gene | Özellik_türü | Özellik | BİYOTİPİ | EXON | INTRON | HGVSc | HGVSp | cDNA_position | CDS_position | Protein_position | Amino_acids | Kodonlar | Varolan_variation | TSİF_KİMLİĞİ | SEMBOL | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF_ ExAC_OTH_ | EXAC_FIN_AF | 

Daha önce bahsedilen Annovar ayrıca ExAC alel frekansları ile açıklama ekleyebilir. Son olarak, en yeni tüm genom kaynağı olan gnomAD 'dan bahsetmelisiniz.

Çok güzel bir öneri. Anladığım kadarıyla ExAC yaklaşık olarak. 123K ekzomlar ve gnomAD şu anda yaklaşık 15 bin genoma sahip
Bunların hepsi harika cevaplar, ancak bu topluluğun favorisi gibi göründüğü için, "cevap" olarak işaretleyeceğim. Ama gelecekteki okuyucular: lütfen diğerlerine bakın!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

En büyük protein kodlama varyant kataloğu kesinlikle ExAC 'dir (> 65.000 birey). Ayrıca, makaledeki rakamların nasıl yeniden üretileceğini açıkladıkları bir blog yayını da yayınladılar (veri kümesine nasıl aşina olunacağı iyi bir başlangıçtır).

Bütün için -genom varyantları 1000 genom projesi tarafından oluşturulan verilere bakardım (son sürümde 3 binden fazla birey var). Entegre varyant çağrı setleri, portal ve SV kataloğu burada bulunabilir olsa da indirilebilir.

Bu kağıt (ayrıca 1000 genom projesi) SV arayıcıları tarafından SV'lerin kesin olmayan yerleştirilmesinden bahsediyorlar. Genomunuzun bilinen varyantlarla karşılaştırılması için bunu aklımda tutarım.

Yardım için teşekkürler. Gereken perl betiğini tanımlayan "guide" daki köprü beni biraz karıştırıyor. Bu komut dosyasını kullanarak, bu ~ 2.5K'lık birleştirilmiş bireylerden bir VCF oluşturacaktır.
Komut dosyası [VCFtools] 'un (http://vcftools.github.io/) bir parçasıdır, onu kaynak kodu yerine paketin kılavuzuna bağlar, yalnızca komut dosyasını indirmek için değil, paketi de yüklemeniz beklenir. Ayrıca galeride bir portal başlattıklarını fark ettim, bu yüzden cevabı düzenledim.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

Yapabileceğiniz en iyi şey, size VCF'nizde bulunan varyantların eksiksiz bir ek açıklamasını sağlayan programları kullanmaktır. snpEff ve Annovar iki örnek. Bu programlar, bilinen varyantlar üzerinde çalışır ve size dosyanızdaki her öğe hakkında bilgi sağlar. Bu, her varyantın etkilerini anlamaya çalışmak için daha sonra filtreleyebilirsiniz.

Artık oldukça havalı olan ANNOVAR ile gnomAD'e erişim var.


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...