Soru:
VCF'de bir haplotip bloğunun END'i nasıl belirtilir?
Dan
2017-12-19 16:32:48 UTC
view on stackexchange narkive permalink

VCF'de, örneğin ardışık "0 | 1" ve "1 | 0" genotip alanlarını kullanarak iki genotipin aynı fazda olduğunu nasıl belirteceğimi biliyorum. Bununla birlikte, ilk iki genotipin fazda ve ikinci 2'nin fazda olması, ancak 2. ve 3. arasında faz olmaması durumunu nasıl ele alacağım?

Sanırım formata göre yazmanız gerekiyor:

  chr1 100. A T. . . GT 1 | 0chr1 200. A T. . . GT 0 | 1chr1 300. A T. . . GT 1 | 0chr1 400. A T. . . GT 0 | 1  

ancak bu, 200’deki SNP ve 300’deki SNP’nin fazda olduğu anlamına gelir, aslında değiller.

Nasıl belirtilir VCF'de bir haplotip bloğunun SONU?

üç yanıtlar:
gringer
2017-12-20 00:24:29 UTC
view on stackexchange narkive permalink

VCF spesifikasyonuna göre, haplotip blokları "Faz Kümesi" [PS] etiketi ile tanımlanır:

PS: faz seti. Bir faz kümesi, bu genotipin ait olduğu bir dizi aşamalı genotip olarak tanımlanır. Aynı kromozomda bulunan ve aynı PS değerine sahip bir birey için aşamalı genotipler aynı aşamalı kümede bulunur. Bir faz seti, setteki fazlı genotipler için çoklu markör haplotiplerini belirtir. Bir PS alt alanı içermeyen tüm aşamalı genotiplerin aynı aşamalı kümeye ait olduğu varsayılır. GT alanındaki genotip aşamalı değilse, ilgili PS alanı göz ardı edilir. Önerilen kural, setteki ilk varyantın konumunu PS tanımlayıcısı olarak kullanmaktır (bu gerekli olmasa da). (Negatif olmayan 32-bit Tam Sayı)

Bunun güzel bir örneği, aşamalandırma hakkında bir 10X Genomics destek sayfasında bulunabilir:

  CHROM Pos REF ALT GT PSchr1 1000 AC 0 | 1 1000chr1 1010 TG 1 | 0 1000chr1 2000 CT 0 | 1 2000chr1 2005 TG 0/1 2000chr1 2008 GC 0 | 1 2000  

Bu örnekte, PS = 1000 ve PS = 2000 ile gösterilen iki faz bloğumuz var. PS = 1000, 1000-1010 konumuna yayılır ve PS = 2000, 2000-2008 konumuna yayılır. PS = 1000'de, haplotip 1, pozisyon 1000'de REF A aleli ve pozisyon 1010'da ALT G alel içerirken, haplotip 2, pozisyon 1000'de ALT C aleli ve pozisyon 1010'da REF T alel içerir.

Bu faz seti tanımlayıcısının tek bir sayısal değer olması gerektiğini unutmayın; bu, alt blokların ve üst üste binen blokların bu alan tarafından tanımlanamayacağı anlamına gelir.

caw5cv
2017-12-19 20:05:33 UTC
view on stackexchange narkive permalink

Ardışık düzende neyi başarmayı umduğunuza bağlı olarak, hemen aklınıza gelen iki seçenek: aşamasız siteleri "|" yerine "/" ile işaretleyebilirsiniz. aşamalı olmadıklarını belirtmek için; veya, hepsi birbirinden bağımsız birden fazla haplotip bloğunuz varsa, kromozom alanını her bir benzersiz haplotipi tanımlamak için kullanabilirsiniz (örneğin, chr1h1, chr1h2, chr2h1, chr2h2, vb.).

everestial007
2018-03-08 03:56:35 UTC
view on stackexchange narkive permalink

"Aşamalı haplotip / genotip bloğunu" benzersiz blok kimliğiyle rapor etme konusunda yeni bir fikir var.

fazer "PI" (benzersiz faz endeksi) ve " PG "(aşamalı genotip).

GATK, bu "benzersiz blok" ve "aşamalı genotip" fikrini de kullanıyor; "HP" etiketine bakın.

Kişisel olarak, "fazer" temsilinin çok daha iyi ve kapsamlı olduğunu düşünüyorum.

Verilerinizi şu şekilde temsil ederim :

  chr1 100. A T. . . GT: PI: PG 1/0: 3: 1 | 0chr1 200. A T. . . GT: PI: PG 0/1: 3: 0 | 1chr1 300. A T. . . GT: PI: PG 1/0: 4: 1 | 0chr1 400. A T. . . GT: PI: PG 0/1: 4: 1 | 0  

burada ilk iki satır, birbirleriyle aşamalı olduklarını belirten aynı "PI" (yani 3) 'e sahiptir. Başka bir "PI" (yani 4) olan sonraki iki satırla aynı.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...