Biyoinformatik | Local-Global Hizalama, PAM-BLOSUM

En son güncellendiği tarih: Oca 30


Ayşegül MURAT - Ege Üniversitesi Sağlık Biyoinformatiği A.B.D., Doktora Öğrencisi

Bir gen veya proteinle ilgili en temel sorulardan biri, başka bir gen veya proteinle ilişkili olup olmadığıdır. İki proteinin sekans seviyesindeki ilişkisi, homolog (ortak bir evrimsel atayı paylaşıyorsa iki dizi homologdur) olduklarını ve ortak işlevlere sahip olabileceklerini gösterir. DNA ve protein dizi analiziyle bir grup molekül arasında paylaşılan alanları veya motifleri belirlemek mümkündür. Protein dizisi hizalanması, bir DNA dizisindekinden daha bilgilendiricidir. [1] Bunun nedenlerinden 1.cisi, DNA sekansındaki (özellikle bir kodonun üçüncü pozisyonundaki) birçok değişiklik, belirtilen amino asidi (AA) değiştirmez. 2.cisi olarak birçok AA ilgili biyofiziksel özellikleri paylaşır (örn, lizin ve arginin temel amino asitlerdir). [1]


En Uzun Ortak Altdizi (Longest Common Subsequences)


Benzerlik analizinin en basit halidir. Yalnızca baz ya da amino asitler için eklemelere (insertions) ve silmelere (deletion) izin verilir. Bir v dizisinin alt dizisi (sunsequence) basitçe (sıralı) bir v’den gelen bir karakter dizisidir. Örneğin, v = ATTGCTA ise AGCA ve ATTA v’nin alt dizileriyken, TGTT ve TCG alt dizisi değildir. Burada önemli olan alt dizinin ana diziye soldan sağa baz silinmesi veya eklenmesiyle uyumlu olmasıdır. 5’ – 3’ okuma gibi düşünebiliriz. Bir ortak alt dizi (common subsequences) iki ayrı dizininde alt dizisidir. Örneğin TCTA, ATCTGAT ve TGCATA dizileri için bir alt dizidir. [2]


S(v,w)’nin v ve w’nin en uzun ortak alt dizisinin uzunluğu olmasına izin verirsek, v ve w arasındaki düzenleme mesafesi (yalnızca eklemelere ve silmelere izin verildiği varsayımında) d(v,w) = n + m - 2s(v,w) ve v’yi w’ye dönüştürmek için gereken minimum ekleme ve çıkarma sayısına denk gelir. Şekil 1’de v=ATCTGAT ve w=TGCATA dizeleri için 4 uzunluğunda LCS’yi ve v’yi w’ye dönüştüren en kısa iki ekleme ve üç silme dizisini (şekilde “-” ile gösterilmiştir) göstermektedir. Şekil 1’deki sol görselde dinamik programlama tablosu, v ve w arasındaki benzerlik puanının (v,w) hesaplamasını gösterirken, sağdaki tablo ise izin verilen ekleme ve silme işlemleri olduğu varsayımı altında v ve w arasındaki düzenleme mesafesinin hesaplamasını gösterir. [2]


Şekil 1: En uzun ortak alt diziyi hesaplamak için dinamik programlama algoritması. [2]


Global Sekans Hizalaması (Global Sequence Alignment) Needleman-Wunsch


Needleman-Wunsch (1970) global hizalama olarak da bilinen bu hizalama yöntemi, belirli bir puanlama matrisini seçmek ve ardından yeniden düzenlenmiş bir hizalama problemini çözmek yerine, puanlama matrisini girdi olarak alan genel yöntemdir. Global hizalama problemi iki dizinin tamamı arasında benzerlik arar ve dizilerin optimal bir hizalanmasını üretir. Üç adımda tanımlanabilir: 1. bir matris kurma; 2. matrisin puanlanması; 3. optimal hizalanmanın belirlenmesi. [1,3] Dizler arasındaki benzerlik çok uzun olduğunda, genellikle meyve sineklerinden insanlara kadar değişen organizmalarda neredeyse aynı uzunluğa sahip olan çok korunur proteinlerinin analizinde kullanılır. Burada ilk aklımıza gelen protein dizileri için PAM ve BLOSUM olan ortak evrimsel matrisler olacaktır. Evrimsel olarak ilişkili protein dizilerinde amino asit x’in amino asit y’nin yerini alma sıklığını yansıtırken, nokta kabul edilen mutasyonunda PAM (Point Accepted Mutations) ve blok ikame (block substitution) BLOSUM matrisleriyle ifade edilir. DNA dizisi karşılaştırması için puanlama matrisleri genellikle uyumsuzluk cezası (mismatch penalty) ve indel cezası (indel penalty) parametreleri ile tanımlanır. [1,2]



Şekil 2: PAM250 için log orantılı matris. Yüksek PAM değerleri (örneğin, PAM250) çok ıraksak dizileri hizalamak için kullanışlıdır. İkili hizalama, çoklu dizi hizalama ve veri tabanı arama (ör. BLAST) için çeşitli algoritmalar, PAM250, PAM70 ve PAM30 gibi çeşitli PAM matrislerini seçmenize olanak tanır. NCBI, ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/ adresinden uyarlanmıştır. [1]


PAM ve BLOSUM

Dayhoff ve meslektaşları, iki homolog protein dizisi hizalandığında hangi spesifik amino asit değişimlerinin meydana geldiği sorusunu cevaplamak için kabul edilen nokta mutasyonu (PAM-Point accepted mutation) belirlediler. PAM bir amino asidin, doğal seleksiyon tarafından başka bir kalıntıyla değiştirilmesi olarak tanımlanır. [1,3]


Bir gen içindeki nükleotid dizisinin rastgele mutasyonları, karşılık gelen proteinin amino asit dizisini değiştirebilir. Bu mutasyonlardan bazıları proteinin yapısını büyük ölçüde değiştirmezken (organizmayı çoğunlukla etkilemez) bazıları proteinde işlev kaybına (organizmayı çoğunlukla etkiler) neden olur. Bazı amino asit değişimleri, moleküler evrim süreci boyunca yaygın olarak bulunur ve bazıları nadirdir: Asn, Asp, Glu ve Ser en “değişebilen/mutable” amino asitler iken, Cys ve Trp en az değişebilenlerdir. Örneğin, Ser’in Phe’ye dönüşme olasığı, Trp’nin Phe’ye dönüşme olasılığından kabaca üç kat fazladır. Moleküler evrimde en çok ve en az yaygın olan değişiklik türlerinin bilgisi, biyologların amino asit puanlama matrislerini oluşturmasına ve biyolojik olarak yeterli dizi hizalamaları üretmelerine olanak tanır. Nükleotid sekans karşılaştırmalarının aksine amino asit sekanslarının optimal hizalamaları çok az eşleşmeye (varsa) sahip olabilir, ancak yine de biyolojik olarak yeterli hizalamaları temsil eder. Bu basitleştirilmiş puanlama matrisleri önemli ince ayrıntılarla oluşturulur. Örneğin, fare ve sıçandaki ilgili 15 milyon yıl önce farklılaşan proteinlerde Ser’in Phe’ye dönüşme mutasyon olasılığı, 80 milyon önce farklılaşan fare ve insan proteinlerden Ser Phe mutasyon olasılığından daha düşüktür. Bu olasılık, iki proteini karşılaştırmak için en iyi puanlama matrislerinin bu organizmaların ne kadar benzer olduklarına bağlı olduğunu anlatır. [1,2]


Biyologlar ilk olarak son derece benzer proteinleri, örneğin 100 AA başına yalnızca bir mutasyona sahip olan proteinleri analiz ederek bu sorunu aşarlar. İnsan ve şempanzedeki birçok protein bu gereksinimi karşılar. Bu tür diziler, bir PAM birimi ayrıştırılmış olarak tanımlanır ve ilk yaklaşıma göre bir PAM birimi, bir ortalama proteinin amino asitlerinin %1’ini mutasyona uğrattığı zaman miktarı olarak düşünülebilir. PAM1 puanlama matrisi son derece benzer proteinlerin birçok hizalanmasında tanımlanır. [2] Daha az benzer proteinler için daha fazla mutasyon kabul edilebilir be PAM değerleri büyür. [1] İki sekansı karşılaştırırken, birkaç farklı matrisi kullanarak aramayı tekrarlamak gerekli olabilir. Hizalama programları, her bir dizi çifti için doğru matrisi seçecek şekilde önceden ayarlanamaz. Bunun yerine BLOSUM62 (blok ikame matrisi [block substitution matrix]) gibi en geniş anlamda kullanışlı puanlama matrisiyle başlarlar. Henikoff’un odaklandığı BLOSUM puanlama metrisi, 2 taban logaritmasını kullanarak bir log olasılık oranı kullanır. BLOSUM62 matrisi %62 veya daha fazla amino asit kimliğine sahip bir hizalamada tüm proteinleri tek bir dizide birleştiri. [1-3]


Yerel Hizalama (Local Aligment) Smith-Waterman


Global hizalama problemi iki dizinin tamamı arasında benzerlik aradığını ve çok korunur uzun protein kısımları için kullanışlı olduğunu söylemiştik. Bu durumun aksine biyolojik uygulamada v ve w’nin alt dizisi arasındaki hizalama (yerel hizalama) puanı aslında v ve w‘nin global hizalanma puanından daha büyük olabilir. Yani iki dizinin baştan sona hizalanması onun alt dizilerinin hizalanmasından daha iyi olmayabilir. Örneğin, embriyonik gelişimi düzenleyen homeobox genleri, çok çeşitli türlerde mevcuttur. Homeobox genleri farklı türlerde çok farklı dizilere sahip olmasına rağmen, her gendeki homeodomain adı verilen gen bölgesi yüksek oranda korunur. Bu bilginin nasıl bulunacağı sorusunun1981 yılında Temple Smith ve Michael Waterman, yerel hizalama (Smith-Waterman local alignment) problemini çözen global hizalama dinamik programlama algoritmasının akıllıca bir modifikasyonunu önerdiler. Önerilen bu hizalama algoritması, global hizalama probleminde olduğu gibi tüm dizi uzunluğunu kapsamadığı için local hizalama problemi olarak adlandırılmıştır. [2] Global hizalamaya göre daha zor görünen bu problemin çözümü, global hizalamada düzenleme grafiğindeki (edit graph) (0,0) ve (n,m) köşeler arasındaki en uzun yerel yolu bulmaya karşılık gelirken, Local hizalama probleminde düzenleme grafiğindeki (i,j) ve (i’,j’) arasındaki yollar arasındaki en uzun yolu bulmaya karşılık gelir. En uzun yolu bulmak ve ardından bu karmaşık yollardan en uzun olanı seçmek asıl amaçtır. Optimum local hizalama yalnızca düzenleme grafiğindeki en uzun yolu ifade eder. Biyolojik öneme sahip tüm benzerlikleri temsil eden tek bir yerel hizalama değil birden fazla hizalama mevcut olabilir. [1-3]



Şekil 3: (a) Global ve (b) her biri korunmuş bir alana sahip olan iki varsayımsal genin local hizalanmaları. Yerel hizalama, küresel puanlama şemasına göre çok daha kötü bir puana sahiptir, ancak korunan alanı doğru bir şekilde konumlandırır. [2]


Global hizalamada ceza puanı varken, local hizalamada bazı iç pozisyonlarda başlatılması için herhangi bir ceza puanı yoktur ve hizalama iki sekansın uçlarına uzanmak zorunda değildir. [1]




Referanslar

  1. Pevsner, J. (2015). Bioinformatics and functional genomics. John Wiley & Sons.

  2. Jones, N. C., Pevzner, P. A., & Pevzner, P. (2004). An introduction to bioinformatics algorithms. MIT press.

  3. Polyanovsky, V. O., Roytberg, M. A., & Tumanyan, V. G. (2011). Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences. Algorithms for molecular biology, 6(1), 25.