top of page
beyaz logo.png

Biyoinformatik | Veri Madenciliği Nedir? – 2


 

Ayşegül MURAT - Ege Üniversitesi Sağlık Biyoinformatiği A.B.D., Doktora Öğrencisi

 

Veri madenciliğinin, iki “yüksek seviyeli” birincil hedefi tahmin ve tanımdır. Verilerden anlamlı kalıplar çıkarmayı içeren veri madenciliğinin; sınıflandırma, tahmin, kümeleme, açıklama ve görselleştirme gibi görevleri olduğunu bu başlığın ilk yazısında belirtmiştim.[1]


Veri Madenciliği Araçları


SAS Enterprise Miner, SPSS, S-Plus gibi birçok genel veri madenciliği sistemi, IBM Intelligent Miner, Microsoft SQL Server 2000, SGI MineSet ve Inxight VizServer biyolojik veri madenciliği için kullanılabilir. Bununla birlikte, bazı biyolojik veriler GeneSpring, Spot Fire, VectorNTI, COMPASS, gibi istatistik araçları Mikroarray Analizi ve Affymetrix Veri Madenciliği Aracı geliştirilmiştir. Ayrıca, çok sayıda biyolojik veri madenciliği aracı National tarafından sağlanmaktadır.[2]


Biyoinformatikte Veri Madenciliği


İnsan Genom Projesinin (HGP) başlangıcından beri biyoinformatiğin deneysel kısmında yayınlanan sonuçların sayısı önemli ölçüde artış gösterdi.[2] Günümüz araştırma alanı ve teknolojisindeki gelişmelerle, genetik ve proteomik çalışmalardan elde edilen veriler, klinik ve diğer çalışmalardan elde edilen verilerle birleşerek hastalıkların daha iyi anlaşılarak karakterize edilebilmesine sağlamaktadır.[3-5]


Büyük veri setlerinin çoğalmasıyla biyolojik problemleri çözmede hesaplamalı modeller kritik bir yer almaya başlamıştır. Biyoinformatik açısından bilim hipotez odaklı araştırmalardan uzaklaşıp, veri analizinin biyolojik olarak önemli örüntüler arayışına dayandığı veri odaklı araştırmalara doğru ilerlemektedir. Veri madenciliği yaklaşımları, yaşam bulmacaları çözmek için çok büyük miktarda verinin analiz edilmesi gereken veri açısından zengin biyoinformatik uygulamalar için idealdir. Biyolojik verilerden bilimsel sonuçlar çıkarmak, veri madenciliği tekniklerinin doğru şekilde uygulanmasını ve geliştirilmesini gerektirir. Yakın zamana kadar biyoloji, insan genom veritabanı gibi büyük bilgi depolarını analiz etme araçlarından yoksundu. Neyse ki, bilgisayar bilimi disiplini, biyologların insan durumunu derinden iyileştirmeyi vaat eden inanılmaz miktardaki veriyi yönetmelerine ve analiz etmelerine yardımcı olmak için çok uygun yöntemler ve yaklaşımlar geliştirmektedir. Veri madenciliği de böyle bir teknolojidir. [3-5]


Şekil 1: Yaşam Bilimleri Alanında Temel Yüksek Düzeyli Omics Veri Analitiği Akışı. [6]

1996 yılında Fayyad, bilgi keşfini “verilerdeki geçerli, yeni, potansiyel olarak faydalı ve nihayetinde anlaşılabilir kalıpları tanımlamak için önemsiz bir süreç” olarak tanımlamıştır. [7] Veri madenciliği etkileşimli ve yinelemeli doğası gereği deneysel bir yaklaşımda yerini bulabilir, araştırmacılar veri madenciliği sayesinde tek bir çözüm keşfetmeden önce çeşitli olasılıkları deneyebilirler. Veri tabanlarını kullanarak bilgi keşfi yapan veri madenciliğinde, verilerin en iyi şekilde temsil edilmesini iyi sonuçlar elde etmek için kritiktir. Yani ön işlem teknikleri, örneğin özellik seçimi ve yapımı sırasında oldukça özenli olmak gerekir. Başka bir ifadeyle, bir kişinin açlık/tokluk kan şekeri ölçülürken kandaki şeker miktarının 126 mg/dl veya üstünde olmasıyla kişiye diyabet teşhisi konuluyor. Sadece kandaki şeker miktarına bakmak, kişinin hipoglisemi (kan şekeri 50 -70 mg/dl arasında), normal (70-100 mg/dl arası), gizli şeker (100-125 mg/dl) veya diyabet olduğunu belirlemek için özellik seçiminin iyi yapılmış olduğunu gösteriyor. Birçok hastalık için kandaki birden fazla faktöre ya da farklı test/görüntü sonuçlarına bakıp teşhis konuluyor. Doktorun bir hasta testinin klinik sonuçlarını, veritabanlarına karşı çalıştırmasıyla hem diğer hastalardan edinilmiş bilgiden yararlanır hem hasta bilgisin bu veritabanına eklerken bu sistemden faydalanır.[3,8]


Veri madenciliğinde temel amaç, ham verilerin etkili karar verme için bilgiye dönüştürülmesini sağlamaktır. Ham biyolojik veriler, veri temizliği ve entegrasyon metodolojileri ile ele alınabilecek veri tutarsızlıkları ve veri kopyaları gibi sorunları bakımından zengindir. Biyolojik verilerde veri temizliği, daha fazla hesaplama için verileri standart hale getirebilir ve daha hızlı arama/alma işlemleri için verilerin kalitesini arttırabilir ki bu, basamak biyolojik verilerin analizi için oldukça önemlidir.[8]


Çoğu biyolojik veritabanın temel amacı, çok sayıda bilim insanının çalışmasını birleştiren depolar oluşturmaktır. Veri tabanları, temelde bilgi almak için birçok kullanıcı tarafından paylaşılan bilgisayarlı bir veri topluluğudur. Başta ilişkisel (relational), dağıtılmış (distributed), bulut (cloud), ilişkisel olmayan (NoSQL), biyolojik (biological) ve düz dosya veritabanı (flat file databases) olmak üzere birden fazla veri tabanı türü vardır. [3,8]


İyi bilinen veritabanlarının çoğu, verileri hiyerarşik bir şekilde (filogenetik ağaç olarak) depolar. Fakat bu veri depolama yöntemi şu sorunlara sahiptir;


1. Veri açıklamalarında kullanılan isimlendirme ve kelimeler biz dizi standarda uymamaktadır. Bu madde için NCBI, Ensembl, GenBank, PDB ve UniProt gibi veritabanları arasında bir gen ya da genin proteiniyle ilgili arama yaparken farklı isimlendirmeler oldukça sık karşılaştığımız bir problem.


2. Biyolojik veri tabanlarından elde edilen verilerin, özellikle filogenetik sistemlerden gelen veriler üzerinde işlem yaparken tutarlı bir formatın olmadığı sıklıkla görülmektedir.


3. Eski filohenetik sistemlerde elde edilen veriler temizlik ve kapsamlı modifikasyon gerektirir.


4. Yapısal verilerde (ağaçlarda) kopyalar bulmak ve veri kümesinde yeniden kodlamak zor bir iştir.


5. Gerektiğinde kopyaları kaldırmak zordur.


6. Yapısal verilere (ağaçlara) ve kayıtlara benzer kümeler bulmak da zordur.

Veri temizleme, veri kalitesini arttırmak için verilerdeki hata ve tutarsızlıkları algılama ve kaldırma işlemidir. Yukarıda belirtilen veri kalitesi soruları, veri depolarında, birleşik veritabanı sistemlerinde veya geleneksel olarak biyoinformatikte kullanılan web tabanlı bilgi sistemlerinde bulunur. [8]


Biyoinformatikte Veri Madencilği Uygulamaları


Biyolojik veri madenciliği biyoinformatiğin çok önemli bir parçasıdır. Veri madenciliğinin biyolojik veri analizi için katkıda bulunduğu hususlar şunlardır;

  • Heterojen, dağıtılmış genomik ve proteomik veritabanlarının anlamsal entegrasyonu.

  • Çoklu nükleotit dizilerinin hizalanması, indekslenmesi, benzerlik araştırması ve karşılaştırmalı analizi.

  • Patterns yapısal kalıpların keşfi ve genetik ağların ve protein yollarının analizi. İlişkilendirme ve yol analizi.

  • Data Genetik veri analizinde görselleştirme araçları.

Veri madenciliğinin biyoinformatiğe uygulamaları arasında 1. Gen bulma, 2. protein fonksiyon alanı tespiti, 3. Fonksiyon motifi tespiti, 4. Protein fonksiyon çıkarımı 5. hastalık teşhisi, 6. Hastalık prognozu, 7. Hastalık tedavisi optimizasyonu, 8. Protein ve gen etkileşim ağı 9. Yeniden yapılandırma, 10. Veri temizleme ve 11. Protein hücre altı yer tahmini, 12. Protein ve DNA dizilerinin analizi, 13. Mikrodizi verilerine dayalı kanser sınıflanması, 14. Gen expresyon verilerinin kümelenmesi, 15. Protein-protein etkileşimlerinin istatistiksel modellenmesi vardır. Örneğin; mikrodizi teknolojileri bir hastanın sonucunu tahmin etmek için kullanılır. Hastaların genotipik temelinde mikrodizi verileri, sağkalım süreleri ve tümör metastazı veya nüks riski tahmin edilebilir. Makine öğrenme yöntemi kütle spektroskopisi ile peptit tanımlaması için kullanılabilir. Bir tandemdeki (ardışık sistemli kütle spektroskopisi) fragman iyonları arasındaki korelasyon kütle spektrumu, veritabanı araştırması ile peptit tanımlaması için stokastik (olasılıksal-rasgele) uyumsuzlukların azaltılmasında çok önemlidir. [1,5]


Biyoinformatik Veri Güdümlü Değil, Bilim Güdümlü Olmalıdır.


Yaşam organizasyonunun karmaşıklığından dolayı biyoinformatikte çok sayıda zorlu araştırma konusu vardır. Dolayısıyla biyoinformatik problemlerinin tam karakterizasyonunu sağlamak oldukça zordur. Genel olarak biyoinformatikte veri analiziyle ilgili sorunlar biyolojik veri türüne göre üç sınıfa ayrılabilir: diziler, yapılar ve ağlar.[4] Biz bu yazıda dizileri işleyeceğiz.


Diziler


Yaşam bilimlerinin gelişmesiyle, çeşitli düzeylerde büyük ölçekli biyolojik veri setleri üretilir: genom, transkriptom, epigenom, proteom, metabolom, moleküler görüntüleme, farklı insan popülasyonu ve klinik kayıtlar. Bu büyük miktardaki biyolojik verileri analiz etmek için birçok zorluğun üstesinden gelmek için yeni biyoinformatik araçlar ve teknikler geliştirilmelidir.

Bu nedenle, etkili veri önişleme yöntemlerinin geliştirilmesi biyolojik veri analizinin başarısı için kritik öneme sahiptir. Veri madenciliği, moleküler biyolojide muhtemelen en popüler hesaplama aracıdır. Birçok biyoinformatik problemi standart veri madenciliği problemi olarak kullanılabilir, böylece mevcut yöntemler uygulanabilir. Bununla birlikte, bazı biyoinformatik problemleri mevcut veri madenciliği görevleri olarak modellenemez, bu da yeni veri madenciliği teknikleri ve çözümleri geliştirilmesini gerekli kılar. Ayrıca, bazı biyoinformatik algoritmalar için sürekli performans tahminleri sağlamak hala çok zordur. Bir kıyaslama veri seti olmadığında veya temel zemin gerçeği hala eksik olduğunda bu sorun daha ciddi hale gelecektir. Örneğin, çoğu tür için tüm protein protein etkileşim (PPI) ağları hala oluşturulmamıştır, bu da PPI ağ çıkarım algoritmalarının performansını doğru bir şekilde değerlendirmeyi zorlaştırmaktadır. [4]






Referanslar

1. Raza, K. (2012). Application of data mining in bioinformatics. arXiv preprint arXiv:1205.1125.

2. Chen, J. Y., & Lonardi, S. (Eds.). (2009). Biological data mining. CRC Press.

3. Khan, N. T. (2018). Data Mining–Basics of Bioinformatics. Transcriptomics, 6(142),

4. Zengyou, H. (2015). Data mining for bioinformatics applications. Woodhead

Publishing.

5. PATIL, M. C. S. (2017). A SURVEY ON APPLICATION OF DATA MINING IN

BIOINFORMATICS. Technology (IJRCIT), 2(2).

6. Grabowski, P., & Rappsilber, J. (2019). A primer on data analytics in functional

genomics: How to move from data to insight?. Trends in biochemical sciences, 44(1),

21-32.

7. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to

knowledge discovery in databases. AI magazine, 17(3), 37-37.

8. Dua, S., & Chowriappa, P. (2012). Data mining for bioinformatics. CRC Press.


644 görüntüleme0 yorum

Son Yazılar

Hepsini Gör
bottom of page