top of page
beyaz logo.png

Biyoinformatik | Veri Madenciliği Nedir? - 1


 

Ayşegül MURAT - Ege Üniversitesi Sağlık Biyoinformatiği A.B.D., Doktora Öğrencisi

 

Biyoinformatik genel olarak ”biyolojik problemleri çözerken veri toplama, depolama, analiz etme ve yorumlama için matematiksel ve istatistiksel analizlerin yanı sıra bilgisayar ve bilgi teknolojilerini öğrenen ve öğreten” bir alan olarak tanımlanmaktadır.[1] Veri, işlenmemiş ham bilgidir. Bilgi ise ham verinin işlemesiyle elde edilir. Fayyad’ın tanımına göre “Veri madenciliği, verilerden desen çıkarmak için özel algoritmaların uygulanmasıdır”.[1,2] Genel olarak veri madenciliği, büyük verilerden bilgi çıkarma veya madencilik anlamına gelir.[3]


Sağlık hizmetleri başta olmak üzere, eğitim sistemlerinde, müşteri ilişkileri yönetiminde, spor verilerinde, pazarlama stratejisi ve ticaret, banka ve sigortacılıkta, borsa, mühendislik, istihbarat ve genetik gibi birçok alanda veri madenciliği uygulaması yapılmaktadır.[2,4]


Bir yerlerde karşınıza çıkmış olması muhtemel çocuk bezi ve bira analizi, veri madenciliğini anlamak için güzel bir analizdir. Bu analizde, bir markette müşterilerin Cuma günü yaptıkları alışveriş verileri, veri madenciliği yöntemiyle işlendiğinde en çok çocuk bezi ve bira satışı arasında bir korelasyon olduğu açığa çıkıyor. Normal şartlarda birbirinden çok ayrı raflarda bulunan bira ve bebek bezleri, bu analiz sonrasında yeni raf düzenlenmesiyle yan yana getirilerek bira satışlarının ciddi oranda artışını sağlıyor. Sağlık hizmetlerinde ise veri madenciliği, hastalığın tanı ve prognozu için kullanılmasının yanı sıra hastalıklar arası ilişkilerin bulunmasında da kullanılabilmektedir. [2,5]


Şekil 1: Artık sizde benim gibi “Baby Looney Tunes” izlerken göreceğiniz bebek

bezlerinde veri madenciliği analizini hatırlayabilirsiniz.


Veri Madenciliği


Veritabanlarındaki Bilgi Keşfi (Knowledge Discovery in Databases-KDD) veya Akıllı Veri Analizi (Intelligent Data Analysis-IDA) olarak da bilinen veri madenciliği: bilgisayar bilimi, istatistik ve optimizasyon analizlerinin kesiştiği noktada yer alır ve genellikle diğer disiplinlerde ortaya çıkar.[3] Veri madenciliği makine öğrenimi, yapay zekâ, veritabanları, örüntü tanıma ve veri görselleştirme içeren çok disiplinli bir alandır. Genel olarak veri madenciliği, verilerdeki bilgileri farklı açılardan arama sürecidir. Burada bilgi, ham verilerin altında gizlenmiş olan her türlü özetlenmemiş veya bilinmeyen bilgilere atıfta bulunabilir. Örneğin, belirli bir hastalığın bazı hastalarında ve sağlıklı insanlarda toplanan verilerden üretilen bir dizi ayrımcı kural olabilir. Bu kurallar yeni hastaların hastalık durumunu tahmin etmek için kullanılabilir. Verilerin açıklayıcı ve öngörücü madencilik görevleri vardır. Açıklayıcı madencilik görevleri, bir hedef veri kümesini kısa, bilgilendirici, ayrımcı formlarla karakterize eder. Öngörücü madencilik görevleri, gelecekteki tahminler yapmak için mevcut veriler üzerinde indüksiyon ve çıkarım yapar. Biyoinformatik için veri madenciliği büyük miktardaki verilerden yararlı kalıpları, içgörüleri veya bilgileri otomatik veya yarı otomatik olarak ortaya çıkarmak için yöntem ve süreçlere odaklanır.[6-8]


Veri Madenciliği Süreç Modeli


Bir veri madenciliği süreç modeli tipik olarak veri toplama, veri önişleme, veri modelleme, model değerlendirme ve model dağıtımı aşamalarını içerir.[6-8]

Şekil 2: Veri madenciliği süreç modeli.[8]

Veri toplama: veri madenciliği sürecindeki ilk adım, uygulamalardaki analiz amacına göre ilgili veriler toplamaktır. Hedefe ulaşmaya yardımcı olan tüm veriler dâhil edilmelidir. Bazı verilerin elde edilmesi cihaz eksikliği veya maliyeti nedeniyle oldukça zor hatta imkânsızdır. Örneğin, kütle spektrometrisi bazlı shotgun proteomiksteki peptitleri doğru şekilde tanımlamak için, numunedeki her peptit için en az bir kütle spektrumu oluşturmak gerekir. Bununla birlikte, mevcut kütle spektrometrelerinin sınırlandırılması nedeniyle, numunede bulunan tüm peptitleri kapsayabilen kütle spektrumları verisi elde etmek her zaman mümkün değildir.


Veri önişleme: amacı iki yönlüdür. Gerçek dünya verileri genellikle düşük kalitededir; dolayısıyla önişleme veri kalitesini ve sonuç olarak veri madenciliği sonuçlarının kalitesini artırmak için kullanılır. Veri modelleme adımında, bazı önceden belirlenmiş veri formatlarına dönüştürülmesi gereken bazı özel modelleme algoritmaları ham veriler üzerinde çalışamaz. Birkaç genel amaçlı veri önişleme yöntemi vardır: veri temizleme, veri entegrasyonu, veri azaltma ve veri dönüşümü.


  • Veri temizleme (data cleaning): Gerçek dünyadaki veriler genellikle gürültülü, tutarsız ve eksiktir. Veri temizleme prosedürleri gürültüyü gidermeyi, tutarsızlıkları düzeltmeyi ve verilerdeki eksik değerleri doldurmayı amaçlamaktadır. Kısaca orijinal verilerden gürültü ve tutarsız verilerin kaldırılmasıdır.

  • Veri entegrasyonu (data integration): Veri toplama aşamasında, farklı kaynaklardan gelen veri setleri analiz problemiyle ilgilidir. Veri entegrasyonu, farklı kaynaklardan gelen verileri sonraki veri madenciliği analizi için entegre bir veri setinde birleştirir. Veri entegrasyonunun temel amacı, sonuçta ortaya çıkan fazlalıkları ve tutarsızlıkları azaltmak ve önlemek veri kümesi. Kısaca birden fazla veri kaynağının tutarlı bir şekilde birleştirilmesidir.

  • Veri azaltma (data reduction): Veri azaltmanın amacı, orijinal veri kümesinin yeni ve daha küçük bir temsilini oluşturmaktır. Genel olarak, indirgenmiş veriler, analiz hedefi için birincil öneme sahip orijinal verilerle yaklaşık aynı bilgileri içermelidir. En yaygın olarak kullanılan veri küçültme tekniği boyut küçültmeyi (dikey olarak, özellik sayısını azaltın) ve örneklemeyi (yatay olarak, örnek sayısını azaltın) içerir. Kısaca veritabanından yalnızca analiz göreviyle ilgili verilerin tanımlanması ve alınması ya da analizle ilgili verilerin alt kümelerini çıkarmak için yapılır.

  • Veri dönüşümü (data transformation): Farklı veri madenciliği algoritmaları farklı veri formları gerektirebilir. Veri dönüştürme teknikleri orijinal verileri uygun biçimlerde birleştirir sonraki madencilik görevleri için. Örneğin, veri normalizasyonu özellik değerlerini [0.0, 1.0] gibi önceden tanımlanmış bir aralığa dönüştürecektir. Veri ayrıklaştırma, sayısal değerleri aralıklara bölerek sürekli bir özelliğin ayrık bir özelliğin yerini alacaktır. Kısaca, özet veya toplama işlemleri gerçekleştirerek verileri madencilik için uygun bir formata (biçimlere) dönüştürmek ve birleştirmek.

Veri modelleme: Tipik olarak, veri önişleme adımı, ham verileri, sütunların özellikleri/değişkenleri ve satırları örneklere karşılık gelen temsil ettiği sekmeli bir forma dönüştürür. Şekil 3’te; sekiz örnek ve beş özelliğe sahip bir örnek veri kümesi bulunmaktadır. İlk dört özelliğe tahmini özellikler, sınıf özelliğine ise hedef özellik denir. Burada kestirimci özellikler bazı hastalıkların belirtileri (semptomları) olabilir, burada 1 değeri bir belirtisinin varlığını ve 0 ise aksini gösterir. Benzer şekilde, ilgili kişi (örnek) hastalığa sahipse sınıf özellik değeri 1'dir.[6-8]


Şekil 3: Sekiz örnek ve beş özelliğe sahip bir örnek veri kümesi (Burada sınıf, her

örneğin ait olduğu kategoriyi temsil eden özel bir özelliktir.).[6]


Veri modelleme aşamasında için örüntü değerlendirme ve bilgi sunumundan da bahsetmeliyiz. Örüntü değerlendirme, ilginçlik ölçütlerine dayalı olarak yararlı bilgiyi temsil eden ilginç örüntüleri belirlemek iken bilgi sunumu, keşfedilen bilgiyi kullanıcıya sunmak için sezgisel görselleştirme ve etkili bilgi sunum tekniklerini kullanmaktır.[7]


Bazı Veri Madenciliği Analiz ve Görevleri


İlişkilendirme kuralı madenciliği (Bağımlılık modellemesi- Dependency modeling): Bu, veri madenciliği topluluğu tarafından icat edilmiş ve kapsamlı bir şekilde incelenmiştir. Görevi, değişkenler/özellikler/öğeler arasındaki ilişkileri/ilişkileri tespit etmektir. Klasik bir örnek, süpermarket müşterilerinin satın alma alışkanlıklarındaki derneklerin, pazar kampanyaları için faydalı bilgiler verebilecek satış işlem kayıtlarından ("pazar sepetleri") çıkarıldığı pazar sepeti analizidir.[8]


Biyomedikal alanda, öncüllerin biyolojik özellikler ve değer aralıkları (kanser genleri ve farklı koşullar altında karşılık gelen gen ekspresyon değerleri; klinik test) olduğu ilişkilendirme kurallarını keşfetmek için gen ekspresyon verileri (veya diğer tıbbi veriler) üzerinde ilişkilendirme kuralı madenciliği yapılabilir ve karşılık gelen okumalar/değerler) ve bunun sonuçları sınıf etiketleridir (kanser veya kanser olmayan). Daha sonra keşfedilen bilgiler doktorlara karar vermede yardımcı olacak bir teşhis sistemi oluşturmak için kullanılabilir.[8]


Küme analizi veya kümeleme: Bu görevin amacı, bir grup nesneyi, aynı gruptaki nesnelerin diğer gruplara göre daha benzer olacak şekilde gruplara ayırmaktır. Makine öğreniminde, küme analizi denetimsiz öğrenmenin bir şeklidir, çünkü kullanıcıların veya etki alanı uzmanlarının kümeleme algoritmaları için eğitim örnekleri sunmasına gerek yoktur. Biyomedikal araştırmalarda küme analizinin örnek kullanımlarından biri, aynı biyolojik fonksiyonlara sahip olan genleri bulmak için, gen ekspresyon verilerini her gruptaki genlerin benzer gen ekspresyon profillerini paylaştığı gruplara ayırmaktır.[8,9]


Sınıflandırma: Bu görevin amacı, verilen girdi verilerini bilinen sayıda kategoriden/sınıftan birine atamaktır. Klasik bir örnek, görevin yeni bir e-postayı yasal bir mesaj veya yalnızca spam olarak sınıflandırmak olduğu spam filtrelemesidir. Bir sınıflandırıcı oluşturmak için, kullanıcının önce önceden tanımlanmış bilinen sınıflarla (örn. Bilinen spam iletiler ve farklı meşru e-posta iletileri) etiketlenmiş bir dizi eğitim örneği toplaması gerekir. Daha sonra, önceden tanımlanmış sınıfları bir test setindeki (değerlendirme için) veya gelecekteki örneklerde (uygulamada) örneklere atamak için kullanılabilecek bir sınıflandırma modeli (sınıflandırıcı) oluşturmak için eğitim verilerine bir makine öğrenme algoritması uygulanır. Biyomedikal araştırmalarda sınıflandırma uygulaması, yeni proteinlerin veya genlerin biyolojik fonksiyonlarını tahmin etmektir. Burada, bilinen biyolojik fonksiyonları olan proteinler ilk olarak, daha sonra bilinmeyen proteinleri farklı fonksiyonlara sahip bir veya daha fazla biyolojik familyada sınıflandırmak için kullanılabilecek bir sınıflandırma modeli oluşturmak için eğitim örnekleri olarak kullanılır.[8,9]


Regresyon analizi: Bu görev, en az hatayla verileri modelleyen, odağın bağımlı bir değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiye odaklandığı matematiksel bir işlev bulmayı amaçlamaktadır. Sınıflandırmaya benzer şekilde, regresyon ayrıca bir regresyon fonksiyonu oluşturmak için eğitim örnekleri de gerektirir. Bu durumda, her eğitim örneği sınıflandırma senaryosunda olduğu gibi sınıf etiketi yerine sayısal bir değerle ilişkilendirilir. Regresyon ve sınıflandırma arasındaki fark, regresyonun sayısal veya sürekli sınıf niteliklerini, sınıflandırma ise ayrık veya kategorik sınıf niteliklerini ele almasıdır. Bu kitapta, regresyon analizinin trend analizi tekniklerinden biri olarak kullanıldığı trend analizi için bir bölümümüz var.[8]


Anomali algılama (Aykırı algılama): Bu görevde, beklenen veya oluşturulmuş normal davranışa uymayan veri kayıtlarını / örnekleri tespit etmeye çalışırız. Sonuçlar, ilginç veri kayıtları veya daha fazla araştırma gerektiren hatalı kayıtlar olabilir.[8]






Referanslar

1. Khan, N. T. (2018). Data Mining–Basics of Bioinformatics. Transcriptomics, 6(142)

2. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to

knowledge discovery in databases. AI magazine, 17(3), 37-37.

3. Raza, K. (2012). Application of data mining in bioinformatics. arXiv preprint

arXiv:1205.1125.

4. Chen, J. Y., & Lonardi, S. (Eds.). (2009). Biological data mining. CRC Press.

5. Mirza, S., Mittal, S., & Zaman, M. (2016). A Review of Data Mining Literature.

International Journal of Computer Science and Information Security (IJCSIS), 14(11).

6. Zengyou, H. (2015). Data mining for bioinformatics applications. Woodhead

Publishing.

7. Xiaoli, L., See-kiong, N., & TL, W. J. (Eds.). (2013). Biological data mining and its

applications in healthcare (Vol. 8). World scientific.

8. Dua, S., & Chowriappa, P. (2012). Data mining for bioinformatics. CRC Press.

9. Raza, K. (2012). Application of data mining in bioinformatics. arXiv preprint

arXiv:1205.1125.


527 görüntüleme0 yorum

Son Yazılar

Hepsini Gör
bottom of page