Biyoinformatik | Yapay Zekâ (AI), Makine Öğrenmesi (ML), Derin Öğrenme (DL)
Ayşegül MURAT - Ege Üniversitesi Sağlık Biyoinformatiği A.B.D., Doktora Öğrencisi
Hesaplama gücünün önemli derecede artışı ve büyük verinin hacimsel bilgi potansiyeli ile derin öğrenme son yıllarda en başarılı makine öğrenimi (machine learning) algoritmalarından biri haline geldi. Birçok makine öğrenimi yöntemi, teknolojinin performansını yenilemesiyle çok sayıda disiplinin gelişimini kolaylaştırmıştır. Bilgisayarlı görme (görüntü tanıma, nesne algılama vb.), doğal dil işleme (metin sınıflandırması, konuşma tanıma vb.), yüksek enerji fiziği (egzotik parçaların araştırılması), psikoloji, materyal tasarımı, kuantum kimyası, biyoinformatik (dizi analizi, yapı tahmini vb.) ve sistem biyolojisi gibi birçok alandaki zor problemlerin derin öğrenme ile çözülebilmesi mümkün olmuştur.[1] Derin öğrenme ile iç içe olan bazı kavramlardan bahsetmemiz bütünün anlaşılması adına daha doğru olacaktır.
Yapay Zekâ (AI), Makine Öğrenmesi (ML), Büyük Veri (BD)
Yapay zekâ (AI, Artificial Intelligent) kavramı 1950’lerde Alan Turing tarafından bir makinenin zeki olup olmadığını belirleyen Turing test ile daha çok aklımıza yerleşmiştir. İnsan gibi düşünen, çıkarsama sonrası rasyonel davranış gösteren otonom araçlar, robotlar, Apple’ın Siri’si, Microsoft’un Cortana’sı, akıllı ev ve cihazlar yapay zekâ kullanan bilgisayar tabanlı sistemlerdir. Daha gelişmiş karar verme yeteneğini gösteren AlphaGo ve Tesla Otopilot’u teknoljik sıçramalarımızın geleneksel sınırlamaları ortadan kaldırdığını gösteriyor. Donanımsal gelişmeler, bulut sistemleri ve veri kümesindeki artış makine öğrenimi modellerinin eğitiminde başarı sağladı. İnsan genomunun dizilenmesiyle ortaya çıkan büyük veri kavramı (big data), günümüzde NCBI, TCGA, Uniprot gibi veri tabanlarından elde edilen ve YouTube, Twitter ve Instagram gibi sosyal medya içeriğinden oluşturulan büyük veri kümelerini temsil eder.[2,3] Biyoinformatik açıdan ise dizileme analizi ve omiks çalışmalar sonunda elde edilen veriyle, ilaç-molekül çalışmaları arasında bir ilişkinin bulunması, DNA dizilerinden belirli kalıpları (pattern) bulmayı, genomdaki hurda-çöp diye adlandırılan bölgelerin önemini anlamamız gibi birçok konuda yeni bakış açıları kazanmamızı ve böylece yeni tedavi yöntemleri geliştirmemizi sağlamaktadır. Çok karmaşık veri kümelerini işleyen ve optimize eden karmaşık sistemlere sahip gerçek bir yapay zekâ, sağlık hizmetlerinde harika uygulamalara sahiptir.[2-4]

Yapay zekanın gelişmesiyle bilgisayarların öğrenebildiğini öğrenmemiz, biyolojik problemler için geliştirilmiş birçok algoritmanın da güncellenmesi gerekliliğini gün yüzüne çıkardı. Donanımsal ve yazılımsal gelişmeler, mevcut büyük verinin işlemesi için yapay zekâ teknikleri gibi makine öğrenmesi yöntemlerinin de otomatik karar verecek analizlere olanak sağladı. [5] Sensörler, akıllı saat telefon ve tabletler, IOT (Internet of Things) verileri, sağlık ve medikal kayıtlar, laboratuvar ve görüntü cihazlarından elde edilen sonuçlar, genomik ve proteomik gibi omik veriler günümüzde sağlık alanında büyük verinin kaynaklarını oluşturmaktadır. Depolama, temizleme, doğruluk, güvenlik, görselleştirme ve bilgi paylaşımı gibi zorlukları olan büyük veri Hadoop ve Apache Spark gibi veri işlemek için ücretsiz veya IBM Watson ve AYASDI gibi ticari platformlara sahiptir. Büyük verinin avantajları ise kanser ve nörodejeneratif hastalıklar için yeni ilaç keşfi olanağı, salgınların tahmini, hastalık durumlarına ilişkin erken uyarı sistemi, hastalık bilgimizi artırarak muhtemel yeni teşhis araçlarının geliştirilmesine olanak sağlar.[5, 6]

Makine öğrenmesi tekniklerinde eğer mevcut veri kümesi etiketlenmişse, sınıflandırma (classification) ya da regresyon (linear regression) yöntemi denetimli bir öğrenme (supervised learning) için uygun bir yaklaşım olacaktır. Eğer mevcut veri kümesi etiketlenmemişse kümeleme (clustering) yöntemi denetimsiz bir öğrenme (unsupervised learning) tekniğini uygulamak daha iyi bir sonuç almamızı sağlayacaktır. Bir girdi verip çıktıda 1 ve 0 şeklinde etiketli sonuç aldığımız etiketli verilerin tek veya çok sayıdaki değişkenle regresyon analizini ya da karar ağacı (decision tree), rastgele orman (random forest), k-nn (en yakın komşu) ve yapay sinir ağı (artificial neural network) gibi yöntemlerle, etiketli kesikli değişkenleri sınıflandırabiliriz. Bir girdinin verilip çıktıda bir etiketin olmadığı verileri analiz ederken kümeleme, DBSCAN, K-mean/K-media ve hiyerarşik gibi denetimsiz öğrenme yöntemleri kullanılmaktadır.[5-7]
Derin Öğrenme (DL)
En başarılı makine öğrenme algoritmalarından biri olan derin öğrenmeyi aslında bir veri analizi sırasında, arka arkaya eklenmiş birden fazla makine öğrenme tekniklerinin birleşimi olarak ifade edebiliriz. Yani birden fazla regresyonun birden fazla kümeleme tekniği ya da karar ağacı gibi yöntemlerin art arda ayrı katmanlarda uygulanmasıdır. Makine öğrenmesi yöntemlerinin analiz edemeyeceği, çok sayıda etkileşimde olan karmaşık bir ağ için yapay sinir ağı yöntemlerinin bir sinir ağı networküne (neural network) dönüşmesi gerekir. İsminden de anlayacağınız gibi bir karar ağacı yapısının rastgele ormana dönüşmesi ile bir hastalık teşhisi kararlılığı sağlanabilir. Bir ilacın bir hastalıkla etkisi (ilaç-hastalık), bir hastalık-protein ağ yapısının derin öğrenme tekniği ile analizi sonucu hangi proteinin hangi ilaçla etkileşimde olduğu ve ilacın bir başka hastalığa da etkisinin olabileceği iyi bir derin öğrenme eğitimi sonunda sinir ağından çıkan veriyle öğrenilebilir.[1,8]
Referanslar
1. Li, Y., Huang, C., Ding, L., Li, Z., Pan, Y., & Gao, X. (2019). Deep learning in bioinformatics: Introduction, application, and perspective in the big data era. Methods, 166, 4-21.
2. Russell, S. J., & Norvig, P. (2003). Instructor's solution manual for artificial intelligence: a modern approach.
3. Lai, K., Twine, N., O’brien, A., Guo, Y., & Bauer, D. (2018). Artificial intelligence and machine learning in bioinformatics. Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics, 55, 272.
4. Bini, S. A. (2018). Artificial intelligence, machine learning, deep learning, and cognitive computing: what do these terms mean and how will they impact health care?. The Journal of arthroplasty, 33(8), 2358-2361.
5. Dash, S., Shakyawar, S. K., Sharma, M., & Kaushik, S. (2019). Big data in healthcare: management, analysis and future prospects. Journal of Big Data, 6(1), 54.
6. Vij, A., Saini, S., & Bathla, R. (2020, June). Big Data in Healthcare: Technologies, Need, Advantages, and Disadvantages. In 2020 8th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions)(ICRITO) (pp. 1301-1305). IEEE.
7. Sharma, R., Singh, S. N., & Khatri, S. (2016, February). Medical data mining using different classification and clustering techniques: a critical survey. In 2016 Second International Conference on Computational Intelligence & Communication Technology (CICT) (pp. 687-691). IEEE.
8. Dutton, D. M., & Conroy, G. V. (1997). A review of machine learning. The knowledge engineering review, 12(4), 341-367.
9. Görsel towarsadatascience.com adresinden alınmıştır.