Exploratory Data Analysis (EDA)

Veri bilimi ve makine öğrenmesi gibi alanlara yeni başlayan bir çok kişinin farkedeceği bir şey vardır ki, bir çok kaynakta eğitim amaçlı kullanılan milyonlarca örnek verinin hemen hemen hepsi mükemmel biçimde temizlenmiş, verilen probleme en uygun şekilde hazırlanmış ve veri üzerinde oynama yapmaksızın birkaç satır kod ile model kurmaya olanak sağlayan kusursuz bir yapıdadır. Veri indirilir, algoritma seçilir, ‘.fit()' fonksiyonu çağırılır ve tebrikler, ilk modelinizi kurmuş olursunuz. Öte yandan, sektör içinde uğraşılan gerçek problemler ne yazık ki bu denli basit olmuyor...





Dışarıdan sektöre bakan bir çok insan için belki de veri bilimi, karmaşık istatistiksel ve makine öğrenmesi tekniklerinin kullanıldığı bir alan olarak görülebilir. Kısmen doğru olabilecek olan bu tanımın uygulanabilirliği ‘veriyi anlamak'tan geçer. Explaratory Data Analysis(EDA) bu veriyi anlamlandırabilmek ve kuracağımız modele uygun hale getirebilmek için uygulayacağımız adımlardan birisidir. Bu durumu özetlemek istersek İngilizce “garbage in, garbage out” deyimini kullanarak “garbage in, perform EDA, possibly garbage out.” cümlesine dönüştürebiliriz.



EDA konusunu 3 ana başlıkta toplayabiliriz;

  • 1. Veriyi Anlamak
  • 2. Gereksiz Verileri Temizlemek
  • 3. Veri İçerisindeki İlişkileri Bulmak

Bu adımlara başlamadan önce, veriye genel olarak göz gezdirmenin ve ne tarz değişkenlerle çalışacağımızı görmenin faydası vardır.

Veriye genel bir göz attıktan ve bazı noktalarda fikir sahibi olduktan sonra verimizin kalitesini, gereksiz değişkenleri, bu değişkenlerin type'ları, eksik verileri ve daha bir çok şeyi özetle görebilmek için “.info()” fonksiyonunu kullanarak verinin derinliklerine doğru ineriz.

Buradaki özet bir tabloda verimiz hakkında bir çok bilgiye erişebiliriz. Bazı kolonlarda eksik veriler olduğunu, kolonların type'larını, gereksiz verilerin olup olmadığı gibi konular hakkında buradan fikir edinerek gerekli işlemleri yapmaya başlayabiliriz. Bu noktalar, bir makine öğrenmesi modeli oluşturmadan önce modele temiz, eksiksiz ve doğru veriyi vermek adına büyük önem taşır.

Verimizi daha fazla anlamak, ve ne tarz bir şey ile karşı karşıya olduğumuzu çözümleyebilmek için verideki kolonlar arasındaki ilişkileri ortaya çıkarmaya çalışabilir veya veri hakkında genel değerlendirmeler yapabiliriz. Yandaki örnek tablodan kolonlar arasındaki ilişkiler konusunda bir çok değerli bilgiye erişmek mümkün olacaktır. Bunun dışında verilerimiz görselleştirerek de bazı bağlantılar bulabiliriz.

Özetlemek gerekirse, her durumda iyi bir model kurmanın yolu ‘veriyi anlamak'tan geçer. Verilerimizi verilen örnekler ve konu başlıktaki ayırımlar ile beraber kolayca anlamlandırabilir ve işimizi daha da kolaylaştırabiliriz.

KAYNAKÇA:

https://towardsdatascience.com/an-extensive-guide-to-exploratory-data-analysis-ddd99a03199e

https://medium.datadriveninvestor.com/introduction-to-exploratory-data-analysis-682eb64063ff

Haberdar olun!

E-bültenimize kayıt olarak tüm yeniliklerimizden haberdar olabilirsiniz.

"Sisasoft İnternet Sitesi kullanım deneyiminizi kişiselleştirmek ve iyileştirmek için çerezler kullanıyoruz. Ziyaretinizi varsayılan ayarlarla gerçekleştirerek Sisasoft Gizlilik Politikası'da belirtilen şekilde çerezlerin kullanımını kabul etmiş oluyorsunuz."

0312 227 06 34