Weka, veri madenciliği araçları arasında en popüleridir. Weka’nın kullanım kolaylığı, sağladığı hazır algoritmalar ve detaylı raporlar Weka ile veri madenciliğini sürecini çok kolaylaştırıyor. Özellikle veri madenciliği alanında yeni olanlar bu veri madenciliği aracı ile kolayca analiz işlemi yapabiliyor. Veri madenciliği(Data Mining) uygulamasının ilk aşaması veri ön işleme aşamasıdır. Adından da anlaşılacağı üzere işlenecek veriyi ön eleme işlemlerinden geçirerek analiz için uygun veriyi elde etmeye çalışıyoruz. Weka’da, veri madenciliği yöntemleri olan sınıflandırma, kümeleme ve birliktelik analizi işlemlerinin sonucunda başarılı geri dönüşler alabilmek için eldeki veri ön işlemeden geçmelidir.
Weka ile ön işleme işlemlerine başlamak için Weka programını açıp Explorer butonuna tıklıyoruz.
Açılan Weka Explorer penceresinde üst menüde Preprocess, Classify, Cluster, Associate, Select Attributes ve Visualize sekmeleri yer alıyor. Öncelikle Preprocess haricindeki sekmelere tıklanamaz durumdadır yani ilk olarak veri analizinde kullanılacak veri kümemizi seçip önişleme işlemini yapmamız gereklidir. Veri kümemizi seçmek için “Open file…” butonuna tıklayıp analiz edeceğiniz veri kümesini seçmelisiniz. Buradan Weka’nın desteklediği dosya türleri olan JSON, ARFF ve CSV dosya türündeki verilerinizi sisteme yükleyebilirsiniz. Hazır veri setlerini kullanmak isterseniz C’de Program Files altında Weka klasörünün altındaki data klasöründe (C:Program FilesWeka-3-9data) yer alan veri setlerinden birini kullanabilirsiniz. Ayrıca “Open URL” butonuna tıklayarak vereceğiniz URL’den veri kümesini ve “Open DB” butonuna tıklayarak veri tabanı bağlantınızı kurarak çekeceğiniz veri kümenizi Weka çalışma ortamına yükleyebilirsiniz.
Ben bu çalışmada hazır veri kümelerinden olan credit-g veri kümesi ile çalışacağım. Siz de deneme yapmak için bilgisayarınızdan yukarıda verdiğim adresten bu veri setine erişebilirsiniz.
Yukarıdaki görselde de görüldüğü gibi credit-g.arff isimli veri setini seçtim ve Weka çalışma ortamına yükledim. Aşağıda veri setine ait görüntüler yer alıyor. Veri madenciliği çalışmak istiyorsanız veri setinize hakim olmalısınız. Veri setindeki bilgilerin ne anlama geldiğini bilirseniz veri madenciliği tekniklerini uygulama işleminiz hızlanır ve analiz sonucunda doğru sonuçlar elde edersiniz.
Veri setini açın ve veri seti hakkında hangi bilgilere (örneğin, örneklerin sayısı, öznitelikler ve sınıflar) sahip olduğunuzu inceleyin.
- Bu veri kümesi hangi tür nitelikleri içerir (nominal veya sayısal)?
- Bu veri setindeki sınıflar nelerdir?
- Hangi özellik en büyük standart sapmaya sahip?
- Bu standart sapma size bu özellik hakkında ne anlatıyor?
Üzerinde çalışacağım veri kümesi olan german-c Alman Kredi Verisi olarak adlandırılan bir veri kümesidir. Bu veri kümesinde 21 tane alan(attribute – nitelik) ve 1000 kayıt(instances) bulunmaktadır. Her bir niteliğin özelliklerini görmek için üzerine tıklayabilirsiniz. Selected attribute kısmından seçtiğiniz alanın değerlerini kontrol edebilirsiniz.
Nitelik Filtreleme
Veri madenciliğinde veri setinde bulunan bütün niteliklerin kullanılması zorunlu değildir. Hangi konu üzerinde çalışılacaksa ve hangi alanlar yarar sağlayacaksa onlar seçilmelidir. Bu nitelik seçme işlemi Nitelik Filtreleme olarak adlandırılır. Weka’da Filtreleme yapmak için Weka çalışma ortamında yani Weka Explorer ‘da Filter panelindeki Choose butonuna tıklanır. “unsupervised” kategorisi altındaki attribute klasörü altındaki “remove” seçilir. Filtre uygulanmadan önce çalışılmayacak nitelikler Attributes panelinden yanındaki kutucuk işaretlenerek seçilir. Nitelikler seçildikten sonra Filter Panelinde yer alan Apply (Uygula) butonuna tıklanarak seçilen alanlar(nitelikler) çalışma ortamından çıkarılır.
Veri setinden istenmeyen alanlar çıkarıldıktan sonra veri setinin son halini kayıt etmek için “Save” butonuna tıklanır.
Veri Parçalama (Binning metodu)
Bir diğer önişleme yöntemi veriyi parçalara ayırma işlemidir. Veri ayırma işlemi işimize yarayacak? Bu özellik veriyi belli bir formata çekme işlemidir. Örneğin veri setimizde yaş alanı 19 dan başlayıp 75’e kadar ulaşmaktadır. Bu alanla çalışırken her yaşı bir değer olarak almak yerine belirli alanı belirli aralıklarla parçalayarak veri üzerinde çalışmayı kolaylaştırabiliriz. Filter panelinde yer alan Discretize filtresi bu işlem için kullanılır.
Weka.-> Filter Paneli -> Choose -> unsupervised -> attribute -> Discretize yolunu izleyerek Discretize filtresine ulaşabilirsiniz. Ben örnek olarak age ve credit_amount niteliklerine bu filteriyi uygulayacağım. Bu konu hakkında bir ipucu vermek gerekirse bu filtreleme için min ve max değer içeren nitelikler seçilmesi uygundur. Bu niteliği kullanmak isterseniz minimum – maximum içermesine dikkat edin.
Yukarıdaki görseldeki adımları izleyerek Binning metodu da denilen veri parçalama işlemini kolaylıkla yapabilirsiniz. 3. adımda bins değerine 4 değeri verdim ve o niteliği aşağıdaki gibi 4 parçaya böldüm. Siz kaç parçaya bölmek istiyorsanız o değeri verebilirsiniz.
Bunların haricinde Weka da birçok veri önişleme özelliği yer alıyor. Bunlara Weka’nın Preprocess sekmesindeyken Filter panelinden erişebilirsiniz. Hepsini anlatmak uzun süreceği için en çok kullanılanlar hakkında bilgi verdim. Weka hakkında yazıların devamı gelmesini istiyorsanız yorum göndermeniz yeterlidir. Öğrenmek istediğiniz diğer veri önişleme yöntemlerini de yorumlarda belirtebilirsiniz.
Bir yanıt yazın