Analitik araçlar olarak bilinen veri madenciliği araçları veri işlemenin önemli bir parçasıdır. Bu yazımda veri madenciliğinde kullanılan her bir aracın güçlü ve zayıf yönlerinin bir değerlendirmesini yapacağım.
WEKA
Weka (Waikato Environment for Knowledge Analysis), Java’da tamamen Java’da kodlanan ve öncelikle Yeni Zelanda Waikato Üniversitesi’nde geliştirilen açık kaynaklı bir veri madenciliği aracıdır. Weka, son derece gelişmiş eğitim algoritmaları, iş akışı grafiksel kullanıcı arabirimi (GUI) ve veri görselleştirme araçlarının dahil edilmesiyle dikkat çekiyor. Weka, kullanıcılara gelişmiş veri analizi, bir komut satırı arabirimi ve bir Java uygulama programlama arabirimi (API) için tasarlanmış bir GUI aracılığıyla gelişmiş veri madenciliği yordamlarına erişme olanağı sağlar. Bununla birlikte, Weka, genellikle tek bir makinede mevcut RAM kaynakları ile sınırlı olduğundan büyük veri analizinde iyi değildir. 64 bit işletim sistemli kullanıcılar daha büyük RAM kaynaklarına erişebilir ancak Weka analizden önce büyük verileri örneklemek için verileri ön işleme ve filtreleme algoritmalarına yönlendirir.
Weka’da bulunan en güçlü algoritmalar özel yazılım geliştirme olmaksızın diğer ortamlarda kullanılamayacağından, örnekleme(sampling) Weka gerektiren kullanım durumları için en iyi uygulama olabilir. Bazı sınıflandırıcılar aynı anda birden çok çapraz doğrulama(cross-validation folds) katındaki modelleri eğitebilir. Weka sunucu dağıtımı, veri madenciliği görevlerini aynı anda tek bir makinede veya bir kümede çalıştırmaya izin verir. Weka, iki tane Java tabanlı büyük veri analizi ortamı için gelişmiş analiz bileşeni de sunar: Pentaho and MOA (Massive Online Analysis). Weka, Java programlama deneyimine sahip olmayan ve hızlı bir şekilde çalışmaya başlamak isteyen kullanıcılar için iyi bir seçenektir.
JAVA VE JVM DİLLERİ
Özel analiz platformlarını sıfırdan tasarlamak isteyen kuruluşlar için Java ve Java Virtual Machine’de (JVM) çalışan diğer birçok dil genel tercihtir. Büyük, eşzamanlı ve ağ bağlantılı uygulamalar için Java, özellikle büyük veri analitiği alanında alt düzey dillere göre önemli avantajlar sağlar. Özellikle FORTRAN ve C gibi doğrudan yerel donanıma uygulanan diller RAM ve CPU’ya bağlı hesaplamalar için Java’dan daha iyi performans gösterirken, Java, platformundaki teknolojik gelişmeler, giriş / çıkış ve ağa bağlı süreçler için performansını neredeyse native dillerle uyumlu hale getirmiştir. En çok tanınan Java tabanlı büyük veri ortamı olan Apache Hadoop, 2008 ve 2009 TeraByte Sort Benchmark’taki diğer birçok teknolojiyi geride bıraktı. Apache Hadoop bu saygın Benchmark yarışmasını kazanan ilk Java tabanlı teknolojiydi.
Scala ve Clojure
Scala ve Clojure, JVM’de de çalışan ve veri madenciliği uygulamaları için kullanılan yeni dillerdir. Scala, İsviçre’de École Polytechnique Fédédale de Lozan’da geliştirilen açık kaynaklı bir dildir. İlk olarak 2003 yılında piyasaya sürüldü ve Java üzerinde bir iyileştirme olmayı hedefliyor. Scala, Java’nın geliştirme verimliliğini kapsadığı için veri madenciliği uygulamalarını oluşturmak için kullanılır. Scala, geliştiricilerin fonksiyonel programlama ve nesne yönelimli (OO) programlama paradigmaları arasında geçiş yapmasına izin verir. Scala günümüzde popülerlik kazanmaya devam ediyor ve Akka ve Spark gibi büyük açık kaynak projelerini uygulamak için kullanılıyor. Scala ayrıca FourSquare, Guardian, LinkedIn, Novell, Siemens, Sony, Twitter ve diğerleri tarafından çeşitli amaçlar için ticari olarak kullanılmaktadır. Akka, JVM’de büyük, paralel ve dağıtılmış uygulamalar oluşturmak için bir araç takımıdır. Spark, University of California Berkeley AMP Lab tarafından geliştirilen yüksek performanslı bir veri madenciliği ortamıdır.
Clojure, Rich Hickey tarafından yazıldı ve 2007’de yayınlandı. Ek komut dosyası ve eşzamanlılık özellikleriyle, fonksiyonel bir programlama dili ve Lisp programlama dilinin lehçesidir. Özellikle büyük veri (Big Data) uygulamaları için tasarlanmamış olsa da, bu içsel özellikler Clojure’ı veri analizi yazılımı oluşturmak için mükemmel bir aday haline getirmektedir. Clojure, verileri çok bütünsel bir şekilde ele alır. Geliştiricilere kapsamlı veri yapılarını işlemek için birçok uygun yol sunar. Clojure, Lisp’den basit sözdizimini, tembel değerlendirmeyi(lazy evaluation) ve son derece etkili makro yeteneğini miras alır.
Clojure’ın benzersiz güçlü yönleri JVM platformununkilerle ve Java kitaplıklarına erişim ile birleştirildiğinde müthiş bir genel amaçlı programlama aracına dönüşüyor. Clojure’ın ilk kullanıcıları, daha küçük şirketler, teknolojik veya analitik olarak gelişmiş şirketler ve startuplar olmuştur. Ancak Citigroup ve Max Planck Enstitüsü gibi daha büyük şirketler ve kurumlar da Clojure’ı kullandılar.
R
R, istatistiksel analiz için tasarlanmış açık kaynaklı dördüncü nesil bir programlama dilidir. R 1970’lerin sonlarından itibaren Bell Laboratories’de geliştirilen ticari S dili kullanılarak geliştirilmiştir. R, geniş ve büyüyen veri bilimi topluluğunda, akademik ortamlarda ve özel sektörde geniş kullanım alanı buldu. Bank of America, Google, Intercontinental Hotels, Merck, Pfizer ve Shell gibi büyük şirketlerin çeşitli amaçlar için R’yi kullandıkları bilinmektedir. R ‘a paketler yüklenerek son derece kapsamı genişletilebilir. günümüz itibari ile R’a 2000’in üzerinde paket yükleyerek R’ı daha fonksiyonel hale getirebiliriz. R paketleri konuşma analizinden, genomik bilime, metin madenciliğinden R’nin temel analiz işlevselliğine kadar her şeyi içermektedir.
PYTHON
1980’li yılların başından beri Python, geniş bir standart kütüphane ve basit bir sözdizimi ile genişletilebilir yüksek seviyeli bir dil olarak tasarlanmıştır. Python etkileşimli veya programlı olarak kullanılabilir ve genellikle komut dosyası, sayısal analiz ve Web uygulaması geliştirme için kullanılır. Python yorumlanmış bir dildir ve genellikle yerel, derlenmiş diller ve JVM dillerinden daha yavaş hesaplama yoğunluklu görevleri gerçekleştirir. Python programları çok parçalı olabilir ve JVM dilleri gibi bellek yönetimini ve istisna işlemlerini yürütür, geliştiriciyi bu sorumluluktan kurtarır. Python’un genel programlama güçleri, birçok veritabanı, matematik ve grafik kütüphanesi ile birleştiğinde, veri araştırma ve veri madenciliği problem alanlarındaki projelere iyi uyum sağlar. Python’un yerleşik dosya işleme ve metin işleme yetenekleri, SQL ve NoSQL veritabanlarının çoğuna bağlanabilme yeteneğiyle birlikte, Python programlarının ham ve tablo verilerini nispeten kolay bir şekilde yüklemesine ve işlemesine olanak tanır. Matematiksel ve istatistiksel modeller, doğrusal cebir, sayısal analiz ve istatistiksel işlemler için Python’da güçlü desteğe sahip Scipy ve Numpy kütüphaneleri kullanılabilir. Orange ve Pattern gibi daha yeni Python kitaplıkları, yüksek düzeyde veri madenciliği API’leri sağlar.
SAS
SAS, piyasadaki lider analitik yazılımdır. 2013 IDC raporunda (“Dünya Çapında İş Analitiği Yazılımı”) SAS sadece önemli bir pazar payına sahip değil, aynı zamanda diğer 16 tedarikçiden daha fazla pazar payına sahipti. SAS Sistemi ilk olarak 1976’da satıldı ve dört kuruculardan ikisi olan Jim Goodnight ve John Sall hala şirkette aktif durumda çalışıyorlar. SAS Sistemi, istatistik, operasyon araştırması, veri yönetimi, veriye erişim için motorlar ve iş zekası (BI) dahil olmak üzere bir dizi ürün alanına ayrılmıştır. SAS sistemi iki ana alana ayrılmıştır: analiz yapmak için prosedürler ve kullanıcıların verileri manipüle etmesini sağlayan dördüncü nesil dil. Bu Data Step olarak bilinir. SAS, bireysel müşteri ortamlarına esneklik gösterirken en iyi hesaplama performansını sağlamak için kapsamlı bir şema kullanır. SAS sistemi verileri hafızada işler ve daha sonra verileri verimli bir şekilde yönetmek için sistem sayfa dosyalarını kullanır. SAS, mimarisinde ve modern bilgisayar kümelerinin FLOP başına düşen fiyatı ve işlem gücünü daha iyi kullanmak için büyük değişiklikler yaptı.
Bir yanıt yazın