29 Mayıs 2011 Pazar

Veri Madenciliği

Veri madenciliği, büyük çaplı verileri arasından anlamlı bilgiye ulaşma, daha yalın bir anlatımla veri madenleme işlemidir. Veri tabanındaki, veri ambarındaki veriler arasında var olan ilişkiler, örüntüler, sapma ve eğilimler, belirli yapılar gibi bilgilerin ortaya çıkarılması veri madenciliğinin temelini oluşturmaktadır. Yapılan işi biraz daha havalı bir şekilde anlatılabiliriz; veri tabanındaki bilgileri keşfediyoruz. Veri tabanındaki keşfedilen bilgiler, işletmelerde karar destek mekanizmalarına da bir ön bilgi ve aynı zamanda bir sonuç yada rapor temin etmek kullanılabilir.

Veri madenciliğinde, yukarıdaki paragrafta anlattığım gibi devasa veri yığınlarından anlamlı (ki burada analitik veriden bahsediyoruz.) verilerin elde işlemlerini kapsadığını söyledik. Peki, anlamlı veriyi nasıl elde edeceğiz. Cevap ise; bilimsel yöntemler kullanarak verinin anlamlı hale getirilmesidir. Bu bilimsel yöntemlerde içerisinde istatistiksel yöntem ve süreçlere başvurulması en sağlıklı yoldur. Veri seçim seçim süreci istatistiksel olduğu için seçim kusurca olacaktır. Veri madenciliğinde amaçlarından biriside büyük hacimli verileri etkin ve verimli bir hale getirmektir. Bu amaçla bir çok bilgisayar programı ve bu programlardan oluşan platform çözümleri üretilmiştir. Söz konusu yazılım olunca iki türlü yaklaşımdan bahsetmek mümkündür. Bunlar açık kaynak kod ve kapalı kod. İşte bizim bu alanda kullanacağımız başlıca yazılımlar; SPSS Clementine, SPSS, SAS, Angoss, KXEN, SQL Server Çözümleri, Oracle Çözümleri, Matlab (kısmen), Orange, RapidMiner, WEKA, Sciptella ETL, iHepWork, KNIME, ELKI ….. listeyi uzatmak mümkün.

Veri madenciliği ile geleneksel yöntemler çözülmesi çok zaman olan zor problemler çok daha hızlı bir şekilde çözülmesi olanaklı hale gelmektedir. Aslında yapılan işlemler bir nevi verinin kalitesini artırmak ve elimizdeki veriyi bizim için daha değerli hale getirmektir. Veri madenciliğini en yoğun kullanıldığı sektörler; bankacılık, telekomünikasyon, borsa, pazarlama, sigortacılık, bilim, endüstri, sağlık, mühendislik … vs alanlardır. Temel olarak kullanım amaçlarına göre şu şekilde bir kategori yapılabilir;

Borsa: Hisse senetlerinin fiyat tahminleri, genel piyasa analizleri

Bankacılık: Risk analizleri, usulsüzlük tespitleri, finansal raporlamalar

Pazarlama: Çapraz satış analizleri, müşteri segmentasyonu

Sigortacılık: Müşteri kaybetme nedenlerinin belirlenmesi, usulsüzlüklerin önlenmesi

Bilim ve mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik proplemlerin çözümlenmesi

Endüstri: Kalite kontrol ve lojistik hizmetleri

Veri madenciliği aslında bir süreçtir. Bu süreçte uygulanacak adımlar doğru olarak yerine getirilmesi şartıyla istenen sonuçlara ancak ulaşılabilir. Veri madenciliği, bir veri keşfi işlemidir. Bu keşifin adımları ise şunlardır;

1.) Veriyi temizleme

2.) Veri bütünleştirme

3.) Veri seçme

4.) Veri dönüşümü

5.) Veri madenciliği

6.) Örüntü değerlendirme

7.) Bilgi sunumu

Veri toplama, bu aşama madenciliğin ilk aşamasıdır. Veriler bir çok farklı ortamlarda bulabilir. Bu aşamada uygun veri, veri ortamlarından çekilir. Veri çekme işlemi tamamlandıktan sonra verilerin ikiye bölünmesi önerilmektedir. 4’e 1 oranında bölümleme yapmak en uygun olanıdır. Verilerin büyük kısmı analizler için, küçük kısmı ise testler için kullanılması amaçlanmaktadır.

Veri temizleme ve dönüştürme, bu aşamada veri formatları üzerinde oynamalar yapılarak veri sonraki işlemler için uygun bir hale getirilir. Eksik ve kayıp verilerde bu aşamada uygun yöntemler kullanılarak veri tamamlama yada silme işlemi yapılır.

Model kurma, bu aşama veri madenciliğin çekirdeğidir. Projenin amacına ulaşması için modelin doğru olarak kurulması gerekmektedir. Modelleme için uygun olan bir yada birden fazla algoritma seçilir. Burada amaç en uygun modeli en iyi algoritma ile yakalayıp en doğru sonucu elde etmektir. Model değiştirme ise elde edilen modeller üzerinde çeşitli sınamalar yaparak yada istatistikleri kullanarak en uygun modeli seçmektedir.

Raporlama, veri madenciliği sonucunda elde edilen sonuçların bir sunumudur (buradaki sunum klasik anlamdaki sunum değildir.). Değerlendirme ise proje kapsamında örüntüleri kullanmaktır. Temel amaçlarımızdan birisi de elde edilen modeli veri ile bütünleşik hale getirip harmanlamadır. Değerlendirme, literatürde scoring olarak da adlandırılmaktadır.

Uygulama, kurulan modelin gerçek zamanlı olarak çalıştırılması ve sonuçların elde edilmesidir. Bu işlemler yapılırken model yönetimi de yapılmaktadır. Model yönetiminde unutulmaması gereken şey, her modelin bir yaşam döngüsüne sahip olduğudur. Verilerimiz iş özelliklerine, zamana ve konjektüre bağlı olarak değişebilir. Bu gibi durumlarda modelinde değiştirilmesi yada güncelleme yapılması kaçınılmazdır.

Hiç yorum yok:

Yorum Gönder