Veri Bilimi ve İstatistik

Veri bilimi, ham verileri anlamlı içgörülere dönüştürme sanatıdır. Ancak bu dönüşüm sihirle değil, sağlam bir temel üzerine inşa edilmiş güçlü araçlarla gerçekleşir. Bu araçların en önemlilerinden biri de istatistiktir. İstatistik, verilerinizi anlamak, geleceği tahmin etmek ve bilinçli kararlar almak için bir rehber görevi görür. Veri biliminde başarılı olmak istiyorsanız, istatistiğin temel kavramlarına hakim olmak sadece bir avantaj değil, bir zorunluluktur. İşte veri biliminde bilmeniz gereken 5 temel istatistik kavramı, neden önemli oldukları ve bunları nasıl kullanacağınız hakkında kapsamlı bir rehber.

İçindekiler

Verilerinize İlk Bakış: Betimsel İstatistikler Neden Bu Kadar Önemli?

Veri bilimindeki yolculuğunuzda ilk durağınız, elinizdeki veriyi tanımaktır. İşte tam da burada betimsel istatistikler devreye girer. Bir veri setinin genel yapısını, eğilimlerini ve dağılımını özetlemek ve görselleştirmek için kullanılırlar. Bir nevi, büyük bir romanı okumadan önce arka kapak özetine bakmak gibidir. Bu istatistikler, verilerinizin “ne anlattığını” hızlıca anlamanızı sağlar ve daha derin analizler için zemin hazırlar.

Merkezi Eğilim Ölçüleri: Bir veri setinin “ortasını” veya tipik değerini gösterirler.

Ortalama (Aritmetik Ortalama): Bir veri setindeki tüm değerlerin toplamının, veri noktası sayısına bölünmesiyle elde edilir. En yaygın kullanılan merkezi eğilim ölçüsüdür ve birçok durumda iyi bir gösterge sağlar. Ancak aykırı değerlere (outlier) karşı oldukça hassastır. Örneğin, bir şirketteki maaş ortalaması, CEO’nun çok yüksek maaşı nedeniyle çalışanların büyük çoğunluğunun maaşından çok daha yüksek çıkabilir.
Medyan (Ortanca): Bir veri seti küçükten büyüğe sıralandığında tam ortada yer alan değerdir. Eğer veri noktası sayısı çift ise, ortadaki iki değerin ortalaması alınır. Medyanın en büyük avantajı, aykırı değerlerden etkilenmemesidir. Yukarıdaki maaş örneğinde, medyan maaş, çalışanların gerçek tipik gelirini ortalamadan çok daha iyi yansıtabilir.
Mod (Tepe Değer): Bir veri setinde en sık tekrar eden değerdir. Özellikle kategorik verilerde (örneğin, en popüler ürün rengi) oldukça kullanışlıdır. Birden fazla modu olan veri setleri (bimodal, multimodal) veya hiç modu olmayan veri setleri de olabilir.

Dağılım Ölçüleri (Varyasyon Ölçüleri): Veri noktalarının birbirine ne kadar yakın veya uzak olduğunu, yani verinin “nasıl yayıldığını” gösterirler.

Aralık (Range): Bir veri setindeki en büyük değer ile en küçük değer arasındaki farktır. Veri yayılımı hakkında hızlı ama kaba bir fikir verir. Aykırı değerlerden fazlasıyla etkilenir.
Varyans: Veri noktalarının ortalamadan ne kadar uzaklaştığının ortalama karesidir. Yüksek varyans, veri noktalarının ortalamadan daha dağınık olduğunu gösterirken, düşük varyans noktaların ortalamaya daha yakın olduğunu gösterir. Matematiksel olarak birçok istatistiksel modelin temelini oluşturur.
Standart Sapma: Varyansın kareköküdür. Orijinal veri birimleriyle ifade edildiği için varyanstan daha kolay yorumlanır. Bir veri noktasının ortalamadan tipik olarak ne kadar saptığını gösterir. Örneğin, bir öğrencinin sınav notlarının standart sapması düşükse, notları birbirine yakın ve istikrarlıdır; yüksekse, notları arasında büyük farklılıklar vardır.

Neden Önemli? Betimsel istatistikler, verilerinize ilk bakışta “anlam” katmanın en hızlı yoludur. Aykırı değerleri tespit etmenize, veri dağılımlarını anlamanıza ve analizlerinizi hangi yöne doğru derinleştireceğinize karar vermenize yardımcı olurlar. Bir makine öğrenimi modeline başlamadan önce verilerinizi bu şekilde özetlemek, model performansını etkileyebilecek potansiyel sorunları erken aşamada fark etmenizi sağlar.

Verileriniz Nasıl Dağılıyor? İhtimal Dağılımlarının Gücü

Veri biliminde sadece elinizdeki veriyi anlamakla kalmaz, aynı zamanda gelecekteki olayları veya veri noktalarını tahmin etmeye çalışırsınız. İşte bu noktada ihtimal dağılımları (olasılık dağılımları) sahneye çıkar. Bir değişkenin alabileceği tüm olası değerleri ve her bir değerin veya değer aralığının ortaya çıkma olasılığını tanımlayan matematiksel fonksiyonlardır. Verilerinizi bir ihtimal dağılımına benzetmek, o verinin altında yatan süreci anlamanıza ve gelecekteki davranışları hakkında çıkarımlar yapmanıza olanak tanır.

Normal Dağılım (Gauss Dağılımı): İstatistik ve veri biliminin en bilinen ve en çok kullanılan dağılımıdır. “Çan eğrisi” olarak da bilinir ve doğal dünyadaki birçok olguyu (insan boyları, IQ skorları, ölçüm hataları vb.) mükemmel bir şekilde modeller. Simetrik bir dağılımdır; ortalama, medyan ve mod birbirine eşittir ve eğrinin tam ortasında yer alır. Normal dağılımın en önemli özelliklerinden biri, verilerin yaklaşık %68’inin ortalamanın bir standart sapma içinde, %95’inin iki standart sapma içinde ve %99.7’sinin üç standart sapma içinde yer almasıdır. Bu özellik, veri analizi ve hipotez testlerinde kritik rol oynar.
Binom Dağılımı: Sadece iki olası sonucu olan (başarı/başarısızlık, evet/hayır, hasta/sağlıklı gibi) “Bernoulli denemeleri” serisinin sonuçlarını modeller. Belirli sayıda deneme yapıldığında, belirli sayıda başarının elde edilme olasılığını hesaplamak için kullanılır. Örneğin, 10 kez yazı tura attığınızda 7 kez yazı gelme olasılığı veya bir e-ticaret sitesine gelen 100 ziyaretçiden 10’unun satın alma yapma olasılığı.
Poisson Dağılımı: Belirli bir zaman aralığında veya mekanda nadir olayların belirli bir ortalama hızda meydana gelme sayısını modeller. Örneğin, bir çağrı merkezine bir saat içinde gelen çağrı sayısı, bir web sitesine bir dakikada gelen ziyaretçi sayısı veya belirli bir coğrafi bölgede bir yılda meydana gelen deprem sayısı gibi olaylar Poisson dağılımı ile modellenebilir.

Neden Önemli? İhtimal dağılımlarını anlamak, verilerinizin nasıl üretildiğini ve nasıl davrandığını anlamanıza yardımcı olur. Bu, doğru istatistiksel testleri seçmenizi, güven aralıkları oluşturmanızı ve gelecekteki olaylar hakkında daha doğru tahminler yapmanızı sağlar. Makine öğreniminde, birçok algoritma (örneğin, Naive Bayes) belirli veri dağılımlarını varsayar ve bu varsayımları anlamak, model seçimi ve performans optimizasyonu için hayati öneme sahiptir.

Kararlarınızı Veriye Dayandırmak: Hipotez Testiyle Doğru Sonuçlara Ulaşın

Veri biliminde sık sık iki veya daha fazla grup arasında fark olup olmadığını, bir tedavinin etkili olup olmadığını veya bir kampanyanın satışları artırıp artırmadığını merak ederiz. İşte bu gibi soruları nesnel bir şekilde yanıtlamak için hipotez testi kullanılır. Hipotez testi, bir popülasyon hakkında bir iddiayı (hipotez) örneklem verilerini kullanarak test etmeye yönelik istatistiksel bir yöntemdir. Bu, “sezgisel” kararlar yerine “veriye dayalı” kararlar almanızı sağlar.

Bir hipotez testi genellikle şu adımları içerir:

Sıfır Hipotezi (H0) ve Alternatif Hipotezi (H1) Belirleme:
- Sıfır Hipotezi (H0): Genellikle “fark yok”, “etki yok”, “ilişki yok” gibi bir durumu ifade eden varsayılan durumdur. Örneğin, “Yeni reklam kampanyasının satışlar üzerinde hiçbir etkisi yoktur.”
- Alternatif Hipotezi (H1): Sıfır hipotezinin doğru olmadığını iddia eden hipotezdir. Genellikle sizin kanıtlamak istediğiniz şeydir. Örneğin, “Yeni reklam kampanyasının satışlar üzerinde olumlu bir etkisi vardır.”
Anlamlılık Düzeyi (Alfa – α) Belirleme: Bir karar vermeden önce, sıfır hipotezini reddetme eşiğinizi belirlersiniz. En yaygın değerler %0.05 (0.05) veya %0.01 (0.01)’dir. Bu, sıfır hipotezi doğru olmasına rağmen onu yanlışlıkla reddetme (Tip I Hata) riskini ne kadar göze aldığınızı gösterir.
Test İstatistiği Hesaplama: Verilerinizden bir test istatistiği (örneğin, t-değeri, z-değeri, F-değeri) hesaplanır. Bu istatistik, örneklem verilerinizin sıfır hipotezi altında ne kadar olası olduğunu gösterir.
p-Değeri Hesaplama: Test istatistiğinden bir p-değeri elde edilir. p-değeri, sıfır hipotezi doğru olduğunda, gözlemlediğiniz veya daha uç bir sonucun ortaya çıkma olasılığıdır.
Karar Verme:
- Eğer p-değeri < α ise, sıfır hipotezini reddedersiniz. Bu, gözlemlediğiniz etkinin veya farkın istatistiksel olarak anlamlı olduğu ve şans eseri ortaya çıkma olasılığının çok düşük olduğu anlamına gelir. Alternatif hipotezi destekleyen yeterli kanıt var demektir.
- Eğer p-değeri ≥ α ise, sıfır hipotezini reddetmek için yeterli kanıtınız yoktur. Bu, gözlemlediğiniz farkın istatistiksel olarak anlamlı olmadığı ve şans eseri ortaya çıkmış olabileceği anlamına gelir. Ancak bu, sıfır hipotezinin doğru olduğu anlamına gelmez, sadece onu reddetmek için yeterli kanıtımız olmadığı anlamına gelir.

Neden Önemli? Hipotez testi, A/B testlerinde, ilaç denemelerinde, pazar araştırmalarında ve birçok veri bilimi uygulamasında temel bir araçtır. Bir ürün özelliğinin kullanıcı davranışını değiştirip değiştirmediğini, iki farklı makine öğrenimi modelinin performansının istatistiksel olarak farklı olup olmadığını veya bir veri setindeki iki değişken arasında gerçek bir ilişki olup olmadığını belirlemenizi sağlar. Yanlış çıkarımlardan kaçınarak, daha güvenilir ve eyleme geçirilebilir içgörüler elde etmenizi sağlar.

Geleceği Tahmin Etmek ve İlişkileri Anlamak: Regresyon Analizi

Veri bilimciler olarak sık sık “Eğer X olursa, Y ne olur?” veya “X ile Y arasında nasıl bir ilişki var?” gibi sorularla karşılaşırız. Bu tür sorulara cevap bulmak için kullanılan güçlü istatistiksel tekniklerden biri de regresyon analizidir. Regresyon analizi, bir bağımlı değişken (tahmin etmek istediğimiz şey) ile bir veya daha fazla bağımsız değişken (tahmin için kullandığımız faktörler) arasındaki ilişkiyi modellemeye yarar.

Doğrusal Regresyon (Linear Regression): En temel ve yaygın regresyon türüdür. Bağımlı değişken ile bağımsız değişken(ler) arasında doğrusal bir ilişki olduğunu varsayar. Amaç, veri noktalarına en uygun düz çizgiyi (veya çoklu regresyonda hiperdüzlemi) bulmaktır. Bu çizginin denklemi, bağımsız değişkenlerin bağımlı değişkeni nasıl etkilediğini gösteren katsayılar içerir. Örneğin, bir evin büyüklüğü (bağımsız değişken) ile satış fiyatı (bağımlı değişken) arasındaki ilişkiyi modelleyerek, belirli bir büyüklükteki evin fiyatını tahmin edebilirsiniz.
Lojistik Regresyon (Logistic Regression): Adında “regresyon” geçse de, aslında bir sınıflandırma algoritmasıdır. Bağımlı değişkenin iki veya daha fazla kategorik sonuçtan birini aldığı durumlar için kullanılır (örneğin, bir müşterinin churn edip etmeyeceği: evet/hayır; bir e-postanın spam olup olmadığı: evet/hayır). Lojistik regresyon, bir olayın belirli bir kategoriye düşme olasılığını tahmin etmek için S-şekilli bir lojistik fonksiyon kullanır. Bu olasılık daha sonra bir eşik değeri kullanılarak bir sınıflandırmaya dönüştürülür. Örneğin, bir kredi başvurusunun onaylanıp onaylanmayacağını (onaylandı/reddedildi) başvuru sahibinin gelir, yaş, kredi puanı gibi bağımsız değişkenlerine göre tahmin etmek.

Neden Önemli? Regresyon analizi, tahmin modelleri oluşturmak, belirli faktörlerin bir sonucu nasıl etkilediğini anlamak ve hatta bir makine öğrenimi modelinde özellik mühendisliği için önemli içgörüler sağlamak için paha biçilmezdir. Pazarlama kampanyalarının etkinliğini ölçmekten, hastalık risk faktörlerini belirlemeye kadar geniş bir uygulama alanına sahiptir. Unutulmamalıdır ki, regresyon korelasyonu gösterir ancak her zaman nedensellik anlamına gelmez.

Büyük Veriden Doğru Kesiti Almak: Örnekleme Teknikleri Neden Hayati?

Veri biliminde genellikle çok büyük veri setleriyle çalışırız. Bazen bir popülasyonun tamamını incelemek pratik veya mümkün değildir (zaman, maliyet, kaynak kısıtlamaları nedeniyle). İşte bu durumlarda örnekleme teknikleri devreye girer. Örnekleme, daha büyük bir popülasyondan daha küçük, yönetilebilir bir alt küme (örneklem) seçme sürecidir. Amaç, seçilen örneklemin orijinal popülasyonu olabildiğince doğru bir şekilde temsil etmesini sağlamaktır, böylece örneklemden elde edilen sonuçlar popülasyona genellenebilir.

Basit Rastgele Örnekleme (Simple Random Sampling): Popülasyondaki her üyenin örnekleme seçilme olasılığının eşit olduğu en temel örnekleme yöntemidir. Kura çekimi veya rastgele sayı üreteçleri kullanılarak yapılabilir. Önyargıyı en aza indirme potansiyeli yüksektir ancak büyük popülasyonlarda uygulanması zor olabilir ve popülasyonda azınlıkta olan grupların örnekleme dahil edilmeme riski vardır.
Tabakalı Örnekleme (Stratified Sampling): Popülasyon, belirli özelliklere (örneğin yaş grupları, cinsiyet, gelir seviyesi) göre homojen alt gruplara veya “tabakalara” ayrılır. Daha sonra her tabakadan basit rastgele örnekleme yapılır. Bu yöntem, popülasyondaki farklı grupların örneklemde orantılı olarak temsil edilmesini sağlar ve özellikle önemli alt grupların analiz edilmesi gerektiğinde kullanışlıdır.
Küme Örneklemesi (Cluster Sampling): Popülasyon, doğal olarak oluşan gruplara veya “kümelere” ayrılır (örneğin coğrafi bölgeler, okullar, mahalleler). Daha sonra bu kümelerden bazıları rastgele seçilir ve seçilen kümelerin tüm üyeleri örnekleme dahil edilir. Büyük ve dağınık popülasyonlarda maliyet ve zaman açısından daha verimli olabilir, ancak küme içi homojenlik veya kümeler arası heterojenlik varsa önyargı riski taşıyabilir.
Sistematik Örnekleme (Systematic Sampling): Popülasyonun üyeleri belirli bir sıra içinde düzenlenir (örneğin alfabetik olarak) ve belirli bir aralıkla (örneğin her 10. kişi) örnekleme seçilir. Uygulaması basittir ancak sıralamada bir desen varsa önyargıya yol açabilir.

Neden Önemli? Doğru örnekleme tekniklerini kullanmak, analizlerinizin geçerliliğini ve güvenilirliğini doğrudan etkiler. Kötü bir örneklem, popülasyonu yanlış temsil edebilir ve yanlış sonuçlara yol açabilir. Bu da yanlış iş kararları veya hatalı model tahminleri anlamına gelebilir. Özellikle büyük veri setleriyle çalışırken, tüm veriyi işlemek yerine temsili bir örneklem üzerinde çalışmak, hem hesaplama maliyetlerini düşürür hem de analiz süreçlerini hızlandırır.

Sıkça Sorulan Sorular

Veri biliminde istatistik neden bu kadar önemli?
İstatistik, ham verilerden anlamlı içgörüler çıkarmak, tahminler yapmak ve veri destekli kararlar almak için temel bir dildir. Verilerinizi anlamadan doğru analizler yapamazsınız.

Aykırı değerler (outlier) veri analizimi nasıl etkiler?
Aykırı değerler ortalama gibi merkezi eğilim ölçülerini ve varyans gibi dağılım ölçülerini çarpıtabilir, bu da analizlerinizin ve modellerinizin doğruluğunu olumsuz etkileyebilir.

p-değeri her zaman düşük olduğunda sıfır hipotezini reddetmeli miyim?
Düşük bir p-değeri (genellikle 0.05’ten küçük), sıfır hipotezini reddetmek için istatistiksel kanıt sağlar, ancak bu her zaman pratik bir anlamlılık veya nedensellik anlamına gelmez; bağlamı değerlendirmek önemlidir.

Korelasyon ile nedensellik arasındaki fark nedir?
Korelasyon, iki değişkenin birlikte hareket etme eğilimini gösterir; nedensellik ise bir değişkenin diğerine doğrudan bir etki yaptığını ifade eder. Korelasyon nedensellik anlamına gelmez.

Hangi örnekleme tekniğini kullanacağımı nasıl seçerim?
Seçim, popülasyonunuzun özelliklerine, araştırma sorunuza, mevcut kaynaklarınıza ve önyargı riskini ne kadar en aza indirmek istediğinize bağlıdır.

Veri biliminde istatistik, bir pusula ve harita gibidir. Bu beş temel kavramı anlamak, veri okyanusunda kaybolmadan, doğru yönde ilerlemenizi ve değerli hazineler bulmanızı sağlayacaktır. Unutmayın, verilerinizi anlamak, geleceği şekillendirmenin ilk adımıdır.

Veri Bilimi İçin İstatistik: Bilmeniz Gereken 5 Temel Kavram