Birçok alanda bir olayın sonuçlarının birbirinden farklı şekillerde sonuçlanabileceği görülür. Bu sonuçlar veri bilimi ile uğraşan kişilere olasılık kavramını verir. Olasılık, istatistik kavramının temel taşlarından biridir.
Olasılık Kavramları
Olasılığın temel kavramları;
Deney: İyi tanımlanmış sonuç doğuran eyleme deney denir.
Sonuç: Bir deneyin sona erme biçimine sonuç denir.
Örnek Uzayı: Bir deneyin tüm mümkün sonuçlarının toplandığı kümeye örnek uzayı denir.
Basit Olay: n defa tekrarlanan deneyin her bir sonucunu içeren olaya basit olay denir.
Bileşik Olay: n defa tekrarlanan deneyin birden fazla sonucunu içeren olaya bileşik olay denir.
Ayrık Olay: İki olay aynı anda oluşamıyorsa bu olaylara ayrık olay denir.
Ayrık Olmayan Olay: İki olay aynı anda oluşabiliyorsa bu olaylara ayrık olmayan olay denir.
Olasılıkla ilgili bilinmesi gereken bazı önemli durumlar;
Olasılık bir olayın meydana gelme şansı olarak da tanımlanabilir. P ile gösterilir.
Basit olay E olarak gösterilirse, basit olayın olasılığı P(E) olarak gösterilir. Yine aynı şekilde bileşik olay A olarak gösterilirse, bileşik olayın olasılığı P(A) olarak gösterilir.
Olayların tümünde (yani ister basit olay ister bileşik olay olsun) olasılık değerleri 0 ile 1 arasındadır.
Ayrıca basit olayların olasılıkları toplamı her zaman 1’dir.
Olasılık Hesabı Yapabilmek için Yaklaşımlar
1.Klasik Yaklaşım
Klasik yaklaşım bir deney n defa tekrarlandığında sonuçların birbirinin eşit olasılıkta olduğu durumlarda deney sonuçlarının olasılıklarının hesabında kullanılır.
Basit olay için; P(E)= 1/ Deneyin mümkün sonuç sayısı
Bileşik olay için; P(A)= A olayındaki sonuç sayısı / Deneyin mümkün sonuç sayısı
2.Göreli Sıklık Yaklaşımı (Oransal Frekans Yaklaşımı)
Göreceli sıklık yaklaşımı deney sonuçlarının eşit olasılıklı olmadığı durumlarda sonuçlara ilişkilin olasılıkların hesabında kullanılır. Göreli sıklık (oransal frekans) yaklaşımında eşit olasılıklı olmayan sonuçların olasılıklarının hesabının iki yolu vardır;
1.Yol, ilgili deneye ilişkin önceki verilerden yararlanmaktır.
2.Yol, ilgili deneyi birden çok tekrarlayarak oluşturulan veriden yaralanmaktır.
İlgili deneye ilişkin geçmiş verileri incelendiğinde veya bu deneyi birden çok tekrarlandığında bir “A” olayının gözlem frekansı “f” ile gösterirse bu “A” olayının olasılığı;
P(A) =f / n
olarak gösterilir. Burada n ilgili deyin tekrar sayısını ifade etmektedir.
3.Subjektif (öznel) olasılık yaklaşımı
Deney sonuçlarının eşit olmadığı ve deneyin genellikle sadece 1 defa tekrarlandığı durumlarda sonuçlara ilişkin olasılıklar bu yaklaşımla bulunur.
Sübjektif olasılık herkesin kendi görüşleri olduğu için bir değer olup öngörüde bulunan bireyin deneyiminden ve yargılarından etkilenir.
Marjinal Olasılık ve Koşullu Olasılık
Diğer olaylar dikkat alınmayıp sadece bir olay için bulunan olasılığı marjinal olasılık denir.
Bir olayın gerçekleştiği biliniyorken diğer olayın olma olasılığına koşullu olasılık denir.
A olayının marjinal olasılığı P(A) ve B olayının gerçekleştiği biliniyorken A olayının olma olasılığı P(A/B) olarak ifade edilir.
Bağımsız Olaylar
Bir olayın ortaya çıkması diğer olayın ortaya çıkma olasılığını etkilemiyorsa gerçekleşen bu iki olaya bağımsız olaylar denir.
A ve B olayları olsun;
P(A/B)=P(A)
P(B/A)=P(B)
Bağımlı Olaylar
Bir olayın ortaya çıkması diğer olayın ortaya çıkma olasılığını etkilemiyorsa gerçekleşen bu iki olaya bağımlı olaylar denir.
Tamamlayıcı Olaylar
İki olay aynı anda oluşmuyorsa bu olaylara ayrık olay denir.
Eğer iki ayrık olay deneyin mümkün tüm sonuçlarını kapsıyorsa bu olaylara tamamlayıcı olaylar denir.
A olay ise A olayının tamamlayıcı olayı Ȧ olarak gösterilir.
Olayların Arakesiti
A ve B olaylarının arakesiti hem A hem de B kümesindeki sonuçları içerir. A ve B olayları için arakesit A∩B olarak gösterilir.
Çarpma Kuralı
A ve B olaylarının birlikte ortaya çıkma olasılığına ortak olasılık denir. Bu ortak olasılık P(A∩B) olarak gösterilir.
P(A∩B) = P(A)P(B/A) ya da P(A∩B) =P(B)P(A/B)
A ve B olaylarının birlikte ortaya çıkmıyorlarsa bu olaylara bağımsız olaylar denir. Bağımsız olayların ortak olasılığı P(A∩B) =P(A)P(B) olarak gösterilir.
Olayların Birleşimi ve Toplama Kuralı
A ve B olaylarının birleşimi AՍB olarak gösterilir. A ve B olaylarındaki elemanlardan oluşur.
P(AՍB) =P(A)+P(B)-P(A∩B) olarak hesaplanır.
RASTGELE DEĞİŞKEN
Bir olayın, deneyin rastgele şansa bağlı olarak ortaya çıkan sonucu bir değişkenin değeri olarak alınırsa bu değişkenlere rastgele değişken denir.
Rastgele değişkenler ikiye ayrılır. Bunlar; kesikli rastgele ve sürekli rastgele değişken
1.Kesikli Rastgele Değişken
Rastgele bir değişkenin alabildiği değerler sayılabiliyorsa bu tür rastgele değişkene kesikli rastgele değişken denir.
2.Sürekli Rastgele Değişken
Rastgele bir değişkenin aldığı değerler herhangi bir ölçüm aracı ile ölçülebiliyorsa bu tür rastgele değişkene sürekli rastgele değişken denir.
BAZI ÖNEMLİ DAĞILIMLAR
Bazı Önemli Kesikli Dağılımlar
1.Bernoulli Dağılımı
Bir deney iki farklı sonuçlardan sadece bir tanesini ile sonuçlanabiliyorsa bu tür deneylere Bernoulli deneyleri denir.
Bernaulli deneyi sonucuna göre;
Ծ i = 1 olur ise ilgilenin sonuç gerçekleşirse
Ծ i = 0 olur ise ilgilenilen sonuç gerçekleşmezse
Bu şeklide tanımlanan değişken Bernoulli değişkeni denir. Bernoulli dağılımı için ortalama ve varyans formülleri E(Ծ) = p ve V(Ծ) =p (1-p) bu şekilde gösterilmektedir.
2.Binom Dağılımı
Bir Bernoulli deneyinin n defa tekrarı bazı koşulları sağlıyorsa bunlar Bernoulli sürecinin oluşmasını sağlar.
Deneyin her tekrarı iki farklı sonuçtan biri ile sonuçlanır.
Sonuçlardan birinin olasılığı p’dir ve bu olasılık her farklı deneyde sabittir.
Değer sonucun olasılığı ise 1-p veya p+q=1 olmak üzere q ile gösteriler.
Deneyler bağımsızdır. Yani deneyin bir tekrarının sonucu deneyin bir başka tekrarındaki sonuca etki yapmaz.
Fonksiyon binom dağılımın olasılık fonksiyonudur.
, x=0,1,2,…n
Bir bernoulli sürecinde tekrar sayısı n iken, sonuçlardan birinin tekrar sayısını simgeleyen X rastgele değişkenin dağılımı binom dağılımı olarak belirlenir. x’in tüm değeri değerleri için f(X)>0 dır
önemli bir özelliktir.
Bunun dışında n! = n(n-1).(n-2)…(2).(1) ve 0! =1 dir.
Binom dağılımının beklenen değeri E(x)=np ve varyansı V(x)=npq formülleri bu şekilde gösterilir.
3.Geometrik Dağılım
Bir deney iki farklı sonuçtan biri ile sonuçlanıyorsa
Seçilen sonucun olasılığı her deneyde aynı kalıyorsa
Deneyler birbirinden bağımsız ise geometrik dağılım kullanılır.
Geometrik dağılımın fonksiyonu;
f (x)=p(1-p)x-1 bu şekilde gösterilir.
Yine geometrik dağılımın beklenen değeri E(x)=1/p varyansı ise V(x)=(1-p) /p2 formülleri ile gösterilir.
4.Poisson Dağılımı
Deneyler veya olaylar birbirlerinden bağımsız ve rastgele oluşuyorlarsa; belli bir zaman aralığında bir deney veya olayın ortalama tekrar sayıları biliniyorsa, bu olay veya deney gelecekte herhangi bir zaman aralığında oluşması olasılığını poisson dağılımı ile hesaplarız.
Poisson dağılımı fonksiyonu;
f(x)=(λxe-λ)/x! bu şekilde gösterilir.
Yine poisson dağılımının beklenen değeri E(x)=λ ve varyansı ise V(x)=λ formülleri ile gösterilir.
Bazı Önemli Sürekli Dağılımlar
1.Normal Dağılım (Z dağılımı)
Herhangi bir histogram grafiğinde sınıf aralıkları sıfıra, sınıf frekansları ise sonsuza yaklaştığında grafik üzerindeki noktalar birleştirildiğinde eğri çan şeklini alıyorsa oluşan bu grafiğin normal dağılıma sahip olduğunu gösterir.
Normal dağılım fonksiyonu aşağıdaki gibidir.
f(x)=e2
Sürekli değişkene sahip normal dağılma sahip X değişkenin ortalaması 𝜇, varyansı ise Ծ2 ile gösterilir.
𝜇=0 ve Ծ2=1 ise bu değerlere ilişin dağılıma standart normal dağılım denir.
Standart normal dağılımın dışında dağılımlar da mevcuttur. Bu dağılımları standart normal dağılıma dönüştürmek için doğrusal dönüştürme formülü uygulanır.
Bu formül;
(X-𝜇) /Ծ=Z ≈ N (0,1)
Normal dağılım Z tablo değerleri ve Z değişkenleri ile hesaplanır.
Ayrıca normal dağılımın bir başka kullanım alanı ise binom dağılımıdır. Binom dağılımında n oldukça büyükse normal dağılım kullanılır.
n 25’den büyük ve eşit ise binom dağılımı normal dağılıma yakınsar. Bu durumda beklenen değer 𝜇=np ve varyans Ծ2=np(1-p) formülleri ile hesaplanır.
Bu durumda dönüştürme formülü;
((X±0.5)-np)/ = Z ≈ N(0,1)
Formülde verilen ±0.5 değeri süreklilik düzeltmesi olarak bilinir.
2.t Dağılımı
t dağılımı kullanım alanı aynı Z dağılımı gibidir. Yığının dağılımı normal dağılım ancak yığın varyansı bilinmiyorsa n-1 serbestlik dereceli t dağılımı kullanılır.
t dağılımda yığın varyansı bilinmediği için seçimler örneklemler üzerinden seçilir. Buna göre t istatistik değeri formülü;
(Ẋ-𝜇) / SẊ ≈ tn-1
t dağılımı Z dağılımı gibi ± sonsuz aralığındadır. Serbest derecesi küçükken histogram grafiği basıktır. Serbestlik derecesi arttıkça histogram grafiği normal dağılıma yaklaşır.
3.X2 Dağılımı
X2 dağılımı yığınların varyanslarına ilişkin farklıları tespit etmek için kullanılan bir dağılımdır.
X2 dağılımında S2 istatistiği kullanılır. Bu istatistiği kullanmak için dağılımın örnekleme dağılımının bilinmesi gerekir. X2 dağılımı + sonsuz ve sıfır aralığındadır.
t dağılımına göre X2 dağılımının formülü;
/ Ծ2≈ x2n-1
S2 istatistiği ile X2 dağılımının formülü;
((n-1)S2)/ Ծ2≈ x2n-1
Comments