Materi Matematika

statistik terurai (descriptive statistics)

Setiap persoalan statistik akan menyangkut beberapa hal berikut:
Terdapat himpunan objek (yang menjadi titik perhatian) yang jumlahnya besar dan hipotetis yang disebut Populasi.
Setiap sample (contoh) yang diperoleh dianggap berasal dari populasi tersebut.
Populasi tersebut sedemikian besar sehingga tidak mungkin dikaji/diamati/diukur keseluruhannya
Kesimpulan terhadap suatu karakter populasi hanya dapat diperoleh dari pengamatan dan pengkajian sample yang jumlahnya jauh lebih sedikit.

SAMPLING ACAK (RANDOM SAMPLING)
Sample acak (Random Sample) berukuran n dari distribusi X, adalah kumpulan n variabel random yang tak saling terikat (independent) dengan distribusi sama dengan X.
Variabel acak dapat berarti:
Objek yang dipilih untuk dikaji
Variabel acak lain yang terkait dengan sampel yang dipilih
Nilai numerik yang dimiliki oleh variabel.
Sampling acak menghasilkan sampel yang paling mewakili perilaku/karakter populasi sehingga kesimpulan terhadap sampel menggambarkan kesimpulan terhadap populasi.
Sampling acak menghasilkan proses perhitungan yang paling sederhana, akurat, dan tangguh.
               

PENAYANGAN DISTRIBUSI
Stem-and-Leaf Charts
Histograms dan Ogives

STATISTIK SAMPEL
Sampel adalah realitas yang teramati dari Populasi. Seperti halnya Populasi, sampel memiliki ukuran-ukuran (statistik) sebagai berikut.
Mean Sampel:
Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X. Statistik 
 adalah mean sampel dan diberi notasi .

Median Sampel:
Andaikan X1, X2, ......, Xn adalah sampel acak yang disusun urut (dari kecil ke besar). Median sampel, , adalah
              
       
Varian dan Standar Deviasi Sampel:
Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X. Statistik berikut disebut Varian Sampel, S2,
         
dan  disebut standar deviasi sampel. 

Rumus hitung untuk varian sampel adalah sebagai berikut:

                 

Range Sampel:
Selisih antara nilai sampel terbesar dengan yang terkecil.

estimasi

Usaha memperkirakan nilai parameter statistik suatu populasi berdasarkan pengamatan terhadap sampelnya.

ESTIMASI TITIK
Pada setiap persoalan perkiraan, paling tidak terdapat satu parameter, q,  yang harus diperkirakan nilainya
Perkiraan dilaksanakan menggunakan cara-cara statistik yang sesuai.
Satistik yang dipergunakan untuk mengestimasi parameter populasi q disebut Estimator Titik (Point Estimator) dengan notasi . Nilai numerik yang dimiliki oleh estimator bila diterapkan pada suatu sampel disebut nilai estimasi untuk q.
Suatu estimator disebut baik apabila:
   tidak bias terhadap q.
  memiliki varian yang kecil bila ukuran sampel besar.
Sebuah estimator, , disebut tidak bias terhadap parameter q  bila dan hanya bila E[]=θ.
Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X dengan mean m.  Mean Sampel,    adalah estimator tak bias bagi  m.
Andaikan  adalah mean sampel yang diperoleh dari sampel acak berukuran  n  dari distribusi X dengan mean m dan varian s2. Maka
                                                                
Andaikan S2  adalah varian sampel yang diperoleh dari sampel acak berukuran  n  dari distribusi X dengan mean m dan varian s2. Maka S2adalah estimator tak bias bagi s2.

ESTIMATOR CARA MOMENT
Seringkali moment pertama (mean) dan moment kedua (varian) dapat dipergunakan sebagai estimator karena  rumusannya terkait dengan parameter populasi.
Contoh:
Rimbawan ingin meneliti pengaruh hujan terhadap pertumbuhan benih pohon pinus. Ditanamnya 5 deret dengan 20 batang pada setiap deretan. Setelah setahun dilakukan pengamatan terhadap jumlah yang hidup pada setiap deret.
Berapakah peluang hidup benih pinus tersebut?
Persoalan ini dapat digambarkan sebagai berikut:
·         Setiap deret dipandang sebagai satu sampel. Jadi diperoleh ukuran sampel m = 5.
·         Variabel random yang jadi perhatian ialah jumlah benih pinus yang hidup pada setiap deret. Dinyatakan dengan X.
·         X pada setiap sampel (deret) mempunyai distribusi binomial dengan ukuran n = 20 dan peluang p (yang belum diketahui).
·         Harapan bagi nilai X dari setiap deret adalah

                  E[X] = np = 20p

Berapakah nilai E[X]?

Karena telah diketahui bahwa moment pertama X adalah estimator tak bias bagi E[X] maka
   
          
Jadi estimator bagi p dapat diperoleh sebagai

                            

Setelah dilakukan percobaan, hasilnya sebagai berikut:
                  x1 = 18   x2 = 17   x3 = 15  x4 = 19  x5 = 20
maka
                           
                     


ESTIMATOR MAXIMUM LIKELIHOOD (PALING MUNGKIN)

Dasar kerjanya ialah memilih nilai q  yang akan menghasilkan peluang terbesar (paling mungkin) bagi diperolehnya hasil pengamatan seperti yang telah diperoleh dari sampel berukuran n.
Contoh:
Sejumlah contoh air telah diambil dari K. Surabaya yang diduga telah tercemari oleh buangan domestik. Sebagai indikator pengamatan adalah jumlah bakteri koli per ml, dinyatakan sebagai variabel random X. Karena jumlah bakteri koli sangat sedikit maka dipergunakan distribusi Poisson bagi variabel random X.

Berapakah nilai k dari distribusi Poisson yang memberi peluang terbesar diperoleh nilai seperti yang ditunjukkan oleh contoh-contoh air tersebut?

Karena contohnya random (acak) maka berarti pula bahwa masing-masing contoh tak saling terikat, sehingga



Density bagi X ialah 
Oleh karenanya peluang diperoleh nilai seperti sample adalah

       

yang merupakan fungsi dari k. Secara khusus fungsi tersebut diberi notasi
L(k) dan disebut fungsi "maximum likelihood".


Nilai k berapakah yang akan mengasilkan L(k) maksimum?

Dengan meminjam cara calculus untuk mencari titik maksimum, akan diperoleh

                   

dan

                             

Misal diperoleh hasil pengamatan:

        x1 = 12      x2 = 15     x3 = 16      x4 = 17

Maka   .



Contoh:
Andaikan x1, x2, x3, ........, xn adalah variabel random dari distribusi normal dengan mean m dan varian s2. Densiti untuk X ialah

                   
Fungsi Likelihood untuk sampel adalah

                    

Logaritma dari fungsi likelihood tersebut ialah:

            

Fungsi ini kemudian dimaksimumkan terhadap nilai m dan s. Dengan meminjam cara calculus maka diperoleh estimator m dan s menurut pendekatan maximum likelihood sebagai

                   
                   
fungsi variabel random
Andaikan X1 dan X2 adalah variabel random yang tak saling terikat dan andaikan . Maka
DISTRIBUSI 
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak  dari suatu distribusi normal dengam mean m dan varian . Maka  berdistribusi normal dengan mean m dan varian .

ESTIMASI INTERVAL (SELANG KEYAKINAN)
·         Estimasi titik hanya menghasilkan satu nilai untuk setiap parameter q .
·         Estimasi titik tak dapat memberi gambaran seberapa dekat nilai tersebut dengan nilai sesungguhnya.
·         Estimasi interval (selang keyakinan) dapat memberi batasan atas-bawah terhadap nilai parameter yang dicari berdasarkan tingkat makna (significance level) yang dipercayai/dipilih.
·         Tingkat makna (significance level), a, ialah harga batas probabiliti dimana kejadian (event) dengan probabiliti dibawah harga tersebut dianggap jarang atau bukan kebiasaan dari variasi suatu populasi.
·         Suatu 100(1-a)% selang keyakinan (confidence interval) dari nilai parameter q  adalah interval random [L1, L2] yang memenuhi
                                                            P[L1< q < L2] = 1 - a
Berapapun nilai q. a adalah nilai probabiliti kritis atau tingkat makna (significance level).
·         Andaikan  adalah n buah sampel acak  dari suatu distribusi normal dengan mean  dan varian . Selang keyakinan 100(1-)% bagi  ialah
                                                           
Contoh:
Leukemia myeloblastik akut adalah jenis kanker yang paling mematikan. Pengalaman menunjukan bahwa masa hidup pasien setelah positip ter-identifikasi berdistribusi normal dengan mean 13 bulan dan standar deviasi 3 bulan. Suatu pengobatan baru diusahakan dapat memperpanjang masa hidup rata-rata tanpa mempengaruhi standar deviasi distribusi.

Andaikan X1, X2, X3, ....., Xn menunjukkan sampel random pasien dengan pengobatan baru. Kita pergunakan anggapan sampel berdistribusi normal dengan  dan m tidak diketahui.

Kita ingin mengetahui statistik L1 dan L2 pada tingkat makna a = 5%, yakni . Dari kurva normal standar diperoleh
                           P[-1.96 < Z < 1.96] = 0.95
Pada contoh ini,
                          
oleh karena itu

                

Dengan manipulasi aljabar maka dapat diperoleh batasan untuk m, ialah:

              

Maka diperoleh batasan bawah L1 dan batasan atas L2 untuk selang keyakinan 95%, yaitu:

                          
           
                         

Kurva distribusi normal:
          





Teorema  central  limit
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak  dari suatu distribusi dengan mean m dan varian . Maka untuk n yang banyak, rata-rata  akan mendekati normal dengan mean m dan varian . Sedang variabel random  mendekati normal standar (baku).
Contoh:
Sebuah populasi mempunyai anggota terdiri atas: 25% bernilai 1, 25% bernilai 2, 25% bernilai 3, dan 25% bernilai 4.

Diambil sampel berukuran n = 2. Susunan anggota sampel tersebut ialah:

Sampel
Rata-rata X

Sampel
Rata-rata X
1    1
1.0

3    1
2.0
1    2
1.5

3    2
2.5
1    3
2.0

3    3
3.0
1    4
2.5

3    4
3.5
2    1
1.5

4     1
2.5
2    2
2.0

4    2
3.0
2    3
2.5

4    3
3.5
2    4
3.0

4    4
4.0
                       

Tabel distribusi frequensi untuk rata-rata sampel:


Rata-rata X
Frequensi, f
1.0
1.0
1.5
2.0
2.0
3.0
2.5
4.0
3.0
3.0
3.5
2.0
4.0
1.0


Gambar distribusi densiti atau frequensi densiti adalah sebagai berikut:

      
                         
     Populasi                                                Sample             

Tampaklah dari kedua gambar tersebut bahwa distribusi  sangat berbeda dengan populasi induknya dan sangat mendekati distribusi normal.




estimasi interval variabilitas
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak  dari suatu distribusi dengan mean m dan varian . Maka variabel random
                                            
mempunyai distribusi chi-squared dengan  n - 1 derajad kebebasan.

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian .  Maka 100(1-a)%  selang keyakinan (confidence interval) bagi  adalah interval random [L1, L2] yang bernilai batas:
                                                                                                
                                                        

Contoh:
Salah satu cara pembobotan beban komputer ialah dengan menghitung banyaknya penggunaan CPU dan input-output (I/O) per satuan waktu. Berikut adalah hasil pengamatan selama satu jam pada waktu-waktu yang ditentukan secara acak.
                        3.4            3.6            4.0             0.4             2.0
                        3.0            3.1            4.1             1.4             2.5
                        1.4            2.0            3.1             1.8             1.6
                        3.5            2.5            1.7             5.1             0.7
                        4.2            1.5            3.0             3.9             3.0
Diagram batang-daun (Stem-leaf) berikut tidak menunjukkan penyimpangan yang jauh dari distribusi normal.

                        0    7
                        1    457486
                        2    0505
                        3    405611090
                        4    201
                        5    1


Gambar berikut menunjukkan pembagian kurva distribusi chi-squared () untuk mendapatkan nilai batas interval.






Dari data diperoleh
                                                        
                                                       

                               

Batas untuk selang keyakinan 95% bagi varian ialah:

             
            

Batas untuk standar deviasi ialah:

                       
                       



distribusi student-t
Andaikan Z adalah variabel random dengan distribusi normal standard dan  adalah variabel random berdistribusi chi-squared yang bebas dengan derajad kebebasan γ. Maka variabel random t
                                                         
               berdistribusi t dengan derajad kebebasan γ .
Distribusi t ditentukan oleh nilai derajad kebebasan  γ. Setiap nilai γ  memberikan satu distribusi t sehingga banyaknya tak terbatas. Derajad kebebasan n  adalah bilangan real positip bulat.
Setiap variabel random t adalah kontinyu. Fungsi densiti dari t dengan derajad kebebasan γ  ialah
                                                                  
                                                                
Grafik fungsi densiti distribusi t berbentuk simetris seperti bel dengan garis tengah pada t=0.
Parameter γ  adalah parameter bentuk. Yakni dengan berubahnya nilai γ  maka bentuk grafik berubah. Semakin tinggi nilai γ  maka grafiknya semakin runcing dan pada nilai  distribusinya menjadi normal.


t5


Normal
 
estimasi interval bagi mean bila varian tak diketahui
Walaupun  merupakan estimator tak bias bagi m dan tidak tergantung pada s, tetapi untuk memperkirakan intervalnya diperlukan s.
Apabila s tak diketahui (umumnya persoalan), nilainya diperkirakan dari estimatornya, yakni S.
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari distribusi normal dengan mean m dan varian s2. Maka variabel random
                                                                 
berdistribusi Student-t dengan derajad kebebasan v = n-1.

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian . Maka 100(1-a)%  selang keyakinan (confidence interval) bagi m adalah interval random [L1, L2] yang bernilai batas:
                                                 
                                                           
Contoh
Sulfur dioksida dan nitrogen oksida merupakan senyawa hasil pembakaran batu bara dan minyak bumi. Kedua senyawa ini dipercaya sebagai biang dari terjadinya hujan asam yang telah merusak hutan di banyak negara maju.

Untuk menjaga kelestarian lingkungan, kadar senyawa SO2 di suatu wilayah yang diduga tercemari oleh gas-gas hasil pembakaran perlu diamati terus menerus. Berikut adalah data dari pengamatan kadar SO2 (dalam microgram per meter kubik) di hutan Bavaria, Jerman.

52.7        43.9           41.7           71.5           47.6           55.1
62.2        56.5           33.4           61.8           54.3           50.0
45.3        63.4           53.9           65.5           66.6           70.0
52.4        38.6           46.1           44.4           60.7           56.4

Dari data tersebut dapat dihitung:

              
                                

Nilai t (dari distribusi Student t) untuk batas kiri dan kanan 0.025 (tingkat makna 5%) dan v=23 ialah:
                                 t0.025,23 = 2.069

Maka estimasi interval (keyakinan 95%) bagi mean adalah:

              
atau
              

Andaikan kadar ambang batas kerusakan adalah 20 mg/m3. Karena nilai ini tidak tercakup dalam interval mean maka secara statistik meyakinkan bahwa kadar SO2 di wilayah yang diamati tersebut telah melebihi ambang batas.




testing hipotesa
Estimasi memperkirakan nilai parameter dengan tanpa memerlukan pengetahuan awal tentang besarnya nilai tersebut.
Testing hipotesa memerlukan pengetahuan awal tentang nilai parameter yang ingin diuji. Pada hakekatnya, testing hipotesa berkaitan dengan pemilihan atas dua atau lebih nilai estimasi parameter berdasarkan sampel yang diperoleh dari populasi.
Hipotesa dikemas dalam bentuk pernyataan dan paling sedikit ada dua penyataan. Bentuk-bentuk pernyataan tersebut misalnya: sama - tidak sama, baik - tidak baik, tidak lebih baik - lebih baik.
Pernyataan yang isinya bertentangan/tidak sama dengan nilai parameter  yang telah dimiliki/diketahui/ diyakini diberi nama Hipotesa Utama atau Hipotesa Nol, H0 .
Pernyataan yang isinya setuju dengan nilai parameter yang telah dimiliki/diketahui/diyakini diberi nama Hipotesa Alternatif, H1, H2, ....
Pada akhirnya, suatu keputusan harus diambil  apakah hipotesa utama (H0) berhasil  atau gagal  ditolak pada tingkat makna/selang keyakinan tertentu.
Keputusan yang sebenarnya diinginkan adalah menolak hipotesa utama dan mendukung hipotesa alternatif.
Contoh:
Ahli jalan raya mendapatkan bahwa salah satu faktor yang mempengaruhi kenampakan rambu jalan di malam hari ialah ketepatan setelan lampu mobil.

Dipercaya bahwa lebih dari 50% lampu mobil yang berjalan di malam hari tidak disetel dengan benar. Apabila anggapan ini benar maka perlu pengawasan yang ketat terhadap kelaikan jalan setiap mobil. Persoalan ini perlu pendekatan secara statistik agar meyakinkan hasilnya.

Andaikan p menyatakan proporsi mobil yang salah setelan lampunya. Karena diinginkan bahwa anggapan p > 0.5 terdukung secara statistik, maka sebagai hipotesa utama adalah yang bertentangan dengan anggapan tersebut.

                        H0: p<0.5        H1: p>0.5



Pengambilan keputusan didasarkan pada pengamatan beberapa nilai statistik dari n buah sample yang diambil dari populasi.
Jadi pengujian hipotesa sebenarnya bertumpu pada pengujian statistik yang dimiliki sample dengan distribusi yang telah diketahui.
Karena hipotesa utama merupakan pokok perhatian maka seluruh rangkaian pengujian statistik (statistics test) dilakukan dibawah anggapan seandainya nilai parameter q  yang sesungguhnya adalah sama dengan H0 .
Nilai parameter q disebut sama dengan nilai yang diajukan hipotesa utama apabila nilai tersebut berada didalam batas makna dari distribusi yang berlaku bagi sampel.
Batas makna ditentukan dari tingkat makna (significance level), a. Yaitu nilai batas probabiliti yang diterapkan pada distribusi populasi dan merupakan batasan jumlah kejadian (event) yang menjadi perhatian/cakupan. Dengan kata lain, pada tingkat makna a akan terdapat a%  kejadian yang diabaikan dan sebanyak (100-a)% yang diperhatikan.
Kejadian (nilai variabel) yang tidak menjadi perhatian ialah kejadian yang mempunyai nilai probabiliti dibawah nilai probabiliti batas (lazim pula disebut berada dalam wilayah kritis). Kejadian yang demikian disebut sebagai kejadian jarang, kejadian diluar kebiasaan, atau kejadian kebetulan.
Bentuk wilayah kritis ditentukan oleh bentuk hipotesa alternatif yang diajukan. Terdapat 3 macam bentuk:

1.   Batas satu sisi kanan
                     Bentuk Hipotesa:
                                             H0 < q
                                             H1 > q




                     Bentuk Batas pada distribusi densiti:
               
2.   Batas satu sisi kiri
                     Bentuk Hipotesa:
                                             H0 > q
                                             H1 < q
                    
                     Bentuk Batas pada distribusi densiti:    
             

3.   Batas dua sisi (kiri dan kanan)
                     Bentuk Hipotesa:
                                             H0 = q
                                             H1 ≠ q  (H1 > q dan H1  < q)




                     Bentuk Batas pada distribusi densiti:
              


Berkaitan dengan pengujian hipotesa ini, terdapat 4 macam kemungkinan keputusan:

H0 ditolak padahal seharusnya tidak. Dalam hal demikian terjadilah kesalahan tipe I (Type I error) dengan peluang a.

H0 ditolak seperti seharusnya karena H1 yang benar. Berarti keputusan yang diambil benar.

H0 tidak berhasil ditolak padahal seharusnya ditolak karena H1 yang benar. Dalam demikian terjadilah kesalahan tipe II (Type II error) dengan peluang b.

H0 tidak berhasil ditolak karena H0  benar dan H1 salah. Berarti keputusan yang diambil benar.



Kenyataan (tetapi tak diketahui)
Keputusan
H0 benar
H1 benar
Tolak H0
Kesalahan Tipe I
(Peluang a)
Keputusan tepat
Jangan Tolak H0
Keputusan tepat
Kesalahan Tipe II
(Peluang b)

Mengenai Saya

Cirebon, Jawa Barat, Indonesia
-Danny Aminudin -Didin Mahpudin -Fahrudin Yusup -M.Kiky Taqiyuddin -Moh.Sholehudin -Mustaqim -Nono Wartono