Matematika Ce Vi: Materi Matematika

statistik terurai (descriptive statistics)

Setiap persoalan statistik akan menyangkut beberapa hal berikut:

Terdapat himpunan objek (yang menjadi titik perhatian) yang jumlahnya besar dan hipotetis yang disebut Populasi.

Setiap sample (contoh) yang diperoleh dianggap berasal dari populasi tersebut.

Populasi tersebut sedemikian besar sehingga tidak mungkin dikaji/diamati/diukur keseluruhannya

Kesimpulan terhadap suatu karakter populasi hanya dapat diperoleh dari pengamatan dan pengkajian sample yang jumlahnya jauh lebih sedikit.

SAMPLING ACAK (RANDOM SAMPLING)

Sample acak (Random Sample) berukuran n dari distribusi X, adalah kumpulan n variabel random yang tak saling terikat (independent) dengan distribusi sama dengan X.

Variabel acak dapat berarti:

Objek yang dipilih untuk dikaji

Variabel acak lain yang terkait dengan sampel yang dipilih

Nilai numerik yang dimiliki oleh variabel.

Sampling acak menghasilkan sampel yang paling mewakili perilaku/karakter populasi sehingga kesimpulan terhadap sampel menggambarkan kesimpulan terhadap populasi.

Sampling acak menghasilkan proses perhitungan yang paling sederhana, akurat, dan tangguh.

PENAYANGAN DISTRIBUSI

Stem-and-Leaf Charts

Histograms dan Ogives

STATISTIK SAMPEL

Sampel adalah realitas yang teramati dari Populasi. Seperti halnya Populasi, sampel memiliki ukuran-ukuran (statistik) sebagai berikut.

Mean Sampel:

Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X. Statistik

adalah mean sampel dan diberi notasi

Median Sampel:

Andaikan X1, X2, ......, Xn adalah sampel acak yang disusun urut (dari kecil ke besar). Median sampel,

, adalah

Varian dan Standar Deviasi Sampel:

Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X. Statistik berikut disebut Varian Sampel, S2,

dan

disebut standar deviasi sampel.

Rumus hitung untuk varian sampel adalah sebagai berikut:

Range Sampel:

Selisih antara nilai sampel terbesar dengan yang terkecil.

estimasi

Usaha memperkirakan nilai parameter statistik suatu populasi berdasarkan pengamatan terhadap sampelnya.

ESTIMASI TITIK

Pada setiap persoalan perkiraan, paling tidak terdapat satu parameter, q, yang harus diperkirakan nilainya

Perkiraan dilaksanakan menggunakan cara-cara statistik yang sesuai.

Satistik yang dipergunakan untuk mengestimasi parameter populasi q disebut Estimator Titik (Point Estimator) dengan notasi . Nilai numerik yang dimiliki oleh estimator bila diterapkan pada suatu sampel disebut nilai estimasi untuk q.

Suatu estimator disebut baik apabila:

tidak bias terhadap q.

memiliki varian yang kecil bila ukuran sampel besar.

Sebuah estimator,

, disebut tidak bias terhadap parameter q bila dan hanya bila E[

]=θ.

Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X dengan mean m. Mean Sampel, adalah estimator tak bias bagi m.

Andaikan adalah mean sampel yang diperoleh dari sampel acak berukuran n dari distribusi X dengan mean m dan varian s2. Maka

Andaikan S2 adalah varian sampel yang diperoleh dari sampel acak berukuran n dari distribusi X dengan mean m dan varian s2. Maka S2adalah estimator tak bias bagi s2.

ESTIMATOR CARA MOMENT

Seringkali moment pertama (mean) dan moment kedua (varian) dapat dipergunakan sebagai estimator karena rumusannya terkait dengan parameter populasi.

Contoh:

Rimbawan ingin meneliti pengaruh hujan terhadap pertumbuhan benih pohon pinus. Ditanamnya 5 deret dengan 20 batang pada setiap deretan. Setelah setahun dilakukan pengamatan terhadap jumlah yang hidup pada setiap deret.

Berapakah peluang hidup benih pinus tersebut?

Persoalan ini dapat digambarkan sebagai berikut:

· Setiap deret dipandang sebagai satu sampel. Jadi diperoleh ukuran sampel m = 5.

· Variabel random yang jadi perhatian ialah jumlah benih pinus yang hidup pada setiap deret. Dinyatakan dengan X.

· X pada setiap sampel (deret) mempunyai distribusi binomial dengan ukuran n = 20 dan peluang p (yang belum diketahui).

· Harapan bagi nilai X dari setiap deret adalah

E[X] = np = 20p

Berapakah nilai E[X]?

Karena telah diketahui bahwa moment pertama X adalah estimator tak bias bagi E[X] maka

Jadi estimator bagi p dapat diperoleh sebagai

Setelah dilakukan percobaan, hasilnya sebagai berikut:

x1 = 18 x2 = 17 x3 = 15 x4 = 19 x5 = 20

maka

ESTIMATOR MAXIMUM LIKELIHOOD (PALING MUNGKIN)

Dasar kerjanya ialah memilih nilai q yang akan menghasilkan peluang terbesar (paling mungkin) bagi diperolehnya hasil pengamatan seperti yang telah diperoleh dari sampel berukuran n.

Contoh:

Sejumlah contoh air telah diambil dari K. Surabaya yang diduga telah tercemari oleh buangan domestik. Sebagai indikator pengamatan adalah jumlah bakteri koli per ml, dinyatakan sebagai variabel random X. Karena jumlah bakteri koli sangat sedikit maka dipergunakan distribusi Poisson bagi variabel random X.

Berapakah nilai k dari distribusi Poisson yang memberi peluang terbesar diperoleh nilai seperti yang ditunjukkan oleh contoh-contoh air tersebut?

Karena contohnya random (acak) maka berarti pula bahwa masing-masing contoh tak saling terikat, sehingga

Density bagi X ialah

Oleh karenanya peluang diperoleh nilai seperti sample adalah

yang merupakan fungsi dari k. Secara khusus fungsi tersebut diberi notasi

L(k) dan disebut fungsi "maximum likelihood".

Nilai k berapakah yang akan mengasilkan L(k) maksimum?

Dengan meminjam cara calculus untuk mencari titik maksimum, akan diperoleh

dan

Misal diperoleh hasil pengamatan:

x1 = 12 x2 = 15 x3 = 16 x4 = 17

Maka

Contoh:

Andaikan x1, x2, x3, ........, xn adalah variabel random dari distribusi normal dengan mean m dan varian s2. Densiti untuk X ialah

Fungsi Likelihood untuk sampel adalah

Logaritma dari fungsi likelihood tersebut ialah:

Fungsi ini kemudian dimaksimumkan terhadap nilai m dan s. Dengan meminjam cara calculus maka diperoleh estimator m dan s menurut pendekatan maximum likelihood sebagai

fungsi variabel random

Andaikan X1 dan X2 adalah variabel random yang tak saling terikat dan andaikan . Maka

DISTRIBUSI

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi normal dengam mean m dan varian . Maka berdistribusi normal dengan mean m dan varian .

ESTIMASI INTERVAL (SELANG KEYAKINAN)

· Estimasi titik hanya menghasilkan satu nilai untuk setiap parameter q .

· Estimasi titik tak dapat memberi gambaran seberapa dekat nilai tersebut dengan nilai sesungguhnya.

· Estimasi interval (selang keyakinan) dapat memberi batasan atas-bawah terhadap nilai parameter yang dicari berdasarkan tingkat makna (significance level) yang dipercayai/dipilih.

· Tingkat makna (significance level), a, ialah harga batas probabiliti dimana kejadian (event) dengan probabiliti dibawah harga tersebut dianggap jarang atau bukan kebiasaan dari variasi suatu populasi.

· Suatu 100(1-a)% selang keyakinan (confidence interval) dari nilai parameter q adalah interval random [L1, L2] yang memenuhi

P[L1< q < L2] = 1 - a

Berapapun nilai q. a adalah nilai probabiliti kritis atau tingkat makna (significance level).

· Andaikan adalah n buah sampel acak dari suatu distribusi normal dengan mean dan varian . Selang keyakinan 100(1-)% bagi ialah

Contoh:

Leukemia myeloblastik akut adalah jenis kanker yang paling mematikan. Pengalaman menunjukan bahwa masa hidup pasien setelah positip ter-identifikasi berdistribusi normal dengan mean 13 bulan dan standar deviasi 3 bulan. Suatu pengobatan baru diusahakan dapat memperpanjang masa hidup rata-rata tanpa mempengaruhi standar deviasi distribusi.

Andaikan X1, X2, X3, ....., Xn menunjukkan sampel random pasien dengan pengobatan baru. Kita pergunakan anggapan sampel berdistribusi normal dengan

dan m tidak diketahui.

Kita ingin mengetahui statistik L1 dan L2 pada tingkat makna a = 5%, yakni

. Dari kurva normal standar diperoleh

P[-1.96 < Z < 1.96] = 0.95

Pada contoh ini,

oleh karena itu

Dengan manipulasi aljabar maka dapat diperoleh batasan untuk m, ialah:

Maka diperoleh batasan bawah L1 dan batasan atas L2 untuk selang keyakinan 95%, yaitu:

Kurva distribusi normal:

Teorema central limit

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian . Maka untuk n yang banyak, rata-rata akan mendekati normal dengan mean m dan varian . Sedang variabel random mendekati normal standar (baku).

Contoh:

Sebuah populasi mempunyai anggota terdiri atas: 25% bernilai 1, 25% bernilai 2, 25% bernilai 3, dan 25% bernilai 4.

Diambil sampel berukuran n = 2. Susunan anggota sampel tersebut ialah:

Sampel	Rata-rata X	Sampel	Rata-rata X
1 1	1.0	3 1	2.0
1 2	1.5	3 2	2.5
1 3	2.0	3 3	3.0
1 4	2.5	3 4	3.5
2 1	1.5	4 1	2.5
2 2	2.0	4 2	3.0
2 3	2.5	4 3	3.5
2 4	3.0	4 4	4.0

Tabel distribusi frequensi untuk rata-rata sampel:

Rata-rata X	Frequensi, f
1.0	1.0
1.5	2.0
2.0	3.0
2.5	4.0
3.0	3.0
3.5	2.0
4.0	1.0

Gambar distribusi densiti atau frequensi densiti adalah sebagai berikut:

Populasi

Sample

Tampaklah dari kedua gambar tersebut bahwa distribusi sangat berbeda dengan populasi induknya dan sangat mendekati distribusi normal.

estimasi interval variabilitas

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian . Maka variabel random

mempunyai distribusi chi-squared dengan n - 1 derajad kebebasan.

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian . Maka 100(1-a)% selang keyakinan (confidence interval) bagi adalah interval random [L1, L2] yang bernilai batas:

Contoh:

Salah satu cara pembobotan beban komputer ialah dengan menghitung banyaknya penggunaan CPU dan input-output (I/O) per satuan waktu. Berikut adalah hasil pengamatan selama satu jam pada waktu-waktu yang ditentukan secara acak.

3.4 3.6 4.0 0.4 2.0

3.0 3.1 4.1 1.4 2.5

1.4 2.0 3.1 1.8 1.6

3.5 2.5 1.7 5.1 0.7

4.2 1.5 3.0 3.9 3.0

Diagram batang-daun (Stem-leaf) berikut tidak menunjukkan penyimpangan yang jauh dari distribusi normal.

0 7

1 457486

2 0505

3 405611090

4 201

5 1

Gambar berikut menunjukkan pembagian kurva distribusi chi-squared (

) untuk mendapatkan nilai batas interval.

Dari data diperoleh

Batas untuk selang keyakinan 95% bagi varian ialah:

Batas untuk standar deviasi ialah:

distribusi student-t

Andaikan Z adalah variabel random dengan distribusi normal standard dan adalah variabel random berdistribusi chi-squared yang bebas dengan derajad kebebasan γ. Maka variabel random t

berdistribusi t dengan derajad kebebasan γ .

Distribusi t ditentukan oleh nilai derajad kebebasan γ. Setiap nilai γ memberikan satu distribusi t sehingga banyaknya tak terbatas. Derajad kebebasan n adalah bilangan real positip bulat.

Setiap variabel random t adalah kontinyu. Fungsi densiti dari t dengan derajad kebebasan γ ialah

Grafik fungsi densiti distribusi t berbentuk simetris seperti bel dengan garis tengah pada t=0.

Parameter γ adalah parameter bentuk. Yakni dengan berubahnya nilai γ maka bentuk grafik berubah. Semakin tinggi nilai γ maka grafiknya semakin runcing dan pada nilai distribusinya menjadi normal.

t₅

Normal

estimasi interval bagi mean bila varian tak diketahui

Walaupun merupakan estimator tak bias bagi m dan tidak tergantung pada s, tetapi untuk memperkirakan intervalnya diperlukan s.

Apabila s tak diketahui (umumnya persoalan), nilainya diperkirakan dari estimatornya, yakni S.

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari distribusi normal dengan mean m dan varian s². Maka variabel random

berdistribusi Student-t dengan derajad kebebasan v = n-1.

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian . Maka 100(1-a)% selang keyakinan (confidence interval) bagi m adalah interval random [L1, L2] yang bernilai batas:

Contoh

Sulfur dioksida dan nitrogen oksida merupakan senyawa hasil pembakaran batu bara dan minyak bumi. Kedua senyawa ini dipercaya sebagai biang dari terjadinya hujan asam yang telah merusak hutan di banyak negara maju.

Untuk menjaga kelestarian lingkungan, kadar senyawa SO2 di suatu wilayah yang diduga tercemari oleh gas-gas hasil pembakaran perlu diamati terus menerus. Berikut adalah data dari pengamatan kadar SO2 (dalam microgram per meter kubik) di hutan Bavaria, Jerman.

52.7 43.9 41.7 71.5 47.6 55.1

62.2 56.5 33.4 61.8 54.3 50.0

45.3 63.4 53.9 65.5 66.6 70.0

52.4 38.6 46.1 44.4 60.7 56.4

Dari data tersebut dapat dihitung:

Nilai t (dari distribusi Student t) untuk batas kiri dan kanan 0.025 (tingkat makna 5%) dan v=23 ialah:

t0.025,23 = 2.069

Maka estimasi interval (keyakinan 95%) bagi mean adalah:

atau

Andaikan kadar ambang batas kerusakan adalah 20 mg/m3. Karena nilai ini tidak tercakup dalam interval mean maka secara statistik meyakinkan bahwa kadar SO2 di wilayah yang diamati tersebut telah melebihi ambang batas.

testing hipotesa

Estimasi memperkirakan nilai parameter dengan tanpa memerlukan pengetahuan awal tentang besarnya nilai tersebut.

Testing hipotesa memerlukan pengetahuan awal tentang nilai parameter yang ingin diuji. Pada hakekatnya, testing hipotesa berkaitan dengan pemilihan atas dua atau lebih nilai estimasi parameter berdasarkan sampel yang diperoleh dari populasi.

Hipotesa dikemas dalam bentuk pernyataan dan paling sedikit ada dua penyataan. Bentuk-bentuk pernyataan tersebut misalnya: sama - tidak sama, baik - tidak baik, tidak lebih baik - lebih baik.

Pernyataan yang isinya bertentangan/tidak sama dengan nilai parameter yang telah dimiliki/diketahui/ diyakini diberi nama Hipotesa Utama atau Hipotesa Nol, H0 .

Pernyataan yang isinya setuju dengan nilai parameter yang telah dimiliki/diketahui/diyakini diberi nama Hipotesa Alternatif, H1, H2, ....

Pada akhirnya, suatu keputusan harus diambil apakah hipotesa utama (H0) berhasil atau gagal ditolak pada tingkat makna/selang keyakinan tertentu.

Keputusan yang sebenarnya diinginkan adalah menolak hipotesa utama dan mendukung hipotesa alternatif.

Contoh:

Ahli jalan raya mendapatkan bahwa salah satu faktor yang mempengaruhi kenampakan rambu jalan di malam hari ialah ketepatan setelan lampu mobil.

Dipercaya bahwa lebih dari 50% lampu mobil yang berjalan di malam hari tidak disetel dengan benar. Apabila anggapan ini benar maka perlu pengawasan yang ketat terhadap kelaikan jalan setiap mobil. Persoalan ini perlu pendekatan secara statistik agar meyakinkan hasilnya.

Andaikan p menyatakan proporsi mobil yang salah setelan lampunya. Karena diinginkan bahwa anggapan p > 0.5 terdukung secara statistik, maka sebagai hipotesa utama adalah yang bertentangan dengan anggapan tersebut.

H0: p<0.5 H1: p>0.5

Pengambilan keputusan didasarkan pada pengamatan beberapa nilai statistik dari n buah sample yang diambil dari populasi.

Jadi pengujian hipotesa sebenarnya bertumpu pada pengujian statistik yang dimiliki sample dengan distribusi yang telah diketahui.

Karena hipotesa utama merupakan pokok perhatian maka seluruh rangkaian pengujian statistik (statistics test) dilakukan dibawah anggapan seandainya nilai parameter q yang sesungguhnya adalah sama dengan H0 .

Nilai parameter q disebut sama dengan nilai yang diajukan hipotesa utama apabila nilai tersebut berada didalam batas makna dari distribusi yang berlaku bagi sampel.

Batas makna ditentukan dari tingkat makna (significance level), a. Yaitu nilai batas probabiliti yang diterapkan pada distribusi populasi dan merupakan batasan jumlah kejadian (event) yang menjadi perhatian/cakupan. Dengan kata lain, pada tingkat makna a akan terdapat a% kejadian yang diabaikan dan sebanyak (100-a)% yang diperhatikan.

Kejadian (nilai variabel) yang tidak menjadi perhatian ialah kejadian yang mempunyai nilai probabiliti dibawah nilai probabiliti batas (lazim pula disebut berada dalam wilayah kritis). Kejadian yang demikian disebut sebagai kejadian jarang, kejadian diluar kebiasaan, atau kejadian kebetulan.

Bentuk wilayah kritis ditentukan oleh bentuk hipotesa alternatif yang diajukan. Terdapat 3 macam bentuk:

1. Batas satu sisi kanan

Bentuk Hipotesa:

H0 < q

H1 > q

Bentuk Batas pada distribusi densiti:

2. Batas satu sisi kiri

Bentuk Hipotesa:

H0 > q

H1 < q

Bentuk Batas pada distribusi densiti:

3. Batas dua sisi (kiri dan kanan)

Bentuk Hipotesa:

H0 = q

H1 ≠ q (H1 > q dan H1 < q)

Bentuk Batas pada distribusi densiti:

Berkaitan dengan pengujian hipotesa ini, terdapat 4 macam kemungkinan keputusan:

H0 ditolak padahal seharusnya tidak. Dalam hal demikian terjadilah kesalahan tipe I (Type I error) dengan peluang a.

H0 ditolak seperti seharusnya karena H1 yang benar. Berarti keputusan yang diambil benar.

H0 tidak berhasil ditolak padahal seharusnya ditolak karena H1 yang benar. Dalam demikian terjadilah kesalahan tipe II (Type II error) dengan peluang b.

H0 tidak berhasil ditolak karena H0 benar dan H1 salah. Berarti keputusan yang diambil benar.

	Kenyataan (tetapi tak diketahui)
Keputusan	H0 benar	H1 benar
Tolak H0	Kesalahan Tipe I (Peluang a)	Keputusan tepat
Jangan Tolak H0	Keputusan tepat	Kesalahan Tipe II (Peluang b)

Matematika Ce Vi

Laman

Materi Matematika

Mengenai Saya

Arsip Blog

Pengikut