statistik terurai (descriptive statistics)
Setiap persoalan statistik akan menyangkut beberapa hal berikut:
Terdapat himpunan objek (yang menjadi titik perhatian) yang jumlahnya besar dan hipotetis yang disebut Populasi.
Setiap sample (contoh) yang diperoleh dianggap berasal dari populasi tersebut.
Populasi tersebut sedemikian besar sehingga tidak mungkin dikaji/diamati/diukur keseluruhannya
Kesimpulan terhadap suatu karakter populasi hanya dapat diperoleh dari pengamatan dan pengkajian sample yang jumlahnya jauh lebih sedikit.
SAMPLING ACAK (RANDOM SAMPLING)
Sample acak (Random Sample) berukuran n dari distribusi X, adalah kumpulan n variabel random yang tak saling terikat (independent) dengan distribusi sama dengan X.
Variabel acak dapat berarti:
Objek yang dipilih untuk dikaji
Variabel acak lain yang terkait dengan sampel yang dipilih
Nilai numerik yang dimiliki oleh variabel.
Sampling acak menghasilkan sampel yang paling mewakili perilaku/karakter populasi sehingga kesimpulan terhadap sampel menggambarkan kesimpulan terhadap populasi.
Sampling acak menghasilkan proses perhitungan yang paling sederhana, akurat, dan tangguh.
PENAYANGAN DISTRIBUSI
Stem-and-Leaf Charts
Histograms dan Ogives
STATISTIK SAMPEL
Sampel adalah realitas yang teramati dari Populasi. Seperti halnya Populasi, sampel memiliki ukuran-ukuran (statistik) sebagai berikut.
Mean Sampel:
Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X. Statistik


Median Sampel:
Andaikan X1, X2, ......, Xn adalah sampel acak yang disusun urut (dari kecil ke besar). Median sampel,
, adalah


Varian dan Standar Deviasi Sampel:
Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X. Statistik berikut disebut Varian Sampel, S2,

dan
disebut standar deviasi sampel.

Rumus hitung untuk varian sampel adalah sebagai berikut:

Range Sampel:
Selisih antara nilai sampel terbesar dengan yang terkecil.
estimasi
Usaha memperkirakan nilai parameter statistik suatu populasi berdasarkan pengamatan terhadap sampelnya.
ESTIMASI TITIK
Pada setiap persoalan perkiraan, paling tidak terdapat satu parameter, q, yang harus diperkirakan nilainya
Perkiraan dilaksanakan menggunakan cara-cara statistik yang sesuai.
Satistik yang dipergunakan untuk mengestimasi parameter populasi q disebut Estimator Titik (Point Estimator) dengan notasi . Nilai numerik yang dimiliki oleh estimator bila diterapkan pada suatu sampel disebut nilai estimasi untuk q.
Suatu estimator disebut baik apabila:


Sebuah estimator,
, disebut tidak bias terhadap parameter q bila dan hanya bila E[
]=θ.


Andaikan X1, X2, ......, Xn adalah sampel acak yang independent dan berdistribusi identik X dengan mean m. Mean Sampel,
adalah estimator tak bias bagi m.

Andaikan
adalah mean sampel yang diperoleh dari sampel acak berukuran n dari distribusi X dengan mean m dan varian s2. Maka


Andaikan S2 adalah varian sampel yang diperoleh dari sampel acak berukuran n dari distribusi X dengan mean m dan varian s2. Maka S2adalah estimator tak bias bagi s2.
ESTIMATOR CARA MOMENT
Seringkali moment pertama (mean) dan moment kedua (varian) dapat dipergunakan sebagai estimator karena rumusannya terkait dengan parameter populasi.
Contoh:
Rimbawan ingin meneliti pengaruh hujan terhadap pertumbuhan benih pohon pinus. Ditanamnya 5 deret dengan 20 batang pada setiap deretan. Setelah setahun dilakukan pengamatan terhadap jumlah yang hidup pada setiap deret.
Berapakah peluang hidup benih pinus tersebut?
Persoalan ini dapat digambarkan sebagai berikut:
· Setiap deret dipandang sebagai satu sampel. Jadi diperoleh ukuran sampel m = 5.
· Variabel random yang jadi perhatian ialah jumlah benih pinus yang hidup pada setiap deret. Dinyatakan dengan X.
· X pada setiap sampel (deret) mempunyai distribusi binomial dengan ukuran n = 20 dan peluang p (yang belum diketahui).
· Harapan bagi nilai X dari setiap deret adalah
E[X] = np = 20p
Berapakah nilai E[X]?
Karena telah diketahui bahwa moment pertama X adalah estimator tak bias bagi E[X] maka

Jadi estimator bagi p dapat diperoleh sebagai

Setelah dilakukan percobaan, hasilnya sebagai berikut:
x1 = 18 x2 = 17 x3 = 15 x4 = 19 x5 = 20
maka

ESTIMATOR MAXIMUM LIKELIHOOD (PALING MUNGKIN)
Dasar kerjanya ialah memilih nilai q yang akan menghasilkan peluang terbesar (paling mungkin) bagi diperolehnya hasil pengamatan seperti yang telah diperoleh dari sampel berukuran n.
Contoh:
Sejumlah contoh air telah diambil dari K. Surabaya yang diduga telah tercemari oleh buangan domestik. Sebagai indikator pengamatan adalah jumlah bakteri koli per ml, dinyatakan sebagai variabel random X. Karena jumlah bakteri koli sangat sedikit maka dipergunakan distribusi Poisson bagi variabel random X.
Berapakah nilai k dari distribusi Poisson yang memberi peluang terbesar diperoleh nilai seperti yang ditunjukkan oleh contoh-contoh air tersebut?
Karena contohnya random (acak) maka berarti pula bahwa masing-masing contoh tak saling terikat, sehingga

Density bagi X ialah 

Oleh karenanya peluang diperoleh nilai seperti sample adalah

yang merupakan fungsi dari k. Secara khusus fungsi tersebut diberi notasi
L(k) dan disebut fungsi "maximum likelihood".

Nilai k berapakah yang akan mengasilkan L(k) maksimum?
Dengan meminjam cara calculus untuk mencari titik maksimum, akan diperoleh

dan

Misal diperoleh hasil pengamatan:
x1 = 12 x2 = 15 x3 = 16 x4 = 17
Maka
.

Contoh:
Andaikan x1, x2, x3, ........, xn adalah variabel random dari distribusi normal dengan mean m dan varian s2. Densiti untuk X ialah

Fungsi Likelihood untuk sampel adalah

Logaritma dari fungsi likelihood tersebut ialah:

Fungsi ini kemudian dimaksimumkan terhadap nilai m dan s. Dengan meminjam cara calculus maka diperoleh estimator m dan s menurut pendekatan maximum likelihood sebagai

fungsi variabel random
Andaikan X1 dan X2 adalah variabel random yang tak saling terikat dan andaikan
. Maka


DISTRIBUSI 

Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi normal dengam mean m dan varian
. Maka berdistribusi normal dengan mean m dan varian
.


ESTIMASI INTERVAL (SELANG KEYAKINAN)
· Estimasi titik hanya menghasilkan satu nilai untuk setiap parameter q .
· Estimasi titik tak dapat memberi gambaran seberapa dekat nilai tersebut dengan nilai sesungguhnya.
· Estimasi interval (selang keyakinan) dapat memberi batasan atas-bawah terhadap nilai parameter yang dicari berdasarkan tingkat makna (significance level) yang dipercayai/dipilih.
· Tingkat makna (significance level), a, ialah harga batas probabiliti dimana kejadian (event) dengan probabiliti dibawah harga tersebut dianggap jarang atau bukan kebiasaan dari variasi suatu populasi.
· Suatu 100(1-a)% selang keyakinan (confidence interval) dari nilai parameter q adalah interval random [L1, L2] yang memenuhi
P[L1< q < L2] = 1 - a
Berapapun nilai q. a adalah nilai probabiliti kritis atau tingkat makna (significance level).
· Andaikan
adalah n buah sampel acak dari suatu distribusi normal dengan mean
dan varian
. Selang keyakinan 100(1-
)% bagi
ialah






Contoh:
Leukemia myeloblastik akut adalah jenis kanker yang paling mematikan. Pengalaman menunjukan bahwa masa hidup pasien setelah positip ter-identifikasi berdistribusi normal dengan mean 13 bulan dan standar deviasi 3 bulan. Suatu pengobatan baru diusahakan dapat memperpanjang masa hidup rata-rata tanpa mempengaruhi standar deviasi distribusi.
Andaikan X1, X2, X3, ....., Xn menunjukkan sampel random pasien dengan pengobatan baru. Kita pergunakan anggapan sampel berdistribusi normal dengan
dan m tidak diketahui.

Kita ingin mengetahui statistik L1 dan L2 pada tingkat makna a = 5%, yakni
. Dari kurva normal standar diperoleh

P[-1.96 < Z < 1.96] = 0.95
Pada contoh ini,

oleh karena itu

Dengan manipulasi aljabar maka dapat diperoleh batasan untuk m, ialah:

Maka diperoleh batasan bawah L1 dan batasan atas L2 untuk selang keyakinan 95%, yaitu:


Kurva distribusi normal:


Teorema central limit
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian
. Maka untuk n yang banyak, rata-rata akan mendekati normal dengan mean m dan varian
. Sedang variabel random mendekati normal standar (baku).


Contoh:
Sebuah populasi mempunyai anggota terdiri atas: 25% bernilai 1, 25% bernilai 2, 25% bernilai 3, dan 25% bernilai 4.
Diambil sampel berukuran n = 2. Susunan anggota sampel tersebut ialah:
Sampel | Rata-rata X | Sampel | Rata-rata X | |
1 1 | 1.0 | 3 1 | 2.0 | |
1 2 | 1.5 | 3 2 | 2.5 | |
1 3 | 2.0 | 3 3 | 3.0 | |
1 4 | 2.5 | 3 4 | 3.5 | |
2 1 | 1.5 | 4 1 | 2.5 | |
2 2 | 2.0 | 4 2 | 3.0 | |
2 3 | 2.5 | 4 3 | 3.5 | |
2 4 | 3.0 | 4 4 | 4.0 |
Tabel distribusi frequensi untuk rata-rata sampel:
Rata-rata X | Frequensi, f |
1.0 | 1.0 |
1.5 | 2.0 |
2.0 | 3.0 |
2.5 | 4.0 |
3.0 | 3.0 |
3.5 | 2.0 |
4.0 | 1.0 |
Gambar distribusi densiti atau frequensi densiti adalah sebagai berikut:


Populasi
Sample

Tampaklah dari kedua gambar tersebut bahwa distribusi sangat berbeda dengan populasi induknya dan sangat mendekati distribusi normal.
estimasi interval variabilitas
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian
. Maka variabel random


mempunyai distribusi chi-squared dengan n - 1 derajad kebebasan.
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian
. Maka 100(1-a)% selang keyakinan (confidence interval) bagi
adalah interval random [L1, L2] yang bernilai batas:




Contoh:
Salah satu cara pembobotan beban komputer ialah dengan menghitung banyaknya penggunaan CPU dan input-output (I/O) per satuan waktu. Berikut adalah hasil pengamatan selama satu jam pada waktu-waktu yang ditentukan secara acak.
3.4 3.6 4.0 0.4 2.0
3.0 3.1 4.1 1.4 2.5
1.4 2.0 3.1 1.8 1.6
3.5 2.5 1.7 5.1 0.7
4.2 1.5 3.0 3.9 3.0
Diagram batang-daun (Stem-leaf) berikut tidak menunjukkan penyimpangan yang jauh dari distribusi normal.
0 7
1 457486
2 0505
3 405611090
4 201
5 1
Gambar berikut menunjukkan pembagian kurva distribusi chi-squared (
) untuk mendapatkan nilai batas interval.



Dari data diperoleh




Batas untuk selang keyakinan 95% bagi varian ialah:

Batas untuk standar deviasi ialah:

distribusi student-t
Andaikan Z adalah variabel random dengan distribusi normal standard dan
adalah variabel random berdistribusi chi-squared yang bebas dengan derajad kebebasan γ. Maka variabel random t


berdistribusi t dengan derajad kebebasan γ .
Distribusi t ditentukan oleh nilai derajad kebebasan γ. Setiap nilai γ memberikan satu distribusi t sehingga banyaknya tak terbatas. Derajad kebebasan n adalah bilangan real positip bulat.
Setiap variabel random t adalah kontinyu. Fungsi densiti dari t dengan derajad kebebasan γ ialah

Grafik fungsi densiti distribusi t berbentuk simetris seperti bel dengan garis tengah pada t=0.
Parameter γ adalah parameter bentuk. Yakni dengan berubahnya nilai γ maka bentuk grafik berubah. Semakin tinggi nilai γ maka grafiknya semakin runcing dan pada nilai distribusinya menjadi normal.






|

|

estimasi interval bagi mean bila varian tak diketahui
Walaupun merupakan estimator tak bias bagi m dan tidak tergantung pada s, tetapi untuk memperkirakan intervalnya diperlukan s.
Apabila s tak diketahui (umumnya persoalan), nilainya diperkirakan dari estimatornya, yakni S.
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari distribusi normal dengan mean m dan varian s2. Maka variabel random

berdistribusi Student-t dengan derajad kebebasan v = n-1.
Andaikan X1, X2, X3, ....., Xn adalah n buah sampel acak dari suatu distribusi dengan mean m dan varian
. Maka 100(1-a)% selang keyakinan (confidence interval) bagi m adalah interval random [L1, L2] yang bernilai batas:


Contoh
Sulfur dioksida dan nitrogen oksida merupakan senyawa hasil pembakaran batu bara dan minyak bumi. Kedua senyawa ini dipercaya sebagai biang dari terjadinya hujan asam yang telah merusak hutan di banyak negara maju.
Untuk menjaga kelestarian lingkungan, kadar senyawa SO2 di suatu wilayah yang diduga tercemari oleh gas-gas hasil pembakaran perlu diamati terus menerus. Berikut adalah data dari pengamatan kadar SO2 (dalam microgram per meter kubik) di hutan Bavaria, Jerman.
52.7 43.9 41.7 71.5 47.6 55.1
62.2 56.5 33.4 61.8 54.3 50.0
45.3 63.4 53.9 65.5 66.6 70.0
52.4 38.6 46.1 44.4 60.7 56.4
Dari data tersebut dapat dihitung:

Nilai t (dari distribusi Student t) untuk batas kiri dan kanan 0.025 (tingkat makna 5%) dan v=23 ialah:
t0.025,23 = 2.069
Maka estimasi interval (keyakinan 95%) bagi mean adalah:

atau

Andaikan kadar ambang batas kerusakan adalah 20 mg/m3. Karena nilai ini tidak tercakup dalam interval mean maka secara statistik meyakinkan bahwa kadar SO2 di wilayah yang diamati tersebut telah melebihi ambang batas.
testing hipotesa
Estimasi memperkirakan nilai parameter dengan tanpa memerlukan pengetahuan awal tentang besarnya nilai tersebut.
Testing hipotesa memerlukan pengetahuan awal tentang nilai parameter yang ingin diuji. Pada hakekatnya, testing hipotesa berkaitan dengan pemilihan atas dua atau lebih nilai estimasi parameter berdasarkan sampel yang diperoleh dari populasi.
Hipotesa dikemas dalam bentuk pernyataan dan paling sedikit ada dua penyataan. Bentuk-bentuk pernyataan tersebut misalnya: sama - tidak sama, baik - tidak baik, tidak lebih baik - lebih baik.
Pernyataan yang isinya bertentangan/tidak sama dengan nilai parameter yang telah dimiliki/diketahui/ diyakini diberi nama Hipotesa Utama atau Hipotesa Nol, H0 .
Pernyataan yang isinya setuju dengan nilai parameter yang telah dimiliki/diketahui/diyakini diberi nama Hipotesa Alternatif, H1, H2, ....
Pada akhirnya, suatu keputusan harus diambil apakah hipotesa utama (H0) berhasil atau gagal ditolak pada tingkat makna/selang keyakinan tertentu.
Keputusan yang sebenarnya diinginkan adalah menolak hipotesa utama dan mendukung hipotesa alternatif.
Contoh:
Ahli jalan raya mendapatkan bahwa salah satu faktor yang mempengaruhi kenampakan rambu jalan di malam hari ialah ketepatan setelan lampu mobil.
Dipercaya bahwa lebih dari 50% lampu mobil yang berjalan di malam hari tidak disetel dengan benar. Apabila anggapan ini benar maka perlu pengawasan yang ketat terhadap kelaikan jalan setiap mobil. Persoalan ini perlu pendekatan secara statistik agar meyakinkan hasilnya.
Andaikan p menyatakan proporsi mobil yang salah setelan lampunya. Karena diinginkan bahwa anggapan p > 0.5 terdukung secara statistik, maka sebagai hipotesa utama adalah yang bertentangan dengan anggapan tersebut.
H0: p<0.5 H1: p>0.5
Pengambilan keputusan didasarkan pada pengamatan beberapa nilai statistik dari n buah sample yang diambil dari populasi.
Jadi pengujian hipotesa sebenarnya bertumpu pada pengujian statistik yang dimiliki sample dengan distribusi yang telah diketahui.
Karena hipotesa utama merupakan pokok perhatian maka seluruh rangkaian pengujian statistik (statistics test) dilakukan dibawah anggapan seandainya nilai parameter q yang sesungguhnya adalah sama dengan H0 .
Nilai parameter q disebut sama dengan nilai yang diajukan hipotesa utama apabila nilai tersebut berada didalam batas makna dari distribusi yang berlaku bagi sampel.
Batas makna ditentukan dari tingkat makna (significance level), a. Yaitu nilai batas probabiliti yang diterapkan pada distribusi populasi dan merupakan batasan jumlah kejadian (event) yang menjadi perhatian/cakupan. Dengan kata lain, pada tingkat makna a akan terdapat a% kejadian yang diabaikan dan sebanyak (100-a)% yang diperhatikan.
Kejadian (nilai variabel) yang tidak menjadi perhatian ialah kejadian yang mempunyai nilai probabiliti dibawah nilai probabiliti batas (lazim pula disebut berada dalam wilayah kritis). Kejadian yang demikian disebut sebagai kejadian jarang, kejadian diluar kebiasaan, atau kejadian kebetulan.
Bentuk wilayah kritis ditentukan oleh bentuk hipotesa alternatif yang diajukan. Terdapat 3 macam bentuk:
1. Batas satu sisi kanan
Bentuk Hipotesa:
H0 < q

![]() |
Bentuk Batas pada distribusi densiti:
2. Batas satu sisi kiri
Bentuk Hipotesa:
H0 > q
H1 < q


3. Batas dua sisi (kiri dan kanan)
Bentuk Hipotesa:
H0 = q
H1 ≠ q (H1 > q dan H1 < q)
![]() |
Bentuk Batas pada distribusi densiti:


Berkaitan dengan pengujian hipotesa ini, terdapat 4 macam kemungkinan keputusan:
H0 ditolak padahal seharusnya tidak. Dalam hal demikian terjadilah kesalahan tipe I (Type I error) dengan peluang a.
H0 ditolak seperti seharusnya karena H1 yang benar. Berarti keputusan yang diambil benar.
H0 tidak berhasil ditolak padahal seharusnya ditolak karena H1 yang benar. Dalam demikian terjadilah kesalahan tipe II (Type II error) dengan peluang b.
H0 tidak berhasil ditolak karena H0 benar dan H1 salah. Berarti keputusan yang diambil benar.
Kenyataan (tetapi tak diketahui) | ||
Keputusan | H0 benar | H1 benar |
Tolak H0 | Kesalahan Tipe I (Peluang a) | Keputusan tepat |
Jangan Tolak H0 | Keputusan tepat | Kesalahan Tipe II (Peluang b) |