Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Sampling Replacement

Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 20

Sampling With Replacement and Sampling Without Replacement

Sampling with replacement:

Consider a population of potato sacks, each of which has either 12, 13, 14, 15, 16, 17, or
18 potatoes, and all the values are equally likely. Suppose that, in this population, there is
exactly one sack with each number. So the whole population has seven sacks. If I sample
two with replacement, then I first pick one (say 14). I had a 1/7 probability of choosing
that one. Then I replace it. Then I pick another. Every one of them still has 1/7
probability of being chosen. And there are exactly 49 different possibilities here
(assuming we distinguish between the first and second.) They are: (12,12), (12,13), (12,
14), (12,15), (12,16), (12,17), (12,18), (13,12), (13,13), (13,14), etc.

Sampling without replacement:

Consider the same population of potato sacks, each of which has either 12, 13, 14, 15, 16,
17, or 18 potatoes, and all the values are equally likely. Suppose that, in this population,
there is exactly one sack with each number. So the whole population has seven sacks. If I
sample two without replacement, then I first pick one (say 14). I had a 1/7 probability of
choosing that one. Then I pick another. At this point, there are only six possibilities: 12,
13, 15, 16, 17, and 18. So there are only 42 different possibilities here (again assuming
that we distinguish between the first and the second.) They are: (12,13), (12,14), (12,15),
(12,16), (12,17), (12,18), (13,12), (13,14), (13,15), etc.

What's the Difference?

When we sample with replacement, the two sample values are independent. Practically,
this means that what we get on the first one doesn't affect what we get on the second.
Mathematically, this means that the covariance between the two is zero.

In sampling without replacement, the two sample values aren't independent. Practically,
this means that what we got on the for the first one affects what we can get for the second
one. Mathematically, this means that the covariance between the two isn't zero. That
complicates the computations. In particular, if we have a SRS (simple random sample)
without replacement, from a population with variance , then the covariance of two of

the different sample values is , where N is the population size. (A brief summary
of some formulas is provided here. For a discussion of this in a textbook for a course at
the level of M378K, see the chapter on Survey Sampling in Mathematical Statistics and
Data Analysis by John A. Rice, published by Wadsworth & Brooks/Cole Publishers.
There is an outline of an slick, simple, interesting, but indirect, proof in the problems at
the end of the chapter.)

Population size -- Leading to a discussion of "infinite" populations.


When we sample without replacement, and get a non-zero covariance, the covariance
depends on the population size. If the population is very large, this covariance is very
close to zero. In that case, sampling with replacement isn't much different from sampling
without replacement. In some discussions, people describe this difference as sampling
from an infinite population (sampling with replacement) versus sampling from a finite
population (without replacement).

Mary Parker.

Distribusi normal, disebut pula distribusi Gauss, adalah distribusi probabilitas yang
paling banyak digunakan dalam berbagai analisis statistika. Distribusi normal baku
adalah distribusi normal yang memiliki rata-rata nol dan simpangan baku satu. Distribusi
ini juga dijuluki kurva lonceng (bell curve) karena grafik fungsi kepekatan
probabilitasnya mirip dengan bentuk lonceng.

Distribusi normal memodelkan fenomena kuantitatif pada ilmu alam maupun ilmu sosial.
Beragam skor pengujian psikologi dan fenomena fisika seperti jumlah foton dapat
dihitung melalui pendekatan dengan mengikuti distribusi normal. Distribusi normal
banyak digunakan dalam berbagai bidang statistika, misalnya distribusi sampling rata-
rata akan mendekati normal, meski distribusi populasi yang diambil tidak berdistribusi
normal. Distribusi normal juga banyak digunakan dalam berbagai distribusi dalam
statistika, dan kebanyakan pengujian hipotesis mengasumsikan normalitas suatu data.

[sunting] Sejarah

Distribusi normal pertama kali diperkenalkan oleh Abraham de Moivre dalam artikelnya
pada tahun 1733 sebagai pendekatan distribusi binomial untuk n besar. Karya tersebut
dikembangkan lebih lanjut oleh Pierre Simon de Laplace, dan dikenal sebagai teorema
Moivre-Laplace. Laplace menggunakan distribusi normal untuk analisis galat suatu
eksperimen. Metode kuadrat terkecil diperkenalkan oleh Legendre pada tahun 1805.
Sementara itu Gauss mengklaim telah menggunakan metode tersebut sejak tahun 1794
dengan mengasumsikan galatnya memiliki distribusi normal.

Istilah kurva lonceng diperkenalkan oleh Jouffret pada tahun 1872 untuk distribusi
normal bivariat. Sementara itu istilah distribusi normal secara terpisah diperkenalkan
oleh Charles S. Peirce, Francis Galton, dan Wilhelm Lexis sekitar tahun 1875.
Terminologi ini secara tidak sengaja memiliki nama sama.

Mengapa banyak analisis statistik yang mengharuskan kita


untuk menguji distribusi Normal terlebih dahulu?

Distribusi normal itu distribusi data yang memiliki


grafik setangkup (seimbang antara kanan dan kiri/Xmin
dan Xmaks), dimana rata-rata (mean) sama dengan modus
(nilai yg sering muncul) dan sama dengan median (nilai
yang berada di tengah), tidak ada outlier. Ada rumus
dari distribusi tersebut namun sulit untuk menuliskan
di sini.

Banyak analisis mengasumsikan distribusi normal karena


turunan rumus dari analisis tersebut berasal dari
rumus distribusi normal, seperti distribusi z (normal
baku, rata-rata=0, variance(s)=1) dan ada juga
dsitribusi t, F, Chi-Square, dll yang merupakan
turunan dari distribusi normal.

Ada teori yg bernama "teorima limit pusat" yang


menyatakan, semakin banyak data yang diambil akan
semakin mendekati ditribusi normal.

Untuk itu perlu adanya pengujian distribusi normal


atau tidak sebelum menggunakan metode statistika
parametrik. Apabila tidak memenuhi distribusi normal,
maka bisa ditambah datanya, dilakukan transformasi,
atau dapat menggunakan alternative metode statistika
non-parametrik.
VALIDITAS DAN RELIABILITAS ALAT UKUR
ebelum alat ukur (biasanya berbentuk quisioner) digunakan, maka harus dilakukan
pengujian atas validitas dan reliabilitasnya. Berikut penjelasan mengenai validitas dan
reliabilitas:

A. VALIDITAS

Masalah validitas berhubungan dengan sejauh mana suatu alat mampu mengukur apa
yang dianggap orang seharusnya diukur oleh alat tersebut. Definisi yang paling lazim
mengenai validitas tercerminkan dalam pertanyaan: Apakah kita benar-benar mengukur
apa yang ingin kita ukur? Dalam pertanyaan ini yang ditekankan adalah apa yang sedang
diukur (Kerlinger, 1986).

Berdasarkan Standards for Educational and Psychological Tests (Washington D.C:


American Psychological Association, 1974), terdapat tiga tipe validitas, yaitu validitas
isi/muatan/content, validitas kriteria yang berhubungan (criterion related) dan validitas
konstrak (construct).

1. Validitas Isi/Muatan (Content)

Validitas isi/muatan adalah kerepresentatifan sampling yang terdapat dalam isi/muatan


suatu instrumen pengukur. Sedangkan kata ‘muatan’ itu menyiratkan pengertian,
substansi, bahan, topik. Mengenai validasi muatan dapat dibimbing dengan pertanyaan :
Apakah isi/muatan/substansi dari suatu alat ukur mewakili semua kemungkinan
isi/muatan/substansi yang berupa sifat yang hendak diukur?
Pertanyaan tersebut dapat dijawab dengan membahas satu demi satu butir pertanyaan
dalam suatu alat ukur terhadap suatu isi/muatan/substansi dari apa yang hedak kita ukur.
Pekerjaan ini jelas sangat sulit apabila dikerjakan oleh seorang diri. Diperlukan beberapa
orang yang ahli dalam bidang-bidang yang bersangkutan untuk menilai,
mempertimbangkan, dan memutuskan kerepresentatifan satu demi satu butir pertanyaan
dalam suatu alat ukur tersebut.
Dengan demikian pengujian validitas muatan pada dasarnya merupakan kerja menilai dan
memutuskan suatu butir pertanyaan apakah valid secara isi/muatan/substansi ataukah
tidak.

2. Validitas Relasi-Kriteria (Criterion Related)

Validitsa relasi-kruteria dikaji dengan cara membandingkan skor tes atau skala dengan
atu atau lebih peubah ekstra (Variabel eksternal) atau kriteria yang diketahui (atau
diyakini) merupakan pengukur atribut yang sedang dikaji. Yang lebih diperhatikan dalam
validasi relasi-kriteria adalah bukan apa yang diukur oleh tes tersebut melainkan
kemampuan test tersebut dalam membuat prediksi.
Pengujian validitas relasi-kriteria dapat dilakukan dengan mengkorelasikan suatu alat
ukur dengan kriteria lain yang dianggap (atau diyakini) merupakan pengukur atribut yang
sedang dikaji. Semakin tinggi korelasinya, maka makin baiklah validitasnya. Kesulitan
terbesar dalam hal validasi ini adalah bagaimana mendapatkan ktiteria yang digunakan
sebagai pembanding.

3. Validitas Konstrak (Construct)

Jika peneliti mengajukan pertanyaan : “Apakah yang sebenarnya diukur oleh tes ini?”,
maka ia mepersoalkan validitas kontsrak tes tesebut. Validitas konstrak menunjuk kepada
sebarapa jauh suatu tes mengukur sifat atau bangunan-pengertian (construct) tertentu.
Validitas ini menghubungkan gagasan dan praktek psikometri dengan gagasan
teoritisnya. Suatu alat ukur yang berisi beberapa pertanyaan untuk mengukur suatu hal
(suatu konstrak tertentu), dikatakan valid (construct validity) jika setiap butir pertanyaan
yang menyusun kuisioner tersebut memiliki keterkaitan yang tinggi. Ukuran keterkaitan
antar butir pertanyaan ini umumnya dicerminkan oleh korelasi jawaban antar pertanyaan.
Pertanyaan yang memiliki korelasi rendah dengan butir pertanyaan yang lain, dinyatakan
sebagai pertanyaan yang tidak valid. Metode yang sering digunakan untuk memberikan
penilaian terhadap validitas konstrak adalah korelasi produk momen (Moment product
correlation/pearson correlation) antara skor setiap butir pertanyaan dengan skor total,
sehingga sering disebut inter item-total correlation. Formula yang digunakan untuk itu
adalah :
#maaf belum bisa menampilkan rumus-rumus#

B. RELIABILITAS

Reliabilitas atau keterandalan merupakan suatu ukuran yang digunakan untuk menilai
apakah alat ukur yang digunakan mampu memberikan nilai pengukuran yang konsisten,
atau dengan kata lain reliabilitas merupakan peluang mendapatkan hasil yang sama pada
pengukuran yang dilakukan berulangkali. Alat ukur terandal jika indeks keterandalannya
lebih besar dari 0.70.

Pendekatan Yang Digunakan :

1. Pendekatan Eksternal
a. Test-retest
Respon diambil dua kali dalam waktu yang dekat (kondisi responden relatif sama)
b. Alternative Form
Respon dimabil dua kali pada waktu bersamaan dengan menggunakan alat ukur yang
berbeda
Indeks Reliabilitas untuk pendekatan eksternal:
- Teknik Kesesuaian : P = Jumlah jawaban sama / Jumlah responden X 100%
- Teknik Korelasi : #maaf belum bisa menampilkan rumus-rumus#

2. Pendekatan Internal
a. Cronbach Aplha #maaf belum bisa menampilkan rumus-rumus#
b. Uji Belah dua (Split Half)
- Indeks Sperman-Brown #maaf belum bisa menampilkan rumus-rumus#
- Indeks Guttman #maaf belum bisa menampilkan rumus-rumus#

nalisis data kategorik untuk peubah ganda (Multivariate) diawali dengan tabel
kontingensi. Perhitungan persentase kolom, baris, atau persentase total akan
mempermudah interpretasi hasil analisis.

Persentase kategorik menunujukkan kecenderungan masing-masing kategori dalam satu


peubah/variabel. Semakin tinggi persentase suatu kategori maka semakin tinggi pula
kecenderungan kategori tersebut sebagai ciri peubah yang bersangkutan. Dalam peubah
ganda, persentasi sel-sel dalam tabel kontingensi dapat secara langsung menunjukkan
asosiasi peubah-peubah yang menyusun tabel tersebut.

Peubah-peubah dalam suatu tabel kontingensi dikatakan tidak berasosiasi atau saling
bebas jika sebaran persentasenya sama atau mendekati sama di masing-masing kolom
(pada persentase kolom). Sebaliknya jika sebaran persentase tidak sama maka peubah-
peubah berasosiasi dengan tingkat asosiasi tertentu (Agung, 2001).

Korelasi

Korelasi adalah metode untuk mengetahui tingkat keeratan hubungan dua peubah atau
lebih yang digambarkan oleh besarnya koefisien korelasi.
Koefisien korelasi adalah koefisien yang menggambarkan tingkat keeratan hubungan
antar dua peubah atau lebih. Besaran dari koefisien korelasi tidak menggambarkan
hubungan sebab akibat antara dua peubah atau lebih, tetapi semata-mata menggambarkan
keterkaitan linier antar peubah. (Mattjik & Sumertajaya, 2000)
Nilai dari Koefisien korelasi berkisar antara -1 sampai dengan 1.
-1 berarti terdapat hubungan negatif (berkebalikan) yang sempurna
0 berarti tidak terdapat hubungan sama sekali
1 berarti terdapat hubungan positif yang sempurna

Banyak metode statistika untuk mengukur korelasi. Salah satu yang paling sering
digunakanadalah Korelasi Pearson. Ini merupakan Metode Parametrik sehingga
memerlukan pengujian asumsi, yaitu:
1. Data memiliki skala pengukuran interval atau rasio (harus numerik bukan kategorik)
2. Mengikuti Distribusi Normal
3. Memiliki hubungan linier

Apabila data Anda tidak memenuhi asumsi di atas maka gunakan korelasi yang lain,
yaitu:
1. Tau Kendall
2. Spearman

Analisis Gerombol/Cluster Analysis

Analisis gerombol adalah analisis statistik peubah ganda yang digunakan apabila ada N
buah individu atau objek yang mempunyai p peubah dan N objek tersebut ingin
dikelompokkan ke dalam k kelompok berdasarkan sifat-sifat yang dimati sehingga
individu atau objek yang terletak dalam satu gerombol memiliki kemiripan sifat yang
lebih besar dibandingkan dengan individu yang terletak dalam gerombol lain (Dillon &
Goldstein, 1984).

Pengukuran jarak yang paling dikenal yaitu jarak Euclid yang digunakan jika tidak ada
korelasi antar peubah yang diminati. Jika tejadi korelasi antar peubah maka perlu
dilakukan Analisis Komponen Utama / Principle Component terlebih dahulu atau dapat
juga menggunakan konsep jarak lain seperti jarak Mahalanobis, dll.

Teknik penggerombolan terdiri dari hirarki dan tidak berhirarki. Teknik hirarki
digunakan untuk mencari struktur penggabungan dari objek-objek, sedangakan teknik
tidak berhirarki digunakan apabila jumlah gerombol yang diinginkan diketahui.

Teknik hirarki terdiri atas dua yaitu secara agglomerative (penggabungan), dimana
masing-masing objek dianggap satu kelompok kemudian antar kelompok yang jaraknya
berdekatan bergabung menjadi satu kelompok, dan secara divise (pemecahan) yaitu pada
awalnya semua objek berada dalam satu gerombol setelah itu sifat paling beda dipisahkan
dan membentuk satu gerombol yang lain. Porses berlanjut sampai semua objek tersebut
masing-masing membentuk satu gerombol.

Dalam proses penggabungan gerombol dengan metode hirarki selalu diikuti dengan
perbaikan matriks jarak / matriks kesamaan. Metode perbaikan jarak antar lain :
Single Lingkage
Metode ini mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu.

Complete Lingkage
Metode ini justru akan mengelompokkan dua objek yang mempunyai jarak terjauh
terlebih dahulu.

Average Lingkage
Metode ini akan mengelompokkan objek berdasar jarak rata-rata yang didapat dengan
melakukan rata-rata semua jarak objek terlebih dahulu.

Ward’s Method
Pada metode ini, jarak antar dua cluster yang terbentuk adalah sum of squares di antara
dua cluster tersebut.

Centroid Method
Pada metode ini, jarak antar dua cluster adalah jarak di antara centroid cluster-cluster
tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah cluster, yang didapat
dengan melakukan rata-rata pada semua anggota suatu cluster tertentu. Dengan metode
ini, setiap terjadi cluster baru, segera terjadi perhitungan ulang centroid, sampai terbentuk
cluster tetap.

Hasil dari analisis disajikan dalam bentuk dendogram. Pemotongan dendogram dapat
dilakukan pada selisih jarak pengabungan yang terbesar.

Asumsi dari analisis gerombol adalah :


1. Data bebas dari oulier/pencilan.
2. Tidak terjadi perbedaan satuan yang mencolok antar peubah.

Kamis, 2007 Agustus 02

Metode Statistik yang dapat Kami Layani

1. Analisis Deskriptif
     Meringkas Data, statistika 5 serangkai, Ukuran pemusatan,
      ukuran  keragaman data, dll
2. Charting, grafik
     Pembuatan chart dan grafik apapun sesuai keinginan Anda
3. Tabulasi
     Pembuatan berbagai macam tabel sesuai keinginan Anda
4. Uji Signifikan
     Melakukan uji hipotesis terhadap berbagai permasalahan
     Uji satu sampel, uji dua sempel, uji dua atau lebih sampel
5. Korelasi
     Metode untuk mengetahui hubungan antar dua variabel,  
     satu variabel dengan lebih dari satu veriabel, dan juga 
     banyak variabel dengan banyak variabel. 
6. Regresi   
     Metode untuk membuat suatu modelhubungan antara 
     satu variabel terikat (dependent variable) dengan satu atau
lebih variabel bebas (independent variable)
7. Multivariate Regression
    Metode untuk membuat model hubungan antara banyak
    variabel terikat (dependent variable) dan banyak variabel bebas  
    (independent variable)
8. Logit-Probit
    Mirip dengan regresi namun dapat digunakan untuk variabel kategorik
    (ordinal dan nominal), termasuk non parametrik   
9. Experimental Design     :  keterangan menyusul
10. Non-Parametrik Analysis : keterangan menyusul
11. AKU : keterangan menyusul
12. Analisis Faktor : keterangan menyusul
13. Cluster Analysis : keterangan menyusul
14. Analisis Diskriminan : keterangan menyusul
15. Multidimensional Scaling : keterangan menyusul
16. Biplot : keterangan menyusul
17. Analisis Korespondency : keterangan menyusul
18. Time Series Anlysis : keterangan menyusul
19. Path Analysis : keterangan menyusul
20. SEM (Seqential Equation Modeling) : keterangan menyusul
21. CHAID : keterangan menyusul
22. AMMI : keterangan menyusul
23. Bootstrap : keterangan menyusul

Korelasi adalah metode untuk mengetahui tingkat keeratan hubungan dua peubah atau
lebih yang digambarkan oleh besarnya koefisien korelasi.
Koefisien korelasi adalah koefisien yang menggambarkan tingkat keeratan hubungan
antar dua peubah atau lebih. Besaran dari koefisien korelasi tidak menggambarkan
hubungan sebab akibat antara dua peubah atau lebih, tetapi semata-mata menggambarkan
keterkaitan linier antar peubah. (Mattjik & Sumertajaya, 2000)
Nilai dari Koefisien korelasi berkisar antara -1 sampai dengan 1.
-1 berarti terdapat hubungan negatif (berkebalikan) yang sempurna
0 berarti tidak terdapat hubungan sama sekali
1 berarti terdapat hubungan positif yang sempurna

Banyak metode statistika untuk mengukur korelasi. Salah satu yang paling sering
digunakanadalah Korelasi Pearson. Ini merupakan Metode Parametrik sehingga
memerlukan pengujian asumsi, yaitu:
1. Data memiliki skala pengukuran interval atau rasio (harus numerik bukan kategorik)
2. Mengikuti Distribusi Normal
3. Memiliki hubungan linier

Apabila data Anda tidak memenuhi asumsi di atas maka gunakan korelasi yang lain,
yaitu:
1. Tau Kendall
2. Spearman

Asumsi Distribusi Normal

Mengapa banyak analisis statistik yang mengharuskan kita


untuk menguji distribusi Normal terlebih dahulu?

Distribusi normal itu distribusi data yang memiliki


grafik setangkup (seimbang antara kanan dan kiri/Xmin
dan Xmaks), dimana rata-rata (mean) sama dengan modus
(nilai yg sering muncul) dan sama dengan median (nilai
yang berada di tengah), tidak ada outlier. Ada rumus
dari distribusi tersebut namun sulit untuk menuliskan
di sini.

Banyak analisis mengasumsikan distribusi normal karena


turunan rumus dari analisis tersebut berasal dari
rumus distribusi normal, seperti distribusi z (normal
baku, rata-rata=0, variance(s)=1) dan ada juga
dsitribusi t, F, Chi-Square, dll yang merupakan
turunan dari distribusi normal.

Ada teori yg bernama "teorima limit pusat" yang


menyatakan, semakin banyak data yang diambil akan
semakin mendekati ditribusi normal.

Untuk itu perlu adanya pengujian distribusi normal


atau tidak sebelum menggunakan metode statistika
parametrik. Apabila tidak memenuhi distribusi normal,
maka bisa ditambah datanya, dilakukan transformasi,
atau dapat menggunakan alternative metode statistika
non-parametrik.

Analysis of Variance (ANOVA) Analisis Sidik Ragam


Analisis of Variance (ANOVA) atau analisis sidik ragam adalah suatu metode untuk
menguraikan keragaman total data menjadi komponen-komponen yang mengukur
berbagai sumber keragaman. Teknik analisis sidik ragam dapat digunakan untuk menguji
kesamaan beberapa nilai tengah secara sekaligus. (Walpole, 1982)

Intinya, ANOVA dapat digunakan untuk menguji hipotesis dengan 2 variabel atau lebih.

Asumsi dari ANOVA adalah:


1. Data minimal memiliki skala pengukuran numerik (interval dan rasio) bukan
kategorik;
2. Data harus memiliki sebaran/distribusi Normal.

Jumat, 2007 Agustus 03

DEFINISI DEFINISI DALAM STATISTIKA

Statistika : Suatu disiplin ilmu yang mempelajari metode pengumpulan, peringkasan dan
penyajian data, menganalisis (termasuk pendugaan parametrik) dan menarik kesimpulan
dari data tersebut.

Parameter : Sembarang nilai yang menjelaskan ciri suatu populasi.


Statistik : Sembarang nilai yang menjelaskan ciri suatu sample/contoh

Populasi : Keseluruhan pengamatan yang menjadi perhatian kita dalam penelitian.


Sample/contoh : Subset/himpunan bagian dari populasi yang kita ambil/ukur/amati/hitung

SUMBER DATA
1. Data Primer : data yang diperoleh dari sumber asli dan dikumpuilkan secara khusus
untuk menjawab pertanyaan penelitian kita.
2. Data Sekunder : data yang berasal dar survei pihak lain.

Contoh Acak / Random Sampling :


Sample/contoh yang dipilih sedemikian rupa sehingga setiap himpunan bagian / seubset
dari populasi tersebut mempunyai peluang yang sama untuk terpilih.

UKURAN PEMUSATAN DATA


Mean : Rata-rata = Jumlah nilai semua data dibagi jumlah data.
Median : Nilai tengah = nilai yang tepat berada ditengah-tengah barisan data yang terurut.
Modus : Nilai dari suatu data yang memiliki frekuensi tertinggi atau paling sering
muncul.
3 nilai yang membagi data yang menjadi 4 baigan yang sama setelah data tersebut
diurutkan.Kuartil (Q1, Q2, Q3)
Statistika 5 Serangkai Xmin Q1, Q2, Q3, dan Xmax
UKURAN PENYEBARAN DATA
Jangkauan = Wilayah = Xmax – Xmin
Jangkauan antar kuartil = Hamparan = H = Q3 – Q1
Jangkauan Semi antar kuartil = simpangan kuartil = Qd = ½H = ½(Q3-Q1)
Langkah = L = 1½H = 1½ (Q3-Q1)
Pagar Dalam = Q1 – L Pagar Luar = Q3 + L
Simpangan rata-rata, Variance/Ragam, dan Standard Deviasi/Simpangan Baku
tidak bisa dipaparkan dalam tulisan ini karena memerlukan penulisan yang agak rumit.

Dalil Chebyshev :
“Sekurang-kurangnya 1 – 1/k2 bagian data terletak dalam k simpangan baku dari nilai
tengahnya.”

METODE STATISTIKA
Metode Statistika: Prosedur-prosedur yang digunakan dalam pengumpulan, penyajian,
analisis dan penafsiran data.
Pengelompokkan Metode Statistika :
1. Statistika deskriptif : metode-metode yang berkaitan dengan pengumpulan,
peringkasan dan penyajian suatu data sehingga memberikan informasi yang berguna dan
juga menatanya ke dalam bentuk yang siap untuk dianalisis.
2. Statistika inferensia : Mencakup semua metode yang berhubungan dengan analisis
sebagian data kemudian sampai pada peramalan atau penarikan kesimpulan mengenai
keseluruhan himpunan data induknya.
Apa yaaa hubungannya Do'a dan Statistika???

Untuk menjawabnya, mungkin kita perlu membahas mengenai hubungan sebab-akibat


terlebih dahulu.

Masalah hubungan sebab akibat memang sangat menarik untuk dibahas. 


Misalnya, bila kita ingin  mendapat nilai yang baik dalam ujian kita harus belajar,
membaca buku, latihan soal, dll. Dalam hal ini yang menjadi akibat adalah nilai ujian,
sedangkan yang menjadi  sebab adalah frekuensi lamanya belajar, jumlah halaman buku
yang dibaca, banyaknya latihan soal, dll. 

Mungkin banyak perdebatan mengenai hubungan sebab akibat seperti ini. 
Apakah benar suatu hal menyebabkan hal lain atau sebaliknya.
Untuk menghindari berbagai perdebatan tersebut, Statistika mentransformasikan sebab-
akibat menjadi independen dan dependen variabel.

Metode yang mempelajari hubungan antara independen dan dependen variabel salah
satunya adalah Regresi.

Dalam model regresi, terdapat 3 komponen penting yaitu:


1. dependen variabel, 
2. independen variabel 
3. komponen error.
Dependen variabel adalah variabel yang nilainya tergantung pada independen variabel.
sedangkan independen variabel merupakan variabel bebas yang bisa dikendalikan
nilainya serta bisa mempengaruhi nilai dependen variabel. 
Sedangkan error merupakan variabel acak yang tidak bisa diukur dan
atau tidak bisa dikendalikan. 
Komponen ini merupakan nilai perbedaan antara nilai yang ditentukan dari besarnya inde
penden variabel dalam model dengan nilai dependen variabel sebenarnya.

Bila dituliskan persamaan regresinya adalah

y = a + b1x1 + b2x2 + b3x3 + . . . + bixi + e

misalnya dalam contoh di atas:


y adalah nilai ujian,
x1 adalah frekuensi belajar,
x2 adalah jumlah halaman buku yang dibaca, 
x3 adalah banyaknya latihan soal yang telah dibahas.

nilai a merupakan nilai konstan apabila seseorang tidak melakukan apa-apa dia akan
mendapat nilai ujian a. Sedangkan b merupakan nilai koefisien dari
variabel independen yang merupakan bobot dari variabel independen tersebut dalam men
entukan nilai dependen variabel.

Model Regresi yang baik adalah model yang memiliki error terkecil. Namun hampir tidak
munkin mendapatkan nilai error = 0. Sebaik apapun usaha seseorang dalam mendapatkan
nilai ujian yang baik (x1, x2, x3, ..., xi), belum tentu mendapatkan nilai yang baik (y).
Pasti selalu ada variabel lain yang tidak bisa dikendalikan dan tidak masuk dalam model
regresi. Itulah yang dimaksud dengan komponen error. Seperti kemungkinan sakit pada
saat ujian, kemungkinan adanya kecelakaan pada saat ujian, dll.

Konsep Regresi ini merupakan konsep falsafah di dunia ini. Dependen variabel (y)


merupakan sesuatu yang ingin kita raih, sedangkan (x) merupakan usaha kita untuk dapat
meraih y. sedangkan e adalah komponen lain yang tidak bisa diukur dan tidak bisa
kendalikan yang juga dapat menentukan hasil yang ingin kita raih. Untuk itu
bagaimanapun baiknya model regresi kita, betapa kerasnya usaha kita, tetap ada faktor
lain yang tidak bisa kita kendalikan.

Dalam hal adanya komponen error inilah kita perlu senantiasa berdoa untuk


meminimalisir faktor error tersebut.

Dalam Model Regresi:

y= a + bx + e
dapat berarti:

Hasil = Usaha + Do'a

setujukah Anda dengan dengan model tersebut???

Apabila data Anda tidak memenuhi asumsi distribusi normal, 
tipe data interval atau rasio, kehomogenan variance, dan 
besarnya jumlah data maka jangan dipaksakan untuk menggunakan 
Parametrik Test. Anda dapat menggunakan statistik non-parametrik.
Banyak Statistik Non-Parametrik yang dapat digunakan untuk
melakukan uji hipotesis sebagai berikut:

(gambar disarikan dari Buku Latihan SPSS, Singgih Santoso)


Keterangan :

1. Non-Parametrik Test Dengan Satu Grup Sample


☻ Binomial Test
Uji Binomial digunakan untuk menguji sebuah grup sample, apakah ciri tertentu dari
grup tersebut bisa dianggap sama dengan ciri populasinya. Sedangkan ‘binomial’
menyatakan bahwa data akan dibagi menjadi dua kategori saja (seperti, Ya atau Tidak,
Pria atau Wanita, dsb.). Uji ini baik digunakan untuk pengujian angka ataupun proporsi.
☻ Run Test (Randomness Test)
Digunakan untuk menguji apakah sample yang diambil dari suatu populasi tersebut acak
atau tidak.
☻ Cox-Stuart Test
Digunakan untuk menguji apakah terdapat suatu kecenderungan (trend) dari suatu grup
data.
2. Goodness of Fit Test
☻ Kolmogorov-Smirnov Test (Normality Test)
Uji ini digunakan untuk menguji sebuah data apakah bisa dianggap menyebar normal
ataukah tidak

☻ Chi-Square Test
Uji ini bertujuan untuk mengetahui sebuah distribusi data dari sample mengikuti sebuah
distribusi teoritis tertentu ataukah tidak Distribution Test
Selain digunakan untuk menguji distribusiNote dari sebuah grup sample, Chi-square
Test juga dapat digunakan untuk menguji Kehomogenan dan Independensi dari dua buah
grup sample.
Homogenity Test
Uji digunakan untuk mengetahui apakah kedua populasi asal dari dua grup sample
homogen ataukah tidak.
Uji Independensi
Uji digunakan untuk memeriksa kebebasan/independensi dari dua variabel, sehingga kita
dapat menyimpulkan apakah kedua variabel tersebut saling bebas (tidak saling
mempengaruhi) ataukah keduanya saling bertalian (saling mempengaruhi).

3. Non-Parametrik Test Dengan Dua Grup Sample Independent


☻ Mann-Whitney Test
Digunakan apakah dua grup data (bertipe ordinal, interval atau rasio) yang independent
berasal dari populasi yang sama ataukah tidak. Statistik Uji dari Mann-Whitney Test
menggunakan pendekatan jumlah peringkat/rank dari data.
☻ Kolmogorov-Smirnov Test
Digunakan apakah dua grup data yang bertipe numeric (Interval, Rasio) yang
independent berasal dari populasi yang sama ataukah tidak. Uji ini menggunakan
pendekatan median data.
☻ Moses Test
Menguji perbedan Variance dari dua sample yang independent.
☻ Wald-Wolfowitz Test
Hampir sama dengan Kolmogorov-Smirnov Test yaitu untuk menguji signifikansi antara
dua sample yang independent. Uji wald menggunakan pendekatan frekuensi data,
sedangkan Kolmogorov-Smirnov Test menggunakan pendekatan median.

4. Non-Parametrik Test Dengan Dua Grup Sample Dependent


☻ Sign Test
Digunakan untuk menguji apakah dua grup sample (bertipe ordinal, interval atau rasio)
yang berpasangan (dependent) berasal dari populasi yang sama. Statistik uji dari Sign
Test menggunakan pendekatan tanda (+/-) dari selisih tiap pasangan data. Uji ini
khususnya bermanfaat bagi data yang berskala ordinal, apabila data berskala interval atau
rasio, dianjurkan menggunakan uji yang lebih powerful seperti Wilcoxon Test.
☻ Wilcoxon Test
Digunakan untuk menguji apakah dua grup sample (bertipe interval, rasio) yang
berpasangan (dependent) berasal dari populasi yang sama. Statistik uji dari Wilcoxon
Test menggunakan pendekatan peringkat dan tanda dari selisih pasangan data.
☻ McNemar Test
Digunakan untuk menguji apakah dua grup sample (bertipe kategorik, khususnya data
dikotom) yang berpasangan (dependent) berasal dari populasi yang sama. Uji ini
menggunakan pendekatan selisih proporsi dari dua grup sample.
☻ Marginal Homogenity
Digunakan untuk menguji apakah dua grup sample (bertipe kategorik : ordinal atau
multinomial) yang berpasangan (dependent) berasal dari populasi yang sama.

5. Non-Parametrik Test Dengan Tiga Atau Lebih Grup Sample Independent


☻ Median Test
Digunakan untuk menguji lebih dari dua grup sample independent (bertipe ordinal,
interval dan rasio) apakah berasal dari populasi yang sama ataukah tidak. Uji ini
menggunakan pendekatan nilai median.
☻ Kruskal-Wallis Test
Digunakan untuk menguji lebih dari dua grup sample independent (bertipe ordinal,
interval dan rasio) apakah berasal dari populasi yang sama ataukah tidak. Uji ini
menggunakan pendekatan rata-rata peringkat/rank. Kruskal-Wallis Test digunakan
sebagai alternative pengganti bagi prosedur One-Way ANOVA dalam Parametrik Test
apabila datanya tidak memenuhi asumsi (bertipe ordinal, atau interval/rasio yang tidak
menyebar normal).
☻ Jonckheere-Terpstra Test
Digunakan untuk menguji lebih dari dua grup sample independent (bertipe ordinal,
interval dan rasio) apakah berasal dari populasi yang sama ataukah tidak, dimana grup-
grup yang dibandingkan mempunyai urutan sehingga memerlukan hipotesis tandingan
berturut (ordered alternatives), misalnya: Ingin menguji apakah kelompok social ekonomi
rendah, sedang atau tinggi berturut-turut memiliki pengetahuan yang rendah, sedang
ataukah tinggi tentang sesuatu hal.

6. Non-Parametrik Test Dengan Tiga Atau Lebih Grup Sample Dependent


☻ Friedman Test
Digunakan untuk menguji lebih dari dua grup sample Dependent apakah berasal dari
populasi yang sama ataukah tidak. Uji ini digunakan sebagai alternative bagi prosedur
Two-Way ANOVA pada Parametrik Test apabila datanya tidak memenuhi asumsi
(bertipe ordinal, atau interval/rasio yang tidak menyebar normal). Statistik Ujinya
menggunakan pendekatan peringkat/rank.
☻ Page Test
Sama dengan kondisi pada Friedman Test, hanya saja Page Test digunakan apabila
menggunakan hipotesis tandingan berturut (ordered alternatives).
☻ Durbin Test
Sama dengan kondisi pada Friedman Test, hanya saja Durbin Test digunakan apabila
menggunakan rancangan-rancangan blok tidak lengkap (Incomplete Block Design) dalam
experimental design.
☻ Uji Konkordansi Kendall
Digunakan untuk menguji apakah ada keselarasan dari sekelompok subjek dalam menilai
objek tertentu. Nilainya berkisar antara 0-1, jika 1 berarti semua sangat selaras dan jika 0
berarti tidak selaras.
☻ Cochran Test
Digunakan untuk menguji lebih dari dua grup sample dependent (bertipe kategorik,
khususnya dikotom) apakah berasal dari populasi yang sama ataukah tidak.

Selasa, 2008 Februari 05

Uji Kebebasan Chi-Square

Uji Kebebasan Chi-Square digunakan untuk memeriksa kebebasan/independensi dari dua


peubah kategorik sehingga kita dapat menyimpulkan apakah kedua peubah tersebut
saling bebas (tidak berpengaruh) ataukah keduanya saling bertalian (berpengaruh).

H0 : kedua peubah saling bebas


H1 : kedua peubah tidak saling bebas

Dalam tabel kontingensi 2 x 2 :

Y/X X=1 X=2


Y=1 a b
Y=2 c d
#maaf belum bisa menampilkan tabel yang baik#

Chi-Square (x2) = {(a+b+c+d)x(ad-bc)kuadrat}/{(a+b)(c+d)(a+c)(b+d)}


#maaf belum bisa menampilkan rumus-rumus rumit#

Bila X2 > X2tabel dengan derajat bebas (r-1)(c-1) maka tolak H0


Artinya: kedua peubah saling bertalian atau tidak saling bebas.

Senin, 2008 Februari 04

Hipotesis 1 arah vs 2 arah (one-tail vs 2-tail Hypothesis)

Apa sih bedanya Hipotesis 1 arah dan 2 arah???

Perbedaanya terletak pada masalah apa yang mau diuji.


Hipotesis 1 arah digunakan untuk menguji suatu hal yang sudah jelas akan lebih besar
atau lebih kecil dari hipotesis awal. Sedangkan Hipotesis 2 arah digunakan untuk menguji
suatu hal (hipotesis awal) pada suatu titik tertentu, dimana kemungkinan hipotesis
tandingannya bisa lebih besar maupun lebih kecil dari titik tersebut.

Untuk memperjelas saya ingin memberikan suatu contoh


kasus hipotesis yang mudah.
Misalnya kita ingin menguji suatu kadar emisi
kendaraan apakah mencapai batas tertentu atau tidak.
Maka, yang menjadi perhatian kita adalah melebihi batas
emisi ataukah tidak. Bila kadar emisi lebih
kecil dari batas emisi dianggap masih menjadi hipotesis awal karena semakin kecil
semakin
baik. Dalam hal ini hipotesis yang digunakan adalah 1
arah.

Misalnya kita ingin menguji kadar racun dalam tubuh


manusia misalhnya kreatinin dan ureum. Maka kita
konsen pada dua arah. Apabila kadar kreatinin dan
ureum melebihi batas normal sangat berbahaya.
sedangkan apabila lebih kecil dari batas normal juga
berbahaya. Yang bagus adalah kadarnya pas dengan batas
normal. Oleh karena itu lebih cocok menggunakan
hipotesis 2 arah.

Ukuran sampel Kalkulator


This Sample Size Calculator is presented as a public service of Creative Research
Systems. Contoh Ukuran Kalkulator ini disajikan sebagai pelayanan publik Kreasi
Penelitian Sistem. You can use it to determine how many people you need to interview in
order to get results that reflect the target population as precisely as needed. Anda dapat
menggunakannya untuk menentukan seberapa banyak orang yang Anda butuhkan untuk
wawancara untuk mendapatkan hasil yang mencerminkan target populasi sebagai tepat
sesuai kebutuhan. You can also find the level of precision you have in an existing sample.
Anda juga dapat menemukan tingkat presisi yang tersedia dalam sampel yang ada.

Before using the sample size calculator, there are two terms that you need to know.
Sebelum menggunakan sampel ukuran kalkulator, ada dua hal yang harus Anda ketahui.
These are: confidence interval and confidence level . Ini adalah: interval keyakinan
dan tingkat keyakinan. If you are not familiar with these terms, click here . Jika Anda
tidak akrab dengan istilah tersebut, klik di sini. To learn more about the factors that affect
the size of confidence intervals, click here . Untuk mempelajari lebih lanjut tentang
faktor-faktor yang mempengaruhi ukuran interval keyakinan, klik di sini.

Enter your choices in a calculator below to find the sample size you need or the
confidence interval you have. Masukkan pilihan Anda di kalkulator di bawah ini untuk
menemukan sampel ukuran yang Anda butuhkan atau interval keyakinan anda miliki.
Leave the Population box blank if the population is very large or unknown. Biarkan
kosong jika kotak Populasi penduduk yang sangat besar atau tidak dikenal.
Sample Size Calculator Terms: Confidence Interval &
Confidence Level Ukuran sampel Kalkulator Syarat: Confidence
Interval Confidence & Tingkat

The confidence interval is the plus-or-minus figure usually reported in newspaper or


television opinion poll results. Dengan interval keyakinan adalah plus atau minus-angka
biasanya dilaporkan di koran atau televisi menurut hasil jajak pendapat. For example, if
you use a confidence interval of 4 and 47% percent of your sample picks an answer you
can be "sure" that if you had asked the question of the entire relevant population between
43% (47-4) and 51% (47+4) would have picked that answer. Misalnya, jika Anda
menggunakan interval keyakinan dari 4 persen dan 47% dari sampel picks yang terbaik,
Anda dapat "memastikan" bahwa jika Anda telah mengajukan pertanyaan yang relevan
dari seluruh populasi antara 43% (47-4) dan 51% (47 +4) akan dipilih yang terbaik.

The confidence level tells you how sure you can be. Tingkat keyakinan yang
memberitahu Anda bagaimana Anda bisa yakin. It is expressed as a percentage and
represents how often the true percentage of the population who would pick an answer lies
within the confidence interval. Hal ini dinyatakan sebagai persentase dan mewakili
seberapa sering benar persentase dari populasi yang akan diambil yang terbaik terletak di
dalam interval keyakinan. The 95% confidence level means you can be 95% certain; the
99% confidence level means you can be 99% certain. Dengan tingkat keyakinan 95%
berarti Anda dapat 95% tertentu, dan tingkat keyakinan 99% berarti Anda dapat 99%
tertentu. Most researchers use the 95% confidence level. Sebagian besar peneliti
menggunakan tingkat keyakinan 95%.

When you put the confidence level and the confidence interval together, you can say that
you are 95% sure that the true percentage of the population is between 43% and 51%.
Bila Anda menempatkan tingkat keyakinan dan interval keyakinan bersama-sama, Anda
dapat berkata bahwa Anda adalah 95% yakin bahwa benar persentase dari populasi
adalah antara 43% dan 51%. The wider the confidence interval you are willing to accept,
the more certain you can be that the whole population answers would be within that
range. Yang lebih luas dengan interval keyakinan anda bersedia menerimanya, lebih
tertentu Anda dapat bahwa seluruh populasi jawaban akan di dalam jangkauan.

For example, if you asked a sample of 1000 people in a city which brand of cola they
preferred, and 60% said Brand A, you can be very certain that between 40 and 80% of all
the people in the city actually do prefer that brand, but you cannot be so sure that between
59 and 61% of the people in the city prefer the brand. Misalnya, jika Anda ditanya
sampel dari 1000 orang di sebuah kota yang merek cola pilihan mereka, dan 60% berkata
Merk A, Anda bisa sangat yakin bahwa antara 40 dan 80% dari semua orang di kota yang
sebenarnya lebih suka melakukan merek, namun Anda tidak dapat begitu yakin bahwa
antara 59 dan 61% dari orang-orang di kota lebih mengutamakan merek.
Factors that Affect Confidence Intervals Faktor-faktor yang
mempengaruhi Confidence interval

There are three factors that determine the size of the confidence interval for a given
confidence level: Ada tiga faktor yang menentukan besarnya interval keyakinan yang
diberikan untuk tingkat keyakinan:

 Sample size Ukuran sampel


 Percentage Persentase
 Population size Ukuran populasi

Sample Size Ukuran sampel

The larger your sample size, the more sure you can be that their answers truly reflect the
population. Anda semakin besar ukuran sampel, semakin yakin bahwa mereka dapat
benar-benar mencerminkan jawaban penduduk. This indicates that for a given confidence
level, the larger your sample size, the smaller your confidence interval. Hal ini
menunjukkan bahwa untuk tingkat keyakinan yang diberikan, semakin besar ukuran
sampel anda, maka anda interval keyakinan lebih kecil. However, the relationship is not
linear ( ie , doubling the sample size does not halve the confidence interval). Namun,
hubungan yang tidak linear (yaitu, dua kali lipat ukuran sampel tidak separuhnya pada
interval keyakinan).

Percentage Persentase

Your accuracy also depends on the percentage of your sample that picks a particular
answer. Akurasi Anda juga bergantung pada persentase sampel yang terbaik picks
tertentu. If 99% of your sample said "Yes" and 1% said "No," the chances of error are
remote, irrespective of sample size. Jika 99% dari sampel mengatakan "Ya" dan 1%
menjawab "Tidak," kesempatan kesalahan yang jauh, terlepas dari ukuran sampel.
However, if the percentages are 51% and 49% the chances of error are much greater.
Namun, jika persentase adalah 51% dan 49% dari kemungkinan kesalahan yang jauh
lebih besar. It is easier to be sure of extreme answers than of middle-of-the-road ones.
Lebih mudah untuk memastikan jawaban yang ekstrim dibandingkan dari tengah-of-the-
jalan ones.

When determining the sample size needed for a given level of accuracy you must use the
worst case percentage (50%). Dalam menentukan ukuran sampel yang diperlukan untuk
suatu tingkat akurasi Anda harus menggunakan persentase kasus terburuk (50%). You
should also use this percentage if you want to determine a general level of accuracy for a
sample you already have. Anda juga harus menggunakan persentase ini jika Anda ingin
menentukan tingkat akurasi umum untuk sampel yang sudah ada. To determine the
confidence interval for a specific answer your sample has given, you can use the
percentage picking that answer and get a smaller interval. Untuk menentukan interval
keyakinan tertentu terbaik untuk Anda telah memberikan contoh, Anda bisa
menggunakan persentase memilih yang terbaik dan mendapatkan yang lebih kecil
interval.

Population Size Ukuran populasi

How many people are there in the group your sample represents? Berapa banyak orang
yang ada dalam grup sampel mewakili Anda? This may be the number of people in a city
you are studying, the number of people who buy new cars, etc. Often you may not know
the exact population size. Hal ini mungkin jumlah orang di kota Anda belajar, jumlah
orang yang membeli mobil baru, dll Seringkali Anda mungkin tidak tahu persis ukuran
populasi. This is not a problem. Ini tidak menjadi masalah. The mathematics of
probability proves the size of the population is irrelevant unless the size of the sample
exceeds a few percent of the total population you are examining. Dari probabilitas
matematika yang membuktikan besarnya populasi yang tidak relevan, kecuali jika ukuran
sampel melebihi beberapa persen dari total populasi anda meneliti. This means that a
sample of 500 people is equally useful in examining the opinions of a state of 15,000,000
as it would a city of 100,000. Ini berarti sampel dari 500 orang yang sama-sama berguna
dalam meneliti dengan pendapat keadaan 15000000 karena akan kota 100.000. For this
reason, The Survey System ignores the population size when it is "large" or unknown.
Untuk alasan ini, The Survey Sistem mengabaikan penduduk bila ukuran "besar" atau
tidak dikenal. Population size is only likely to be a factor when you work with a
relatively small and known group of people ( eg , the members of an association). Ukuran
populasi hanya mungkin menjadi faktor ketika anda bekerja dengan relatif kecil dan
dikenal sekelompok orang (misalnya, para anggota dari sebuah asosiasi).

The confidence interval calculations assume you have a genuine random sample of the
relevant population. Dengan interval keyakinan perhitungan menganggap Anda memiliki
asli sampel acak dari populasi yang relevan. If your sample is not truly random, you
cannot rely on the intervals. Contoh jika Anda tidak benar-benar acak, Anda tidak dapat
bergantung pada interval. Non-random samples usually result from some flaw in the
sampling procedure. Non-biasanya hasil sampel acak dari beberapa cacat dalam sampel
prosedur. An example of such a flaw is to only call people during the day and miss
almost everyone who works. Contoh seperti ini cacat adalah hanya untuk panggilan orang
sepanjang hari dan hampir semua orang yang kehilangan pekerjaan. For most purposes,
the non-working population cannot be assumed to accurately represent the entire
(working and non-working) population. Bagi kebanyakan tujuan, mereka yang bukan
penduduk bekerja tidak dapat diasumsikan secara akurat mewakili seluruh (bekerja dan
tidak bekerja) penduduk.

You might also like