Jumat, 02 Desember 2011

Reliabilitas dan Karakteristik Lain yang Diperlukan




Pendahuluan
            Reliabilitas atau keandalan, adalah konsistensi dari serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang uji) yang akan memberikan hasil tes yang sama. Perhitungan tingkat reliabilitas dapat dilakukan dengan menerapkan satu atau lebih rumus sesuai dengan jenis tes yang reliabilitas yang hendak diukur.
Sifat Reliabilitas
            Reliabilitas merujuk pada konsistensi pengukuran yaitu, bagaimana nilai tes konsisten dengan hasil evaluasi lainnya dari satu pengukuran ke pengukuran lainnya. Jika sebuh tes diujicobakan lebih dari satu kali kepada subjek yang sama? Artinya, walau ada perbedaan, perbedaan itu tidak signifikan
Bagaimana skor telah bervariasi, ia dipilih sampel yang berbeda dari item yang setara? Kalau tes essai, berapa banyak yang memiliki nilai yang berbeda, guru memiliki skor yang berbeda itu? Ini adalah jenis pertanyaan yang menyangkut  kehandalan. Tes terbatas hanya menyediakan ukuran kinerja yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat diperlihatkan untuk menjadi cukup konsisten ( yang dapat digeneralisasi) atas kesempatan yang berbeda kinerja yang sama domain, bisa memiliki sedikit keyakinan dalam hasil.
            Di sisi lain, kita tidak dapat mengharapkan hasil tes untuk benar-benar valid. Ada banyak faktor selain kualitas yang diukur, yang dapat mempengaruhi hasil tes. Jika satu tes diberikan pada kelompok yang sama di dekat dua kali berturut-turut, beberapa variasi dalam nilai  yang dapat diharapkan, karena sementara dan sejenis. Dengan sendirinya jangka waktu antara tes, variasi tambahan skor dapat sebabkan oleh pengalaman belajar.  Campur tangan, perubahan di bidang kesehatan, lupa, dan kurang sebanding dengan kondisi pengujian. Jika kita menggunakan sampel yang berbeda dari item tes yang kedua, masih ada faktor lain yang mungkin mempengaruhi hasil. Metode penentuan keandalan pada dasarnya berarti penentuan berapa banyak kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, semakin kosisten hasil pengujian dari satu pengukuran ke yang lain, semakin sedikit kesalahan akan ada dan, akibatnya semakin besar keandalan.
Pengertian reliabilitas
            Sebagaimana diterapkan pada pengujian dan evaluasi, dapat lebih diperjelas dengan mencatat poin umum pengertian reliabilitas sebagai berikut :
1.      Keandalan mengacu pada hasil yang diperoleh dengan alat evaluasi dan tidak untuk instrumen itu sendiri. Instrumen tertentu mungkin memiliki sejumlah reliabilitas berbeda, tergantung pada kelompok yang terlibat dan situasi dimana ia digunakan. Jadi, adalah lebih tepat untuk berbicara mengenai keandalan dari “tes” atau tentang “pengukuran”  dari “tes” atau “instrumen”.

2.      Perkiraan reliabilitas selalu mengacu pada tipe tertentu konsistensi. Skor tes pada umumnya tidak dapat diandalkan. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu yang berbeda, lebih dari pertanyaan sampel yang berbeda, lebih dari penilai yang berbeda dan sejenisnya. Di sisi lain, jika kita ingin mengukur seseorang, pergeseran dalam kegelisahan dari waktu ke waktu, kita akan membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan dalam rangka untuk memperoleh informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda kita perlu konsistensi analisis yang berbeda. Memperlakukan keandalan sebagai karakteristik umum hanya dapat menyebabkan salah penafsiran.

3.      Keandalan adalah perlu tetapi tidak cukup syarat untuk validitas. Sebuah tes yang menghasilkan hasil yang tidak konsistensi, sama sekali tidak mungkin memberikan informasi yang valid tentang kinerja yang diukur. Di sisi lain, sangat konsisten hasil yang dapat mengukur hal yang salah atau yang dapat digunakan dalam cara-cara yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang diperoleh, namun keandalan tinggi tidak menjamin bahwa tingkat yang memuaskan keabsahan akan hadir. Singkatnya, keandalan hanya menyediakan konsistensi yang membuat kemungkinan validitas.

4.      Kehandalan terutama statistik. Analisis logis dari suatu pengukuran akan memberikan sedikit bukti mengenai keandalan dari nilai. Tes harus diberikan. Satu kali atau lebih ke sekelompok orang yang tepat dan konsistensi dari hasil yang ditentukan. Konsistensi ini dapat dinyatakan dalam istilah-istilah pergeseran dalam kedudukan relatif orang-orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam jumlah skor individu. Konsistensi dalam kasus pertama dilaporkan  dengan cara sebagai koefisien korelasi disebut koefisien reliabilitas dan dalam kasus kedua dilaporkan melalui kesalahan standar pengukuran. Kedua metode ini untuk mengekspresikan keandalan yang digunakan secara luas dan harus dipahami oleh orang-orang yang bertanggungjawab untuk menginterpretasikan hasil tes. Karena kedua metode memerlukan variabilitas dalam nilai, prosedur ini untuk memperkirakan keandalan ukuran criteria-referenced atau tes penguasaan.

Menentukan Reliabilitas dengan Metode Korelasi
            Dalam menentukan  keandalan diharapkan untuk mendapatkan dua set langkah-langkah di bawah kondisi yang identik dan kemudian membandingkan hasilnya. Prosedur ini tentu saja tidak mungkin, karena kondisi di mana data evaluasi diperoleh tidak pernah bisa identik.
Beberapa Istilah Dasar
Korelasi koefisien
Statistik yang menunjukkaan tingkat hubungan antara dua set ukuran yang sama diperoleh dari sekelompok individu (contoh : korelasi antara tinggi dan berat badan)
Validity koefisien
Koefisien korelasi yang menunjukkan sejauh mana ukuran kinerja memprediksi atau perkiraan pada beberapa kriteria ukuran.
(contoh : korelasi nilai kecerdasan antara skor dan nilai-nilai di sekolah)
Reliabilitas koefisien
Koefisien korelasi yang menunjukkan tingkat relationship antara dua set ukuran yang diperoleh dari instrumen atau prosedur yang sama. ( Misalnya: korelasi antara skor yang diperoleh dari dua administrasi pengujian).

Sebagai pengganti prosedur ideal ini, beberapa metode mengestimasi reliabilitas yang telah diperkenalkan. Metode-metode yang serupa dalam pertunjukan bahwa semua dari mereka melibatkan, menghubungkan dua set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk-bentuk yang setara prosedur yang sama. Koefisien korelasi yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara koefisien validitas adalah bahwa yang pertama berdasarkan kesepakatan dengan kriteria di luar dan yang terakhir didasarkan pada perjanjian antara dua set hasil dari prosedur yang sama.
Tabel 4.1

Tipe Pengukuran
Prosedur
Metode tes-retes
Mengukur stabilitas
Berikan pengujian yang sama dua kali untuk kelompok yang sama dengan selang waktu antara tes dari beberap menit sampai beberapa tahun.
Metode setara
Mengukur kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama di dekat berturut-turut
Tes-retes
Mengukur stabilitas dan kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk / form.
Metode belah dua
Mengukur konsistensi dari internal
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk.
Metode Kuder Richardson
Mengukur konsistensi dari internal
Berikan satu kali. Skor total tes dan menerapkan rumus Kuder Richardson

Metode Tes-Retes
            Untuk memperkirakan kehandalan melalui tes-retes. Metode pengujian yang sama yang diberikan dua kali untuk kelompok yang sama kepada siswa dengan selang waktu tertentu antara dua administrasi (lihat ganbar 4.1). hasil tes tersebut berkorelasi, koefisien korelasi ini memberikan suatu ukuran stabilitas : yang menunjukkan kestabilan, seorang murid yang tinggi nilainya pada tes administrasi akan cenderung tinggi pada administrasi lainnya, dan sisanya siswa akan cenderung tetap dalam posisi yang relatif sama. Stabilitas seperti ditunjukkan oleh koefisien korelasi yang besar. Stabilitas seperti ini ditunjukkan oleh  hubungan positif dengan 1,00 dan hubungan nol oleh ’00. Langkah stabilitas di tahun 80-an dan 90-an biasanya standar dilaporkan koefisien korelasi yang sempurna menunjukkan untuk tes bakat d dalam tahun yang sama.
            Kebanyakan guru mungkin  tidak menemukan tes-tes ulang menghitung koefisien keandalan untuk tes kelas mereka sendiri. Namun, dalam memilih tes standar, stabilitas nilai berfungsi sebagai salah satu yang penting. Pengujian manual harus memberikan bukti stabilitas, yang menunjukkan selang waktu antara pegujian. Hal-hal lain yang sama (seperti validitas) kita akan mendukung skor tes yang telah terbukti dimiliki jenis stabilitas kita perlu membuat keputusan.
            Informasi mengenai stabilitas nilai tes juga memiliki implikasi bagi frekuensi tes ulang. Kita tahu, misalnya yang pertama kelas nilai tes bakat skolastik cukup stabil atas kesempatan dalam tahun yang sama namun relatif stabil selama beberapa tahun. Dengan demikian, kita berharap untuk menggunakan hasil tersebut dalam menentukan kesiapan untuk meninjau kelas bekerja, tetapi seharusnya tidak tergantung pada mereka untuk perkiraan pada akhir kelas SD. Untuk digunakan, tes kedua perlu diberikan pada awal dan akhir periode dasar, demikian pula, ketika menggunakan skor tes dari catatan permanen, orang harus memeriksa tanggal pengujian dan stabilitas data yang tersedia untuk menentukan apakah hasil masih bisa diandalkan. Jika ada keraguan dan keputusan penting.

Metode Bentuk Setara
            Memperkirakan bentuk reliabilitas dengan menggunakan dua metode yang berbeda tetapi setara dengan bentuk-bentuk ujian (disebut paralel alternatif). Kedua bentuk tes yang diberikan pada kelompok yang sama muridnya di dekat berturut-turut, dan hasil tes tersebut berkorelasi. Koefisien korelasi ini memberikn ukuran kesetaraan. Jadi, menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama.
Bentuk-bentuk yang setara dengan metode ini memberitahu kita apa-apa tentang stabilitas karakteristik murid yang dapar diukur, melainkan mencerminkan sejauh mana tes sampel mewakili dan memadai dari karakteristik yang sedang diukur. Dalam pencapaian pengujian, misalnya ada ribuan pertanyaan yang mungkin ditanyakan dalam tes tertentu.  Tetapi karena batas-batas tertentu  dan faktor pembatas lainnya, hanya beberapa pertanyaan yang mungkin dapat digunakan. Pertanyaan yang termasuk dalam ujian harus memberikan sampel yang memadai untuk berbagai ranah yang dibutuhkan. Cara termudah untuk memperkirakan  jika langkah-langkah pengujian sampel yang memadai dari konten adalah untuk membangun dua bentuk tes dan mengkorelasikan hasilnya. Korelasi yang tinggi menujukkan bahwa kedua bentuk menyediakan hasil yang sama dan oleh karena itu mungkin dapat diandalkan sampel wilayah umum dalam konten yang sedang diukur.
Setara-bentuk memperkirakan  kehandalan tidak jauh dengan masalah yang menyulitkan dalam memilih interval waktu yang tepat antara tes, seperti yang diperlukan dengan metode tes-tes ulang, meskipun kebutuhan akan setara dengan bentuk tes membatasi penggunaannya hampir seluruhnya untuk standar pengujian. Ini digunakan secara luas, karena sebagian besar tes standar memiliki dua atau lebih bentuk yang tersedia. Bahkan seorang guru harus bersikap curiga terhadap tes standar yang memiliki dua bentuk yang tersedia dan tidak melaporkan informasi mengenai kesetaraanh mereka. Para keterbandingan hasi dari dua bentuk tidak dapat diasumsikan kecuali bukti seperti disajikan.

Metode Belah Dua
            Keandalan hasil tes juga dapat diperkirakan dari satu administrasi, dari satu bentuk ujian. Tes ini diberikan kepada sekelompok murid dengan cara biasa dan kemudian dibagi menjadi dua untuk tujuan penilaian. Untuk membagi ujian ke bagian yang paling setara, prosedur yang biasa untuk skor genap dan ganjil item secara terpisah. hal ini menghasilkan dua nilai untuk masing-masing murid, yang ketika berkorelasi, menyediakan ukuran internal konsistensi. Koefisien ini menunjukkan sejauh mana hasil setara diperoleh dari dua bagian ujian.
            Sebagaimana dicatat, koefisien keandalan sebelumnya ditentukan dengan menghubungkna pada setiap item, tetapi hasilnya sama dengan rata-rata dari semua kemungkinan split-setengah koefisien untuk kelompok uji.
            Untuk memperkirakan nilai reliabilitas berdasarkan test penuh, Sperman Brown biasanya menerapkan rumus :
                                               
                                                2 X reliabitas pada tes 1/2
Reliabilitas tes penuh  =                          ___________________
                                                1 + reliabilitas pada tes 1/2

Kesederhanaan rumus dapat dilihat pada contoh berikut, dimana korelasi antara tes coefficient dua belahan is.60.

Reliabilitas tes penuh =  2X.60  =  1,20  =  .75         =  75
                                       _____________________
                                       1 +  .60 =  1,60

            Metode perpecahan ini hampir mirip dengan bentuk-bentuk yang setara. metode itu menunjukkan sejauh mana item pengujian sampel adalah sampel yang diandalkan dari materi yang sedang diukur. Korelasi yang tinggi antara nilai pada bagian pengujian menyatakan, kesetaraan. Dari dua bagian dan akibatnya kecukupan sampling. Namun, seperti bentuk-bentuk yang setara dengan metode itu menceritakan apa-apa tentang perubahan dalam individu dari satu waktu yang lain.

Metode Kuder-Richardson
            Metode ini memberikan ukuran internal konsistensi, tapi tidak memerlukan tes seperti tes belah dua (split-half) untuk tujuan penilaian. Satu rumus yang disebut Kuder-Richardson formula 20, tapi yang paling kasus adalah perkiraan keandalan akan lebih kecil. Keuntungan utamanya adalah kasus yang dapat diterapkan.
            Kuder perkiraan keandalan Richardson menguji apakah item dalam tes homogen yaitu, apakah setiap item mengukur kualitas atau karakteristik yang sama seperti yang lain. Ini adalah kasus keandalan estimasi yang mirip dengan yang disediakan oleh metode split-setengah. Jika homogenitas kurang, seperti dalam sebuah tes yang mengukur pencapaian berbagai jenis hasil pembelajaran, perkiraan yang lebih kecil yang terpecah- setengah akan menghasilkan keandalan.
            Kesederhanaan merupakan metode split-half dan metode Kuder-Richardson telah menyebabkan metode mereka digunakan secara luas dalam menentukan keandalan. Konsistensi internal seperti prosedur, bagaimanapun, memiliki keterbatasan yang membatasi nilai mereka. Pertama, mereka tidak cocok untuk dipercepat untuk tes-tes dengan batas waktu yang mencegah murid dari mencoba setiap item. Jika kecepatan adalah faktor yang signifikan dalam pengujian, perkiraan keandalan akan meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah besar dalam memperkirakan keandalan dari hasil tes tes buatan guru, karena biasanya ini kekuasaan tes. Dalam kasus standar, bagaimanapun batas waktu jarang begitu liberal bahwa semua murid menyelesaikan tes. Jadi, mengukur konsistensi internal dilaporkan dalam buku manual tes dan harus ditafsirkan dengan hati-hati. Untuk tes kecepatan, keandalan diperoleh oleh tes-tes ulang atau setara-bentuk metode yang harus di cari.
            Pembatasan kedua konsistensi internal prosedur bahwa  tidak menuunjukkan keteguhan  respon murid dari hari ke hari.  Mereka mirp dengan bentuk-bentuk yang setara dengan metode tanpa selang waktu. Hanya prosedur tes-retes menunjukkan sejauh mana hasil tes dapat digeneralisasikan selama periode waktu yang berbeda.

Membandingkan Metode
            Sebagian besar metode yang bersangkutan dengan hanya satu atau dua jenis konsistensi yang dicari dalam hasil tes. Tes-metode tes ulang, tanpa selang waktu, hanya memperhitungkan konsistensi respon. Jika selang waktu diperkenalkan antara tes, keteguhan dari karakteristiks dari murid dari hari ke hari juga akan disertakan. Namun, dari tes-tes ulang prosedur yang menyediakan informasi mengenai testing konsistensi prosedur dan konsistensi hasil atas sampel item yang beda,  karenaa skor didasarkan pada pengujian yang sama. Bentuk-bentuk yang setara dengan metode yang waktu tepat, perpecahan-setengah dan Kuder metode-metode Richardson semua memperhitungkan prosedur pengujian konsistensi dan hasil konsistensi atas barang sampel yang berbeda.

Error Standar Pengukuran
            Jumlah variasi dalam nilai tes  yang akan berhubungan langsung dengan keandalan prosedur pengujian. Keandalan rendah akan ditandai dengan variasi besar dari satu pengujian yang lain. Meskipun tidak praktis untuk melaksanakan tes berkali-kali murid-murid yang sama, adalah mungkin untuk memperkirakan jumlah variasi yang diharapkan dalam skor tes. Perkiraan ini disebut standar error pengukuran.

Distribusi hipotesis yang menggambarkan Error Standar Pengukuran
Penjelasan Teoritis Pengukuran Standar Error
1.      Diasumsikan bahwa setiap orang memiliki nilai yang benar pada tes particural, nilai hipotesis mewakili nilai bebas dari kesalahan (benar skor = 95 pada diagram).
2.      Jika seseorang dapat diuji repealedly (tanpa praktek efek atau perubahan lain), rata-rata skor yang diperoleh akan mendekati nilai benar dan himpunan yang diperoleh akan terdistribusi secara normal di sekitar nilai yang benar (lihat diagram).
3.      Dari apa yang diketahui tentang kurve distribusi normal, sekitar 68 % dari nilai yang diperoleh akan jatuh dalam waktu 1 standar error dari orang ‘S skor benar sekitar 95% dari skor Akan 2 standar error, dan sekitar 99,7 dari nilai tersebut akan jatuh dalam 3 waktu standar error (lihat “kurva  normal dan Deviasi Standar Unit dalam bab 14. Kesalahan standar pengukuran adalah deviasi standar kesalahan pengukuran)
4.       Meskipun nilai sejati tidak akan pernah bisa tahu, standar error dari pengukuran dapat diterapkan pada seseorang diperoleh skor untuk menetapkan “batas wajar” untuk mencari nilai sejati ( misalnya, skor yang diperoleh dari 97 – 5 = 102 ).
5.      “ ini batas wajar”  memberi keyakinan band untuk mengiterpretasikan skor yang diperoleh. Ketika standar error dari measurment kecil, band keyakinan semp[it (menunjukkan kehandalan tinggi). Dan dengan demikian kita memiliki keyakinan lebih besar bahwa skor yang diperoleh benar dekat skor.

Faktor-faktor yang Mempengaruhi Pengukuran Reliabilitas
Panjang test
                  Semakin lama tes, semakin tuinggi akan keandalannya, hal ini karena tes yang lebih pangjang akan menyediakan sampel yang lebih memadai dari perilaku yang diukur. Dan skor cenderung kurang kesempataan distored oleh faktor-faktor kenyataan bahwa tes yang lebih panjang untuk memberikan hasil yang lebih terpercaya itu tersirat sebelumnya dalam pembahasan kita tentang metode split-setengah.
Penyebaran skor  
Semakin besar penyebaran skor, semakin tinggi perkiraan akan keandalan. Karena hasil koefisien reliabilitas lebih besar ketika individu cenderung untuk tetap berada di posisi relatif yang sama dalam suatu kelompok dari satu pengujian secara alami. Berikut bahwa apapun yang mengurangi kemungkinan pergeseran posisi dalam kelompok juga memberikan kontribusi lebih besar koefisien reliabilitas. Dalam kasus ini yang lebih besar antara dua nilai differencs individu mengurangi possiblity pergeseran posisi. Satted sdara lain, kesalahan pengukuran kuraang memiliki pengaruh pada posisi relatif individual ketika perbedaan di antara anggota kelompok yang besar yaitu, ketika pada penyebaran yang luas skor.

Metode Memperkirakan Reliabilitas
                  Penting untuk mempertimbangkan metode yang digunakan untuk mendapatkan perkiraan reliabilitas. Secara umum, ukuran koefisien reliabilitas berkaitan dengan metode memperkirakan keandalan.
1.      Metode tes ulang uji
Biasanyamenyediakan keandalan menengah hingga besar coeficients untuk suatu tes. Mungkin akan lebih besar dibandingkandengan split-half jika selang waktu singkat. Coeficient menjadi lebih kecil sebagai selang waktu antara tes meningkat.
2.      Metode bentuk setara (tanpa selang waktu)
Biasanya menyediakan keandalan menengah hingga besar coeficient untuk suatu tes. Coeficient untuk cenderung lebih rendah dibandingkan dengan metode tes-tes ulang dengan menggunakan interval waktu singkat.
3.      Metode bentuk setara (dengan interval waktu)
Biasanya menyediakan keandalan coeficient terkecil untuk suatu tes. Coeficients menjadi lebih kecil sebagai selang waktu antara tes meningkat.
4.      Metode split-setengah (tidak datar).
Biasanya menyediakan keandalan coefibility terbesar untuk suatu tes. Estemates tinggi spuriously diproduksi untuk tes dipercepat.
5.      Metode Kuder-Richardson
Biasanya menyediakan perkiraan keandalan yang lebih kecil daripada yang diperoleh dengan metode split-setengah. Perkiraan ini juga meningkat dengan kecepatan.
Kesulitan Tes
Norm-referenced tes yang terlalu mudah atau lebih sulit bagi anggota kelompok akan cenderung menghasilkan nilai tertinggi untuk keandalan rendah. Hal ini karena kedua mudah dan hasil tes difficult terbatas penyebaran skor. Umtuk tes mudah, skor dekat bersama di ujung bawah skala. Untuk kedua, namun perbedaan di antara individuals kecil dan cenderung dapat diandalkan.
Objektivitas
            Objektifitas tes mengacu pada sejauh mana skor kompeten sama memperoleh hasil yang sama. Sebagian besar tes standar dari kecerdasan dan prestasi yang tinggi objektivitasnya. Sebenarnya, tes ini biasanya disusun sedemikian rupa sehingga mereka dapat secara akurat prosedur penilaian.
Seberapa Tinggi Reliabilitas Seharusnya
            Tingkat keandalan kami permintaan dalam langkah-langkah pendidikan kita sangat tergantung pada keputusan yang akan dibuat. Jika kita akan menggunakan hasil tes untuk memutuskan apakah akan meninjau daerah-daerah tertentu dari materi pelajaran. Kita mungkin mau menggunakan tes buatan guru yang relatif rendah reliabilitasnya. Keputusan kami akan didasarkan pada total nilai dari kelompok dan variasi dalam skor individu tidak akan membuat keputusan terlalu banyak. Hal terburuk yang dapat terjadi dalam murid-murid akan mendapatkan pengulangan materi atau mereka akan dirampas tinjauan yang mungkin bermanfaat bagi mereka. Di sisi lain, jika kita akan menggunakan hasil tes untuk memutuskan cuaca murid harus diklasifikasikan sebagai cacat mental, kita harus menuntut yang paling dapat diandalkan measurement tersedia. Kita tidak boleh puas  tes kelompok intelijen untuk tujuan ini tetapi dengan menggunakan salah satu yang paling dapat diandalkan ukuran individu intelijen. Kami mungkin juga ingin mendapatkan bukti yang tersedia yang paling dapat diandalkan mengenai murid belajar, perkembangan sosial dan penyesuaian sebelum keputusan akhir dibuat. Keputusan ini sangat penting dan konsekuensi yang penting bahwa kita bersedia untuk mencurahkan banyak waktu dan meningkatkan reliabilitas data, bahkan jika dinaikan sedikit. Kami ingin menjadi seperti mungkin yakin bahwa kita adalah membuat keputusan yang tepat ketika kita menggolongkan murid sebagai cacat mental.
Kemudahan Administrasi
            Pada waktu pengujian, tes harus diberikan oleh guru atau orang lain dengan pelatihan yang terbatas, kemudahan administrasi adalah kualitas yang sangat penting untuk mencari dalam tes. Untuk tujuan ini, petunjuk harus sederhana dan jelas, maka harus dengan tes dengan petunjuk rumit dan sejumlah subtest berlangsung tetapi beberapa menit masing-masing adalah tugas berat bahkan untuk pemeriksa yang berpengalaman.
Waktu yang diperlukan untuk administrasi
            Dengan waktu untuk pengujian di premi, kami selalu berpihak pada pengujian yang lebih singkat, hal-hal lain yang dianggap sama. Tetapi dalam kasus ini, hal-hal lain jarang sama karena reliabilitas secara langsung berkaitan dengan panjang tes. Kita mencoba mengurangi terlalu banyak pada waktu yang dialokasikan untuk pengujian, kami dapat secara drastis mengurangi keandalan dalam nilai.
Kemudahan skor
            Untuk membuat prosedur bahkan lebih memberatkan daripada mencetak arah sering rumit, berisi berbagai tes dan penilaian subtes kunci yang praktis. Meskipun tes skor masih menjadi masalah yang harus diperhitungkan, perkembangan terakhir dalam pengujian telah meringankan beban considrably. Pembangunan ini meliputi (1) meningkatkan petunjuk untuk penilaian dan penilaian sederhana kunci, (2). Lembar jawaban terpisah dan (3). Mesin mencetak gol.
            Keberhasilan atau kegagalan suatu program pengujian ditentukan oleh penggunaan yang terbuat dari hasil tes.  Jika mereka menafsirkan dengan benar dan diterapkan secara efektif, mereka akan memberikan kontribusi untuk pendidikan yang lebih cerdas dalam memutuskan. Di sisi lain, jika hasil tersebut disalahartikan atau disalahgunakan sama sekali, mereka akan dimatikan oleh nilai kecil dan mungkin benar-benar dapat merusak beberapa individu atau kelompok. Informasi mengenai interpretasi dan penggunaan hasil tes biasanya diperoleh langsung dari tes manual atau panduan yang  terkait. Perhatian harus diarahkan ke kemudahan dengan skor mentah dapat diubah menjadi bermakna nilai diturunkan, kejelasan dengan tabel yang disajikan dengan norma-norma dan kelengkapan saran-saran untuk menerapkan hasil untuk masalah pendidikan. Bila hasil tes harus disampaikan kepada murid atau siswa. Kemudahan interpretasi dan aplikasi yang sangat penting.

Kesetaraan atau Bentuk Sebanding
            Setara dengan bentuk tes yang sama sering diinginkan. Setara dengan bentuk tes mengukur aspek yang sama perilaku dengan menggunakan item tes yang sama dalam konten, tingkat kesulitan, dan karakteristik lain. Dengan demikian, di salah satu bentuk tes dapat diganti yang lain, sehingga memungkinkan murid-murid tes dua kali dalam sesi agak dekat, tanpa jawaban mereka pada pengujian pertama mempengaruhi kinerja mereka pada pengujian kedua. Keuntungan dari bentuk setara terlihat dalam penguasaan pengujian di mana kita akan menghilangkan faktor memori sementara murid tes ulang pada domain yang sama pencapaian. Setara dengan bentuk tes juga dapat digunakan untuk memverifikasi skor yang dipertanyakan. Sebagai contoh, seorang guru mungkin merasa bahwa kecerdasan skolastik atau skor tes pencapaian yang rendah untuk murid tertentu dan dapat dengan memeriksa administrasi setara ini dengan ujian. Banyak tes juga menyediakan bentuk-bentuk yang  sebanding. Diterbitkan prestasi tes, misalnya, biasanya disusun dalam rangkaian yang mencakup tingkatan kelas yang berbeda. Meskipun isi dan tingkatan kesulitan bervariasi, tes pada tingkat yang berbeda. Meskipun isi dan tingkat kesulitan bervariasi, tes pada tingkat yang berbeda dibuat dan dibandingkan dengan cara umum skala skor. Dengan demikian, adalah mungkin untuk membandingkan pengukuran di kelas 4 dengan pengukuran di kelas 6 pada bentuk lebih maju dalam ujian. Bentuk sebanding berguna dalam mengukur perkembangan keterampilan dasar.
Biaya Pengujian
Pengujian ini relatif murah dan biaya seharusnya tidak menjadi pertimbangan utama. Dalam skala besar program pengujian yang kecil menambah tabungan murid, dengan menggunakan lembar jawaban terpisah, mesin dan dapat digunakan kembali untuk  mencetak booklet dan akan mengurangi biaya yang lumayan. Untuk memilih salah satu tes dibandingkan yang lainnya, namun karena booklet tes adalah beberapa sen lebih murah adalah ekonomi palsu. Setelah semua, validitas dan reliabilitas adalah karakteristik penting untuk mencari dan menguji kualitas yang kurang terlalu ekstensive pada harga berapapun. Di sisi lain kontribusi yang valid dan dapat diandalkan adalah nilai ujian untuk pendidikan dapat membuat keputusan untuk menunjukkan bahwa tes tersebut selalu ekonomis dalam jangka panjang.
Penutup
Reliabilitas ditentukan oleh beberapa metode yang berbeda, dan masing-masing memberikan informasi yang berbeda ukuran konsistensi. Tes-tes ulang dengan memberikan metode pengujian yang sama dua kali. Untuk kelompok yang sama dua kali untuk kelompok yang dalam interval waktu campur tangan, dan mengakibatkan coeficient memberikan ukuran stabilitas. Berapa lama selang waktu antara tes harus ditentukan terutama oleh penggunaan dibuat dari hasil. Bentuk-bentuk yang setara dengan metode ini meliputi dua bentuk tes untuk kelompok di dekat berturut-turut atau dengan interval waktu interving. Hasil pertama dalam ukuran yang setara, dan kedua dalam ukuran stabilitas dan kesetaraan.
Prosedur yang terakhir adalah tes yang lebih ketat reliabilitasnya, karena mencakup semua kemungkinan sumber-sumber variasi dalam skor tes. Keandalan juga dapat diperkirakan. Dari administrasi tunggal dari satu bentuk ujian, baik dengan menghubungkan skor pada dua bagian dari ujian atau dengan menerapkan salah satu dari Kuder-Richardson formula. Kedua metode memberikan ukuran internal konsistensi dan mudah diterapkan. Namun, mereka tidak berlaku untuk dipercepat tes dan tidak tidak memberikan informasi mengenai stabilitas nilai tes dari hari ke hari..
            Standar kesalahan pengukuran yang menunjukkan keandalan dalam hal variasi. diharapkan dalam skor tes individual. Hal ini dapat dihitung dari keandalan coeficient dan deviasi standar, tapi sering dilaporkan secara langsung di tes manual. Standar error ini sangat berguna dalam menafsirkan hasil tes . karena ini menunjukkan bahwa “band kesalahan” (disebut confidence band) yang mengelilingi setiap skor.
            Reliability estimates dapat bervariasi sesuai dengan panjang tes, penyebaran nilai dalam kelompok diuji, sulitnya ujian, objektivitas penilaian, dan metode estimasi reliabilitas.



Referensi
Grounlund, Norman. E. 1985. Measurement and Evaluation in Teaching, New York:
            Macmilan Publishing Company




































 Pendahuluan
            Reliabilitas atau keandalan, adalah konsistensi dari serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang uji) yang akan memberikan hasil tes yang sama. Perhitungan tingkat reliabilitas dapat dilakukan dengan menerapkan satu atau lebih rumus sesuai dengan jenis tes yang reliabilitas yang hendak diukur.
Sifat Reliabilitas
            Reliabilitas merujuk pada konsistensi pengukuran yaitu, bagaimana nilai tes konsisten dengan hasil evaluasi lainnya dari satu pengukuran ke pengukuran lainnya. Jika sebuh tes diujicobakan lebih dari satu kali kepada subjek yang sama? Artinya, walau ada perbedaan, perbedaan itu tidak signifikan
Bagaimana skor telah bervariasi, ia dipilih sampel yang berbeda dari item yang setara? Kalau tes essai, berapa banyak yang memiliki nilai yang berbeda, guru memiliki skor yang berbeda itu? Ini adalah jenis pertanyaan yang menyangkut  kehandalan. Tes terbatas hanya menyediakan ukuran kinerja yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat diperlihatkan untuk menjadi cukup konsisten ( yang dapat digeneralisasi) atas kesempatan yang berbeda kinerja yang sama domain, bisa memiliki sedikit keyakinan dalam hasil.
            Di sisi lain, kita tidak dapat mengharapkan hasil tes untuk benar-benar valid. Ada banyak faktor selain kualitas yang diukur, yang dapat mempengaruhi hasil tes. Jika satu tes diberikan pada kelompok yang sama di dekat dua kali berturut-turut, beberapa variasi dalam nilai  yang dapat diharapkan, karena sementara dan sejenis. Dengan sendirinya jangka waktu antara tes, variasi tambahan skor dapat sebabkan oleh pengalaman belajar.  Campur tangan, perubahan di bidang kesehatan, lupa, dan kurang sebanding dengan kondisi pengujian. Jika kita menggunakan sampel yang berbeda dari item tes yang kedua, masih ada faktor lain yang mungkin mempengaruhi hasil. Metode penentuan keandalan pada dasarnya berarti penentuan berapa banyak kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, semakin kosisten hasil pengujian dari satu pengukuran ke yang lain, semakin sedikit kesalahan akan ada dan, akibatnya semakin besar keandalan.
Pengertian reliabilitas
            Sebagaimana diterapkan pada pengujian dan evaluasi, dapat lebih diperjelas dengan mencatat poin umum pengertian reliabilitas sebagai berikut :
1.      Keandalan mengacu pada hasil yang diperoleh dengan alat evaluasi dan tidak untuk instrumen itu sendiri. Instrumen tertentu mungkin memiliki sejumlah reliabilitas berbeda, tergantung pada kelompok yang terlibat dan situasi dimana ia digunakan. Jadi, adalah lebih tepat untuk berbicara mengenai keandalan dari “tes” atau tentang “pengukuran”  dari “tes” atau “instrumen”.

2.      Perkiraan reliabilitas selalu mengacu pada tipe tertentu konsistensi. Skor tes pada umumnya tidak dapat diandalkan. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu yang berbeda, lebih dari pertanyaan sampel yang berbeda, lebih dari penilai yang berbeda dan sejenisnya. Di sisi lain, jika kita ingin mengukur seseorang, pergeseran dalam kegelisahan dari waktu ke waktu, kita akan membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan dalam rangka untuk memperoleh informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda kita perlu konsistensi analisis yang berbeda. Memperlakukan keandalan sebagai karakteristik umum hanya dapat menyebabkan salah penafsiran.

3.      Keandalan adalah perlu tetapi tidak cukup syarat untuk validitas. Sebuah tes yang menghasilkan hasil yang tidak konsistensi, sama sekali tidak mungkin memberikan informasi yang valid tentang kinerja yang diukur. Di sisi lain, sangat konsisten hasil yang dapat mengukur hal yang salah atau yang dapat digunakan dalam cara-cara yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang diperoleh, namun keandalan tinggi tidak menjamin bahwa tingkat yang memuaskan keabsahan akan hadir. Singkatnya, keandalan hanya menyediakan konsistensi yang membuat kemungkinan validitas.

4.      Kehandalan terutama statistik. Analisis logis dari suatu pengukuran akan memberikan sedikit bukti mengenai keandalan dari nilai. Tes harus diberikan. Satu kali atau lebih ke sekelompok orang yang tepat dan konsistensi dari hasil yang ditentukan. Konsistensi ini dapat dinyatakan dalam istilah-istilah pergeseran dalam kedudukan relatif orang-orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam jumlah skor individu. Konsistensi dalam kasus pertama dilaporkan  dengan cara sebagai koefisien korelasi disebut koefisien reliabilitas dan dalam kasus kedua dilaporkan melalui kesalahan standar pengukuran. Kedua metode ini untuk mengekspresikan keandalan yang digunakan secara luas dan harus dipahami oleh orang-orang yang bertanggungjawab untuk menginterpretasikan hasil tes. Karena kedua metode memerlukan variabilitas dalam nilai, prosedur ini untuk memperkirakan keandalan ukuran criteria-referenced atau tes penguasaan.

Menentukan Reliabilitas dengan Metode Korelasi
            Dalam menentukan  keandalan diharapkan untuk mendapatkan dua set langkah-langkah di bawah kondisi yang identik dan kemudian membandingkan hasilnya. Prosedur ini tentu saja tidak mungkin, karena kondisi di mana data evaluasi diperoleh tidak pernah bisa identik.
Beberapa Istilah Dasar
Korelasi koefisien
Statistik yang menunjukkaan tingkat hubungan antara dua set ukuran yang sama diperoleh dari sekelompok individu (contoh : korelasi antara tinggi dan berat badan)
Validity koefisien
Koefisien korelasi yang menunjukkan sejauh mana ukuran kinerja memprediksi atau perkiraan pada beberapa kriteria ukuran.
(contoh : korelasi nilai kecerdasan antara skor dan nilai-nilai di sekolah)
Reliabilitas koefisien
Koefisien korelasi yang menunjukkan tingkat relationship antara dua set ukuran yang diperoleh dari instrumen atau prosedur yang sama. ( Misalnya: korelasi antara skor yang diperoleh dari dua administrasi pengujian).

Sebagai pengganti prosedur ideal ini, beberapa metode mengestimasi reliabilitas yang telah diperkenalkan. Metode-metode yang serupa dalam pertunjukan bahwa semua dari mereka melibatkan, menghubungkan dua set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk-bentuk yang setara prosedur yang sama. Koefisien korelasi yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara koefisien validitas adalah bahwa yang pertama berdasarkan kesepakatan dengan kriteria di luar dan yang terakhir didasarkan pada perjanjian antara dua set hasil dari prosedur yang sama.
Tabel 4.1

Tipe Pengukuran
Prosedur
Metode tes-retes
Mengukur stabilitas
Berikan pengujian yang sama dua kali untuk kelompok yang sama dengan selang waktu antara tes dari beberap menit sampai beberapa tahun.
Metode setara
Mengukur kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama di dekat berturut-turut
Tes-retes
Mengukur stabilitas dan kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk / form.
Metode belah dua
Mengukur konsistensi dari internal
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk.
Metode Kuder Richardson
Mengukur konsistensi dari internal
Berikan satu kali. Skor total tes dan menerapkan rumus Kuder Richardson

Metode Tes-Retes
            Untuk memperkirakan kehandalan melalui tes-retes. Metode pengujian yang sama yang diberikan dua kali untuk kelompok yang sama kepada siswa dengan selang waktu tertentu antara dua administrasi (lihat ganbar 4.1). hasil tes tersebut berkorelasi, koefisien korelasi ini memberikan suatu ukuran stabilitas : yang menunjukkan kestabilan, seorang murid yang tinggi nilainya pada tes administrasi akan cenderung tinggi pada administrasi lainnya, dan sisanya siswa akan cenderung tetap dalam posisi yang relatif sama. Stabilitas seperti ditunjukkan oleh koefisien korelasi yang besar. Stabilitas seperti ini ditunjukkan oleh  hubungan positif dengan 1,00 dan hubungan nol oleh ’00. Langkah stabilitas di tahun 80-an dan 90-an biasanya standar dilaporkan koefisien korelasi yang sempurna menunjukkan untuk tes bakat d dalam tahun yang sama.
            Kebanyakan guru mungkin  tidak menemukan tes-tes ulang menghitung koefisien keandalan untuk tes kelas mereka sendiri. Namun, dalam memilih tes standar, stabilitas nilai berfungsi sebagai salah satu yang penting. Pengujian manual harus memberikan bukti stabilitas, yang menunjukkan selang waktu antara pegujian. Hal-hal lain yang sama (seperti validitas) kita akan mendukung skor tes yang telah terbukti dimiliki jenis stabilitas kita perlu membuat keputusan.
            Informasi mengenai stabilitas nilai tes juga memiliki implikasi bagi frekuensi tes ulang. Kita tahu, misalnya yang pertama kelas nilai tes bakat skolastik cukup stabil atas kesempatan dalam tahun yang sama namun relatif stabil selama beberapa tahun. Dengan demikian, kita berharap untuk menggunakan hasil tersebut dalam menentukan kesiapan untuk meninjau kelas bekerja, tetapi seharusnya tidak tergantung pada mereka untuk perkiraan pada akhir kelas SD. Untuk digunakan, tes kedua perlu diberikan pada awal dan akhir periode dasar, demikian pula, ketika menggunakan skor tes dari catatan permanen, orang harus memeriksa tanggal pengujian dan stabilitas data yang tersedia untuk menentukan apakah hasil masih bisa diandalkan. Jika ada keraguan dan keputusan penting.

Metode Bentuk Setara
            Memperkirakan bentuk reliabilitas dengan menggunakan dua metode yang berbeda tetapi setara dengan bentuk-bentuk ujian (disebut paralel alternatif). Kedua bentuk tes yang diberikan pada kelompok yang sama muridnya di dekat berturut-turut, dan hasil tes tersebut berkorelasi. Koefisien korelasi ini memberikn ukuran kesetaraan. Jadi, menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama.
Bentuk-bentuk yang setara dengan metode ini memberitahu kita apa-apa tentang stabilitas karakteristik murid yang dapar diukur, melainkan mencerminkan sejauh mana tes sampel mewakili dan memadai dari karakteristik yang sedang diukur. Dalam pencapaian pengujian, misalnya ada ribuan pertanyaan yang mungkin ditanyakan dalam tes tertentu.  Tetapi karena batas-batas tertentu  dan faktor pembatas lainnya, hanya beberapa pertanyaan yang mungkin dapat digunakan. Pertanyaan yang termasuk dalam ujian harus memberikan sampel yang memadai untuk berbagai ranah yang dibutuhkan. Cara termudah untuk memperkirakan  jika langkah-langkah pengujian sampel yang memadai dari konten adalah untuk membangun dua bentuk tes dan mengkorelasikan hasilnya. Korelasi yang tinggi menujukkan bahwa kedua bentuk menyediakan hasil yang sama dan oleh karena itu mungkin dapat diandalkan sampel wilayah umum dalam konten yang sedang diukur.
Setara-bentuk memperkirakan  kehandalan tidak jauh dengan masalah yang menyulitkan dalam memilih interval waktu yang tepat antara tes, seperti yang diperlukan dengan metode tes-tes ulang, meskipun kebutuhan akan setara dengan bentuk tes membatasi penggunaannya hampir seluruhnya untuk standar pengujian. Ini digunakan secara luas, karena sebagian besar tes standar memiliki dua atau lebih bentuk yang tersedia. Bahkan seorang guru harus bersikap curiga terhadap tes standar yang memiliki dua bentuk yang tersedia dan tidak melaporkan informasi mengenai kesetaraanh mereka. Para keterbandingan hasi dari dua bentuk tidak dapat diasumsikan kecuali bukti seperti disajikan.

Metode Belah Dua
            Keandalan hasil tes juga dapat diperkirakan dari satu administrasi, dari satu bentuk ujian. Tes ini diberikan kepada sekelompok murid dengan cara biasa dan kemudian dibagi menjadi dua untuk tujuan penilaian. Untuk membagi ujian ke bagian yang paling setara, prosedur yang biasa untuk skor genap dan ganjil item secara terpisah. hal ini menghasilkan dua nilai untuk masing-masing murid, yang ketika berkorelasi, menyediakan ukuran internal konsistensi. Koefisien ini menunjukkan sejauh mana hasil setara diperoleh dari dua bagian ujian.
            Sebagaimana dicatat, koefisien keandalan sebelumnya ditentukan dengan menghubungkna pada setiap item, tetapi hasilnya sama dengan rata-rata dari semua kemungkinan split-setengah koefisien untuk kelompok uji.
            Untuk memperkirakan nilai reliabilitas berdasarkan test penuh, Sperman Brown biasanya menerapkan rumus :
                                               
                                                2 X reliabitas pada tes 1/2
Reliabilitas tes penuh  =                          ___________________
                                                1 + reliabilitas pada tes 1/2

Kesederhanaan rumus dapat dilihat pada contoh berikut, dimana korelasi antara tes coefficient dua belahan is.60.

Reliabilitas tes penuh =  2X.60  =  1,20  =  .75         =  75
                                       _____________________
                                       1 +  .60 =  1,60

            Metode perpecahan ini hampir mirip dengan bentuk-bentuk yang setara. metode itu menunjukkan sejauh mana item pengujian sampel adalah sampel yang diandalkan dari materi yang sedang diukur. Korelasi yang tinggi antara nilai pada bagian pengujian menyatakan, kesetaraan. Dari dua bagian dan akibatnya kecukupan sampling. Namun, seperti bentuk-bentuk yang setara dengan metode itu menceritakan apa-apa tentang perubahan dalam individu dari satu waktu yang lain.

Metode Kuder-Richardson
            Metode ini memberikan ukuran internal konsistensi, tapi tidak memerlukan tes seperti tes belah dua (split-half) untuk tujuan penilaian. Satu rumus yang disebut Kuder-Richardson formula 20, tapi yang paling kasus adalah perkiraan keandalan akan lebih kecil. Keuntungan utamanya adalah kasus yang dapat diterapkan.
            Kuder perkiraan keandalan Richardson menguji apakah item dalam tes homogen yaitu, apakah setiap item mengukur kualitas atau karakteristik yang sama seperti yang lain. Ini adalah kasus keandalan estimasi yang mirip dengan yang disediakan oleh metode split-setengah. Jika homogenitas kurang, seperti dalam sebuah tes yang mengukur pencapaian berbagai jenis hasil pembelajaran, perkiraan yang lebih kecil yang terpecah- setengah akan menghasilkan keandalan.
            Kesederhanaan merupakan metode split-half dan metode Kuder-Richardson telah menyebabkan metode mereka digunakan secara luas dalam menentukan keandalan. Konsistensi internal seperti prosedur, bagaimanapun, memiliki keterbatasan yang membatasi nilai mereka. Pertama, mereka tidak cocok untuk dipercepat untuk tes-tes dengan batas waktu yang mencegah murid dari mencoba setiap item. Jika kecepatan adalah faktor yang signifikan dalam pengujian, perkiraan keandalan akan meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah besar dalam memperkirakan keandalan dari hasil tes tes buatan guru, karena biasanya ini kekuasaan tes. Dalam kasus standar, bagaimanapun batas waktu jarang begitu liberal bahwa semua murid menyelesaikan tes. Jadi, mengukur konsistensi internal dilaporkan dalam buku manual tes dan harus ditafsirkan dengan hati-hati. Untuk tes kecepatan, keandalan diperoleh oleh tes-tes ulang atau setara-bentuk metode yang harus di cari.
            Pembatasan kedua konsistensi internal prosedur bahwa  tidak menuunjukkan keteguhan  respon murid dari hari ke hari.  Mereka mirp dengan bentuk-bentuk yang setara dengan metode tanpa selang waktu. Hanya prosedur tes-retes menunjukkan sejauh mana hasil tes dapat digeneralisasikan selama periode waktu yang berbeda.

Membandingkan Metode
            Sebagian besar metode yang bersangkutan dengan hanya satu atau dua jenis konsistensi yang dicari dalam hasil tes. Tes-metode tes ulang, tanpa selang waktu, hanya memperhitungkan konsistensi respon. Jika selang waktu diperkenalkan antara tes, keteguhan dari karakteristiks dari murid dari hari ke hari juga akan disertakan. Namun, dari tes-tes ulang prosedur yang menyediakan informasi mengenai testing konsistensi prosedur dan konsistensi hasil atas sampel item yang beda,  karenaa skor didasarkan pada pengujian yang sama. Bentuk-bentuk yang setara dengan metode yang waktu tepat, perpecahan-setengah dan Kuder metode-metode Richardson semua memperhitungkan prosedur pengujian konsistensi dan hasil konsistensi atas barang sampel yang berbeda.

Error Standar Pengukuran
            Jumlah variasi dalam nilai tes  yang akan berhubungan langsung dengan keandalan prosedur pengujian. Keandalan rendah akan ditandai dengan variasi besar dari satu pengujian yang lain. Meskipun tidak praktis untuk melaksanakan tes berkali-kali murid-murid yang sama, adalah mungkin untuk memperkirakan jumlah variasi yang diharapkan dalam skor tes. Perkiraan ini disebut standar error pengukuran.

Distribusi hipotesis yang menggambarkan Error Standar Pengukuran
Penjelasan Teoritis Pengukuran Standar Error
1.      Diasumsikan bahwa setiap orang memiliki nilai yang benar pada tes particural, nilai hipotesis mewakili nilai bebas dari kesalahan (benar skor = 95 pada diagram).
2.      Jika seseorang dapat diuji repealedly (tanpa praktek efek atau perubahan lain), rata-rata skor yang diperoleh akan mendekati nilai benar dan himpunan yang diperoleh akan terdistribusi secara normal di sekitar nilai yang benar (lihat diagram).
3.      Dari apa yang diketahui tentang kurve distribusi normal, sekitar 68 % dari nilai yang diperoleh akan jatuh dalam waktu 1 standar error dari orang ‘S skor benar sekitar 95% dari skor Akan 2 standar error, dan sekitar 99,7 dari nilai tersebut akan jatuh dalam 3 waktu standar error (lihat “kurva  normal dan Deviasi Standar Unit dalam bab 14. Kesalahan standar pengukuran adalah deviasi standar kesalahan pengukuran)
4.       Meskipun nilai sejati tidak akan pernah bisa tahu, standar error dari pengukuran dapat diterapkan pada seseorang diperoleh skor untuk menetapkan “batas wajar” untuk mencari nilai sejati ( misalnya, skor yang diperoleh dari 97 – 5 = 102 ).
5.      “ ini batas wajar”  memberi keyakinan band untuk mengiterpretasikan skor yang diperoleh. Ketika standar error dari measurment kecil, band keyakinan semp[it (menunjukkan kehandalan tinggi). Dan dengan demikian kita memiliki keyakinan lebih besar bahwa skor yang diperoleh benar dekat skor.

Faktor-faktor yang Mempengaruhi Pengukuran Reliabilitas
Panjang test
                  Semakin lama tes, semakin tuinggi akan keandalannya, hal ini karena tes yang lebih pangjang akan menyediakan sampel yang lebih memadai dari perilaku yang diukur. Dan skor cenderung kurang kesempataan distored oleh faktor-faktor kenyataan bahwa tes yang lebih panjang untuk memberikan hasil yang lebih terpercaya itu tersirat sebelumnya dalam pembahasan kita tentang metode split-setengah.
Penyebaran skor  
Semakin besar penyebaran skor, semakin tinggi perkiraan akan keandalan. Karena hasil koefisien reliabilitas lebih besar ketika individu cenderung untuk tetap berada di posisi relatif yang sama dalam suatu kelompok dari satu pengujian secara alami. Berikut bahwa apapun yang mengurangi kemungkinan pergeseran posisi dalam kelompok juga memberikan kontribusi lebih besar koefisien reliabilitas. Dalam kasus ini yang lebih besar antara dua nilai differencs individu mengurangi possiblity pergeseran posisi. Satted sdara lain, kesalahan pengukuran kuraang memiliki pengaruh pada posisi relatif individual ketika perbedaan di antara anggota kelompok yang besar yaitu, ketika pada penyebaran yang luas skor.

Metode Memperkirakan Reliabilitas
                  Penting untuk mempertimbangkan metode yang digunakan untuk mendapatkan perkiraan reliabilitas. Secara umum, ukuran koefisien reliabilitas berkaitan dengan metode memperkirakan keandalan.
1.      Metode tes ulang uji
Biasanyamenyediakan keandalan menengah hingga besar coeficients untuk suatu tes. Mungkin akan lebih besar dibandingkandengan split-half jika selang waktu singkat. Coeficient menjadi lebih kecil sebagai selang waktu antara tes meningkat.
2.      Metode bentuk setara (tanpa selang waktu)
Biasanya menyediakan keandalan menengah hingga besar coeficient untuk suatu tes. Coeficient untuk cenderung lebih rendah dibandingkan dengan metode tes-tes ulang dengan menggunakan interval waktu singkat.
3.      Metode bentuk setara (dengan interval waktu)
Biasanya menyediakan keandalan coeficient terkecil untuk suatu tes. Coeficients menjadi lebih kecil sebagai selang waktu antara tes meningkat.
4.      Metode split-setengah (tidak datar).
Biasanya menyediakan keandalan coefibility terbesar untuk suatu tes. Estemates tinggi spuriously diproduksi untuk tes dipercepat.
5.      Metode Kuder-Richardson
Biasanya menyediakan perkiraan keandalan yang lebih kecil daripada yang diperoleh dengan metode split-setengah. Perkiraan ini juga meningkat dengan kecepatan.
Kesulitan Tes
Norm-referenced tes yang terlalu mudah atau lebih sulit bagi anggota kelompok akan cenderung menghasilkan nilai tertinggi untuk keandalan rendah. Hal ini karena kedua mudah dan hasil tes difficult terbatas penyebaran skor. Umtuk tes mudah, skor dekat bersama di ujung bawah skala. Untuk kedua, namun perbedaan di antara individuals kecil dan cenderung dapat diandalkan.
Objektivitas
            Objektifitas tes mengacu pada sejauh mana skor kompeten sama memperoleh hasil yang sama. Sebagian besar tes standar dari kecerdasan dan prestasi yang tinggi objektivitasnya. Sebenarnya, tes ini biasanya disusun sedemikian rupa sehingga mereka dapat secara akurat prosedur penilaian.
Seberapa Tinggi Reliabilitas Seharusnya
            Tingkat keandalan kami permintaan dalam langkah-langkah pendidikan kita sangat tergantung pada keputusan yang akan dibuat. Jika kita akan menggunakan hasil tes untuk memutuskan apakah akan meninjau daerah-daerah tertentu dari materi pelajaran. Kita mungkin mau menggunakan tes buatan guru yang relatif rendah reliabilitasnya. Keputusan kami akan didasarkan pada total nilai dari kelompok dan variasi dalam skor individu tidak akan membuat keputusan terlalu banyak. Hal terburuk yang dapat terjadi dalam murid-murid akan mendapatkan pengulangan materi atau mereka akan dirampas tinjauan yang mungkin bermanfaat bagi mereka. Di sisi lain, jika kita akan menggunakan hasil tes untuk memutuskan cuaca murid harus diklasifikasikan sebagai cacat mental, kita harus menuntut yang paling dapat diandalkan measurement tersedia. Kita tidak boleh puas  tes kelompok intelijen untuk tujuan ini tetapi dengan menggunakan salah satu yang paling dapat diandalkan ukuran individu intelijen. Kami mungkin juga ingin mendapatkan bukti yang tersedia yang paling dapat diandalkan mengenai murid belajar, perkembangan sosial dan penyesuaian sebelum keputusan akhir dibuat. Keputusan ini sangat penting dan konsekuensi yang penting bahwa kita bersedia untuk mencurahkan banyak waktu dan meningkatkan reliabilitas data, bahkan jika dinaikan sedikit. Kami ingin menjadi seperti mungkin yakin bahwa kita adalah membuat keputusan yang tepat ketika kita menggolongkan murid sebagai cacat mental.
Kemudahan Administrasi
            Pada waktu pengujian, tes harus diberikan oleh guru atau orang lain dengan pelatihan yang terbatas, kemudahan administrasi adalah kualitas yang sangat penting untuk mencari dalam tes. Untuk tujuan ini, petunjuk harus sederhana dan jelas, maka harus dengan tes dengan petunjuk rumit dan sejumlah subtest berlangsung tetapi beberapa menit masing-masing adalah tugas berat bahkan untuk pemeriksa yang berpengalaman.
Waktu yang diperlukan untuk administrasi
            Dengan waktu untuk pengujian di premi, kami selalu berpihak pada pengujian yang lebih singkat, hal-hal lain yang dianggap sama. Tetapi dalam kasus ini, hal-hal lain jarang sama karena reliabilitas secara langsung berkaitan dengan panjang tes. Kita mencoba mengurangi terlalu banyak pada waktu yang dialokasikan untuk pengujian, kami dapat secara drastis mengurangi keandalan dalam nilai.
Kemudahan skor
            Untuk membuat prosedur bahkan lebih memberatkan daripada mencetak arah sering rumit, berisi berbagai tes dan penilaian subtes kunci yang praktis. Meskipun tes skor masih menjadi masalah yang harus diperhitungkan, perkembangan terakhir dalam pengujian telah meringankan beban considrably. Pembangunan ini meliputi (1) meningkatkan petunjuk untuk penilaian dan penilaian sederhana kunci, (2). Lembar jawaban terpisah dan (3). Mesin mencetak gol.
            Keberhasilan atau kegagalan suatu program pengujian ditentukan oleh penggunaan yang terbuat dari hasil tes.  Jika mereka menafsirkan dengan benar dan diterapkan secara efektif, mereka akan memberikan kontribusi untuk pendidikan yang lebih cerdas dalam memutuskan. Di sisi lain, jika hasil tersebut disalahartikan atau disalahgunakan sama sekali, mereka akan dimatikan oleh nilai kecil dan mungkin benar-benar dapat merusak beberapa individu atau kelompok. Informasi mengenai interpretasi dan penggunaan hasil tes biasanya diperoleh langsung dari tes manual atau panduan yang  terkait. Perhatian harus diarahkan ke kemudahan dengan skor mentah dapat diubah menjadi bermakna nilai diturunkan, kejelasan dengan tabel yang disajikan dengan norma-norma dan kelengkapan saran-saran untuk menerapkan hasil untuk masalah pendidikan. Bila hasil tes harus disampaikan kepada murid atau siswa. Kemudahan interpretasi dan aplikasi yang sangat penting.

Kesetaraan atau Bentuk Sebanding
            Setara dengan bentuk tes yang sama sering diinginkan. Setara dengan bentuk tes mengukur aspek yang sama perilaku dengan menggunakan item tes yang sama dalam konten, tingkat kesulitan, dan karakteristik lain. Dengan demikian, di salah satu bentuk tes dapat diganti yang lain, sehingga memungkinkan murid-murid tes dua kali dalam sesi agak dekat, tanpa jawaban mereka pada pengujian pertama mempengaruhi kinerja mereka pada pengujian kedua. Keuntungan dari bentuk setara terlihat dalam penguasaan pengujian di mana kita akan menghilangkan faktor memori sementara murid tes ulang pada domain yang sama pencapaian. Setara dengan bentuk tes juga dapat digunakan untuk memverifikasi skor yang dipertanyakan. Sebagai contoh, seorang guru mungkin merasa bahwa kecerdasan skolastik atau skor tes pencapaian yang rendah untuk murid tertentu dan dapat dengan memeriksa administrasi setara ini dengan ujian. Banyak tes juga menyediakan bentuk-bentuk yang  sebanding. Diterbitkan prestasi tes, misalnya, biasanya disusun dalam rangkaian yang mencakup tingkatan kelas yang berbeda. Meskipun isi dan tingkatan kesulitan bervariasi, tes pada tingkat yang berbeda. Meskipun isi dan tingkat kesulitan bervariasi, tes pada tingkat yang berbeda dibuat dan dibandingkan dengan cara umum skala skor. Dengan demikian, adalah mungkin untuk membandingkan pengukuran di kelas 4 dengan pengukuran di kelas 6 pada bentuk lebih maju dalam ujian. Bentuk sebanding berguna dalam mengukur perkembangan keterampilan dasar.
Biaya Pengujian
Pengujian ini relatif murah dan biaya seharusnya tidak menjadi pertimbangan utama. Dalam skala besar program pengujian yang kecil menambah tabungan murid, dengan menggunakan lembar jawaban terpisah, mesin dan dapat digunakan kembali untuk  mencetak booklet dan akan mengurangi biaya yang lumayan. Untuk memilih salah satu tes dibandingkan yang lainnya, namun karena booklet tes adalah beberapa sen lebih murah adalah ekonomi palsu. Setelah semua, validitas dan reliabilitas adalah karakteristik penting untuk mencari dan menguji kualitas yang kurang terlalu ekstensive pada harga berapapun. Di sisi lain kontribusi yang valid dan dapat diandalkan adalah nilai ujian untuk pendidikan dapat membuat keputusan untuk menunjukkan bahwa tes tersebut selalu ekonomis dalam jangka panjang.
Penutup
Reliabilitas ditentukan oleh beberapa metode yang berbeda, dan masing-masing memberikan informasi yang berbeda ukuran konsistensi. Tes-tes ulang dengan memberikan metode pengujian yang sama dua kali. Untuk kelompok yang sama dua kali untuk kelompok yang dalam interval waktu campur tangan, dan mengakibatkan coeficient memberikan ukuran stabilitas. Berapa lama selang waktu antara tes harus ditentukan terutama oleh penggunaan dibuat dari hasil. Bentuk-bentuk yang setara dengan metode ini meliputi dua bentuk tes untuk kelompok di dekat berturut-turut atau dengan interval waktu interving. Hasil pertama dalam ukuran yang setara, dan kedua dalam ukuran stabilitas dan kesetaraan.
Prosedur yang terakhir adalah tes yang lebih ketat reliabilitasnya, karena mencakup semua kemungkinan sumber-sumber variasi dalam skor tes. Keandalan juga dapat diperkirakan. Dari administrasi tunggal dari satu bentuk ujian, baik dengan menghubungkan skor pada dua bagian dari ujian atau dengan menerapkan salah satu dari Kuder-Richardson formula. Kedua metode memberikan ukuran internal konsistensi dan mudah diterapkan. Namun, mereka tidak berlaku untuk dipercepat tes dan tidak tidak memberikan informasi mengenai stabilitas nilai tes dari hari ke hari..
            Standar kesalahan pengukuran yang menunjukkan keandalan dalam hal variasi. diharapkan dalam skor tes individual. Hal ini dapat dihitung dari keandalan coeficient dan deviasi standar, tapi sering dilaporkan secara langsung di tes manual. Standar error ini sangat berguna dalam menafsirkan hasil tes . karena ini menunjukkan bahwa “band kesalahan” (disebut confidence band) yang mengelilingi setiap skor.
            Reliability estimates dapat bervariasi sesuai dengan panjang tes, penyebaran nilai dalam kelompok diuji, sulitnya ujian, objektivitas penilaian, dan metode estimasi reliabilitas.



Referensi
Grounlund, Norman. E. 1985. Measurement and Evaluation in Teaching, New York:
            Macmilan Publishing Company







































 Pendahuluan
            Reliabilitas atau keandalan, adalah konsistensi dari serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang uji) yang akan memberikan hasil tes yang sama. Perhitungan tingkat reliabilitas dapat dilakukan dengan menerapkan satu atau lebih rumus sesuai dengan jenis tes yang reliabilitas yang hendak diukur.
Sifat Reliabilitas
            Reliabilitas merujuk pada konsistensi pengukuran yaitu, bagaimana nilai tes konsisten dengan hasil evaluasi lainnya dari satu pengukuran ke pengukuran lainnya. Jika sebuh tes diujicobakan lebih dari satu kali kepada subjek yang sama? Artinya, walau ada perbedaan, perbedaan itu tidak signifikan
Bagaimana skor telah bervariasi, ia dipilih sampel yang berbeda dari item yang setara? Kalau tes essai, berapa banyak yang memiliki nilai yang berbeda, guru memiliki skor yang berbeda itu? Ini adalah jenis pertanyaan yang menyangkut  kehandalan. Tes terbatas hanya menyediakan ukuran kinerja yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat diperlihatkan untuk menjadi cukup konsisten ( yang dapat digeneralisasi) atas kesempatan yang berbeda kinerja yang sama domain, bisa memiliki sedikit keyakinan dalam hasil.
            Di sisi lain, kita tidak dapat mengharapkan hasil tes untuk benar-benar valid. Ada banyak faktor selain kualitas yang diukur, yang dapat mempengaruhi hasil tes. Jika satu tes diberikan pada kelompok yang sama di dekat dua kali berturut-turut, beberapa variasi dalam nilai  yang dapat diharapkan, karena sementara dan sejenis. Dengan sendirinya jangka waktu antara tes, variasi tambahan skor dapat sebabkan oleh pengalaman belajar.  Campur tangan, perubahan di bidang kesehatan, lupa, dan kurang sebanding dengan kondisi pengujian. Jika kita menggunakan sampel yang berbeda dari item tes yang kedua, masih ada faktor lain yang mungkin mempengaruhi hasil. Metode penentuan keandalan pada dasarnya berarti penentuan berapa banyak kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, semakin kosisten hasil pengujian dari satu pengukuran ke yang lain, semakin sedikit kesalahan akan ada dan, akibatnya semakin besar keandalan.
Pengertian reliabilitas
            Sebagaimana diterapkan pada pengujian dan evaluasi, dapat lebih diperjelas dengan mencatat poin umum pengertian reliabilitas sebagai berikut :
1.      Keandalan mengacu pada hasil yang diperoleh dengan alat evaluasi dan tidak untuk instrumen itu sendiri. Instrumen tertentu mungkin memiliki sejumlah reliabilitas berbeda, tergantung pada kelompok yang terlibat dan situasi dimana ia digunakan. Jadi, adalah lebih tepat untuk berbicara mengenai keandalan dari “tes” atau tentang “pengukuran”  dari “tes” atau “instrumen”.

2.      Perkiraan reliabilitas selalu mengacu pada tipe tertentu konsistensi. Skor tes pada umumnya tidak dapat diandalkan. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu yang berbeda, lebih dari pertanyaan sampel yang berbeda, lebih dari penilai yang berbeda dan sejenisnya. Di sisi lain, jika kita ingin mengukur seseorang, pergeseran dalam kegelisahan dari waktu ke waktu, kita akan membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan dalam rangka untuk memperoleh informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda kita perlu konsistensi analisis yang berbeda. Memperlakukan keandalan sebagai karakteristik umum hanya dapat menyebabkan salah penafsiran.

3.      Keandalan adalah perlu tetapi tidak cukup syarat untuk validitas. Sebuah tes yang menghasilkan hasil yang tidak konsistensi, sama sekali tidak mungkin memberikan informasi yang valid tentang kinerja yang diukur. Di sisi lain, sangat konsisten hasil yang dapat mengukur hal yang salah atau yang dapat digunakan dalam cara-cara yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang diperoleh, namun keandalan tinggi tidak menjamin bahwa tingkat yang memuaskan keabsahan akan hadir. Singkatnya, keandalan hanya menyediakan konsistensi yang membuat kemungkinan validitas.

4.      Kehandalan terutama statistik. Analisis logis dari suatu pengukuran akan memberikan sedikit bukti mengenai keandalan dari nilai. Tes harus diberikan. Satu kali atau lebih ke sekelompok orang yang tepat dan konsistensi dari hasil yang ditentukan. Konsistensi ini dapat dinyatakan dalam istilah-istilah pergeseran dalam kedudukan relatif orang-orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam jumlah skor individu. Konsistensi dalam kasus pertama dilaporkan  dengan cara sebagai koefisien korelasi disebut koefisien reliabilitas dan dalam kasus kedua dilaporkan melalui kesalahan standar pengukuran. Kedua metode ini untuk mengekspresikan keandalan yang digunakan secara luas dan harus dipahami oleh orang-orang yang bertanggungjawab untuk menginterpretasikan hasil tes. Karena kedua metode memerlukan variabilitas dalam nilai, prosedur ini untuk memperkirakan keandalan ukuran criteria-referenced atau tes penguasaan.

Menentukan Reliabilitas dengan Metode Korelasi
            Dalam menentukan  keandalan diharapkan untuk mendapatkan dua set langkah-langkah di bawah kondisi yang identik dan kemudian membandingkan hasilnya. Prosedur ini tentu saja tidak mungkin, karena kondisi di mana data evaluasi diperoleh tidak pernah bisa identik.
Beberapa Istilah Dasar
Korelasi koefisien
Statistik yang menunjukkaan tingkat hubungan antara dua set ukuran yang sama diperoleh dari sekelompok individu (contoh : korelasi antara tinggi dan berat badan)
Validity koefisien
Koefisien korelasi yang menunjukkan sejauh mana ukuran kinerja memprediksi atau perkiraan pada beberapa kriteria ukuran.
(contoh : korelasi nilai kecerdasan antara skor dan nilai-nilai di sekolah)
Reliabilitas koefisien
Koefisien korelasi yang menunjukkan tingkat relationship antara dua set ukuran yang diperoleh dari instrumen atau prosedur yang sama. ( Misalnya: korelasi antara skor yang diperoleh dari dua administrasi pengujian).

Sebagai pengganti prosedur ideal ini, beberapa metode mengestimasi reliabilitas yang telah diperkenalkan. Metode-metode yang serupa dalam pertunjukan bahwa semua dari mereka melibatkan, menghubungkan dua set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk-bentuk yang setara prosedur yang sama. Koefisien korelasi yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara koefisien validitas adalah bahwa yang pertama berdasarkan kesepakatan dengan kriteria di luar dan yang terakhir didasarkan pada perjanjian antara dua set hasil dari prosedur yang sama.
Tabel 4.1

Tipe Pengukuran
Prosedur
Metode tes-retes
Mengukur stabilitas
Berikan pengujian yang sama dua kali untuk kelompok yang sama dengan selang waktu antara tes dari beberap menit sampai beberapa tahun.
Metode setara
Mengukur kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama di dekat berturut-turut
Tes-retes
Mengukur stabilitas dan kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk / form.
Metode belah dua
Mengukur konsistensi dari internal
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk.
Metode Kuder Richardson
Mengukur konsistensi dari internal
Berikan satu kali. Skor total tes dan menerapkan rumus Kuder Richardson

Metode Tes-Retes
            Untuk memperkirakan kehandalan melalui tes-retes. Metode pengujian yang sama yang diberikan dua kali untuk kelompok yang sama kepada siswa dengan selang waktu tertentu antara dua administrasi (lihat ganbar 4.1). hasil tes tersebut berkorelasi, koefisien korelasi ini memberikan suatu ukuran stabilitas : yang menunjukkan kestabilan, seorang murid yang tinggi nilainya pada tes administrasi akan cenderung tinggi pada administrasi lainnya, dan sisanya siswa akan cenderung tetap dalam posisi yang relatif sama. Stabilitas seperti ditunjukkan oleh koefisien korelasi yang besar. Stabilitas seperti ini ditunjukkan oleh  hubungan positif dengan 1,00 dan hubungan nol oleh ’00. Langkah stabilitas di tahun 80-an dan 90-an biasanya standar dilaporkan koefisien korelasi yang sempurna menunjukkan untuk tes bakat d dalam tahun yang sama.
            Kebanyakan guru mungkin  tidak menemukan tes-tes ulang menghitung koefisien keandalan untuk tes kelas mereka sendiri. Namun, dalam memilih tes standar, stabilitas nilai berfungsi sebagai salah satu yang penting. Pengujian manual harus memberikan bukti stabilitas, yang menunjukkan selang waktu antara pegujian. Hal-hal lain yang sama (seperti validitas) kita akan mendukung skor tes yang telah terbukti dimiliki jenis stabilitas kita perlu membuat keputusan.
            Informasi mengenai stabilitas nilai tes juga memiliki implikasi bagi frekuensi tes ulang. Kita tahu, misalnya yang pertama kelas nilai tes bakat skolastik cukup stabil atas kesempatan dalam tahun yang sama namun relatif stabil selama beberapa tahun. Dengan demikian, kita berharap untuk menggunakan hasil tersebut dalam menentukan kesiapan untuk meninjau kelas bekerja, tetapi seharusnya tidak tergantung pada mereka untuk perkiraan pada akhir kelas SD. Untuk digunakan, tes kedua perlu diberikan pada awal dan akhir periode dasar, demikian pula, ketika menggunakan skor tes dari catatan permanen, orang harus memeriksa tanggal pengujian dan stabilitas data yang tersedia untuk menentukan apakah hasil masih bisa diandalkan. Jika ada keraguan dan keputusan penting.

Metode Bentuk Setara
            Memperkirakan bentuk reliabilitas dengan menggunakan dua metode yang berbeda tetapi setara dengan bentuk-bentuk ujian (disebut paralel alternatif). Kedua bentuk tes yang diberikan pada kelompok yang sama muridnya di dekat berturut-turut, dan hasil tes tersebut berkorelasi. Koefisien korelasi ini memberikn ukuran kesetaraan. Jadi, menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama.
Bentuk-bentuk yang setara dengan metode ini memberitahu kita apa-apa tentang stabilitas karakteristik murid yang dapar diukur, melainkan mencerminkan sejauh mana tes sampel mewakili dan memadai dari karakteristik yang sedang diukur. Dalam pencapaian pengujian, misalnya ada ribuan pertanyaan yang mungkin ditanyakan dalam tes tertentu.  Tetapi karena batas-batas tertentu  dan faktor pembatas lainnya, hanya beberapa pertanyaan yang mungkin dapat digunakan. Pertanyaan yang termasuk dalam ujian harus memberikan sampel yang memadai untuk berbagai ranah yang dibutuhkan. Cara termudah untuk memperkirakan  jika langkah-langkah pengujian sampel yang memadai dari konten adalah untuk membangun dua bentuk tes dan mengkorelasikan hasilnya. Korelasi yang tinggi menujukkan bahwa kedua bentuk menyediakan hasil yang sama dan oleh karena itu mungkin dapat diandalkan sampel wilayah umum dalam konten yang sedang diukur.
Setara-bentuk memperkirakan  kehandalan tidak jauh dengan masalah yang menyulitkan dalam memilih interval waktu yang tepat antara tes, seperti yang diperlukan dengan metode tes-tes ulang, meskipun kebutuhan akan setara dengan bentuk tes membatasi penggunaannya hampir seluruhnya untuk standar pengujian. Ini digunakan secara luas, karena sebagian besar tes standar memiliki dua atau lebih bentuk yang tersedia. Bahkan seorang guru harus bersikap curiga terhadap tes standar yang memiliki dua bentuk yang tersedia dan tidak melaporkan informasi mengenai kesetaraanh mereka. Para keterbandingan hasi dari dua bentuk tidak dapat diasumsikan kecuali bukti seperti disajikan.

Metode Belah Dua
            Keandalan hasil tes juga dapat diperkirakan dari satu administrasi, dari satu bentuk ujian. Tes ini diberikan kepada sekelompok murid dengan cara biasa dan kemudian dibagi menjadi dua untuk tujuan penilaian. Untuk membagi ujian ke bagian yang paling setara, prosedur yang biasa untuk skor genap dan ganjil item secara terpisah. hal ini menghasilkan dua nilai untuk masing-masing murid, yang ketika berkorelasi, menyediakan ukuran internal konsistensi. Koefisien ini menunjukkan sejauh mana hasil setara diperoleh dari dua bagian ujian.
            Sebagaimana dicatat, koefisien keandalan sebelumnya ditentukan dengan menghubungkna pada setiap item, tetapi hasilnya sama dengan rata-rata dari semua kemungkinan split-setengah koefisien untuk kelompok uji.
            Untuk memperkirakan nilai reliabilitas berdasarkan test penuh, Sperman Brown biasanya menerapkan rumus :
                                               
                                                2 X reliabitas pada tes 1/2
Reliabilitas tes penuh  =                          ___________________
                                                1 + reliabilitas pada tes 1/2

Kesederhanaan rumus dapat dilihat pada contoh berikut, dimana korelasi antara tes coefficient dua belahan is.60.

Reliabilitas tes penuh =  2X.60  =  1,20  =  .75         =  75
                                       _____________________
                                       1 +  .60 =  1,60

            Metode perpecahan ini hampir mirip dengan bentuk-bentuk yang setara. metode itu menunjukkan sejauh mana item pengujian sampel adalah sampel yang diandalkan dari materi yang sedang diukur. Korelasi yang tinggi antara nilai pada bagian pengujian menyatakan, kesetaraan. Dari dua bagian dan akibatnya kecukupan sampling. Namun, seperti bentuk-bentuk yang setara dengan metode itu menceritakan apa-apa tentang perubahan dalam individu dari satu waktu yang lain.

Metode Kuder-Richardson
            Metode ini memberikan ukuran internal konsistensi, tapi tidak memerlukan tes seperti tes belah dua (split-half) untuk tujuan penilaian. Satu rumus yang disebut Kuder-Richardson formula 20, tapi yang paling kasus adalah perkiraan keandalan akan lebih kecil. Keuntungan utamanya adalah kasus yang dapat diterapkan.
            Kuder perkiraan keandalan Richardson menguji apakah item dalam tes homogen yaitu, apakah setiap item mengukur kualitas atau karakteristik yang sama seperti yang lain. Ini adalah kasus keandalan estimasi yang mirip dengan yang disediakan oleh metode split-setengah. Jika homogenitas kurang, seperti dalam sebuah tes yang mengukur pencapaian berbagai jenis hasil pembelajaran, perkiraan yang lebih kecil yang terpecah- setengah akan menghasilkan keandalan.
            Kesederhanaan merupakan metode split-half dan metode Kuder-Richardson telah menyebabkan metode mereka digunakan secara luas dalam menentukan keandalan. Konsistensi internal seperti prosedur, bagaimanapun, memiliki keterbatasan yang membatasi nilai mereka. Pertama, mereka tidak cocok untuk dipercepat untuk tes-tes dengan batas waktu yang mencegah murid dari mencoba setiap item. Jika kecepatan adalah faktor yang signifikan dalam pengujian, perkiraan keandalan akan meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah besar dalam memperkirakan keandalan dari hasil tes tes buatan guru, karena biasanya ini kekuasaan tes. Dalam kasus standar, bagaimanapun batas waktu jarang begitu liberal bahwa semua murid menyelesaikan tes. Jadi, mengukur konsistensi internal dilaporkan dalam buku manual tes dan harus ditafsirkan dengan hati-hati. Untuk tes kecepatan, keandalan diperoleh oleh tes-tes ulang atau setara-bentuk metode yang harus di cari.
            Pembatasan kedua konsistensi internal prosedur bahwa  tidak menuunjukkan keteguhan  respon murid dari hari ke hari.  Mereka mirp dengan bentuk-bentuk yang setara dengan metode tanpa selang waktu. Hanya prosedur tes-retes menunjukkan sejauh mana hasil tes dapat digeneralisasikan selama periode waktu yang berbeda.

Membandingkan Metode
            Sebagian besar metode yang bersangkutan dengan hanya satu atau dua jenis konsistensi yang dicari dalam hasil tes. Tes-metode tes ulang, tanpa selang waktu, hanya memperhitungkan konsistensi respon. Jika selang waktu diperkenalkan antara tes, keteguhan dari karakteristiks dari murid dari hari ke hari juga akan disertakan. Namun, dari tes-tes ulang prosedur yang menyediakan informasi mengenai testing konsistensi prosedur dan konsistensi hasil atas sampel item yang beda,  karenaa skor didasarkan pada pengujian yang sama. Bentuk-bentuk yang setara dengan metode yang waktu tepat, perpecahan-setengah dan Kuder metode-metode Richardson semua memperhitungkan prosedur pengujian konsistensi dan hasil konsistensi atas barang sampel yang berbeda.

Error Standar Pengukuran
            Jumlah variasi dalam nilai tes  yang akan berhubungan langsung dengan keandalan prosedur pengujian. Keandalan rendah akan ditandai dengan variasi besar dari satu pengujian yang lain. Meskipun tidak praktis untuk melaksanakan tes berkali-kali murid-murid yang sama, adalah mungkin untuk memperkirakan jumlah variasi yang diharapkan dalam skor tes. Perkiraan ini disebut standar error pengukuran.

Distribusi hipotesis yang menggambarkan Error Standar Pengukuran
Penjelasan Teoritis Pengukuran Standar Error
1.      Diasumsikan bahwa setiap orang memiliki nilai yang benar pada tes particural, nilai hipotesis mewakili nilai bebas dari kesalahan (benar skor = 95 pada diagram).
2.      Jika seseorang dapat diuji repealedly (tanpa praktek efek atau perubahan lain), rata-rata skor yang diperoleh akan mendekati nilai benar dan himpunan yang diperoleh akan terdistribusi secara normal di sekitar nilai yang benar (lihat diagram).
3.      Dari apa yang diketahui tentang kurve distribusi normal, sekitar 68 % dari nilai yang diperoleh akan jatuh dalam waktu 1 standar error dari orang ‘S skor benar sekitar 95% dari skor Akan 2 standar error, dan sekitar 99,7 dari nilai tersebut akan jatuh dalam 3 waktu standar error (lihat “kurva  normal dan Deviasi Standar Unit dalam bab 14. Kesalahan standar pengukuran adalah deviasi standar kesalahan pengukuran)
4.       Meskipun nilai sejati tidak akan pernah bisa tahu, standar error dari pengukuran dapat diterapkan pada seseorang diperoleh skor untuk menetapkan “batas wajar” untuk mencari nilai sejati ( misalnya, skor yang diperoleh dari 97 – 5 = 102 ).
5.      “ ini batas wajar”  memberi keyakinan band untuk mengiterpretasikan skor yang diperoleh. Ketika standar error dari measurment kecil, band keyakinan semp[it (menunjukkan kehandalan tinggi). Dan dengan demikian kita memiliki keyakinan lebih besar bahwa skor yang diperoleh benar dekat skor.

Faktor-faktor yang Mempengaruhi Pengukuran Reliabilitas
Panjang test
                  Semakin lama tes, semakin tuinggi akan keandalannya, hal ini karena tes yang lebih pangjang akan menyediakan sampel yang lebih memadai dari perilaku yang diukur. Dan skor cenderung kurang kesempataan distored oleh faktor-faktor kenyataan bahwa tes yang lebih panjang untuk memberikan hasil yang lebih terpercaya itu tersirat sebelumnya dalam pembahasan kita tentang metode split-setengah.
Penyebaran skor  
Semakin besar penyebaran skor, semakin tinggi perkiraan akan keandalan. Karena hasil koefisien reliabilitas lebih besar ketika individu cenderung untuk tetap berada di posisi relatif yang sama dalam suatu kelompok dari satu pengujian secara alami. Berikut bahwa apapun yang mengurangi kemungkinan pergeseran posisi dalam kelompok juga memberikan kontribusi lebih besar koefisien reliabilitas. Dalam kasus ini yang lebih besar antara dua nilai differencs individu mengurangi possiblity pergeseran posisi. Satted sdara lain, kesalahan pengukuran kuraang memiliki pengaruh pada posisi relatif individual ketika perbedaan di antara anggota kelompok yang besar yaitu, ketika pada penyebaran yang luas skor.

Metode Memperkirakan Reliabilitas
                  Penting untuk mempertimbangkan metode yang digunakan untuk mendapatkan perkiraan reliabilitas. Secara umum, ukuran koefisien reliabilitas berkaitan dengan metode memperkirakan keandalan.
1.      Metode tes ulang uji
Biasanyamenyediakan keandalan menengah hingga besar coeficients untuk suatu tes. Mungkin akan lebih besar dibandingkandengan split-half jika selang waktu singkat. Coeficient menjadi lebih kecil sebagai selang waktu antara tes meningkat.
2.      Metode bentuk setara (tanpa selang waktu)
Biasanya menyediakan keandalan menengah hingga besar coeficient untuk suatu tes. Coeficient untuk cenderung lebih rendah dibandingkan dengan metode tes-tes ulang dengan menggunakan interval waktu singkat.
3.      Metode bentuk setara (dengan interval waktu)
Biasanya menyediakan keandalan coeficient terkecil untuk suatu tes. Coeficients menjadi lebih kecil sebagai selang waktu antara tes meningkat.
4.      Metode split-setengah (tidak datar).
Biasanya menyediakan keandalan coefibility terbesar untuk suatu tes. Estemates tinggi spuriously diproduksi untuk tes dipercepat.
5.      Metode Kuder-Richardson
Biasanya menyediakan perkiraan keandalan yang lebih kecil daripada yang diperoleh dengan metode split-setengah. Perkiraan ini juga meningkat dengan kecepatan.
Kesulitan Tes
Norm-referenced tes yang terlalu mudah atau lebih sulit bagi anggota kelompok akan cenderung menghasilkan nilai tertinggi untuk keandalan rendah. Hal ini karena kedua mudah dan hasil tes difficult terbatas penyebaran skor. Umtuk tes mudah, skor dekat bersama di ujung bawah skala. Untuk kedua, namun perbedaan di antara individuals kecil dan cenderung dapat diandalkan.
Objektivitas
            Objektifitas tes mengacu pada sejauh mana skor kompeten sama memperoleh hasil yang sama. Sebagian besar tes standar dari kecerdasan dan prestasi yang tinggi objektivitasnya. Sebenarnya, tes ini biasanya disusun sedemikian rupa sehingga mereka dapat secara akurat prosedur penilaian.
Seberapa Tinggi Reliabilitas Seharusnya
            Tingkat keandalan kami permintaan dalam langkah-langkah pendidikan kita sangat tergantung pada keputusan yang akan dibuat. Jika kita akan menggunakan hasil tes untuk memutuskan apakah akan meninjau daerah-daerah tertentu dari materi pelajaran. Kita mungkin mau menggunakan tes buatan guru yang relatif rendah reliabilitasnya. Keputusan kami akan didasarkan pada total nilai dari kelompok dan variasi dalam skor individu tidak akan membuat keputusan terlalu banyak. Hal terburuk yang dapat terjadi dalam murid-murid akan mendapatkan pengulangan materi atau mereka akan dirampas tinjauan yang mungkin bermanfaat bagi mereka. Di sisi lain, jika kita akan menggunakan hasil tes untuk memutuskan cuaca murid harus diklasifikasikan sebagai cacat mental, kita harus menuntut yang paling dapat diandalkan measurement tersedia. Kita tidak boleh puas  tes kelompok intelijen untuk tujuan ini tetapi dengan menggunakan salah satu yang paling dapat diandalkan ukuran individu intelijen. Kami mungkin juga ingin mendapatkan bukti yang tersedia yang paling dapat diandalkan mengenai murid belajar, perkembangan sosial dan penyesuaian sebelum keputusan akhir dibuat. Keputusan ini sangat penting dan konsekuensi yang penting bahwa kita bersedia untuk mencurahkan banyak waktu dan meningkatkan reliabilitas data, bahkan jika dinaikan sedikit. Kami ingin menjadi seperti mungkin yakin bahwa kita adalah membuat keputusan yang tepat ketika kita menggolongkan murid sebagai cacat mental.
Kemudahan Administrasi
            Pada waktu pengujian, tes harus diberikan oleh guru atau orang lain dengan pelatihan yang terbatas, kemudahan administrasi adalah kualitas yang sangat penting untuk mencari dalam tes. Untuk tujuan ini, petunjuk harus sederhana dan jelas, maka harus dengan tes dengan petunjuk rumit dan sejumlah subtest berlangsung tetapi beberapa menit masing-masing adalah tugas berat bahkan untuk pemeriksa yang berpengalaman.
Waktu yang diperlukan untuk administrasi
            Dengan waktu untuk pengujian di premi, kami selalu berpihak pada pengujian yang lebih singkat, hal-hal lain yang dianggap sama. Tetapi dalam kasus ini, hal-hal lain jarang sama karena reliabilitas secara langsung berkaitan dengan panjang tes. Kita mencoba mengurangi terlalu banyak pada waktu yang dialokasikan untuk pengujian, kami dapat secara drastis mengurangi keandalan dalam nilai.
Kemudahan skor
            Untuk membuat prosedur bahkan lebih memberatkan daripada mencetak arah sering rumit, berisi berbagai tes dan penilaian subtes kunci yang praktis. Meskipun tes skor masih menjadi masalah yang harus diperhitungkan, perkembangan terakhir dalam pengujian telah meringankan beban considrably. Pembangunan ini meliputi (1) meningkatkan petunjuk untuk penilaian dan penilaian sederhana kunci, (2). Lembar jawaban terpisah dan (3). Mesin mencetak gol.
            Keberhasilan atau kegagalan suatu program pengujian ditentukan oleh penggunaan yang terbuat dari hasil tes.  Jika mereka menafsirkan dengan benar dan diterapkan secara efektif, mereka akan memberikan kontribusi untuk pendidikan yang lebih cerdas dalam memutuskan. Di sisi lain, jika hasil tersebut disalahartikan atau disalahgunakan sama sekali, mereka akan dimatikan oleh nilai kecil dan mungkin benar-benar dapat merusak beberapa individu atau kelompok. Informasi mengenai interpretasi dan penggunaan hasil tes biasanya diperoleh langsung dari tes manual atau panduan yang  terkait. Perhatian harus diarahkan ke kemudahan dengan skor mentah dapat diubah menjadi bermakna nilai diturunkan, kejelasan dengan tabel yang disajikan dengan norma-norma dan kelengkapan saran-saran untuk menerapkan hasil untuk masalah pendidikan. Bila hasil tes harus disampaikan kepada murid atau siswa. Kemudahan interpretasi dan aplikasi yang sangat penting.

Kesetaraan atau Bentuk Sebanding
            Setara dengan bentuk tes yang sama sering diinginkan. Setara dengan bentuk tes mengukur aspek yang sama perilaku dengan menggunakan item tes yang sama dalam konten, tingkat kesulitan, dan karakteristik lain. Dengan demikian, di salah satu bentuk tes dapat diganti yang lain, sehingga memungkinkan murid-murid tes dua kali dalam sesi agak dekat, tanpa jawaban mereka pada pengujian pertama mempengaruhi kinerja mereka pada pengujian kedua. Keuntungan dari bentuk setara terlihat dalam penguasaan pengujian di mana kita akan menghilangkan faktor memori sementara murid tes ulang pada domain yang sama pencapaian. Setara dengan bentuk tes juga dapat digunakan untuk memverifikasi skor yang dipertanyakan. Sebagai contoh, seorang guru mungkin merasa bahwa kecerdasan skolastik atau skor tes pencapaian yang rendah untuk murid tertentu dan dapat dengan memeriksa administrasi setara ini dengan ujian. Banyak tes juga menyediakan bentuk-bentuk yang  sebanding. Diterbitkan prestasi tes, misalnya, biasanya disusun dalam rangkaian yang mencakup tingkatan kelas yang berbeda. Meskipun isi dan tingkatan kesulitan bervariasi, tes pada tingkat yang berbeda. Meskipun isi dan tingkat kesulitan bervariasi, tes pada tingkat yang berbeda dibuat dan dibandingkan dengan cara umum skala skor. Dengan demikian, adalah mungkin untuk membandingkan pengukuran di kelas 4 dengan pengukuran di kelas 6 pada bentuk lebih maju dalam ujian. Bentuk sebanding berguna dalam mengukur perkembangan keterampilan dasar.
Biaya Pengujian
Pengujian ini relatif murah dan biaya seharusnya tidak menjadi pertimbangan utama. Dalam skala besar program pengujian yang kecil menambah tabungan murid, dengan menggunakan lembar jawaban terpisah, mesin dan dapat digunakan kembali untuk  mencetak booklet dan akan mengurangi biaya yang lumayan. Untuk memilih salah satu tes dibandingkan yang lainnya, namun karena booklet tes adalah beberapa sen lebih murah adalah ekonomi palsu. Setelah semua, validitas dan reliabilitas adalah karakteristik penting untuk mencari dan menguji kualitas yang kurang terlalu ekstensive pada harga berapapun. Di sisi lain kontribusi yang valid dan dapat diandalkan adalah nilai ujian untuk pendidikan dapat membuat keputusan untuk menunjukkan bahwa tes tersebut selalu ekonomis dalam jangka panjang.
Penutup
Reliabilitas ditentukan oleh beberapa metode yang berbeda, dan masing-masing memberikan informasi yang berbeda ukuran konsistensi. Tes-tes ulang dengan memberikan metode pengujian yang sama dua kali. Untuk kelompok yang sama dua kali untuk kelompok yang dalam interval waktu campur tangan, dan mengakibatkan coeficient memberikan ukuran stabilitas. Berapa lama selang waktu antara tes harus ditentukan terutama oleh penggunaan dibuat dari hasil. Bentuk-bentuk yang setara dengan metode ini meliputi dua bentuk tes untuk kelompok di dekat berturut-turut atau dengan interval waktu interving. Hasil pertama dalam ukuran yang setara, dan kedua dalam ukuran stabilitas dan kesetaraan.
Prosedur yang terakhir adalah tes yang lebih ketat reliabilitasnya, karena mencakup semua kemungkinan sumber-sumber variasi dalam skor tes. Keandalan juga dapat diperkirakan. Dari administrasi tunggal dari satu bentuk ujian, baik dengan menghubungkan skor pada dua bagian dari ujian atau dengan menerapkan salah satu dari Kuder-Richardson formula. Kedua metode memberikan ukuran internal konsistensi dan mudah diterapkan. Namun, mereka tidak berlaku untuk dipercepat tes dan tidak tidak memberikan informasi mengenai stabilitas nilai tes dari hari ke hari..
            Standar kesalahan pengukuran yang menunjukkan keandalan dalam hal variasi. diharapkan dalam skor tes individual. Hal ini dapat dihitung dari keandalan coeficient dan deviasi standar, tapi sering dilaporkan secara langsung di tes manual. Standar error ini sangat berguna dalam menafsirkan hasil tes . karena ini menunjukkan bahwa “band kesalahan” (disebut confidence band) yang mengelilingi setiap skor.
            Reliability estimates dapat bervariasi sesuai dengan panjang tes, penyebaran nilai dalam kelompok diuji, sulitnya ujian, objektivitas penilaian, dan metode estimasi reliabilitas.



Referensi
Grounlund, Norman. E. 1985. Measurement and Evaluation in Teaching, New York:
            Macmilan Publishing Company



































 Pendahuluan
            Reliabilitas atau keandalan, adalah konsistensi dari serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang uji) yang akan memberikan hasil tes yang sama. Perhitungan tingkat reliabilitas dapat dilakukan dengan menerapkan satu atau lebih rumus sesuai dengan jenis tes yang reliabilitas yang hendak diukur.
Sifat Reliabilitas
            Reliabilitas merujuk pada konsistensi pengukuran yaitu, bagaimana nilai tes konsisten dengan hasil evaluasi lainnya dari satu pengukuran ke pengukuran lainnya. Jika sebuh tes diujicobakan lebih dari satu kali kepada subjek yang sama? Artinya, walau ada perbedaan, perbedaan itu tidak signifikan
Bagaimana skor telah bervariasi, ia dipilih sampel yang berbeda dari item yang setara? Kalau tes essai, berapa banyak yang memiliki nilai yang berbeda, guru memiliki skor yang berbeda itu? Ini adalah jenis pertanyaan yang menyangkut  kehandalan. Tes terbatas hanya menyediakan ukuran kinerja yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat diperlihatkan untuk menjadi cukup konsisten ( yang dapat digeneralisasi) atas kesempatan yang berbeda kinerja yang sama domain, bisa memiliki sedikit keyakinan dalam hasil.
            Di sisi lain, kita tidak dapat mengharapkan hasil tes untuk benar-benar valid. Ada banyak faktor selain kualitas yang diukur, yang dapat mempengaruhi hasil tes. Jika satu tes diberikan pada kelompok yang sama di dekat dua kali berturut-turut, beberapa variasi dalam nilai  yang dapat diharapkan, karena sementara dan sejenis. Dengan sendirinya jangka waktu antara tes, variasi tambahan skor dapat sebabkan oleh pengalaman belajar.  Campur tangan, perubahan di bidang kesehatan, lupa, dan kurang sebanding dengan kondisi pengujian. Jika kita menggunakan sampel yang berbeda dari item tes yang kedua, masih ada faktor lain yang mungkin mempengaruhi hasil. Metode penentuan keandalan pada dasarnya berarti penentuan berapa banyak kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, semakin kosisten hasil pengujian dari satu pengukuran ke yang lain, semakin sedikit kesalahan akan ada dan, akibatnya semakin besar keandalan.
Pengertian reliabilitas
            Sebagaimana diterapkan pada pengujian dan evaluasi, dapat lebih diperjelas dengan mencatat poin umum pengertian reliabilitas sebagai berikut :
1.      Keandalan mengacu pada hasil yang diperoleh dengan alat evaluasi dan tidak untuk instrumen itu sendiri. Instrumen tertentu mungkin memiliki sejumlah reliabilitas berbeda, tergantung pada kelompok yang terlibat dan situasi dimana ia digunakan. Jadi, adalah lebih tepat untuk berbicara mengenai keandalan dari “tes” atau tentang “pengukuran”  dari “tes” atau “instrumen”.

2.      Perkiraan reliabilitas selalu mengacu pada tipe tertentu konsistensi. Skor tes pada umumnya tidak dapat diandalkan. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu yang berbeda, lebih dari pertanyaan sampel yang berbeda, lebih dari penilai yang berbeda dan sejenisnya. Di sisi lain, jika kita ingin mengukur seseorang, pergeseran dalam kegelisahan dari waktu ke waktu, kita akan membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan dalam rangka untuk memperoleh informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda kita perlu konsistensi analisis yang berbeda. Memperlakukan keandalan sebagai karakteristik umum hanya dapat menyebabkan salah penafsiran.

3.      Keandalan adalah perlu tetapi tidak cukup syarat untuk validitas. Sebuah tes yang menghasilkan hasil yang tidak konsistensi, sama sekali tidak mungkin memberikan informasi yang valid tentang kinerja yang diukur. Di sisi lain, sangat konsisten hasil yang dapat mengukur hal yang salah atau yang dapat digunakan dalam cara-cara yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang diperoleh, namun keandalan tinggi tidak menjamin bahwa tingkat yang memuaskan keabsahan akan hadir. Singkatnya, keandalan hanya menyediakan konsistensi yang membuat kemungkinan validitas.

4.      Kehandalan terutama statistik. Analisis logis dari suatu pengukuran akan memberikan sedikit bukti mengenai keandalan dari nilai. Tes harus diberikan. Satu kali atau lebih ke sekelompok orang yang tepat dan konsistensi dari hasil yang ditentukan. Konsistensi ini dapat dinyatakan dalam istilah-istilah pergeseran dalam kedudukan relatif orang-orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam jumlah skor individu. Konsistensi dalam kasus pertama dilaporkan  dengan cara sebagai koefisien korelasi disebut koefisien reliabilitas dan dalam kasus kedua dilaporkan melalui kesalahan standar pengukuran. Kedua metode ini untuk mengekspresikan keandalan yang digunakan secara luas dan harus dipahami oleh orang-orang yang bertanggungjawab untuk menginterpretasikan hasil tes. Karena kedua metode memerlukan variabilitas dalam nilai, prosedur ini untuk memperkirakan keandalan ukuran criteria-referenced atau tes penguasaan.

Menentukan Reliabilitas dengan Metode Korelasi
            Dalam menentukan  keandalan diharapkan untuk mendapatkan dua set langkah-langkah di bawah kondisi yang identik dan kemudian membandingkan hasilnya. Prosedur ini tentu saja tidak mungkin, karena kondisi di mana data evaluasi diperoleh tidak pernah bisa identik.
Beberapa Istilah Dasar
Korelasi koefisien
Statistik yang menunjukkaan tingkat hubungan antara dua set ukuran yang sama diperoleh dari sekelompok individu (contoh : korelasi antara tinggi dan berat badan)
Validity koefisien
Koefisien korelasi yang menunjukkan sejauh mana ukuran kinerja memprediksi atau perkiraan pada beberapa kriteria ukuran.
(contoh : korelasi nilai kecerdasan antara skor dan nilai-nilai di sekolah)
Reliabilitas koefisien
Koefisien korelasi yang menunjukkan tingkat relationship antara dua set ukuran yang diperoleh dari instrumen atau prosedur yang sama. ( Misalnya: korelasi antara skor yang diperoleh dari dua administrasi pengujian).

Sebagai pengganti prosedur ideal ini, beberapa metode mengestimasi reliabilitas yang telah diperkenalkan. Metode-metode yang serupa dalam pertunjukan bahwa semua dari mereka melibatkan, menghubungkan dua set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk-bentuk yang setara prosedur yang sama. Koefisien korelasi yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara koefisien validitas adalah bahwa yang pertama berdasarkan kesepakatan dengan kriteria di luar dan yang terakhir didasarkan pada perjanjian antara dua set hasil dari prosedur yang sama.
Tabel 4.1

Tipe Pengukuran
Prosedur
Metode tes-retes
Mengukur stabilitas
Berikan pengujian yang sama dua kali untuk kelompok yang sama dengan selang waktu antara tes dari beberap menit sampai beberapa tahun.
Metode setara
Mengukur kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama di dekat berturut-turut
Tes-retes
Mengukur stabilitas dan kesetaraan
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk / form.
Metode belah dua
Mengukur konsistensi dari internal
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval waktu antara bentuk-bentuk.
Metode Kuder Richardson
Mengukur konsistensi dari internal
Berikan satu kali. Skor total tes dan menerapkan rumus Kuder Richardson

Metode Tes-Retes
            Untuk memperkirakan kehandalan melalui tes-retes. Metode pengujian yang sama yang diberikan dua kali untuk kelompok yang sama kepada siswa dengan selang waktu tertentu antara dua administrasi (lihat ganbar 4.1). hasil tes tersebut berkorelasi, koefisien korelasi ini memberikan suatu ukuran stabilitas : yang menunjukkan kestabilan, seorang murid yang tinggi nilainya pada tes administrasi akan cenderung tinggi pada administrasi lainnya, dan sisanya siswa akan cenderung tetap dalam posisi yang relatif sama. Stabilitas seperti ditunjukkan oleh koefisien korelasi yang besar. Stabilitas seperti ini ditunjukkan oleh  hubungan positif dengan 1,00 dan hubungan nol oleh ’00. Langkah stabilitas di tahun 80-an dan 90-an biasanya standar dilaporkan koefisien korelasi yang sempurna menunjukkan untuk tes bakat d dalam tahun yang sama.
            Kebanyakan guru mungkin  tidak menemukan tes-tes ulang menghitung koefisien keandalan untuk tes kelas mereka sendiri. Namun, dalam memilih tes standar, stabilitas nilai berfungsi sebagai salah satu yang penting. Pengujian manual harus memberikan bukti stabilitas, yang menunjukkan selang waktu antara pegujian. Hal-hal lain yang sama (seperti validitas) kita akan mendukung skor tes yang telah terbukti dimiliki jenis stabilitas kita perlu membuat keputusan.
            Informasi mengenai stabilitas nilai tes juga memiliki implikasi bagi frekuensi tes ulang. Kita tahu, misalnya yang pertama kelas nilai tes bakat skolastik cukup stabil atas kesempatan dalam tahun yang sama namun relatif stabil selama beberapa tahun. Dengan demikian, kita berharap untuk menggunakan hasil tersebut dalam menentukan kesiapan untuk meninjau kelas bekerja, tetapi seharusnya tidak tergantung pada mereka untuk perkiraan pada akhir kelas SD. Untuk digunakan, tes kedua perlu diberikan pada awal dan akhir periode dasar, demikian pula, ketika menggunakan skor tes dari catatan permanen, orang harus memeriksa tanggal pengujian dan stabilitas data yang tersedia untuk menentukan apakah hasil masih bisa diandalkan. Jika ada keraguan dan keputusan penting.

Metode Bentuk Setara
            Memperkirakan bentuk reliabilitas dengan menggunakan dua metode yang berbeda tetapi setara dengan bentuk-bentuk ujian (disebut paralel alternatif). Kedua bentuk tes yang diberikan pada kelompok yang sama muridnya di dekat berturut-turut, dan hasil tes tersebut berkorelasi. Koefisien korelasi ini memberikn ukuran kesetaraan. Jadi, menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama.
Bentuk-bentuk yang setara dengan metode ini memberitahu kita apa-apa tentang stabilitas karakteristik murid yang dapar diukur, melainkan mencerminkan sejauh mana tes sampel mewakili dan memadai dari karakteristik yang sedang diukur. Dalam pencapaian pengujian, misalnya ada ribuan pertanyaan yang mungkin ditanyakan dalam tes tertentu.  Tetapi karena batas-batas tertentu  dan faktor pembatas lainnya, hanya beberapa pertanyaan yang mungkin dapat digunakan. Pertanyaan yang termasuk dalam ujian harus memberikan sampel yang memadai untuk berbagai ranah yang dibutuhkan. Cara termudah untuk memperkirakan  jika langkah-langkah pengujian sampel yang memadai dari konten adalah untuk membangun dua bentuk tes dan mengkorelasikan hasilnya. Korelasi yang tinggi menujukkan bahwa kedua bentuk menyediakan hasil yang sama dan oleh karena itu mungkin dapat diandalkan sampel wilayah umum dalam konten yang sedang diukur.
Setara-bentuk memperkirakan  kehandalan tidak jauh dengan masalah yang menyulitkan dalam memilih interval waktu yang tepat antara tes, seperti yang diperlukan dengan metode tes-tes ulang, meskipun kebutuhan akan setara dengan bentuk tes membatasi penggunaannya hampir seluruhnya untuk standar pengujian. Ini digunakan secara luas, karena sebagian besar tes standar memiliki dua atau lebih bentuk yang tersedia. Bahkan seorang guru harus bersikap curiga terhadap tes standar yang memiliki dua bentuk yang tersedia dan tidak melaporkan informasi mengenai kesetaraanh mereka. Para keterbandingan hasi dari dua bentuk tidak dapat diasumsikan kecuali bukti seperti disajikan.

Metode Belah Dua
            Keandalan hasil tes juga dapat diperkirakan dari satu administrasi, dari satu bentuk ujian. Tes ini diberikan kepada sekelompok murid dengan cara biasa dan kemudian dibagi menjadi dua untuk tujuan penilaian. Untuk membagi ujian ke bagian yang paling setara, prosedur yang biasa untuk skor genap dan ganjil item secara terpisah. hal ini menghasilkan dua nilai untuk masing-masing murid, yang ketika berkorelasi, menyediakan ukuran internal konsistensi. Koefisien ini menunjukkan sejauh mana hasil setara diperoleh dari dua bagian ujian.
            Sebagaimana dicatat, koefisien keandalan sebelumnya ditentukan dengan menghubungkna pada setiap item, tetapi hasilnya sama dengan rata-rata dari semua kemungkinan split-setengah koefisien untuk kelompok uji.
            Untuk memperkirakan nilai reliabilitas berdasarkan test penuh, Sperman Brown biasanya menerapkan rumus :
                                               
                                                2 X reliabitas pada tes 1/2
Reliabilitas tes penuh  =                          ___________________
                                                1 + reliabilitas pada tes 1/2

Kesederhanaan rumus dapat dilihat pada contoh berikut, dimana korelasi antara tes coefficient dua belahan is.60.

Reliabilitas tes penuh =  2X.60  =  1,20  =  .75         =  75
                                       _____________________
                                       1 +  .60 =  1,60

            Metode perpecahan ini hampir mirip dengan bentuk-bentuk yang setara. metode itu menunjukkan sejauh mana item pengujian sampel adalah sampel yang diandalkan dari materi yang sedang diukur. Korelasi yang tinggi antara nilai pada bagian pengujian menyatakan, kesetaraan. Dari dua bagian dan akibatnya kecukupan sampling. Namun, seperti bentuk-bentuk yang setara dengan metode itu menceritakan apa-apa tentang perubahan dalam individu dari satu waktu yang lain.

Metode Kuder-Richardson
            Metode ini memberikan ukuran internal konsistensi, tapi tidak memerlukan tes seperti tes belah dua (split-half) untuk tujuan penilaian. Satu rumus yang disebut Kuder-Richardson formula 20, tapi yang paling kasus adalah perkiraan keandalan akan lebih kecil. Keuntungan utamanya adalah kasus yang dapat diterapkan.
            Kuder perkiraan keandalan Richardson menguji apakah item dalam tes homogen yaitu, apakah setiap item mengukur kualitas atau karakteristik yang sama seperti yang lain. Ini adalah kasus keandalan estimasi yang mirip dengan yang disediakan oleh metode split-setengah. Jika homogenitas kurang, seperti dalam sebuah tes yang mengukur pencapaian berbagai jenis hasil pembelajaran, perkiraan yang lebih kecil yang terpecah- setengah akan menghasilkan keandalan.
            Kesederhanaan merupakan metode split-half dan metode Kuder-Richardson telah menyebabkan metode mereka digunakan secara luas dalam menentukan keandalan. Konsistensi internal seperti prosedur, bagaimanapun, memiliki keterbatasan yang membatasi nilai mereka. Pertama, mereka tidak cocok untuk dipercepat untuk tes-tes dengan batas waktu yang mencegah murid dari mencoba setiap item. Jika kecepatan adalah faktor yang signifikan dalam pengujian, perkiraan keandalan akan meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah besar dalam memperkirakan keandalan dari hasil tes tes buatan guru, karena biasanya ini kekuasaan tes. Dalam kasus standar, bagaimanapun batas waktu jarang begitu liberal bahwa semua murid menyelesaikan tes. Jadi, mengukur konsistensi internal dilaporkan dalam buku manual tes dan harus ditafsirkan dengan hati-hati. Untuk tes kecepatan, keandalan diperoleh oleh tes-tes ulang atau setara-bentuk metode yang harus di cari.
            Pembatasan kedua konsistensi internal prosedur bahwa  tidak menuunjukkan keteguhan  respon murid dari hari ke hari.  Mereka mirp dengan bentuk-bentuk yang setara dengan metode tanpa selang waktu. Hanya prosedur tes-retes menunjukkan sejauh mana hasil tes dapat digeneralisasikan selama periode waktu yang berbeda.

Membandingkan Metode
            Sebagian besar metode yang bersangkutan dengan hanya satu atau dua jenis konsistensi yang dicari dalam hasil tes. Tes-metode tes ulang, tanpa selang waktu, hanya memperhitungkan konsistensi respon. Jika selang waktu diperkenalkan antara tes, keteguhan dari karakteristiks dari murid dari hari ke hari juga akan disertakan. Namun, dari tes-tes ulang prosedur yang menyediakan informasi mengenai testing konsistensi prosedur dan konsistensi hasil atas sampel item yang beda,  karenaa skor didasarkan pada pengujian yang sama. Bentuk-bentuk yang setara dengan metode yang waktu tepat, perpecahan-setengah dan Kuder metode-metode Richardson semua memperhitungkan prosedur pengujian konsistensi dan hasil konsistensi atas barang sampel yang berbeda.

Error Standar Pengukuran
            Jumlah variasi dalam nilai tes  yang akan berhubungan langsung dengan keandalan prosedur pengujian. Keandalan rendah akan ditandai dengan variasi besar dari satu pengujian yang lain. Meskipun tidak praktis untuk melaksanakan tes berkali-kali murid-murid yang sama, adalah mungkin untuk memperkirakan jumlah variasi yang diharapkan dalam skor tes. Perkiraan ini disebut standar error pengukuran.

Distribusi hipotesis yang menggambarkan Error Standar Pengukuran
Penjelasan Teoritis Pengukuran Standar Error
1.      Diasumsikan bahwa setiap orang memiliki nilai yang benar pada tes particural, nilai hipotesis mewakili nilai bebas dari kesalahan (benar skor = 95 pada diagram).
2.      Jika seseorang dapat diuji repealedly (tanpa praktek efek atau perubahan lain), rata-rata skor yang diperoleh akan mendekati nilai benar dan himpunan yang diperoleh akan terdistribusi secara normal di sekitar nilai yang benar (lihat diagram).
3.      Dari apa yang diketahui tentang kurve distribusi normal, sekitar 68 % dari nilai yang diperoleh akan jatuh dalam waktu 1 standar error dari orang ‘S skor benar sekitar 95% dari skor Akan 2 standar error, dan sekitar 99,7 dari nilai tersebut akan jatuh dalam 3 waktu standar error (lihat “kurva  normal dan Deviasi Standar Unit dalam bab 14. Kesalahan standar pengukuran adalah deviasi standar kesalahan pengukuran)
4.       Meskipun nilai sejati tidak akan pernah bisa tahu, standar error dari pengukuran dapat diterapkan pada seseorang diperoleh skor untuk menetapkan “batas wajar” untuk mencari nilai sejati ( misalnya, skor yang diperoleh dari 97 – 5 = 102 ).
5.      “ ini batas wajar”  memberi keyakinan band untuk mengiterpretasikan skor yang diperoleh. Ketika standar error dari measurment kecil, band keyakinan semp[it (menunjukkan kehandalan tinggi). Dan dengan demikian kita memiliki keyakinan lebih besar bahwa skor yang diperoleh benar dekat skor.

Faktor-faktor yang Mempengaruhi Pengukuran Reliabilitas
Panjang test
                  Semakin lama tes, semakin tuinggi akan keandalannya, hal ini karena tes yang lebih pangjang akan menyediakan sampel yang lebih memadai dari perilaku yang diukur. Dan skor cenderung kurang kesempataan distored oleh faktor-faktor kenyataan bahwa tes yang lebih panjang untuk memberikan hasil yang lebih terpercaya itu tersirat sebelumnya dalam pembahasan kita tentang metode split-setengah.
Penyebaran skor  
Semakin besar penyebaran skor, semakin tinggi perkiraan akan keandalan. Karena hasil koefisien reliabilitas lebih besar ketika individu cenderung untuk tetap berada di posisi relatif yang sama dalam suatu kelompok dari satu pengujian secara alami. Berikut bahwa apapun yang mengurangi kemungkinan pergeseran posisi dalam kelompok juga memberikan kontribusi lebih besar koefisien reliabilitas. Dalam kasus ini yang lebih besar antara dua nilai differencs individu mengurangi possiblity pergeseran posisi. Satted sdara lain, kesalahan pengukuran kuraang memiliki pengaruh pada posisi relatif individual ketika perbedaan di antara anggota kelompok yang besar yaitu, ketika pada penyebaran yang luas skor.

Metode Memperkirakan Reliabilitas
                  Penting untuk mempertimbangkan metode yang digunakan untuk mendapatkan perkiraan reliabilitas. Secara umum, ukuran koefisien reliabilitas berkaitan dengan metode memperkirakan keandalan.
1.      Metode tes ulang uji
Biasanyamenyediakan keandalan menengah hingga besar coeficients untuk suatu tes. Mungkin akan lebih besar dibandingkandengan split-half jika selang waktu singkat. Coeficient menjadi lebih kecil sebagai selang waktu antara tes meningkat.
2.      Metode bentuk setara (tanpa selang waktu)
Biasanya menyediakan keandalan menengah hingga besar coeficient untuk suatu tes. Coeficient untuk cenderung lebih rendah dibandingkan dengan metode tes-tes ulang dengan menggunakan interval waktu singkat.
3.      Metode bentuk setara (dengan interval waktu)
Biasanya menyediakan keandalan coeficient terkecil untuk suatu tes. Coeficients menjadi lebih kecil sebagai selang waktu antara tes meningkat.
4.      Metode split-setengah (tidak datar).
Biasanya menyediakan keandalan coefibility terbesar untuk suatu tes. Estemates tinggi spuriously diproduksi untuk tes dipercepat.
5.      Metode Kuder-Richardson
Biasanya menyediakan perkiraan keandalan yang lebih kecil daripada yang diperoleh dengan metode split-setengah. Perkiraan ini juga meningkat dengan kecepatan.
Kesulitan Tes
Norm-referenced tes yang terlalu mudah atau lebih sulit bagi anggota kelompok akan cenderung menghasilkan nilai tertinggi untuk keandalan rendah. Hal ini karena kedua mudah dan hasil tes difficult terbatas penyebaran skor. Umtuk tes mudah, skor dekat bersama di ujung bawah skala. Untuk kedua, namun perbedaan di antara individuals kecil dan cenderung dapat diandalkan.
Objektivitas
            Objektifitas tes mengacu pada sejauh mana skor kompeten sama memperoleh hasil yang sama. Sebagian besar tes standar dari kecerdasan dan prestasi yang tinggi objektivitasnya. Sebenarnya, tes ini biasanya disusun sedemikian rupa sehingga mereka dapat secara akurat prosedur penilaian.
Seberapa Tinggi Reliabilitas Seharusnya
            Tingkat keandalan kami permintaan dalam langkah-langkah pendidikan kita sangat tergantung pada keputusan yang akan dibuat. Jika kita akan menggunakan hasil tes untuk memutuskan apakah akan meninjau daerah-daerah tertentu dari materi pelajaran. Kita mungkin mau menggunakan tes buatan guru yang relatif rendah reliabilitasnya. Keputusan kami akan didasarkan pada total nilai dari kelompok dan variasi dalam skor individu tidak akan membuat keputusan terlalu banyak. Hal terburuk yang dapat terjadi dalam murid-murid akan mendapatkan pengulangan materi atau mereka akan dirampas tinjauan yang mungkin bermanfaat bagi mereka. Di sisi lain, jika kita akan menggunakan hasil tes untuk memutuskan cuaca murid harus diklasifikasikan sebagai cacat mental, kita harus menuntut yang paling dapat diandalkan measurement tersedia. Kita tidak boleh puas  tes kelompok intelijen untuk tujuan ini tetapi dengan menggunakan salah satu yang paling dapat diandalkan ukuran individu intelijen. Kami mungkin juga ingin mendapatkan bukti yang tersedia yang paling dapat diandalkan mengenai murid belajar, perkembangan sosial dan penyesuaian sebelum keputusan akhir dibuat. Keputusan ini sangat penting dan konsekuensi yang penting bahwa kita bersedia untuk mencurahkan banyak waktu dan meningkatkan reliabilitas data, bahkan jika dinaikan sedikit. Kami ingin menjadi seperti mungkin yakin bahwa kita adalah membuat keputusan yang tepat ketika kita menggolongkan murid sebagai cacat mental.
Kemudahan Administrasi
            Pada waktu pengujian, tes harus diberikan oleh guru atau orang lain dengan pelatihan yang terbatas, kemudahan administrasi adalah kualitas yang sangat penting untuk mencari dalam tes. Untuk tujuan ini, petunjuk harus sederhana dan jelas, maka harus dengan tes dengan petunjuk rumit dan sejumlah subtest berlangsung tetapi beberapa menit masing-masing adalah tugas berat bahkan untuk pemeriksa yang berpengalaman.
Waktu yang diperlukan untuk administrasi
            Dengan waktu untuk pengujian di premi, kami selalu berpihak pada pengujian yang lebih singkat, hal-hal lain yang dianggap sama. Tetapi dalam kasus ini, hal-hal lain jarang sama karena reliabilitas secara langsung berkaitan dengan panjang tes. Kita mencoba mengurangi terlalu banyak pada waktu yang dialokasikan untuk pengujian, kami dapat secara drastis mengurangi keandalan dalam nilai.
Kemudahan skor
            Untuk membuat prosedur bahkan lebih memberatkan daripada mencetak arah sering rumit, berisi berbagai tes dan penilaian subtes kunci yang praktis. Meskipun tes skor masih menjadi masalah yang harus diperhitungkan, perkembangan terakhir dalam pengujian telah meringankan beban considrably. Pembangunan ini meliputi (1) meningkatkan petunjuk untuk penilaian dan penilaian sederhana kunci, (2). Lembar jawaban terpisah dan (3). Mesin mencetak gol.
            Keberhasilan atau kegagalan suatu program pengujian ditentukan oleh penggunaan yang terbuat dari hasil tes.  Jika mereka menafsirkan dengan benar dan diterapkan secara efektif, mereka akan memberikan kontribusi untuk pendidikan yang lebih cerdas dalam memutuskan. Di sisi lain, jika hasil tersebut disalahartikan atau disalahgunakan sama sekali, mereka akan dimatikan oleh nilai kecil dan mungkin benar-benar dapat merusak beberapa individu atau kelompok. Informasi mengenai interpretasi dan penggunaan hasil tes biasanya diperoleh langsung dari tes manual atau panduan yang  terkait. Perhatian harus diarahkan ke kemudahan dengan skor mentah dapat diubah menjadi bermakna nilai diturunkan, kejelasan dengan tabel yang disajikan dengan norma-norma dan kelengkapan saran-saran untuk menerapkan hasil untuk masalah pendidikan. Bila hasil tes harus disampaikan kepada murid atau siswa. Kemudahan interpretasi dan aplikasi yang sangat penting.

Kesetaraan atau Bentuk Sebanding
            Setara dengan bentuk tes yang sama sering diinginkan. Setara dengan bentuk tes mengukur aspek yang sama perilaku dengan menggunakan item tes yang sama dalam konten, tingkat kesulitan, dan karakteristik lain. Dengan demikian, di salah satu bentuk tes dapat diganti yang lain, sehingga memungkinkan murid-murid tes dua kali dalam sesi agak dekat, tanpa jawaban mereka pada pengujian pertama mempengaruhi kinerja mereka pada pengujian kedua. Keuntungan dari bentuk setara terlihat dalam penguasaan pengujian di mana kita akan menghilangkan faktor memori sementara murid tes ulang pada domain yang sama pencapaian. Setara dengan bentuk tes juga dapat digunakan untuk memverifikasi skor yang dipertanyakan. Sebagai contoh, seorang guru mungkin merasa bahwa kecerdasan skolastik atau skor tes pencapaian yang rendah untuk murid tertentu dan dapat dengan memeriksa administrasi setara ini dengan ujian. Banyak tes juga menyediakan bentuk-bentuk yang  sebanding. Diterbitkan prestasi tes, misalnya, biasanya disusun dalam rangkaian yang mencakup tingkatan kelas yang berbeda. Meskipun isi dan tingkatan kesulitan bervariasi, tes pada tingkat yang berbeda. Meskipun isi dan tingkat kesulitan bervariasi, tes pada tingkat yang berbeda dibuat dan dibandingkan dengan cara umum skala skor. Dengan demikian, adalah mungkin untuk membandingkan pengukuran di kelas 4 dengan pengukuran di kelas 6 pada bentuk lebih maju dalam ujian. Bentuk sebanding berguna dalam mengukur perkembangan keterampilan dasar.
Biaya Pengujian
Pengujian ini relatif murah dan biaya seharusnya tidak menjadi pertimbangan utama. Dalam skala besar program pengujian yang kecil menambah tabungan murid, dengan menggunakan lembar jawaban terpisah, mesin dan dapat digunakan kembali untuk  mencetak booklet dan akan mengurangi biaya yang lumayan. Untuk memilih salah satu tes dibandingkan yang lainnya, namun karena booklet tes adalah beberapa sen lebih murah adalah ekonomi palsu. Setelah semua, validitas dan reliabilitas adalah karakteristik penting untuk mencari dan menguji kualitas yang kurang terlalu ekstensive pada harga berapapun. Di sisi lain kontribusi yang valid dan dapat diandalkan adalah nilai ujian untuk pendidikan dapat membuat keputusan untuk menunjukkan bahwa tes tersebut selalu ekonomis dalam jangka panjang.
Penutup
Reliabilitas ditentukan oleh beberapa metode yang berbeda, dan masing-masing memberikan informasi yang berbeda ukuran konsistensi. Tes-tes ulang dengan memberikan metode pengujian yang sama dua kali. Untuk kelompok yang sama dua kali untuk kelompok yang dalam interval waktu campur tangan, dan mengakibatkan coeficient memberikan ukuran stabilitas. Berapa lama selang waktu antara tes harus ditentukan terutama oleh penggunaan dibuat dari hasil. Bentuk-bentuk yang setara dengan metode ini meliputi dua bentuk tes untuk kelompok di dekat berturut-turut atau dengan interval waktu interving. Hasil pertama dalam ukuran yang setara, dan kedua dalam ukuran stabilitas dan kesetaraan.
Prosedur yang terakhir adalah tes yang lebih ketat reliabilitasnya, karena mencakup semua kemungkinan sumber-sumber variasi dalam skor tes. Keandalan juga dapat diperkirakan. Dari administrasi tunggal dari satu bentuk ujian, baik dengan menghubungkan skor pada dua bagian dari ujian atau dengan menerapkan salah satu dari Kuder-Richardson formula. Kedua metode memberikan ukuran internal konsistensi dan mudah diterapkan. Namun, mereka tidak berlaku untuk dipercepat tes dan tidak tidak memberikan informasi mengenai stabilitas nilai tes dari hari ke hari..
            Standar kesalahan pengukuran yang menunjukkan keandalan dalam hal variasi. diharapkan dalam skor tes individual. Hal ini dapat dihitung dari keandalan coeficient dan deviasi standar, tapi sering dilaporkan secara langsung di tes manual. Standar error ini sangat berguna dalam menafsirkan hasil tes . karena ini menunjukkan bahwa “band kesalahan” (disebut confidence band) yang mengelilingi setiap skor.
            Reliability estimates dapat bervariasi sesuai dengan panjang tes, penyebaran nilai dalam kelompok diuji, sulitnya ujian, objektivitas penilaian, dan metode estimasi reliabilitas.



Referensi
Grounlund, Norman. E. 1985. Measurement and Evaluation in Teaching, New York:
            Macmilan Publishing Company







































































Tidak ada komentar:

Posting Komentar