Make your own free website on Tripod.com

Book Resume
MEASURING CLASSROOM ACHIEVEMENT
BY FREDERICK G. BROWN

Disarikan oleh : Yuenda Vicky Larasati


 

PENDAHULUAN

Guru tidak dapat efektif jika tidak dapat mengukur secara akurat pencapaian siswanya. Mengukur secara akurat ini penting sebab guru tidak dapat membantu siswanya secara efektif jika tidak mengetahui pengetahuan dan ketrampilan yang dikuasai siswanya dan pelajaran apa yang masih menjadi masalah bagi siswanya. Hal yang sama pentingnya adalah guru tidak dapat memperbaiki jika tidak memperoleh indikasi efektifitas dalam mengajar.

MENGUKUR PENCAPAIAN

Yang dimaksud dengan pencapaian adalah pengetahuan, pengertian, dan ketrampilan yang dikuasai sebagai hasil pengalaman pendidikan khusus. Kita mengartikan pengetahuan sebagai bagian tertentu dari informasi. Pengertian mempunyai implikasi kemampuan mengekspresikan pengetahuan ini ke berbagai cara, melihat hubungan dengan pengetahuan lain, dan dapat mengaplikasikannya ke situasi baru, contoh dan masalah. Ketrampilan kita artikan mengetahui bagaimana mengerjakan sesuatu .

Mengapa mengukur

Kita mengukur untuk menggambarkan pengetahuan dan ketrampilan siswa atau sebagai dasar untuk mengambil keputusan. Terdapat beberapa alasan mengapa mengukur pencapaian siswa.

Umpan Balik

Fungsi penting pada tes pencapaian adalah memberikan umpan balik dengan mempertimbangkan efektifitas pembelajaran. Pengetahuan pada performance siswa membantu guru untuk mengevaluasi pembelajaran mereka dengan menunjuk area dimana pembelajaran telah efektif dan area dimana siswa belum menguasai. Informasi ini dapat dignakan untuk merencanakan pembelajaran selanjutnya dan memberikan nasehat untuk metode pembelajaran alternatif. Umpan balik memberikan beberapa fungsi. Pertama menginformasikan kepada guru dan siswa mengenai tingkat performance siswa pada suatu pembelajaran. Kedua memberikan informasi diagnostic yang dapat digunakan untuk merencanaka pembelajaran selanjutnya, dan atau remedial. Ketiga dengan mempertimbangkan hasil beberapa tes, kita dapat memperoleh pengukuran kemajuan dan perbaikan siswa.
Selain sebagai umpan balik alasan mengukur pencapaian adalah untuk memberikan motivasi, menentukan peringkat, profisiensi adalah memberikan sertifikat bahwa siswa telah mencapai tingkat kemampuan (minimal ) dalam suau bidang tertentu.. Hasil pencapaian tes dapat juga digunakan pada evaluasi pembelajaran.

Kapan mengukur pencapaian

Pada permulaan pembelajaran

Untuk merencanakan pembelajaran yang efektif kita harus mempertimbangakan kemampuan dan karakteristik siswa. Informasi ini dapat diperoleh dari tes pencapaian. Selain itu informasi yang diperoleh adalah penguasaan materi prasyarat. Hal lain yang dapat disaring dari tes pencapaian ini adalah mengukur pengetahuan siswa mengenai materi yang telah diajarkan.

Selama pembelajaran.

Tes yang diberikan selama pembelajaran digunakan untuk menentukan bagaimana kemajuan pembelajaran. Informasi ini kemudian dapat digunakn unuk memodifikasi pembelajaran langsung dan belajar. Dan hal ini digunakan sebagai evaluasi formative.

Pada akhir pembelajaran

Tes ini akan mengukur seberapa bagus materi telah dipelajari dengan membandingkan satu siswa dengan siswa lain atau dengan beberapa profisiensi standar. Untuk guru pengukuran ini digunakan sebagi evaluasi sumatif. Biasanya evaluasi ini digunakan sebagai dasar penentuan tingkatan ( grade ).
Bagaimana mengukur pencapaian
Beberapa metode yang tersedia adalah Informal dan metode Observasional contohnya pengetahuan yang terlihat dari performance verbal dalam kelas, menjawab pertanyaan, kontribusi dalam diskusi, pertanyaan yang diajukan dsb. ; guru membuat tes sendiri contoh dengan kuis mingguan, pop kuis, tes unit dsb. ; dan tes standar.

MERENCANAKAN TES
Dalam merencanakan tes kita harus mengetahui karakteristik instrumen mengukur yang baik. Apa tujuan tes dan informasi apa yang ingin diperoleh dalam tes sangat penting diperhatikan dalam merencanakan tes. Hal- hal yang harus diperhatikan dalam merencanakan tes adalah :
Relevansi
Tes harus mengukur hasil yang merefleksikan pencapaian tujuan dan tujuan khusus suatu kursus. Tes harus mengandung materi yang telah diajarkan,selain tu tes juga mengukur hanya pengetahuan dan ketrampilan yang telah diajarkan dalam kursus
Pengambilan sampel yang tepat.
Setiap item tes harus merefleksikan hasil pembelajaran yang diinginkan. Jika hal ni tidak mungin maka tes harus mencakup sampling representatitif hasil pembelajaran ang penting.
Kondisi standar
Jika pengguna tes tidak menggunakan tes dibawah kondisi yang sama ( waktu yang diberikan sama, tingkat kesukaran dan content sama dsb ), perbedaan faktor akan mempengaruhi performance sehingga skor mereka tidak dapat langsung dibandingkan.
Kesukaran yang sesuai
Kesukaran item didefinisikan sebagai persentase manusia yang menjawab item dengan benar.Kesukaran item ditentukan beberapa hal antara lain umur siswa. Dalam mastery testing item yang bagus akan dijawab benar oleh siswa yang menguasai materi. Dalam keadaan lain kesukaran item digunakan untuk menentukan grade, tujuan testing untuk membedakan antara siswa yang memiliki berbagai tingkat pengetahuan mengenai suatu subyek.
Konsistensi
Konsistensi atau reliability adalah hal penting dalam tes karena jika tes tidak menguur secar konsisten skor individu akan bervariasi dari waktu ke waktu.s
Skor yang penuh arti
Skor akan memberikan informasi yang berguna, skor yang akurat akan menggambarkan pencapaian siswa dan dapat digunakan untuk mengambil keputusan.
Dalam merencanakan suatu tes terdapat tiga metode. Metode I merencanakan tes content/ skill. Pengukuran pencapaian disini dengan memperhatikan pengetahuan (dimensi isi) dan proses kognitif (dimensi skill). Jika kita akan mengembangkan dimensi skill dalam perencanaan kita harus dapat mengidentifikasi dan mengklasifikasikan kognitif skill. Klasifikasi yang diberikan menggunakan Taxonomy of Educational Objectives : Cognitive Domain dari Bloom : pengetahuan, pemahaman, aplikasi, analisis, sintesis, evaluasi. Metode ke II adalah sampling objective yang mengukur pencapaian hasil pembelajaran yang diinginkan dan lebih menekankan kepada tujuan khusus perilaku. Pendekatan ketiga adalah pendekatan kombinasi dengan mengembangkan content/skill tes dengan mengidentifikasi perilaku yang tepat pada setiap sel konten/ skill.

ALTERNATIVE - CHOICE ITEM; SHORT ANSWER, ESSAY, AND PROBLEM ITEMS
Ketika membuat tes guru dapat memilih bermacam-macam tipe item seperti true false, short answer, multiple choice, essay, problem. Format yang diseleksi tergantung pada subyek, siswa, tujuan kursus, dan tujuan tes. Untuk menghasilkan item yang bagus harus : mengambil materi penting, item harus jelas dan sederhana, yakin bagaimana siswa merespon, item harus independen, flexibel, item yang jelek harus di edit dan direvisi.

Multiple choice item
Multiple choice item terdiri dari stem dan nomor respon yang mungkin. Stem mungkin kalimat yang tidak lengkap atau pertanyaan. Jika stem merupakan kalimat yang tidak lengkap, tugas siswa adalah melengkapi dengan pernyataan yang paling tepat. Jika item merupakan pertanyaan, kita harus memberikan alternatif jawaban yang mungkin. Siswa disuruh memilih alternatif yang benar atau paling tepat. Alternatif jawaban terdiri dari jawaban yang benar dan beberapa pengecoh.

True -False item
True False item adalah kalimat deklarative, siswa menilai pernyataan yang disajikan benar atau salah. Erdapat beberapa argumen mengenai True-False item ini; pertama True-False item ini hanya dapat mengukur pengetahuan saja. Argumen kedua True-False item bersifat ambigo. Seringkali ke ambigo-an ini dirasakan oleh siswa yang tidak mempunyai pengetahuan yang dibutuhkan untuk menjawapab item. Argumen ketiga pendidik yakin bahwa siswa dapat memperoleh skor tinggi dengan menebak, karena hanya dua pilihan maka siswa mempunyai kesempatan 50 % untuk mendapatkan jawaban benar atau salah dengan menebak.

Matching Item
Matching terdiri dari dua paralel daftar, yang satu berisi stimulus atau stem yang lain berisi respon yang mngkin.Tugas siswa adalah mencocokkkan bentuk dari dua daftar, hal ini adalah menyeleksi respon ang paling cocok untuk setiap stimulus. Stimulus dapat menggunakan pernyataan verbal. Bagaimanapun, matching item cocock untuk beberapa tipe materi.

Short answer
Short answer memberikan beberapa tipe item yang akan direspon siswa dengan kata, phrase, kalimat, simbol atau nomer. Short-answer item yang sering digunakan adalah melengkapi item dengan kalimat atau beberapa kata yang hilang.

Essay Question.
Essai question terdiri dari pernyataan, seringkali beberapa kalimat panjang yang menggambarkan situasi dan atau problem. Tugas siswa adalah menulis essay untuk menjawab problem yang dituju. Jawaban ini mungkin satu paragraf atau beberapa halaman. Perbedaan antara short answer dengan essay question adalah panjangnya respon yang dibutuhkan. Pada essay question lebih ditekankan pada mengorganisasikan dan menggabungkan materi. Problem dapat dilakukan pendekatan dengan berbagai cara.

Problems
Dalam beberapa cara problem memberikan fungsi yang sama dalam kursus matematika dan science sebagai essay question yang dikerjakan dalam studi sosial dan kursus humanity. Situasi dan atau beberapa informasi disajikan dan tugas siswa adalah memberikan solusi.

Mengadministrasikan dan Mensekor test
Mempersiapkan tes
Setelah anda menulis item, bebrapa langkah tambahan harus dilengkapi sebelum tes diadministrasikan : 1) menyeleksi bagian item untuk dirangkum pada tes dan menyusun dalam bentuk yang akan diberikan kepada siswa; 20 mempersiapkan lembar jawaban; 3) menulis tujuan tes; 4) menentukan batasan waktu; 5) mengembangkan prosedur skoring dan aturan.

Menyusun Tes
Memilih item dimana konten dan skill atau tujuan khusus mewakili proporsi seperti yang diinginkan. Setelah itu yang perlu difikirkan adalah bagaimana menyajikan item kepada siswa.
Lembar jawaban
Terdapat pilihan antara merespon pada tes itu sendiri atau pada lembar jawaban terpisah.Menjawab pada lembar tes hanya drekomendasikan pada siswa yang masih kecil, karena ini akan mengurangi jawaban yang salah dan tidak membuat bingung anak-anak. Menggunakan jawaban yang terpisah akan memberi keuntungan, dimana guru dapat mengecek jawaban tanpa harus melihat materi tes.
Petunjuk
Jika siswa tidak mengenal prosedur testing, petunjuk harus diberikan pada permulaan tes.

Batasan Waktu
Ketika mengukur pencapaian, kita lebih menginginkan keuatan tes dari pada kecepatannya. Sebagai implikasinya siswa harus memperoleh cukup waktu untuk menyelesaikan tes.

Mengadministrasikan Tes
Setting fisik.
Tes akan diadministrasikan dalam kelas. Kondisi sama yang mendukung efektifitas belajar harus dilanjutkan selama tes. Ruang harus tenang, lampu terang, ventilasi bagus dan bebas interupsi.
Iklim Psikologi
Membuat iklim positif dalam atmosfer kelas, sehingga siswa dapat menghadapi situasi tes dengan relax. Hal ini dapat dilakukan dengan memberi pengertian alasan tes dilakukan dan meyakinkan siswa bahwa persiapan tes yang bagus akan membantu siswa.

Menskor Tes
Ketika menskor tujuannya adalah memperoleh tujuan dan skor yang adil.Seluruh proses harus dirancang untuk memberikan informasi apa yang dapat dilakukan siswa untuk membimbing mereka menuju studi selanjutnya. Bimbingan dan saran yang dibuat harus membantu pencapaian tujuan.


ANALISA TES ITEM INDIVIDU
Tujuan analisa item adalah mengevaluasi kualitas item tes. Dengan mengobservasi bagaimana siswa merespon berbagai item, kita dapat mengetahui mana soal yang sukar mana item yang mudah. Analisa item secara umum berkaitan dengan tiga aspek item. Pertama adalah kesukaran item. Index kesukaran item didefinisikan sebagai proporsi siswa yang menjawab item dengan benar. Komponen yang kedua adalah menentukan kekuatan item. Index pembeda item menyatakan apakah item membedakan antara siswa yang mempunyai pengetahuan banyak dan siswa dengan pengetahuan sedikit pada materi yang di tes kan. Komponen ketiga dari analisa item adalah evaluasi distraktor. Analisa ini tepat digunakan pada pilihan ganda dan mencocokkan item.

RELIABILITAS DAN VALIDITAS.
Realibilitas
Reliabilitas tes memberikan konsistensi pada apa yang diukur. Reliabilitas berkaitan dengan pertanyaan selanjutnya. Apakah siswa akan mendapat skor yang sama jika diberikan tes pada dua kejadian yang berbeda/; apakah siswa mendapat skor sama jika diberikan dua bentuk tes yang berbeda; seberapa stabil skor yang didapat. Dalam mengukur konsistensi dikenal standar kesalahan pengukuran dimana hal ini sebagai index terdapat seberapa kesalahan pengukuran pada skor individu.
Validitas
Disini dikenal konten validitas yang berkaitan dengan seberapa bagus contoh item tes mendefinisikan domain pengetahuan, ketrampilan atau kemampuan. Validitas konstruk berkaitan dengan seberapa bagus tes mengukur variabel psikologi. Validitas yang berhubungan dengan criterion yang berkaitan dengan seberapa bagus skor tes memprediksi kinerja (nn tes).Tipe validitas yang relevan dengan tes pencapaian dalam kelas adalah konten validitas, yang memberikan spesifikasi mengenai pengetahuan dan ketrampilan apa yang ingin diukur.

METODE LAIN YANG DIGUNAKAN UNTUK MENGUKUR PENCAPAIAN
Selain menggunakan tes secara tertulis, guru dapat menilai pencapaian siswa. Metode ini digunakan untk melihat kemampuan dan ketrampilan yang tidak dapat diukur secara efektif dengan tes tertulis. Metode yang dilakukan dengan melakukan observasi. Observasi ini akan mengenalkan kita pada proses atau metode dalam mempertunjukkan kinerja , mengenalkan pada hasil, dimana hal itu akan memberikan informasi yang dibutuhkan untuk memperbaiki kinerja siswa dan memfasilitasi belajar mereka.

STANDAR PENCAPAIAN TES
Norm Reference Tes
Pada norm reference tes skor diinterpretasikan dengan membandingkan kinerja individu pada skor yang didapat pada peserta tes lain.Kelompok orang yang digunakan untuk pembanding dinamakan kelompok norma.
Content Referenced Test
Pendekatan ini mempunyai beberapa nama seperti criterion reference, objective referenced, domain referenced. Faktor penting yang ditekankan disini adalah skor diinterpretasikan kedalam terms tingkat penguasaan siswa pada konten domain spesifik. Pada CRT kita membuat beberapa item untuk mengukur setiap tujuan yang penting, tidak hanya contoh item yang menyajikan konten domain.

GRADING (memberikan peringkat)
Walaupun penentuan peringkat yang digunakan pada saat ini jauh dari sempurna, hal ini memberikan bukti yang dibutuhkan untuk membuat beberapa keputusan penting dalam pendidikan. Semua prosedur disarankan, termasuk mengeliminasi peringkat. Apa yang dibutuhkan untuk memperbaiki proses penentuan peringkat, adalah menspesifikasi secara lebih jelas dasar dan arti dari peringkat dan prosedur lembaga untuk meyakinkan bahwa berbagai instruktur menggunakan prosedur yang dapat dibandingkan dalam penentuan peringkat. Jika standar prosedur diikuti, penentuan peringkat akan dengan bagus mengukur pencapaian relatif siswa atau penguasaan isi.

MENGGUNAKAM TES PENCAPAIAN DALAM PMBELAJARAN
Mengukur pencapaian adalah memperoleh informasi pada pembelajarab individu siswa., apa yang mereka tahu, apa yang dapat mereka lakukan, bagaimana kemajuan belajarnya dan sebagainya.
Poin pertama dalam proses pembelajaran adalah kita membutuhkan informasi mengenai individu siswa pada permulaan pembelajaran. Informasi ini dapat digunakan untuk membantu kita merencanakan pembelajaran, agar siswa lebih mudah beradaptasi pada pembelajaran kita yang berkaitan dengan kemampuan, pengetahuan, dan ketrampilannya. Infomasi kedua yang dibutuhkan adalah penguasaan pengetahuan prasyarat dan ketrampilan. Informasi ketiga yang dibutuhkan adalah materi apa dalam pelajaran yang sudah diketahui siswa.

Evaluasi Pembelajaran.
Tes pencapaian yang paling banyak digunakan adalah mengukur belajar individu sisiwa. Tetapi untuk tujuan lain dapat juga digunakan untuk mengukur efektifitas metode pembelajaran, materi dan instruktur.
Dalam evaluasi formatif, kita dapat menentukan materi apa yang telah dikuasai siswa, kesalahan apa yang dibuat siswa, dan problem belajar apa yang dialami siswa. Karena tujuan utama dari evaluasi formatif adalah mengidentifikasi problem belajar dan memodifikasi pembelajaran untuk membantu siswa belajar, penugasan dan tes harus mengacu pada content reference/ citerion reference.Hal ini difokuskan pada penguasaan siswaterhadap materi tujuan khusus, tidak membandingkan siswa dengan siswa lain.
Pada evaluasi sumatif , instrumen pengukuran biasanya akan ditentukan oleh tujuan pembelajaran pada suatu kursus. Jika tujuannya adalah mengajarkan motor skill, tes performance akan lebih tepat. Jika tujuannya adalah menilai kemampuan siswa untuk mengorganisasikan dan mengintegrasikan materi, essay test akan lebih tepat.
Jika tujuan anda adalah merangking siswa, tes harus dibuat lebih luas, harus mempunyai distribusi skor yang luas, dan harus diinterpretasikan dengan cara norma refference.

Komentarku (My comment)

Setelah membaca buku Frederick. G. Brown yang berjudul Measuring Classroom Achievement dapat ditarik suatu kesimpulan bahwa buku ini memberikan suatu gambaran umum mengenai pengukuran pencapaian siswa dalam kelas. Pembahasan mengenai pengukuran pencapaian ini dimulai dari mengapa, kapan, dan bagaimana mengukur pencapaian tersebut hingga bagaimana merencanakan sebuah tes, jenis-jenis tes, bagaimana menskor, menganalisa skor, standar tes pencapaian tes, penentuan peringkat dan penggunaan tes pencapaian dalam pembelajaran.
Secara umum buku ini cukup bagus digunakan sebagai pegangan untuk orang- orang yang berkecimpung dalam dunia pendidikan, seperti dosen, guru, mahasiswa pendidikan dan orang-orang yang mempunyai perhatian terhadap dunia pendidikan. Untuk orang-orang yang tidak mempunyai latar belakang ilmu pendidikan dan membuat langkah baru dalam dunia pendidikan, buku ini akan sangat bermanfaat karena meskipun buku ini termasuk buku lama(1981) tetapi bahasa yang digunakan mudah di pahami serta mencakup substansi materi yang cukup luas.

Jika dibandingkan dengan buku- buku lain seperti buku yang ditulis oleh Norman E. Grondlund dalam bukunya Constructing Achievement Tes serta buku Evaluation to Improve Learning yang ditulis Benyamin S. Bloom, materi yang membahas mengenai tes pencapaian seperti bagaimna merencanakan tes, menyusun tes, jenis-jenis tes, kriteria yang digunakan, bagaimana menskor, menganalisa dan mengevaluasinya, ke tiga buku tersebut memberikan penjelasan yang hampir sama walaupun menggunakan bahasa yang berbeda, hanya untuk poin- pon tertentu saja mereka mempunyai sedikit perbedaan. Jika terdapat pertanyaan buku manakah yang terbagus dari tiga buku tersebut maka saya akan mengatakan bahwa yang terbaik adalah jika kita menggabungkan inti materi yang terdapat pada ketiga materi tersebut dimana kita mengambil hal-hal yang cocok dengan pendapat kita.

Norman E. Gronlund dalam bukunya Constructing Achievement Tests mengatakan bahwa objective tes seperti multiple choice, true- False, short answer hanya bagus untuk mengukur hasil belajar pada tingkat pengetahuan, pemahaman, aplikasi, dan analisis, tetapi tidak tepat untuk sintesa dan evaluasi. Sedangkan dalam buku Measuring Classroom Achievement dikatakan bahwa adalah salah jika ada pendapat bahwa multiple choice yang merupakan salah satu jenis dari objective tes hanya dapat digunakan untuk tes pengetahuan dan materi faktual. Multiple choice dapat digunakan untuk mengukur level cognitive skill yang lebih tinggi yaitu dengan menggunakan pernyataan yang merupakan situasi baru, informasi maupun contoh. Saya setuju dengan pendapat yang disampaikan oleh Frederick G. Brown tersebt bahwa semua jenis tes yang termasuk dalam kategori objective tes sebenarnya dapat digunakan untuk mengetahui hasil belajar siswa baik pada tingkat pengetahuan, pemahaman, aplikasi, analisa sistesa maupun evaluasi. Banyak guru mengatakan bahwa di Indonesia untuk siswa tingkat sekolah dasar sampai sekolah menengah atas guru membuat tes hasil belajar hanya untuk mengukur pengetahuan, pemahaman, dan aplikasi saja, karena multiple choice hanya bisa mengukur tiga level kognitif itu saja. Menurut saya semua jenis tes obyektif dapat mengukur 6 tingkat cognitive skill, hanya yang perlu dipertimbangkan adalah efisien dan efektifkah tes tersebut digunakan untuk mengukur tingkat cognitive yang diinginkan. Ketrampilan dalam membuat stem pada soal- soal tes multiple choice akan sangat menentukan apakah tes tersebut dapat digunakan untuk mengukur tingkat cognitif skill yang lebih tinggi atau tidak karena membuat tes untuk mengetahi hasil belajar pada tingkat pengetahuan akan lebih mudah.

Dalam membandingkan antara objective tes dan essay tes Frederick G. Brown dan Norman E. Grondlund memberikan pandangan yang sama bahwa dalam obyektif tes item yang digunakan bisa lebih luas dengan mengambil sampel konten yang mewakili, sedangkan dalam essay tes item yang digunakan lebih terbatas sukar untuk mengambil sampel yang mewakili seluruh materi sehingga respon yang didapat akan lebih mendalam pada area yang ditanyakan. Dalam memberikan skoring objective tes lebih obyektif, sederhana, dan reliabilitasnya tinggi, sedangkan essay tes penilaiannya lebih subyektif misalnya panjangnya respon, kualitas tulisan, akan menentukan penilaian. Karena faktor tersebut maka penilaian dalam essay tes tidak reliabel.
Untuk mengadakan evaluasi formatif multile choice kurang cocok digunakan. Ketidak tepatan ini disebabkan tes multiple choice tidak mengukur kedalaman materi sehingga memberi kesempatan kepada siswa untuk menebak jawaban saja. Sedangkan dalam evaluasi formatif ini guru ingin mengetahui apa yang telah dicapai siswa dengan cara menggali lebih dalam kompetensi siswa yang merupakan manifestasi dari hasil belajar. Dengan mengetahui kompetensi siswa, maka kelemahan dan kekuatan akan dapat terdeteksi. Kemajuan siswa, kemampuan minimum siswa , kemampuan guru mengajar akan terlihat dalam evaluasi ini sehingga baik atau buruknya proses belajar akan terlihat disini. Evaluasi formatif ini berfungsi sebagai umpan balik bagi guru dan siswa, jika hasil belajar siswa bagus maka akan diadakan pembelajaran selanjutnya tetapi jika hasil belajar siswa buruk maka akan diadakan perbaikan dalam pembelajaran. Evaluasi formatif sangat cocok menggunakan tes essay karena tes ini akan mengukur kemampuan /kinerja siswa disesuaikan dengan tujuan pembelajaran. Sehingga untuk materi yang akan diukur siswa akan memberikan respon yang tak terbatas sesuai dengan pengetahuan dan kemampuan yang dimilikinya karena jawaban yang diberikan tidak terstruktur. Karena memberikan kemungkinan jawaban yang yang tidak menuju kesatu arah saja/ konvergen serta memberi kesempatan kepada siswa untuk merespon tanpa dibatasi maka tes essay ini dapat digunakan untuk mengukur cognitive pada level analisis, sintesis dan evaluasi, dimana hal ini sangat sukar dilakukan dalam tes multiple choice. Akan tetapi penggunaan tes essay ini mempunyai kelemahan yaitu hanya mungkin memberikan materi yang terbatas serta butir soal yang tidak terlalu banyak mengingat jawabannya yang tak terstruktur. Dalam penilaiannyapun cenderung besifat subyektif contohnya jika seorang guru mempunyai murid kesayangan maka nilai yang diberikan akan tinggi, atau jika dengan melihat tulisan yang jelek saja guru sudah enggan memerikasa sehingga nilai yang diperoleh siswa akan tidak memadai walaupun jawaban tersebut mencerminkan kompetensi siswa yang tinggi. Oleh karena itulah esay tes ini kurang reliabel dibandingkan multiple choice.

Dalam kaitannya dengan EBTANAS atau UMPTN dimana evaluasi yang dilakukan berguna untuk pengambilan keputusan maka evaluasi yang cocok digunakan adalah evaluasi sumatif. Untuk mengukur kemampuan siswa tes yang paling tepat digunakan adalah multiple choice, karena dalam tes multiple choice memberikan kemungkinan pemberian materi yang banyak, selain itu butir soal yang banyakpun tidak akan bermasalah. Pemberian materi serta butir soal yang banyak ini sangat diperlukan mengingat dalam evaluasi sumatif ini bertujuan untuk verifikasi apakah siswa akan lulus atau tidak lulus sehingga butir pertanyaan akan mencakup seluruh materi pelajaran yang sudah ditetapkan dalam kurikulum. Dalam evaluasi sumatif ini tidak perlu melihat kedalaman materi yang dikuasai siswa, yang terpenting bahwa siswa menguasai seluruh materi yang tercakup dalam kurikulum meskipun tidak secara mendalam karena respon yang harus diberikan pun terbatas, sehingga tidak membutuhkan pemikiran yang lebih meluas dan kreatif/divergen. Karena tes multiple choice membutuhkan pemikiran yang konvergen/menuju ke satu arah maka akan sangat sukar untuk mengukur cognitive pada level analisis, sintesis, dan evaluasi. Dalam penilaian, tes multiple choice akan lebih mudah dilakukan karena sudah terdapat kunci jawaban sehingga penilaian akan lebih bersifat obyektif dan dengan sendirinya akan lebih reliabel dibandingkan dengan essay tes.

Dalam kaitannya dengan kriteria penilaian, evaluasi formatif akan tepat menggunakan Criterion Refference dimana penilaian dilakukan tidak dengan membandingkan individu satu dengan individu lain dalam satu kelompok, tetapi mengukur kompetensi minimum anak dalam satu area tertentu. Contoh: jika seorang anak mampu mengerjakan 6 soal dari 10 soal, maka anak tersebut dapat menguasai materi sebanya 60 %. Dengan emikian anak tersebut dapat melanjutkan pembelajaran selanjutnya karena dianggap telah mencapai kompetensi minimum dalam pembelajaran tersebut. Tetapi seandainya anak hanya dapat mengerjakan 3 soal dari 10 soal yang ada, maka anak tersebut hanya menguasai 30 % saja dari materi pembelajaran tersebut, sehingga dianggap belum mempunyai kompetensi minimum dalam materi pembelajaran tersebut, sehingga perlu dilakukan program perbaikan/ remedial.

Untuk evaluasi sumatif, kriteria penilaian yang tepat adalah Norm Refference, dimana kedudukan siswa satu dibandingkan dengan siswa lain dalam kelas. Contoh : seorang anak dengan nilai 9 belum tentu merupakan anak yang terpintar dikelas, karena teman- teman dalam kelompoknya mendapat nilai 10 semua. Seperti dalam penerimaan mahasiswa melalui UMPTN kriteria yang digunakan adalah Norm Refference serta evaluasi yang digunakan adalah evaluasi sumatif. Karena yang dilakukan adalah menyeleksi saja maka tidak akan mencerminkan kompetensi siswa pada bidang/ fakultas yang dipilihnya.

Kriteria penilaian dengan menggunakan Criterion Refference dapat juga dilakukan untuk tes penempatan yaitu untuk mengukur prerequisit entry skill dimana sample mencakup prerequisit entry behavior dimana tes yang digunakan adalah tes yang mudah. Tes penempatan juga digunakan untuk menentukan entry performance pada tujuan kursus dengan cara menyeleksi sample yang representative pada tujuan kursus, disini tipe item yang digunakan lebih luas dan lebih sukar serta dengan menggunakan kriteria penilaian Norm Reference.
Dalam tes diagnostik kriteria penilaian yang digunakan adalah Criterion Refference. Jenis tes yang digunakan adalah tes obyektif dan tes essay dimana tujuannya adalah untuk menentukan kesukaran belajar sedangkan sample yang digunakan mencakup sampel tugas yang berdasar pada sumber kesalahan belajar.