Penelitian terbaru yang dilakukan oleh Suwarto, Farida Nugrahani, dan Singgih Subiyantoro dari Universitas Veteran Bangun Nusantara pada 2026 mengungkap bahwa tes Sejarah Perjuangan Bangsa Indonesia yang digunakan dalam evaluasi pendidikan cenderung terlalu mudah bagi peserta. Studi yang dipublikasikan di International Journal of Applied Research and Sustainable Sciences (IJARSS) ini menjadi penting karena menunjukkan bahwa instrumen evaluasi sejarah belum sepenuhnya mampu mengukur kemampuan peserta secara proporsional dan objektif.
Penelitian ini berangkat dari kekhawatiran bahwa pemahaman generasi muda terhadap sejarah nasional sering kali hanya diukur secara administratif, tanpa memastikan kedalaman pemahaman nilai-nilai kebangsaan. Dalam konteks globalisasi yang semakin mengaburkan identitas budaya, kualitas tes sejarah menjadi krusial untuk menjaga kesadaran nasional. Namun, banyak instrumen evaluasi yang belum diuji secara mendalam dari sisi kualitas soal dan kemampuan membedakan tingkat pemahaman peserta.
Untuk menjawab masalah tersebut, tim peneliti menganalisis karakteristik psikometrik tes sejarah menggunakan pendekatan Rasch Model, sebuah metode statistik yang mampu mengukur tingkat kesulitan soal dan kemampuan peserta dalam satu skala yang sama. Penelitian melibatkan 200 responden mahasiswa dari wilayah transisi perkotaan dan pedesaan, yang dipilih untuk merepresentasikan perbedaan latar belakang pendidikan dan akses informasi.
Metodologi penelitian dilakukan dengan menganalisis jawaban peserta terhadap soal pilihan ganda sejarah nasional, mulai dari masa kebangkitan nasional hingga kemerdekaan. Data kemudian diolah menggunakan program Quest untuk menguji reliabilitas, validitas, serta kesesuaian setiap butir soal terhadap model pengukuran.
Hasil penelitian menunjukkan bahwa secara umum kualitas instrumen tergolong baik. Nilai person reliability mencapai 0,92 (sangat baik), sementara item reliability sebesar 0,87 (baik). Artinya, tes ini cukup konsisten dalam mengukur kemampuan peserta dan memiliki struktur soal yang relatif stabil.
Namun, temuan utama penelitian justru mengungkap adanya ketidakseimbangan antara tingkat kemampuan peserta dan tingkat kesulitan soal. Rata-rata kemampuan peserta berada di angka 1,47 logit, jauh di atas rata-rata tingkat kesulitan soal yang berada di 0,00 logit. Dengan kata lain, mayoritas soal dinilai terlalu mudah bagi responden.
Selain itu, analisis juga menemukan bahwa hanya 12 dari 30 soal yang benar-benar sesuai dengan model pengukuran (fit), sementara 18 soal lainnya menunjukkan pola jawaban yang tidak konsisten atau disebut misfit. Soal-soal ini berpotensi tidak mengukur kemampuan yang sama atau mengandung ambiguitas, sehingga dapat menurunkan akurasi hasil evaluasi.
Visualisasi melalui Wright Map (peta variabel) memperkuat temuan tersebut. Diagram ini menunjukkan adanya kesenjangan distribusi antara tingkat kemampuan peserta dan tingkat kesulitan soal. Sebagian besar soal terkonsentrasi pada tingkat kesulitan tertentu, sementara tidak cukup banyak soal untuk mengukur peserta dengan kemampuan sangat rendah atau sangat tinggi. Hal ini membuat tes kurang sensitif dalam membedakan spektrum kemampuan secara menyeluruh.
Peneliti juga mencatat bahwa latar belakang responden dari wilayah transisi kota-desa turut memengaruhi hasil. Perbedaan akses informasi dan kualitas pendidikan dapat menyebabkan variasi cara peserta memahami soal. Dalam beberapa kasus, hal ini memunculkan fenomena misfit karena peserta dengan kemampuan setara memberikan jawaban berbeda akibat perbedaan konteks sosial dan pendidikan.
Suwarto dari Universitas Veteran Bangun Nusantara menegaskan bahwa temuan ini penting bagi pengembangan sistem evaluasi pendidikan. Ia menyebut bahwa tes sejarah seharusnya tidak hanya mengukur hafalan fakta, tetapi juga kemampuan berpikir historis dan pemahaman nilai perjuangan bangsa. Tanpa instrumen yang tepat, hasil evaluasi berisiko tidak mencerminkan kemampuan sebenarnya.
Implikasi penelitian ini cukup luas. Bagi dunia pendidikan, hasil ini menunjukkan perlunya revisi dan pengembangan soal yang lebih menantang dan bervariasi. Guru dan penyusun kurikulum didorong untuk menyusun bank soal yang mampu mengukur berbagai tingkat kemampuan siswa, termasuk kemampuan analitis dan reflektif.
Bagi pembuat kebijakan, penelitian ini menjadi sinyal bahwa standar evaluasi nasional perlu diperkuat dengan pendekatan berbasis data dan analisis modern seperti Rasch Model. Sementara bagi dunia akademik, penelitian ini membuka peluang studi lanjutan, termasuk analisis bias soal antara siswa perkotaan dan pedesaan, serta pengaruh literasi digital terhadap pemahaman sejarah.
Tim peneliti merekomendasikan beberapa langkah konkret, antara lain:
- merevisi atau menghapus soal yang tidak sesuai model
- menambah soal dengan tingkat kesulitan beragam
- mengembangkan instrumen evaluasi adaptif
- melakukan penelitian lanjutan terkait bias dan kesenjangan pendidikan

0 Komentar