Definisi Evaluasi Program Dan Pendekatan Evaluasi Program
Di dalam pendidikan, evaluasi program mengacu pada satuan aktivitas melibatkan mengumpulkan informasi tentang operasi dan efek kebijakan, program, curricula, kursus, dan perangkat lunak bidang pendidikan dan lain material intervi. Tentang arti penting adalah bahwa program evaluasi harus tidak dikacaukan dengan lain format pemeriksaan atau pengumpulan data yang dilaksanakan untuk tujuan berbeda.
Tiga hal membuat rancu program evaluasi adalah riset bidang pendidikan, tanggung-jawab, dan akreditasi dan belajar sendiri tinjauan ulang. Masing-Masing, bagaimanapun, dilaksanakan untuk suatu tujuan berbeda dibandingkan dengan evaluasi.
Riset Bidang pendidikan. Evaluasi dan riset bidang pendidikan dikacaukan sebab mereka adalah serupa banyak jalan. Kedua-Duanya adalah format tentang pemeriksaan untuk mengembangkan pengetahuan. Lebih lanjut, banyak evaluasi juga menggunakan instrumen pengukuran, yang merupakan penelitian alat pengumpulan data utama. Riset bidang pendidikan, bagaimanapun, berbeda dengan evaluasi. Pertama, tujuan yang utama daririset bidang pendidikan adalah untuk menguji prinsip atau teori yang mungkin generalizable ke seberang ruang dan waktu. sebagai contoh, prinsip bidang pendidikan tertentu untuk diuji mungkin. Apakah penguatan di (dalam) suatu pengaruh pengaturan akademis menggolongkan perilaku mau mendengarkan? Prosedur kemudian adalah yang diterapkan studi . seperti itu oleh peneliti dapat menyamaratakan penemuan di luar contoh dalam studi kepada populasi dari yang mana contoh telah terpilih.
Suatu karakteristik tentang riset bidang pendidikan adalah bahwa peneliti, tergantung pada area tertentu, menentukan sifat alami permasalahan untuk diselidiki. Keputusan ini dibuat konsisten dengan riset dan teori sekarang dalam area. Sebagai contoh, di area motivasi, attribution negara teori yang para guru pesan dalam berbagai jalan ke para siswa tentang tingkatan kemampuan/ wewenang mereka. Suatu peneliti, oleh karena itu, boleh memilih untuk menyelidiki efek prioritas kelas pada kemampuan/ wewenang anak-anak ( lihat Adalah& Pemanah, 1988: Elliott& Dweck, 1988).
Sepertiga karakteristik riset adalah bahwa metoda dan prosedur diterapkan sedemikian sehingga atau nilai-nilai individu pilihan tidak mempengaruhi hasil [itu]. Tujuan riset adalah untuk menentukan jika suatu bona fide mata rantai ada antar variabel mandiri yang dikenali, seperti penguatan dan yang dependent atau variabel hasil seperti kelompok perilaku mau mendengarkan.
Keempat, pendengar yang utama untuk riset adalah sering lain peneliti dan ahli teori dalam area pemeriksaan tertentu . Studi anak-anak di capai mengorientasikan dan penguasaan mengorientasikan kelas, sebagai contoh, menyediakan informasi pada [atas] jalan yang berbeda yang anak-anak bereaksi ke sukses dan kegagalan di kelas berbeda ( Adalah& Pemanah, 1988: Elliott& Dweck, 1988). Pengetahuan ini dari minat tertentu ke peneliti dan ahli teori di area motivasi dan attribution teori. Dengan kata lain, riset bidang pendidikan secara khas disiplin diorientasikan.
Berlawanan dengan riset bidang pendidikan, evaluasi tidak menguji teori atau prinsip generalizable. Sebagai gantinya, evaluasi tertentu pertanyaan tentang program spesifik. Seperti itu, evaluasi keputusan diorientasikan (dibanding/bukannya disiplin diorientasikan). Bagaimanapun, suatu bijaksana, sumur mengeksekusi evaluasi dapat menginformasikan penentu kebijaksanaan di lain pengaturan tentang kompleksitas isu dan macam tindakan alternatif.
Ke dua, evaluasi dilaksanakan untuk suatu klien, seperti pengawas sekolah, suatu status atau agen pemerintah pusat, dan seterusnya. Seperti itu, suatu penilai adalah lebih sedikit mandiri dibanding sarjana pengetahuan masyarakat yang khas (Cronbach& berhubungan, 1980, p. 203). Evaluasi adalah sering dipandu oleh kebutuhan informasi dan perhatian yang utama klien
Ketiga, nilai-nilai adalah suatu komponen evaluasi penting. Beberapa evaluasi spectives memelihara itu menentukan nilai atau harga program tertentu adalah suatu tujuan evaluasi utama. Lain perspektif memelihara pertanyaan arti penting tergantung sebagian besar pada nilai-nilai dan perhatian pesta berhubungan dengan program yang tertentu. Akhirnya, pendengar untuk suatu evaluasi adalah suatu dikenali satuan pembuat keputusan atau berbagai kelompok tertarik akan program.
Tanggung-Jawab. Perbedaan yang utama antara evaluasi dan tanggung-jawab adalah bahwa tujuan sistem tanggung-jawab secara khas adalah untuk menugaskan tanggung jawab untuk hasil antar suatu operator program ( Cronbach& berhubungan, 1980, p. 17). Tanggung-Jawab [dengan] begitu suatu ukuran mengendalikan. Perspektif ini adalah juga suatu terbatas pandangan pertimbangan untuk sukses program atau kegagalan.
Para manajer harus peristiwa lawan dapat dipertanggungjawabkan yang adalah tanggung jawab mereka. Sebagai contoh, manajer suatu sistem penyediaan air publik adalah bertanggung jawab untuk air yang berkwalitas kepada tingkat teknologi untuk memelihara air membebaskan diri dari; bebas dari pencemaran ada tersedia ( Cronbach& berhubungan, 1980, p. 135).
Penemuan tentang jasa kemasyarakatan, bagaimanapun, sering berpengaruh kompleks. Menasihati tujuan perkawinan, sebagai contoh, mungkin untuk memegang banyaknya separasi tentang klien nya untuk suatu minimum ( Cronbach& berhubungan, 1980). Bagaimanapun, berbagai pengaruh menentukan ya atau tidaknya sepasang terpisah. Oleh karena itu, menasihati harus tidak disalahkan suatu tingkat tinggi separasi ( p. 135). Walaupun evaluasi membantu ke pemahaman dalam mempertimbangkan untuk shortfalls, penggunaan evaluasi yang terbaik bukanlah untuk membawa tekanan pada pejabat publik untuk indeks yang mereka hanya dapat mempengaruhi secara parsial.
Akreditasi dan Diri- Tinjauan ulang Studi. Suatu fokus evaluasi program [yang] utama adalah untuk menentukan efek dari suatu intervensi pada [atas] penerima [itu]. Akreditasi, di (dalam) kontras, [yang] secara khas melibatkan tinjauan ulang dokumen untuk menentukan jika karakteristik status [yang] perspectified tertentu hadir. ( Sebagai contoh, apakah kursus syllabi tersedia] suatu penempatan tertentu untuk diteliti oleh siswa ? dan Apa yang jenis phisik fasilitas ada tersedia?). Hasil Siswa ( Hal positif Atau Hal negatif) tidaklah dianalisa dan program tidaklah diuji untuk menentukan tatacara di mana menghasilkan efek nya.
Dengan cara yang sama, belajar sendiri laporan tidak menilai efek bersifat rencana pada para siswa. Walaupun data tentang jumlah lulusan dan lain informasi mungkin tercakup di studi, efek program pada target menggolongkan bahwa dilayani tidaklah dipertimbangkan. Juga, belajar sendiri laporan secara khas dilaksanakan untuk penggunaan internal. Evaluasi, secara khas diselenggarakan untuk menginformasikan suatu kebijakan yang membuat kelompok atau orang lain tertarik akan program tertentu .
Evaluasi Program dalam pendidikan adalah suatu pemeriksaan sistematis yang dirancang untuk menyediakan informasi ke pembuat keputusan atau kelompok yang tertarik akan program tertentu , kebijakan, atau lain intervensi. Contoh adalah, adalah program [mengirim/bawa] [ketika;seperti] direncanakan? ( Provus, 1971). Siapakah program melayani? ( Cooley& Bickel, 1986). [Siapa] yang mengerjakan program bekerja? ( Cooley& Bickel, 1986). Apakah sistem kepercayaan guru yang meliputi keputusan tentang kemajuan siswa? ( Shepard& Tukang besi, 1985). Apa yang efek adalah program yang memakai para siswa? ( Cooley& Bickel, 1986). Apakah program menghasilkan efek samping tidak diharapkan? ( Cronbach& berhubungan, 1980). Apa yang diperlukan dalam perubahan bahan ajar ? ( Markle, 1967) dan seterusnya. Evaluasi juga nilai diorientasikan sebab pertimbangan tentang yang berharga atau nilai program adalah sering dibuat.
Evaluasi mungkin diselenggarakan pada beberapa tahap pengembangan program dan implementasi. " Suatu evaluasi mungkin suatu studi-panduan dari suatu awal versi suatu program atau mungkin saja suatu tinjauan ulang dari suatu operasi dengan tujuan, penghentian atau perubahan yang mungkin" ( Cronbach, 1982, p. 2).
Michael Scriven ( 1967) yang dibedakan dua peran evaluasi ini sumatif dan perkembangan. Ketika digunakan sebagai bagian dari proses pengembangan kurikulum atau guru diri peningkatan, sebagai contoh, peran adalah perkembangan ( p, 41). Contoh pertanyaan yang mungkin ditujukan evaluasi perkembangan adalah, apakah kurikulum dengan tegas mengkomunikasikan konsep dasar? dan adalah kurikulum yang bekerja dengan tenang terlalu banyak untuk membuat suatu titik penting? ( Scriven, 1967, p. 41). Pendekatan yang diterapkan oleh Ralph Tyler dalam yang Studi 8 Tahun adalah suatu contoh tentang evaluasi perkembangan.
Contoh yang lain tentang evaluasi perkembangan adalah program PPPK pada awal bab ini. Staff meninjau kembali bagian kursus dan menerapkan komponen itu dengan contoh yang mewakili para pekerja sampai kursus secara efektif yang diproduksi belajar 7 1/2 jam sebagai ganti 10 1/2 jam ( Markle, 1967).
Evaluasi sumatif dipandang oleh Scriven ( 1991) " yang dilaksanakan untuk atau oleh manapun peninjau atau pembuat keputusan siapa yang memerlukan kesimpulan evaluatif untuk manapun pertimbangan selain dari pengembangan" ( p, 20). Cronbach dan berhubungan ( 1980) jadilah lebih tegas/eksplisit yang mereka memandang evaluasi sumatif sesuai hanya secara baik menggambarkan intervensi tegas/eksplisit. Proyek Demonstrasi sekolah menengah alternatif untuk hilang-data pada awal bab ini adalah suatu contoh. dengan cara yang sama, contoh dewan sekolah mengawasi suatu evaluasi untuk menentukan ingatan taman kanak kanak atau efek adalah suatu kebijakan belajar itu adalah suatu evaluasi sumatif.
Bagaimana Pendekatan evaluasi program. Pendekatan evaluasi programini mengggunakan metode-metode khusus untuk menyelesaikan berbagai macam tugas dalam kegiatan program evaluasi. Melalui pemahaman anda terhadap pendekatan evaluasi akan membuat anda lebih mudah menggunakan metode-metode khusus ini.
Perkembangan ilmu program evaluasi sebagai salah satu disiplin ilmu dapat dihubungkan dengan komitmen penggunaan uang publik untuk menciptakan program-program evaluasi guna mengurangi masalah-masalah sosial, kesehatan, dan pendidikan. Dengan pertumbuhan program-program layanan masyarakat mulai dari Perang Dunia II sampai tahun 1960-an, pemerintah dan warganegara yang peduli mulai untuk meminta evaluasi database yang sistematis mengenai keuntungan program-program ini. Apakah program tersebut dapat memecahkan masalah? Apakah program tersebut senilai dengan usaha yang telah dikeluarkan? Apakah seluruh hasilnya menguntungkan?
Untuk menjawab pertanyaan-pertanyaan ini, sejumlah ilmuwan keperilakuan ditugaskan untuk menyempurnakan metode-metode ini yang dapat digunakan untuk menyediakan bukti nyata tentang nilai eksperimen-eksperimen sosial. Pada tahun 1960-an banyak dikeluarkan pekerjaan-pekerjaan yang menambah disiplin evaluasi dan menciptakan kosakata baru untuknya. Misalnya, monograf Campbell dan Stanley(1963) tentang desain riset eksperimental dan quasi-eksperimental, telah menjadi dasar pelaksanaan evaluasi. Pada tahun 1967, Scriven memperkenalkan konsep evaluasi “formatif” dan “sumatif” dan menghasilkan sebuah perspektif baru pada tujuan riset evaluasi. Donabedian (1969), membicarakan tentang menilai kualitas perawatan kesehatan, menambahkan ide tentang struktur, proses, dan hasil untuk kumpulan konseptual evaluator.
Pada tahun 1970-an dan 1980-an teori-teori baru dan pemahaman tentang pelaksanaan menumbuhkan dan mengembangkan lebih jauh program evaluasi sosial (Caro, 1970; Weiss, 1972; Gutentag and Struening, 1975; Fink and Kosecoff,1978; Cronbach et al., 1980; Rossi and Freeman, 1982).
Mengingat pentingnya evaluasi, kebanyakan dari badan-badan pemerintah federal menetapkan bahwa suatu komponen evaluasi disertakan dalam rencana program pelayanan masyarakat. The Office of Education, the National Institute of Education, the General Accounting Office, the National Institute of Mental Health, the National Cancer Institute, serta berbagai macam organisasi profesional juga telah mensponsori persiapan evaluasi standar dan garis-garis besarnya. Meskipun begitu, perdebatan akan pentingnya evaluasi dan riset evaluasi belum juga berakhir dan terus berlanjut. Apakah metode dan data kualitatif atau kuantitatif yang harus digunakan (Patton, 1980)? Apakah riset evaluasi sudah ketinggalan jaman ( Dunn et al, 1981)?
Perdebatan dan pertanyaan cenderung lebih sering muncul daripada ratusan studi evaluasi yang telah dilaksanakan dengan hasil-hasil yang bermanfaat. Namun kita percaya bahwa jawaban-jawaban dari pertanyaan tersebut mungkin juga tergantung pada keyakinan seseorang tentang perluasan dimana masyarakat bersedia membuat keputusan-keputusan tentang permasalahannya dengan mengandalkan data yang diperoleh secara sistematis (daripada hanya mengandalkan intuisi murni atau pelaksanaan pada masa lalu) serta kemampuan evaluasi guna menyediakan informasi yang dibutuhkan untuk masyarakat. Posisi kita ialah bahwa evaluasi adalah lebih dari sekedar hanya mampu menghasilkan informasi yang valid saja, tetapi pada sejumlah program dan kebijakan yang tiada terbilang dalam kesehatan, pendidikan, hukum dan pelayanan sosial lainnya telah berubah karenanya.
Siapa Yang Melaksanakan Evaluasi? Evaluasi adalah sekumpulan prosedur untuk menaksir keuntungan sebuah program serta untuk menyediakan informasi tentang tujuannya, harapan, aktifitas, hasil, akibat-akibat, dan biaya. Evaluasi dilaksanakan karena kelompok-kelompok atau perorangan ingin mengetahui tentang kemajuan sebuah program dan/atau efek keefektifannya. Dewan Pimpinan Yayasan Filantropis contohnya, dapat saja menanyakan sebagai satu syarat untuk dukungan mereka kalau bukti-bukti dapat ditunjukkan bahwa program pendidikan kesehatan benar dapat mengubah pengetahuan dan perilaku anak dalam cara yang menguntungkan, meskipun dalam program ini para guru hanya menginginkan data tentang sebaik mana murid-murid mereka menunjukkan keseriusan pada pelajaran-pelajaran tertentu. Evaluasi juga dimaksudkan untuk memiliki kesignifikanan yaitu bahwa evaluasi menghasilkan informasi yang bermanfaat, walaupun maksud-maksud lain seperti kebutuhan sosial dan tersedianya dana serta staf yang terlatih, dapat juga berpengaruh dalam membantu dan menentukan jalannya sebuah program.
Karena evaluasi data diperkirakan memperoleh nilainya dari kegunaan untuk program para pengembang, sponsor, serta konsumen masa mendatang, jarang studi-studi evaluasi yang dilaksanakan untuk tujuan primer yaitu untuk mengembangkan pengetahuan baru pada satu bidang (tujuan utama dari riset sosial sejenis lainnya). Akan sangat berbeda bagi para sponsor sebuah evaluasi program pendidikan kesehatan, misalnya, untuk mendukung satu studi yang tujuan dasarnya ialah untuk menguji hipotesis-hipotesis tentang belajar dan mengajar ketimbang untuk menjelaskan dan menilai efek-efek dari partisipasi program.
Evaluasi dapat membuat beberapa kontribusi ilmiah dan juga evaluasi dapat menambah jumlah pengetahuan tentang proram-program inovatif. Kenyataannya, maksud utama riset evaluasi adalah satu program atau usaha yang sistematis untuk mencapai beberapa harapan dan mengubah perilaku, sikap, dan pemikiran, riset sejenis lainnya biasanya tidak memikirkan tentang program-program, tetapi malahan berkonsentrasi pada masalah, pokok-pokok persoalan, atau teori-teori. Walaupun begitu, garis pembatas antara evaluasi dan riset sejenis lainnya kadang menjadi kabur. Sebuah studi yang memfokuskan pada penyediaan data tentang keuntungan sebuah program atau nilai untuk menjelaskan kembali perorangan atau badan-badan tampaknya adalah riset evaluasi.
Masyarakat pendengar untuk evaluasi dan riset sosial terapan yang sejenis lainnya juga berbeda. Sejak evaluasi memfokuskan pada penetapan data tentang program-program, para pengguna informasi evaluasi cenderung terlibat secara langsung dengan program itu sendiri atau dengan intervensi-intervensi lainnya yang dengan suatu cara serupa, atau mereka peduli dengan kesejahteraan sosial yang seharusnya dipromosikan oleh program tersebut. Bagaimanapun juga para pengguna temuan-temuan riset cenderung memiliki latar belakang dan keinginan yang lebih luas serta terlepas dari seluruh keilmiahan dan komunitas yang ada. Dikarenakan oleh masyarakat pendengarnya yang terbatas, evaluasi jarang diumumkan; oleh sebab itu, masyarakat pendengarnya pun tetap terbatas.
Evaluasi-evaluasi yang tepat secara ilmiah menggunakan standar yang sama untuk menyeleksi metode-metodenya layaknya riset studi terapan lainnya. Sangat disayangkan, evaluasi tidaklah selalu mencapai tingkat ciri-ciri teknis yang tinggi yang banyak menyokongnya, satu kondisi yang sering sangat disesalkan oleh para evaluator. Hal ini benar-benar nyata dari program-program kecil yang sumber-sumber finansialnya sangat terbatas, atau ketika kebutuhan informasi sangatlah mendesak, tidak menyisakan waktu untuk investigasi-investigasi intensif.
Contohnya, permasalahan tentang desain riset. Walaupun secara keseluruhan dinyatakan sebagai studi evaluasi yang terkuat dengan perbandingan setidaknya diantara dua kelompok ( dimana satu kelompok telah menerima program inovatif atau layanan sementara yang satunya lagi tidak), salah satu dari masalah yang terus dihadapi oleh para evaluator adalah kesukaran mengendalikan kelompok-kelompok. Pengalaman telah menunjukkan bahwa menemukan kelompok pengendali (misalnya, program pendidikan kesehatan yang kedua yang tujuan-tujuannya mirip dengan yang sedang dievaluasi) sangatlah sulit. Dan juga, kelompok-kelompok perbandingan terbaik untuk studi-studi evaluasi adalah kelompok yang terdiri secara acak. Tapi masalah pengacakan ( contoh; bagaimana untuk membuat para siswa dalam program pendidikan A pada sekolah X untuk tetap berbicara dengan para siswa dalam program B dari sekolah yang sama, dengan begitu mencampur efek-efek dari tiap program) kadang-kadang hampir tidak mungkin untuk diatasi.
Masalah lainnya yang dapat muncul melalui studi-studi evaluasi yang sangat teliti adalah relatif tidak tersedianya instrumen yang valid dan dapat diandalkan untuk mengukur perubahan-perubahan perilaku, sikap, dan pengetahuan. Pengukuran persepsi yang baik, sikap, dan nilai-nilai, contohnya, sangatlah sulit ditemukan dan walaupun mungkin untuk mengembangkannya, prosesnya yang menghasilkan ukuran valid dan memerlukan sejumlah ahli psikometri, waktu, dan dana, sering semuanya tidaklah tersedia.
Bagaimana Pendekatan Aktifitas Evaluasi Program? Walaupun terdapat kesulitan-kesulitan tersebut, evaluasi yang kredibel lebih dari memungkinkan. Dalam beberapa dekade terakhir teknologi untuk melaksanakannya telah menjadi sangat rumit serta relatif dapat dicapai. Biasanya evaluasi terdiri dari lima aktifitas utama: (1) bagaimana memformulasikan pertanyaan dan standar, (2) bagaimana menyelidiki desain dan prosedur sampling, (3) bagaimana mengumpulkan informasi, (4) bagaimana menganalisa informasi, dan (5) bagaimana menetapkan informasi.
1. Bagaimana Merumuskan Pertanyaan dan Standar?
Pertanyaan-pertanyaan evaluasi merupakan fokus dari setiap evaluasi yang teliti manapun. Evaluasi tersebut menjelaskan kebutuhan konsumen serta menetapkan batasan studi. Beberapa pertanyaan evaluasi yang khas ialah :
§ Sebagus apa program tersebut mencapai tujuannya, harapan, atau pengharapan?
§ Apakah aktifitas-aktifitas program telah diimplementasikan sesuai rencana?
§ Pada kelompok manakah program tersebut paling /tidak berhasil?
§ Efek sosial dan politik apa yang dimiliki oleh program tersebut?
§ Berapakah biaya untuk program tersebut?
Pertanyaan-pertanyaan evaluasi seharusnya bukan pertanyaan evaluator, melainkan datang dari mereka yang meminta evaluasi ini atau mereka yang harus menggunakan informasi evaluasi. Dalam beberapa kasus, setuju dengan pertanyaan relatif mudah; namun dilain kasus; lebih sulit. Dalam beberapa hal, pertanyaan dapat dipilih jauh sebelum evaluasi, misalnya pada perencanaan program. Ketika hal ini terjadi, evaluator harus memeriksa untuk memastikan bahwa pertanyaan-pertanyaan masih penting dan tidak perlu untuk menambah yang baru. Biasanya, pertanyaan evaluasi dimandatkan dari hukum. Untuk memastikan pertanyaan evaluasi yang valid, evaluator harus mengenali programnya, sponsor-sponsornya, dan para partisipannya serta menyertakan mereka dalam proses merumuskan pertanyaan kapanpun bila memungkinkan.
Mengatur standar-standar evaluasi berarti memutuskan informasi jenis apa yang akan disediakan untuk mendukung bukti kesuksesan sebuah program. Sebuah program biasanya dianggap berhasil bila jawaban-jawaban dari pertanyaan evaluasi adalah positif maksudnya tujuan-tujuan, harapan, atau pengharapan telah diraih dan aktifitas-aktifitas diimplementasikan sesuai rencana dengan hasil yang ekonomis dan menguntungkan.
Standar evaluasi juga dapat diatur dengan mengukur kemajuan standar-standar yang berdasarkan kemajuan relatif mudah dimengerti dan dihitung, tetapi kadang-kadang sulit untuk memutuskan seberapa banyak kemajuan berarti?
Akhirnya, evaluator dapat menggunakan pelaksanaan atau norma-norma yang tidak diragukan lagi. Pelaksanaan yang tidak diragukan lagi sangat mudah untuk memahami bukti-bukti keuntungan program, tapi dengan mengandalkannya terkadang berarti mengabaikan variasi regional dalam kebutuhan, biaya dan sumber-sumber. Juga terdapat kemungkinan bahwa standar-standar menjadi tidak berarti untuk program tertentu dan kadang-kadang data normatif tidaklah tersedia.
2. Baiamana Menyeleksi Desain dan Prosedur
Sampling?
Sebuah rancangan menjelaskan bagaimana untuk mengelompokkan orang-orang untuk menjawab pertanyaan evaluasi. Kadang rancangan tunggal dapat digunakan untuk menjawab sekuruhpertanyaan dalam satu evaluasi; kadang, dibutuhkan beberapa rancangan. Sebuah contoh klasik strategi rancangan adalah rancangan yang para partisipannya dipisahkan menjadi dua kelompok: satu kelompok diberikan program eksperimental, dan grup yang satunya lagi, program Placebo.
Para evaluator menggunakan validitas eksternal dan internal sebagai kriteria untuk menentukan seberapa akurat strategi rancangan akan menjawab pertanyaan evaluasi. Ketika satu rancangan memiliki validitas internal, memungkinkan untuk membedakan antara perubahan yang disebabkan oleh program yang dievaluasi dengan perubahan karena penyebab-penyebab lain. Bila satu evaluasi membandingkan dua program untuk orang tua, misalnya, sulit untuk mengatakan apakah variasi-variasi dalam tingkat pemenuhan dengan aturan konsumsi obat pertahun dikarenakan oleh program atau karena perbedaan-perbedaan yang telah ada diantara orang-orang, dengan beberapa diantaranya menjadi lebih koperatif seluruhnya daripada yang lain. Rancangan semacam itu mungkin kekurangan validitas internal.
Validitas eksternal mengukur apakah temuan-temuan sebuah evaluasi akan menjunjung kebenaran untuk orang lain di lain tempat. Bila para partisipan menunjukkan respon lebih baik itu hanya karena mereka yang telah mengambil bagian dalam sebuah program yang inovatif (The Hawthorne Effect), evaluasi tersebut mungkin kekurangan validitas eksternal.
Seluruh rancangan harus valid secara internal. Validitas eksternal penting hanya ketika temuan-temuan sebuah evaluasi akan diterapkan kepada masyarakat atau kepada pengaturan-pengaturan yang tidak disertakan dalam evaluasi, atau ketika temuan-temuan yang berdasarkan pada para partisipan yang ada akan digunakan untuk membuat keputusan yang akan mempengatuhi para partisipan di masa mendatang.
3. Bagaimana Mengumpulkan Informasi?
Pengumpulan informasi-evaluasi adalah sekumpulan tugas yang juga termasuk mengidentifikasikan apa yang akan diukur (variabel tergantung); menyeleksi, mengadaptasi, atau mengembangkansatu strategi atau instrumen-instrumen untuk pengukuran; melaksanakan pengukuran-pengukuran tersebut; serta menilai dan menginterpretasikan hasilnya. Inti dari usaha pengumpulan data ini ialah untuk mendapatkan infformasi yang valid dan dapat dipercaya. Data yang dapat dipercaya konsisten sepanjang masa, sementara data valid juga akurat dan benar-benar mencerminkan konsep, ide, atau tujuan yang sedang dievaluasi. Banyak dari orang-orang yang diharapkan untuk memberi hasil dari program-program sosial telah terbukti sulit untuk menjelaskan atau mengukur. Sebagai contoh, bagaiman seseorang dapat mengerti sikap, nilai-nilai, perasaan atau harapan dari perorangan atau sebuah kelompok? Juga, apa yang dapat menunjukkan bukti-bukti valid bahwa sebuah program menghasilkan dokter, guru, pengacara, ataupun warganegara yang baik? Pengumpulan informasi juga menimbulkan masalah etika. Misalnya, kapan ketika pengukuran menjadi serba ingin tahu?
Walaupunmasalahnya seperti itu, para evaluator memiliki sederatan instrumen dan strategi untuk mengumpulkan data. Yaitu termasuk kuesioner, observasi, wawancara, tes peraihan tertulis atau tes kompetisi, tes-tes performa, tinjauan rekaman, dan catatan harian.
4. Bagaimana Menganalisis Informasi?
Analisis data merupakan cara yang dipakai evaluator untuk menggambarkan dan menjelaskan informasi. Tehnik-tehnik analitik untuk evaluasi berkisar dari metode-metode percobaan statistik para psikolog dan para epidemiolog sampai metode-metode ilmiah para sejarahwan dan para antropolog. Semuanya mencoba untuk menggambarkan informasi evaluasi dengan perhitungan angka atau perhitungan frekuensi, pembagian, rata-rata, serta perhitungan variasi dan range. Mereka juga menjelaskan informasi dengan membandingkan kelompok-kelompok, mengidentifikasi pola dan tren, dan membuat hubungan antara variabel-variabel.
Pertanyaan-pertanyaan evaluasi merupakan panduan evaluator dalam menyeleksi sebuah tehnik analitik yang sesuai dengan satu studi khusus. Sebagai contoh, perhatikanlah contoh-contoh berikut:
§ Bagaimana program XYZ berbeda dari program ABC dalam mempromosikan kebiasaan hidup sehat pada anak-anak?
§ Bagaimana program XYZ berbeda dari program RST dalam mempromosikan kebiasaan hidup sehat anak-anak, mendukung campur tangan orangtua, serta mendapatkan persetujuan guru?
§ Apakah terdapat hubungan antara kesamaan lahir dan keberhasilan dalam program XYZ?
Dua pertanyaan pertama meminta evaluator untuk menjelaskan perbedaan-perbedaan antar program. Pertanyaan pertama hanya menanyakan tentang kebiasaan hidup sehat, sementara pertanyaan kedua juga menyertakan variabel-variabel lain. Diperlukan tehnikanalitik yang berbeda untuk menjawab dua pertanyaan ini (mungkin pada tes untuk pertanyaan yang pertama dan analisis varian yang bermultivariasi untuk yang kedua). Pertanyaan evaluasi yang ketiga menanyakan tentang hubungan, yang memerlukan tehnik analitik seperti korelasi, yang memfokuskan pada asosiasi antar variabel.
5. Bagaimana Melaporkan Informasi?
Laporan informasi bisa sangat informal (pembicaraan dengan PTA selama 15 menit) atau formal (laporan tertulis tentang metode dan temuan-temuan evaluasi). Diantara tugas-tugas tersulit yang dihadapi oleh sebagian besar evaluator ialah menjelaskan apakah yang mereka lakukan terhadap seseorang yang masih mensejajarkan evaluasi dengan penilaian yang berubah-ubah atau omong kosong ilmu sosial sementara itu di saat yang sama, menunjukkan ciri-ciri tehnis dari metode-metode mereka dan objektifitas observasi-observasi mereka kepada orang lain.
Satu masalah tambahan ialah variasi dalam jenis-jenis laporan yang diminta dari para evaluator. Tidaklah tidak biasa untuk para evaluator membuat baik tulisan akhir dan laporan-laporan program untuk sponsor studi dengan hanya tabel-tabel, diagram, dan rangkuman untuk masyarakat yang mamiliki harapan dan keinginan yang berbeda dalam program, bila semuanya dilakukan dalam waktu yang sangat singkat.
Mungkin sangat baik bagi evaluator mempersiapkan pada hampir setiap saat untuk menjelaskan dan meluruskan:
§ Pertanyaan-pertanyaan evaluasi dan batasan jangkauan evaluasi;
§ Strategi rancangannya, prosedur sampling, serta keterbatasannya untuk tiap-tiap pertanyaan evaluasi;
§ Tehnik dan instrumen pengumpulan informasi dan keterbatasannya;
§ Bagaimana data dikumpulkan dan serahasia apa pengamatannya;
§ Metode-metode yang digunakan untuk menganalisa informasi evaluasi, keterbatasannya, dan hasilnya untuk tiap analisis;
§ Jawaban dari tiap pertanyaan evaluasi termasuk satu interpretasi dari temuan-temuannya serta daftar rekomendasi; dan
§ Detail-detail administratif seperti jadual, penugasan staf, serta biaya-biaya.