علم التقييم · منهجية التعلم والتطوير

فترتا القياس
تُغير

تصميم البحث قبل وبعد، نموذج كيركباتريك، منهجية العائد على الاستثمار ، قراءة لمدة 10 دقائق

يُخبرك قياس واحد بموقعك الحالي. أما قياسان - يفصل بينهما وقت كافٍ وتدخل مُوجّه - فيُخبرانك ما إذا كان قد طرأ أي تغيير فعلي، وبأي مقدار، ولماذا. هذا التمييز ليس مجرد اختلاف في المصطلحات، بل هو الفرق بين الدليل والافتراض، بين البرهان والاعتقاد. إنه الأساس العلمي لتصميم PDA ذي المرحلتين.

المشكلة الأساسية: لا يمكنك قياس التغيير بدون نقطة بداية

يبدو هذا الكلام بديهيًا. ومع ذلك، فإن الغالبية العظمى من برامج التعلم والتطوير، وجلسات التدريب، والتدخلات التنظيمية تُصمم وتُنفذ وتُقيّم دون وجود خط أساس. تُعقد ورشة عمل، ويُجيب المشاركون على استبيان رضا، ويتلقى الميسر ردود فعل إيجابية، وتخلص المنظمة إلى أن البرنامج كان ناجحًا. لا يُعد أي من هذا قياسًا للتغيير، لأنه بدون خط أساس، لا توجد نقطة مرجعية لمقارنة الوضع بعد التدخل.

لا تكمن المشكلة في عدم اكتراث المؤسسات بالنتائج، فمعظمها يهتم بها. تكمن المشكلة في أن وضع أساس متين يتطلب استثمارًا في الوقت والمنهجية والانضباط اللازم للقياس قبل التدخل وليس بعده فقط. تاريخيًا، كانت الأدوات اللازمة للقيام بذلك بدقة مكلفة وبطيئة ومتخصصة. والنتيجة: بنى قطاع التدريب والتطوير ثقافة كاملة لتقييم البرامج تقيس الرضا (وهو أمر سهل) بدلًا من قياس التغيير السلوكي (وهو أمر صعب).

89%
لا يستطيع العديد من قادة التعلم والتطوير إثبات عائد الاستثمار للبرنامج لمجلس إدارتهم السبب الرئيسي هو غياب القياس المسبق. فبدون خط أساس للمرحلة الأولى، يصبح تقييم المستوى الثالث والرابع (كيركباتريك) مستحيلاً من الناحية الهيكلية، بغض النظر عن مدى جودة تصميم البرنامج أو تنفيذه.
تقرير اتجاهات رأس المال البشري الصادر عن هارفارد بزنس ريفيو / ديلويت؛ انظر أيضًا فيليبس، جيه جيه (1997)

ستون عامًا من علم التقييم: تصميم البحث قبل وبعد

في عام 1963، نشر دونالد كامبل وجوليان ستانلي بعنوان "التصاميم التجريبية وشبه التجريبية للبحث" ، والذي أصبح بمثابة النص التأسيسي لمنهجية التقييم. وقد وضع كامبل وستانلي تسلسلًا هرميًا لتصاميم البحث بناءً على قدرتها على إنتاج استدلالات سببية صحيحة: لتحديد ليس فقط ما إذا كان شيء ما قد تغير، بل ما إذا كان التدخل قد تسبب في هذا التغيير.

في قمة هرمها، كان التصميم التجريبي الحقيقي: التوزيع العشوائي، ومجموعة الضبط، والقياس القبلي، والقياس البعدي. وأسفل ذلك، كانت هناك سلسلة من التصاميم شبه التجريبية للبيئات الواقعية حيث يستحيل التوزيع العشوائي الحقيقي. وفي أسفل الهرم - والمحدد صراحةً على أنه غير قادر على دعم الاستدلال السببي - كان تصميم الاختبار البعدي فقط: قياس النتائج بعد التدخل دون وجود خط أساس قبلي.

يُعدّ تصميم الاختبار اللاحق فقط، من الناحية الهيكلية، الشكل السائد لمعظم تقييمات التعلم والتطوير اليوم. حيث يُقيّم المشاركون بعد انتهاء البرنامج، وتُفسّر النتائج كدليل على أثر البرنامج. وقد بيّن كامبل وستانلي، منذ أكثر من 60 عامًا، سبب عدم صحة هذا الاستنتاج: فبدون خط أساس، قد تعكس نتيجة ما بعد البرنامج قدرات موجودة مسبقًا، أو نضجًا طبيعيًا، أو أحداثًا تاريخية، أو أي عدد من العوامل الأخرى غير المرتبطة بالبرنامج نفسه.

"إن المشكلة الأساسية في تقييم البرامج ليست في القياس، بل في غياب الوضع الافتراضي. فبدون معرفة نقطة انطلاق المشاركين، لا يمكننا معرفة إلى أين أوصلهم البرنامج."
كامبل، دي تي وستانلي، جي سي (1963)، التصاميم التجريبية وشبه التجريبية للبحوث

إطار كيركباتريك-فيليبس: لماذا يتطلب المستويان 3 و4 نقطتين زمنيتين

لا يزال نموذج التقييم ذو المستويات الأربعة لدونالد كيركباتريك، الذي نُشر لأول مرة عام 1959، الإطار الأكثر استخدامًا لتقييم التعلم والتطوير في العالم. تقيس المستويات الأربعة رد الفعل (رضا المشاركين)، والتعلم (اكتساب المعرفة)، والسلوك (نقل المعرفة إلى مكان العمل)، والنتائج (الأثر التنظيمي).

يمكن قياس المستويين 1 و2 في لحظة واحدة، مباشرةً بعد البرنامج. أما المستويان 3 و4 فلا يمكن قياسهما - بحكم التعريف. يتطلب تغيير السلوك وقتًا ليظهر، ويتطلب نقطة مقارنة. تتطلب النتائج مرجعًا لقياس التحسن. تتطلب منهجية جاك فيليبس اللاحقة لقياس العائد على الاستثمار، والتي تضيف مستوى خامسًا (العائد على الاستثمار)، نفس بنية ما قبل وما بعد التي تتطلبها المستويان 3 و4 لكيركباتريك.

المرحلة الأولى - التأثير
القياس الأساسي
يحدد نقطة البداية الكمية عبر جميع الأبعاد التشخيصية. وهو يعادل التقييم المسبق من المستوى الثاني وفقًا لتصنيف كيركباتريك.
4-6 أشهر
المرحلة الثانية - دلتا
قياس التغيير
يحدد هذا البرنامج مقدار الفرق مقارنةً بالخط الأساسي للمرحلة الأولى. ويتيح حساب عائد الاستثمار وفقًا لمستوى كيركباتريك 3-4 ومستوى فيليبس.

يُعدّ تصميم PDA ذو المرحلتين تطبيقًا هيكليًا لقاعدة الأدلة هذه التي تمتد لستين عامًا. تُحدد المرحلة الأولى (الأثر) خط الأساس - نقطة البداية الكمية عبر جميع أبعاد التشخيص. أما المرحلة الثانية (الفرق) فتقيس الأبعاد نفسها بعد التدخلات المُستهدفة وتحسب الفرق الإحصائي. والنتيجة هي ما تتطلبه مستويات كيركباتريك 3 و4: قياس صحيح، مُفصّل زمنيًا، وقابل للمقارنة للتغيير.

مشكلة الانحدار نحو المتوسط

ثمة سبب ثانٍ، أقل فهماً على نطاق واسع، يجعل القياسات أحادية النقطة مضللة: وهو الانحدار نحو المتوسط. وقد حدد فرانسيس غالتون هذا المفهوم لأول مرة عام 1886، وتمت صياغته في النظرية الإحصائية، ويصف الانحدار نحو المتوسط ​​ميل القياسات المتطرفة إلى التحرك نحو المتوسط ​​في القياسات اللاحقة، بغض النظر عن أي تدخل.

عمليًا: إذا كان الفريق يمر بفترة ضغط حاد عند قياسه، فستكون درجاته على مؤشرات الضغط مرتفعة. وإذا أُعيد قياسه بعد ستة أشهر - سواءً مع أي تدخل أو بدونه - فستكون درجاته عادةً أقل، ببساطة لأن حالات الضغط الحاد لا تدوم إلى الأبد. المدرب الذي يتدخل بعد قياس ضغط مرتفع ويُبلغ عن تحسن بعد ستة أشهر قد يكون يلاحظ عودة طبيعية إلى المتوسط ​​بدلًا من تأثير تدريبه.

الطريقة الوحيدة للتمييز بين تأثيرات التدخل الحقيقية والعودة الطبيعية إلى المتوسط ​​هي مقارنة معدل التغير بمعيار مُعتمد، أو استخدام تصميم ضمن الأفراد يتتبع نمط التغير عبر نقاط زمنية متعددة. تعالج منهجية PDA ذات المرحلتين هذه المشكلة من خلال وضع خط أساس مُعدَّل حسب السكان في المرحلة الأولى، وقياس التغير (DELTA) مقابل هذا المرجع المُعدَّل في المرحلة الثانية، مما يفصل إشارة التحسن الحقيقي عن ضوضاء التقلبات الطبيعية.

فترة الأربعة إلى ستة أشهر: لماذا يُعدّ التوقيت مهماً؟

إن الفترة الزمنية التي تتراوح بين 4 و 6 أشهر بين المرحلة الأولى والمرحلة الثانية ليست عشوائية، بل تعكس تقارب عدة خطوط بحثية مستقلة حول الأطر الزمنية للتغيير السلوكي والتنظيمي ذي المغزى.

تُعدّ الفترة الزمنية التي تتراوح بين 4 و6 أشهر مثاليةً لنضج التدخل مع تقليل عوامل التداخل. فهي طويلة بما يكفي لظهور تغيير حقيقي، وقصيرة بما يكفي للحفاظ على إسناد السببية إلى البرنامج.

ما لا تستطيع البرامج ذات المرحلة الواحدة إثباته

إن عواقب غياب قياس المرحلة الثانية ليست نظرية، بل هي واقع يومي يواجهه المدربون ومختصو الموارد البشرية الذين يقدمون برامج ممتازة، لكنهم يعجزون عن تبرير قيمتها عند مناقشة تجديدها. فبدون بيانات المرحلة الثانية، تبقى الأسئلة التالية بلا إجابة مدعومة بالأدلة:

هذه ليست أسئلة تكميلية، بل هي الأسئلة التي يطرحها المديرون الماليون، ومجالس الإدارة، وإدارات المشتريات عند تجديد أي برنامج. بدون بيانات المرحلة الثانية، تكون الإجابة على جميعها: "نعتقد أن البرنامج كان فعالاً". أما مع بيانات المرحلة الثانية، فتكون الإجابة: "انخفضت مؤشرات الضغط بنسبة 41%، وارتفع مستوى المشاركة بنسبة 28%، وتحسنت درجات تقييم القيادة بمقدار 0.8 انحراف معياري. هذه هي الأدلة الجاهزة للعرض على مجلس الإدارة"

الميزة التنافسية للقياس

بالنسبة للمؤسسات والمدربين والاستشاريين الذين يقدمون خدماتهم لها، فإن منهجية المرحلتين تُعنى في جوهرها بالميزة التنافسية. فالمؤسسات القادرة على قياس عائد الاستثمار في مواردها البشرية تتخذ قرارات أفضل بشأن مجالات الاستثمار المستقبلية. أما المدربون والاستشاريون الذين يستطيعون إثبات أثر ملموس، فيحصلون على تجديدات للعقود، وإحالات، وإمكانية الحصول على أجور مميزة.

المفارقة تكمن في أن معظم عوائق القياس ليست تقنية، بل هيكلية. فالأدوات اللازمة لإنشاء إطار عمل دقيق للقياس قبل وبعد على مستوى الفريق كانت تاريخيًا باهظة الثمن ومعقدة وتتطلب متخصصين. تزيل منصة PDA هذه العوائق، مما يجعل القياس ثنائي المراحل الجاهز للعرض على مجلس الإدارة متاحًا لأي فريق، مهما كان حجمه، ويُقدمه أي مدرب مؤهل أو متخصص في الموارد البشرية.

لقد تم إثبات العلم الذي يبرر أهمية هذا الأمر منذ 60 عاماً. الشيء الوحيد الذي كان ينقص هو الوسائل اللازمة لتطبيقه.

المراجع العلمية