لماذا تُغيّر فترتا القياس كل شيء؟ - منصة المساعد الرقمي الشخصي

يُخبرك قياس واحد بموقعك الحالي. أما قياسان - يفصل بينهما وقت كافٍ وتدخل مُوجّه - فيُخبرانك ما إذا كان قد طرأ أي تغيير فعلي، وبأي مقدار، ولماذا. هذا التمييز ليس مجرد اختلاف في المصطلحات، بل هو الفرق بين الدليل والافتراض، بين البرهان والاعتقاد. إنه الأساس العلمي لتصميم PDA ذي المرحلتين.

المشكلة الأساسية: لا يمكنك قياس التغيير بدون نقطة بداية

يبدو هذا الكلام بديهيًا. ومع ذلك، فإن الغالبية العظمى من برامج التعلم والتطوير، وجلسات التدريب، والتدخلات التنظيمية تُصمم وتُنفذ وتُقيّم دون وجود خط أساس. تُعقد ورشة عمل، ويُجيب المشاركون على استبيان رضا، ويتلقى الميسر ردود فعل إيجابية، وتخلص المنظمة إلى أن البرنامج كان ناجحًا. لا يُعد أي من هذا قياسًا للتغيير، لأنه بدون خط أساس، لا توجد نقطة مرجعية لمقارنة الوضع بعد التدخل.

لا تكمن المشكلة في عدم اكتراث المؤسسات بالنتائج، فمعظمها يهتم بها. تكمن المشكلة في أن وضع أساس متين يتطلب استثمارًا في الوقت والمنهجية والانضباط اللازم للقياس قبل التدخل وليس بعده فقط. تاريخيًا، كانت الأدوات اللازمة للقيام بذلك بدقة مكلفة وبطيئة ومتخصصة. والنتيجة: بنى قطاع التدريب والتطوير ثقافة كاملة لتقييم البرامج تقيس الرضا (وهو أمر سهل) بدلًا من قياس التغيير السلوكي (وهو أمر صعب).

89%

لا يستطيع العديد من قادة التعلم والتطوير إثبات عائد الاستثمار للبرنامج لمجلس إدارتهم السبب الرئيسي هو غياب القياس المسبق. فبدون خط أساس للمرحلة الأولى، يصبح تقييم المستوى الثالث والرابع (كيركباتريك) مستحيلاً من الناحية الهيكلية، بغض النظر عن مدى جودة تصميم البرنامج أو تنفيذه.

تقرير اتجاهات رأس المال البشري الصادر عن هارفارد بزنس ريفيو / ديلويت؛ انظر أيضًا فيليبس، جيه جيه (1997)

ستون عامًا من علم التقييم: تصميم البحث قبل وبعد

في عام 1963، نشر دونالد كامبل وجوليان ستانلي بعنوان "التصاميم التجريبية وشبه التجريبية للبحث" ، والذي أصبح بمثابة النص التأسيسي لمنهجية التقييم. وقد وضع كامبل وستانلي تسلسلًا هرميًا لتصاميم البحث بناءً على قدرتها على إنتاج استدلالات سببية صحيحة: لتحديد ليس فقط ما إذا كان شيء ما قد تغير، بل ما إذا كان التدخل قد تسبب في هذا التغيير.

في قمة هرمها، كان التصميم التجريبي الحقيقي: التوزيع العشوائي، ومجموعة الضبط، والقياس القبلي، والقياس البعدي. وأسفل ذلك، كانت هناك سلسلة من التصاميم شبه التجريبية للبيئات الواقعية حيث يستحيل التوزيع العشوائي الحقيقي. وفي أسفل الهرم - والمحدد صراحةً على أنه غير قادر على دعم الاستدلال السببي - كان تصميم الاختبار البعدي فقط: قياس النتائج بعد التدخل دون وجود خط أساس قبلي.

يُعدّ تصميم الاختبار اللاحق فقط، من الناحية الهيكلية، الشكل السائد لمعظم تقييمات التعلم والتطوير اليوم. حيث يُقيّم المشاركون بعد انتهاء البرنامج، وتُفسّر النتائج كدليل على أثر البرنامج. وقد بيّن كامبل وستانلي، منذ أكثر من 60 عامًا، سبب عدم صحة هذا الاستنتاج: فبدون خط أساس، قد تعكس نتيجة ما بعد البرنامج قدرات موجودة مسبقًا، أو نضجًا طبيعيًا، أو أحداثًا تاريخية، أو أي عدد من العوامل الأخرى غير المرتبطة بالبرنامج نفسه.

"إن المشكلة الأساسية في تقييم البرامج ليست في القياس، بل في غياب الوضع الافتراضي. فبدون معرفة نقطة انطلاق المشاركين، لا يمكننا معرفة إلى أين أوصلهم البرنامج."

كامبل، دي تي وستانلي، جي سي (1963)، التصاميم التجريبية وشبه التجريبية للبحوث

إطار كيركباتريك-فيليبس: لماذا يتطلب المستويان 3 و4 نقطتين زمنيتين

لا يزال نموذج التقييم ذو المستويات الأربعة لدونالد كيركباتريك، الذي نُشر لأول مرة عام 1959، الإطار الأكثر استخدامًا لتقييم التعلم والتطوير في العالم. تقيس المستويات الأربعة رد الفعل (رضا المشاركين)، والتعلم (اكتساب المعرفة)، والسلوك (نقل المعرفة إلى مكان العمل)، والنتائج (الأثر التنظيمي).

يمكن قياس المستويين 1 و2 في لحظة واحدة، مباشرةً بعد البرنامج. أما المستويان 3 و4 فلا يمكن قياسهما - بحكم التعريف. يتطلب تغيير السلوك وقتًا ليظهر، ويتطلب نقطة مقارنة. تتطلب النتائج مرجعًا لقياس التحسن. تتطلب منهجية جاك فيليبس اللاحقة لقياس العائد على الاستثمار، والتي تضيف مستوى خامسًا (العائد على الاستثمار)، نفس بنية ما قبل وما بعد التي تتطلبها المستويان 3 و4 لكيركباتريك.

المرحلة الأولى - التأثير

القياس الأساسي

يحدد نقطة البداية الكمية عبر جميع الأبعاد التشخيصية. وهو يعادل التقييم المسبق من المستوى الثاني وفقًا لتصنيف كيركباتريك.

↓

4-6 أشهر

المرحلة الثانية - دلتا

قياس التغيير

يحدد هذا البرنامج مقدار الفرق مقارنةً بالخط الأساسي للمرحلة الأولى. ويتيح حساب عائد الاستثمار وفقًا لمستوى كيركباتريك 3-4 ومستوى فيليبس.

يُعدّ تصميم PDA ذو المرحلتين تطبيقًا هيكليًا لقاعدة الأدلة هذه التي تمتد لستين عامًا. تُحدد المرحلة الأولى (الأثر) خط الأساس - نقطة البداية الكمية عبر جميع أبعاد التشخيص. أما المرحلة الثانية (الفرق) فتقيس الأبعاد نفسها بعد التدخلات المُستهدفة وتحسب الفرق الإحصائي. والنتيجة هي ما تتطلبه مستويات كيركباتريك 3 و4: قياس صحيح، مُفصّل زمنيًا، وقابل للمقارنة للتغيير.

مشكلة الانحدار نحو المتوسط

ثمة سبب ثانٍ، أقل فهماً على نطاق واسع، يجعل القياسات أحادية النقطة مضللة: وهو الانحدار نحو المتوسط. وقد حدد فرانسيس غالتون هذا المفهوم لأول مرة عام 1886، وتمت صياغته في النظرية الإحصائية، ويصف الانحدار نحو المتوسط ميل القياسات المتطرفة إلى التحرك نحو المتوسط في القياسات اللاحقة، بغض النظر عن أي تدخل.

عمليًا: إذا كان الفريق يمر بفترة ضغط حاد عند قياسه، فستكون درجاته على مؤشرات الضغط مرتفعة. وإذا أُعيد قياسه بعد ستة أشهر - سواءً مع أي تدخل أو بدونه - فستكون درجاته عادةً أقل، ببساطة لأن حالات الضغط الحاد لا تدوم إلى الأبد. المدرب الذي يتدخل بعد قياس ضغط مرتفع ويُبلغ عن تحسن بعد ستة أشهر قد يكون يلاحظ عودة طبيعية إلى المتوسط بدلًا من تأثير تدريبه.

الطريقة الوحيدة للتمييز بين تأثيرات التدخل الحقيقية والعودة الطبيعية إلى المتوسط هي مقارنة معدل التغير بمعيار مُعتمد، أو استخدام تصميم ضمن الأفراد يتتبع نمط التغير عبر نقاط زمنية متعددة. تعالج منهجية PDA ذات المرحلتين هذه المشكلة من خلال وضع خط أساس مُعدَّل حسب السكان في المرحلة الأولى، وقياس التغير (DELTA) مقابل هذا المرجع المُعدَّل في المرحلة الثانية، مما يفصل إشارة التحسن الحقيقي عن ضوضاء التقلبات الطبيعية.

فترة الأربعة إلى ستة أشهر: لماذا يُعدّ التوقيت مهماً؟

إن الفترة الزمنية التي تتراوح بين 4 و 6 أشهر بين المرحلة الأولى والمرحلة الثانية ليست عشوائية، بل تعكس تقارب عدة خطوط بحثية مستقلة حول الأطر الزمنية للتغيير السلوكي والتنظيمي ذي المغزى.

أبحاث باندورا حول الكفاءة الذاتية (1977، 1997) أن التغيير السلوكي المستدام يتطلب تجارب أداء متكررة - وهي عملية تتكشف عادةً على مدى 3-6 أشهر في البيئات التنظيمية.
أبحاث إدموندسون حول التعلم الجماعي (1999، 2018) أن السلامة النفسية - أحد أهم أبعاد قياسات PDA - تتغير من خلال سلوك القيادة المستمر بمرور الوقت، مع إمكانية ملاحظة التحولات المهمة عادةً بعد 3-4 أشهر من التدخل المتسق.
إن الفترة القصيرة جدًا (أقل من 3 أشهر) تعني أن التدخلات لم تتح لها فرصة كافية لإحداث تغيير سلوكي ملحوظ. وتعكس بيانات المرحلة الثانية البرنامج بشكل أكبر من المشاركين فيه.
إن الفترة الزمنية الطويلة جدًا (أكثر من 9 أشهر) تُدخل متغيرات مربكة - تغييرات تنظيمية، وتحولات في تكوين الفريق، وأحداث خارجية - مما يجعل من الصعب عزو التغييرات الملحوظة إلى التدخل.

تُعدّ الفترة الزمنية التي تتراوح بين 4 و6 أشهر مثاليةً لنضج التدخل مع تقليل عوامل التداخل. فهي طويلة بما يكفي لظهور تغيير حقيقي، وقصيرة بما يكفي للحفاظ على إسناد السببية إلى البرنامج.

ما لا تستطيع البرامج ذات المرحلة الواحدة إثباته

إن عواقب غياب قياس المرحلة الثانية ليست نظرية، بل هي واقع يومي يواجهه المدربون ومختصو الموارد البشرية الذين يقدمون برامج ممتازة، لكنهم يعجزون عن تبرير قيمتها عند مناقشة تجديدها. فبدون بيانات المرحلة الثانية، تبقى الأسئلة التالية بلا إجابة مدعومة بالأدلة:

هل تحسّن مستوى التفاعل؟ وبكم تحسّن مقارنةً بالوضع الذي بدأنا منه؟
هل تقلصت الفجوة في تصور القيادة نتيجة لبرنامج التدريب؟
أي من الأبعاد ذات الأولوية التي تم تحديدها في المرحلة الأولى استجابت بالفعل للتدخل؟
ما هو العائد الإحصائي لاستثمار المنظمة في هذا البرنامج؟
هل ينبغي لنا إعادة تشغيل هذا البرنامج مرة أخرى؟ وإذا كان الأمر كذلك، فما هي المكونات التي أحدثت أكبر قدر من التغيير؟

هذه ليست أسئلة تكميلية، بل هي الأسئلة التي يطرحها المديرون الماليون، ومجالس الإدارة، وإدارات المشتريات عند تجديد أي برنامج. بدون بيانات المرحلة الثانية، تكون الإجابة على جميعها: "نعتقد أن البرنامج كان فعالاً". أما مع بيانات المرحلة الثانية، فتكون الإجابة: "انخفضت مؤشرات الضغط بنسبة 41%، وارتفع مستوى المشاركة بنسبة 28%، وتحسنت درجات تقييم القيادة بمقدار 0.8 انحراف معياري. هذه هي الأدلة الجاهزة للعرض على مجلس الإدارة"

الميزة التنافسية للقياس

بالنسبة للمؤسسات والمدربين والاستشاريين الذين يقدمون خدماتهم لها، فإن منهجية المرحلتين تُعنى في جوهرها بالميزة التنافسية. فالمؤسسات القادرة على قياس عائد الاستثمار في مواردها البشرية تتخذ قرارات أفضل بشأن مجالات الاستثمار المستقبلية. أما المدربون والاستشاريون الذين يستطيعون إثبات أثر ملموس، فيحصلون على تجديدات للعقود، وإحالات، وإمكانية الحصول على أجور مميزة.

المفارقة تكمن في أن معظم عوائق القياس ليست تقنية، بل هيكلية. فالأدوات اللازمة لإنشاء إطار عمل دقيق للقياس قبل وبعد على مستوى الفريق كانت تاريخيًا باهظة الثمن ومعقدة وتتطلب متخصصين. تزيل منصة PDA هذه العوائق، مما يجعل القياس ثنائي المراحل الجاهز للعرض على مجلس الإدارة متاحًا لأي فريق، مهما كان حجمه، ويُقدمه أي مدرب مؤهل أو متخصص في الموارد البشرية.

لقد تم إثبات العلم الذي يبرر أهمية هذا الأمر منذ 60 عاماً. الشيء الوحيد الذي كان ينقص هو الوسائل اللازمة لتطبيقه.

المراجع العلمية

كامبل، دي تي وستانلي، جي سي (1963). التصاميم التجريبية وشبه التجريبية للبحث. هوتون ميفلين.
كيركباتريك، دي إل (1959). تقنيات تقييم البرامج التدريبية. مجلة الجمعية الأمريكية لمديري التدريب، 13، 3-9.
فيليبس، جيه جيه (1997). العائد على الاستثمار في برامج التدريب وتحسين الأداء. باتروورث-هاينمان.
باندورا، أ. (1977). الكفاءة الذاتية: نحو نظرية موحدة لتغيير السلوك. مجلة علم النفس، 84(2)، 191-215.
باندورا، أ. (1997). الكفاءة الذاتية: ممارسة السيطرة. فريمان.
جالتون، ف. (1886). التراجع نحو التواضع في القامة الوراثية. مجلة المعهد الأنثروبولوجي، 15، 246-263.
إدموندسون، أ. (1999). السلامة النفسية وسلوك التعلم في فرق العمل. مجلة العلوم الإدارية الفصلية، 44(2)، 350-383.
إدموندسون، أ. (2018). المنظمة الجريئة. وايلي.
ديلويت (2024). اتجاهات رأس المال البشري العالمية. رؤى ديلويت.

فترتا القياستُغير