أكثر

2.5: ماذا لو اخترت المتغيرات الخاطئة؟ - علوم الأرض


بما في ذلك متغير غير ذي صلة

ما هي النتائج المترتبة على تضمين متغير غير ذي صلة في تحليل بنية الأبعاد لمشكلة مثل مشكلة التدفق عبر الكرة؟ افترض ، خلافًا للحقيقة ولكن فقط من أجل المناقشة ، أن اللزوجة ليست مهمة في تحديد (F_ {D} ). ثم العلاقة الوظيفية لـ (F_ {D} ) ستكون

[F_ {D} = f (U ، D ، rho) التسمية {العكس} ]

كما في السابق ، يمكنك البدء في جعل هذه المعادلة بلا أبعاد من خلال تكوين نفس قوة السحب عديمة الأبعاد (F_ {D} / rho U ^ {2} D ^ {2} ) على الجانب الأيسر. لكن ماذا عن الجانب الأيمن؟ لا يمكن الجمع بين المتغيرات الثلاثة (U ) و (D ) و ( rho ) لتشكيل متغير بلا أبعاد ، لأنه لا توجد حرية كافية لضبط الأسس لصنع منتج (U ^ {a } D ^ {b} rho ^ {c} ) بلا أبعاد ؛ يجب أن يكون هذا واضحًا من الإجراء الرسمي الموضح أعلاه للحصول على ( rho U D / mu ). ثم ما الذي يحل محل رقم رينولدز على الجانب الأيمن؟ الإجابة هي أن الجانب الأيمن يجب أن يكون ثابتًا عدديًا: لا يوجد متغير مستقل بلا أبعاد. لذلك إذا لم يكن ( mu ) مهمًا في التدفق بعد كرة ، فإن القوة عديمة الأبعاد (F_ {D} / rho U ^ {2} D ^ {2} ) ستكون ثابتة وليست دالة لـ رقم رينولدز. للتعميم: إذا تم استبعاد متغير أصلي واحد من المشكلة ، فيجب أيضًا التخلص من متغير واحد بلا أبعاد. في رسم بياني (C_ {D} ) مقابل ( mathrm {Re} ) ، تقع النقاط التجريبية على طول خط مستقيم موازٍ لمحور ( mathrm {Re} ) ، كما هو موضح تخطيطيًا في الشكل ( PageIndex {1} ). انظر الآن إلى الرسم البياني الفعلي لـ (C_ {D} ) مقابل ( mathrm {Re} ) في الشكل 2.3.1. على نطاق واسع من أرقام رينولدز من حوالي (10 ​​^ {2} ) إلى أكبر من (10 ​​^ {5} ) ، يكون (C_ {D} ) مستقلًا تقريبًا عن رقم رينولدز. نظرًا لأن ( mu ) هو المتغير الوحيد الذي يظهر في رقم رينولدز وليس في (C_ {D} ) ، فهذا يخبرك أن ( mu ) ليس مهمًا بالفعل في تحديد (F_ {D } ) طليق ( mathrm {Re} ). تمت مناقشة أسباب ذلك في الفصل 3.

يمكنك الآن معرفة سبب وجود بعض المزايا العملية لاستخدام (F_ {D} / rho U ^ {2} D ^ {2} ) كمتغير بدون أبعاد. تحتوي العناصر الثلاثة الأخرى المذكورة أعلاه على ( mu ) ، وهكذا في مخطط أي واحد منهم ضد ( rho UD / mu ) مقطع المنحنى الذي ( mu ) ليس مهمًا بالنسبة له قد يرسم كخط مائل بدلاً من خط أفقي ، ولن يكون من السهل التعرف على عدم أهمية ( mu ).

حذف متغير ذي صلة

يجب عليك أيضًا التفكير في عواقب حذف متغير مهم من الاعتبار. على سبيل المثال ، إذا لم تكن حريصًا على إبقاء الكرة بعيدًا عن جدار الوعاء الذي يحتوي على السائل ، فستجد (الشكل ( فهرس الصفحة {2} )) أن النقاط التجريبية ترسم في شريط مبعثر حولها منحنى (C_ {D} ) مقابل. يخبرك هذا أن هناك متغيرًا آخر مهمًا في تحديد (F_ {D} ) وأنك تركته يختلف عن غير قصد - بافتراض ، بالطبع ، أن قياساتك خالية من الأخطاء في المقام الأول. الجاني الواضح هو (y ) ، مسافة مركز الكرة من الجدار (الشكل ( PageIndex {3} )) ، لأن قرب الكرة من الجدار الصلب يشوه نمط التدفق حولها الكرة وبالتالي يغير قوى السوائل على الكرة إلى حد ما. مع تضمين (y ) في التحليل ، تكون العلاقة الوظيفية لـ (F_ {D} ) على شكل

[F_ {D} = f (U ، D ، rho ، mu ، y) التسمية {2.7} ]

في معادلة عدم تحديد الأبعاد المرجع {2.7} ، يجب أن تتوقع مرة أخرى وجود قوة سحب بلا أبعاد على اليسار ورقم رينولدز على اليمين. لكن ماذا يحدث للمتغير الجديد (ص )؟ يمكنك استخدامه لتشكيل متغير آخر مستقل بلا أبعاد ، بنفس الطريقة التي شكلت بها رقم رينولدز. يجب أن يكون هناك متغير واحد آخر على الأقل ، لأنه يجب أن يظهر (y ) في مكان ما على الجانب الأيمن من الإصدار غير ذي الأبعاد من المعادلة المرجع {2.7}. الاختيار الطبيعي لهذا المتغير الجديد هو (y / D ) (أو (D / y )). يمكنك بدلاً من ذلك تكوين رقم رينولدز آخر ، ( rho U y / mu ). لكن اثنين فقط من المتغيرات الثلاثة ( rho UD / mu ) ، ( rho U y / mu ) ، و (y / D ) مستقلان عن بعضهما البعض: إضافة متغير مستقل جديد واحد إلى المشكلة يضيف متغيرًا واحدًا مستقلًا جديدًا بلا أبعاد. تجدر الإشارة أيضًا إلى أنه يمكنك الوصول إلى رقم رينولدز الثاني ، ( rho U y / mu ) ، بضرب الأول ، ( rho UD / mu ) ، في المتغير الجديد بلا أبعاد (ص / د ). هذا توضيح لمبدأ أنه يمكنك دائمًا استبدال متغير بلا أبعاد في مجموعة من المتغيرات عديمة الأبعاد بمتغير آخر يتشكل بضربه أو تقسيمه على أحد المتغيرات الأخرى ، أو ببعض القوة أو الجذر لأحد المتغيرات الأخرى. لذلك في صيغة بلا أبعاد تكون المعادلة المرجع {2.7} إذن

[ frac {F_ {D}} { rho U ^ {2} D ^ {2}} = f left ( frac { rho UD} { mu} ، frac {y} {D} right) label {2.8} ]

سترسم الوظيفة في المعادلة ref {2.8} كسطح منحني في رسم بياني ثلاثي الأبعاد مع (C_ {D} ) و ( mathrm {Re} ) و (y / D ) على طول المحاور (الشكل ( PageIndex {4} )). المستويين المتعامدين مع المحور (y / D ) في الشكل ( PageIndex {4} ) يعرضان النطاق الذي تنوع فيه (y / D ) في تجاربك دون أن تدرك أنه مهم. إن إسقاط جزء السطح بين هذين المستويين على المستوى (C_ {D} ) - ( mathrm {Re} ) هو النطاق الذي ستقع فيه نقاطك التجريبية. يمثل تقاطع السطح مع المستوى (y / D = 0 ) ، الموضح أيضًا في الإسقاط ، المنحنى الذي كنت ستحصل عليه إذا أبقيت الكرة دائمًا بعيدًا جدًا عن الحائط ؛ إنه نفس المنحنى في الشكل 2.3.1.

إشراك الجاذبية

يمكنك المضي قدمًا في التحليل عن طريق تحريك الكرة أفقيًا أسفل السطح الحر للسائل الساكن في حقل الجاذبية (الشكل ( PageIndex {5} )). المهم الآن ليس فقط المسافة y للكرة تحت السطح الحر ولكن أيضًا تسارع الجاذبية (g ): إذا كانت حركة الكرة تشوه السطح الحر ، فإن قوى الجاذبية غير المتوازنة تميل إلى تسطيح السطح مرة أخرى ، ويمكن إنشاء موجات الجاذبية السطحية. ثم

[F_ {D} = f (U، D، rho، mu، y، g) التسمية {2.9} ]

هذا لا يزال يضيف متغيرًا آخر مستقلًا بدون أبعاد ، ويجب أن يتضمن هذا المتغير (g ). هناك خمسة احتمالات: ( mu g / rho U ^ {3} ) ، ( rho ^ {2} g D ^ {3} / mu ^ {2} ) ، ( rho ^ {2} gy ^ {3} / mu ^ {2} ) ، (U ^ {2} / g D ) ، و (U ^ {2} / gy ) ، بالإضافة إلى المتغيرات الواضحة التي تم الحصول عليها عن طريق الانعكاس والأس. (يمكنك محاولة إنشاء هذه من خلال الجمع بين (U ) و ( rho ) و ( mu ) و (D ) و (y ) ثلاثة في وقت واحد مع (g ) والقيام بالإجراء الموضح أعلاه لـ ( mathrm {Re} ). يمكنك أيضًا الحصول على (y / D ) مرة أخرى في العملية.) أي واحد من هؤلاء الخمسة سيكون كافياً للتعبير عن تأثير (g ) على قوة السحب. مرة أخرى ، واحد فقط مستقل ، لأنه يمكن الحصول على الآخرين جميعًا من خلال الجمع بين ذلك (أيهما تختار) إما مع ( rho U D / mu ) أو (y / D ). سيكون من المعتاد ، في مشكلة مثل هذه ، استخدام (U / (g y) ^ {1/2} ) كمتغير مستقل مضاف. إذن ، الصيغة الخالية من الأبعاد للمعادلة المرجع {2.9} هي

[ frac {FD} { rho U ^ {2} D ^ {2}} = f left ( frac { rho UD} { mu} ، frac {U ^ {2}} {gy} ، frac {y} {D} right) label {2.10} ]

يسمى الجذر التربيعي لمتغير مثل (U ^ {2} / g y ) أو (U ^ {2} / g D ) ، بالسرعة ، ومتغير الطول ، و (g ) ، رقم Froude، عادةً ما يُرمز إليها بـ ( mathrm {Fr} ). من الطبيعي ، على الرغم من أنه ليس ضروريًا ، استخدام (U ^ {2} / gy ) هنا لأنه يمكن عندئذٍ النظر إلى كل من المتغيرات الأربعة التي لا أبعاد لها في العلاقة الوظيفية على أنها تتشكل من خلال الجمع بين (F_ {D} ) و ( mu ) و (y ) و (g ) بالتناوب مع المتغيرات الثلاثة ( rho ) و (U ) و (D ) ؛ انظر الفقرة التالية للحصول على التفاصيل.

ملحوظة

سترسم الدالة في المعادلة ref {2.10} على أنها "سطح" رباعي الأبعاد في رسم بياني لـ (C_ {D} ) مقابل ( mathrm {Re} ) ، ( mathrm {Fr} ) و (ص / د ). من الصعب تصور مثل هذا الرسم البياني. سيكون البديل الجيد هو رسم رسم بياني ثلاثي الأبعاد لكل سلسلة من قيم أحد المتغيرات المستقلة التي لا أبعاد لها. المشكلة هي أن هناك عددًا لا حصر له من هذه الرسوم البيانية ثلاثية الأبعاد. (أتذكر أنني قرأت مرة في مكان ما أنه للتعبير بيانياً عن العلاقة بين متغيرين تحتاج إلى صفحة ، وللتعبير عن العلاقة بين ثلاثة متغيرات تحتاج إلى كتاب من الصفحات ، وللتعبير عن العلاقة بين أربعة متغيرات تحتاج إلى مكتبة من الكتب. لخمسة متغيرات ستحتاج إلى عالم من المكتبات!

التعامل مع المتغيرات المتعددة

افترض أنك أدركت منذ البداية أن جميع المتغيرات السبعة في المعادلة ref {2.9} مهمة في المشكلة. الطريقة المنهجية للحصول على أربعة متغيرات بلا أبعاد دفعة واحدة هي مجرد امتداد للطريقة الموضحة في قسم سابق للحصول على رقم رينولدز. تكوين أربعة حواجز باختيار ثلاثة من المتغيرات السبعة (متغيرات "التكرار") لتكون تلك المرفوعة إلى الأس (أ ) و (ب ) و (ج ) وباستخدام كل من المتغيرات الأربعة المتبقية بدوره باعتباره الذي يتم رفعه إلى الأس (1 ) (أو إلى أي أس ثابت آخر ، لهذه المسألة). يمكنك التحقق بنفسك من أنك إذا اخترت ( rho ) و (U ) و (D ) باعتبارها المتغيرات الثلاثة المكررة ، فإن المنتجات الأربعة ( rho ^ {a} U ^ {b} D ^ {c} F_ {D} ) ، ( rho ^ {a} U ^ {b} D ^ {c} mu ) ، ( rho ^ {a} U ^ {b} D ^ سينتج {c} y ) و ( rho ^ {a} U ^ {b} D ^ {c} g ) أربعة متغيرات بدون أبعاد في المعادلة المرجع {2.10} ، باستثناء ذلك (U ^ { يظهر 2} / g D ) بدلاً من (U ^ {2} / gy ). اتضح أنه لكي يعمل هذا الإجراء ، فإن القيود المفروضة على اختيار المتغيرات الثلاثة المكررة هي (1) من بينها جميع الأبعاد الثلاثة ( mathrm {M} ) ، ( mathrm {L} ) ، ( mathrm {T} ) ، و (2) تكون مستقلة الأبعاد عن بعضها البعض ، بمعنى أنه لا يمكنك الحصول على أبعاد أي منها بضرب أبعاد الأخرى معًا بعد رفعها إلى بعض الأس. تضمن هذه القيود فقط حصولك على مجموعات قابلة للحل من المعادلات المتزامنة.


2.5 أسماء المتغيرات والكلمات الرئيسية¶

أسماء المتغيرات يمكن أن تكون طويلة بشكل تعسفي. يمكن أن تحتوي على أحرف وأرقام ، ولكن يجب أن تبدأ بحرف أو شرطة سفلية. على الرغم من أنه من القانوني استخدام الأحرف الكبيرة ، إلا أننا لا نفعل ذلك وفقًا للاتفاقية. إذا فعلت ذلك ، تذكر أن هذه القضية مهمة. بروس وبروس متغيرات مختلفة.

لا يمكن أن تحتوي أسماء المتغيرات على مسافات.

يمكن أن يظهر حرف الشرطة السفلية (_) أيضًا في الاسم. غالبًا ما يتم استخدامه في الأسماء ذات الكلمات المتعددة ، مثل my_name أو price_of_tea_in_china. هناك بعض المواقف التي يكون فيها للأسماء التي تبدأ بشرطة سفلية معنى خاص ، لذا فإن القاعدة الآمنة للمبتدئين هي أن تبدأ كل الأسماء بحرف.

إذا أعطيت متغير اسمًا غير قانوني ، فستتلقى خطأً نحويًا. في المثال أدناه ، كل اسم من أسماء المتغيرات غير قانوني.

76 ترومبون غير قانوني لأنه لا يبدأ بحرف. المزيد $ غير قانوني لأنه يحتوي على حرف غير قانوني ، علامة الدولار. لكن ما هو الخطأ في الفصل؟

اتضح أن هذه الفئة هي واحدة من بايثون الكلمات الدالة. تحدد الكلمات الرئيسية قواعد بنية اللغة وهيكلها ، ولا يمكن استخدامها كأسماء متغيرات. تحتوي لغة Python على ثلاثين كلمة رئيسية (وتقوم التحسينات التي يتم إدخالها على Python بين الحين والآخر بإدخال أو حذف واحدة أو اثنتين):

قد ترغب في الاحتفاظ بهذه القائمة في متناول اليد. إذا اشتكى المترجم الفوري من أحد أسماء المتغيرات ولا تعرف السبب ، فراجع ما إذا كان موجودًا في هذه القائمة.

يختار المبرمجون عمومًا أسماء لمتغيراتهم ذات مغزى للقراء البشريين للبرنامج - فهم يساعدون المبرمج على توثيق أو تذكر الغرض من المتغير.

يخلط المبتدئون أحيانًا بين "ذو مغزى للقراء البشري" و "ذو مغزى للكمبيوتر". لذلك سيعتقدون بشكل خاطئ أنه نظرًا لأنهم أطلقوا على بعض المتوسط ​​المتغير أو pi ، فسوف يحسب بطريقة ما تلقائيًا المتوسط ​​، أو يربط المتغير pi تلقائيًا بالقيمة 3.14159. رقم! لا يقوم الكمبيوتر بإرفاق معنى دلالي بأسماء المتغيرات الخاصة بك.

لذلك ستجد بعض المدربين الذين لا يختارون عن عمد أسماء ذات مغزى عندما يعلمون المبتدئين - ليس لأنهم لا يعتقدون أنها عادة جيدة ، ولكن لأنهم يحاولون تعزيز الرسالة التي تمتلكها أنت ، المبرمج لكتابة بعض أكواد البرنامج لحساب المتوسط ​​، أو يجب عليك كتابة بيان إسناد لإعطاء متغير القيمة التي تريدها.

تأكد من فهمك

data-5-1: صحيح أم خطأ: التالي اسم متغير قانوني في Python: A_good_grade_is_A +


7 إجابات 7

بناءً على رد فعلك على تعليقي:

أنت تبحث عن التنبؤ. وبالتالي ، لا يجب أن تعتمد حقًا على (in) أهمية المعامِلات. سيكون من الأفضل أن

  • اختر معيارًا يصف احتياجاتك المتوقعة بشكل أفضل (على سبيل المثال ، معدل التصنيف الخاطئ ، AUC لـ ROC ، بعض أشكال هذه مع الأوزان.)
  • إلى عن على كل نموذج من الاهتمام، تقييم هذا المعيار. يمكن القيام بذلك ، على سبيل المثال ، من خلال توفير مجموعة التحقق من الصحة (إذا كنت محظوظًا أو غنيًا) ، من خلال التحقق المتقاطع (عادةً عشرة أضعاف) ، أو أي خيارات أخرى يسمح بها معيار الاهتمام الخاص بك. إذا كان ذلك ممكنًا ، ابحث أيضًا عن تقدير لـ SE للمعيار لكل نموذج (على سبيل المثال ، باستخدام القيم الموجودة على الطيات المختلفة في التحقق المتقاطع)
  • يمكنك الآن اختيار النموذج بأفضل قيمة للمعيار ، على الرغم من أنه يُنصح عادةً باختيار النموذج الأكثر شحًا (المتغيرات الأقل) والذي يقع ضمن SE واحد من أفضل قيمة.

Wrt كل نموذج من الاهتمام: هنا يكمن تماما الصيد. مع 10 تنبؤات محتملة ، هذا هو حمولة شاحنة من النماذج المحتملة. إذا كان لديك الوقت أو المعالجات لهذا (أو إذا كانت بياناتك صغيرة بما يكفي بحيث تصبح النماذج مناسبة ويتم تقييمها بسرعة كافية): احصل على كرة. إذا لم يكن الأمر كذلك ، فيمكنك القيام بذلك عن طريق التخمينات المتعلمة ، أو النمذجة إلى الأمام أو الخلف (ولكن باستخدام المعيار بدلاً من الأهمية) ، أو الأفضل من ذلك: استخدم بعض الخوارزمية التي تختار مجموعة معقولة من النماذج. إحدى الخوارزميات التي تقوم بذلك هي الانحدار المعاقب ، ولا سيما انحدار اللاسو. إذا كنت تستخدم R ، فما عليك سوى توصيل الحزمة glmnet وستكون جاهزًا للانطلاق.

لا توجد إجابة بسيطة على هذا. عندما تقوم بإزالة بعض المتغيرات التوضيحية غير الهامة ، فإن البعض الآخر المرتبط بها قد يصبح مهمًا. لا حرج في هذا ، لكنه يجعل اختيار النموذج فنًا جزئيًا على الأقل بدلاً من العلم. هذا هو السبب في أن التجارب تهدف إلى إبقاء المتغيرات التوضيحية متعامدة مع بعضها البعض ، لتجنب هذه المشكلة.

قام المحللون تقليديًا بإضافة وطرح متغيرات إلى النموذج واحدًا تلو الآخر (على غرار ما فعلته) واختبارها بشكل فردي أو في مجموعات صغيرة باستخدام اختبارات t أو F. تكمن المشكلة في هذا في أنك قد تفوتك مجموعة من المتغيرات لطرح (أو إضافة) حيث يتم إخفاء تأثيرها المشترك (أو عدم التأثير) بواسطة العلاقة الخطية المتداخلة.

من خلال قوة الحوسبة الحديثة ، من الممكن ملاءمة جميع 2 ^ 10 = 1024 مجموعة ممكنة من المتغيرات التوضيحية واختيار أفضل نموذج من خلال عدد من المعايير الممكنة مثل AIC أو BIC أو القدرة التنبؤية (على سبيل المثال ، القدرة على التنبؤ بالقيم لمجموعة فرعية اختبارية من البيانات التي فصلتها عن المجموعة التي تستخدمها لملاءمة نموذجك). ومع ذلك ، إذا كنت ستختبر (ضمنيًا أو صريحًا) 1024 نموذجًا ، فستحتاج إلى إعادة التفكير في قيم p من النهج الكلاسيكي - تعامل بحذر.

إذا كنت مهتمًا فقط بالأداء التنبئي ، فمن الأفضل على الأرجح استخدام جميع الميزات واستخدام انحدار التلال لتجنب الإفراط في ملاءمة عينة التدريب. هذه في الأساس هي النصيحة الواردة في ملحق دراسة ميلار حول "اختيار المجموعة الفرعية في الانحدار" ، لذا فهي تأتي بنسب معقول!


تفاعلات القارئ

تعليقات

أهلا سيدي،
لدي سؤال بخصوص متغيرات الاستجابة. لنفترض أن لدي 3 متغيرات استجابة ، وأود اختيار واحد لإجراء تحليل الانحدار الخاص بي. هل هناك أي طريقة لتحديد أي منها يجب أن أختار دون إنشاء نماذج منفصلة لكل منها.

يمكنني التفكير في عدة طرق ممكنة لأعلى رأسي.

يمكنك اختيار متغير استجابة واحد إذا كنت على دراية بالبحث في نفس مجال الموضوع الذي يقترح استخدام متغير استجابة معين. أو ، متغير استجابة معين أكثر ملاءمة لأسباب نظرية. قد يكون الآخر هو أن متغير استجابة معين أسهل في القياس ، أو أسهل في التفسير ، أو أسهل للتطبيق على حالة الاستخدام الخاصة بك.

بمعنى آخر ، انظر إلى ما تريد حقًا تعلمه من دراستك ، وكيف تريد استخدام النتائج ، وما فعلته الدراسات الأخرى ، ثم اتخذ قرارًا يتضمن تلك العوامل.

عزيزي السيد
سؤالي هو أن لدي متغير dep يقول X ومتغير الاهتمام Y مع بعض متغيرات التحكم (Z)
الآن عندما أركض بعد الانحدارات
1) X في الوقت t و Y & amp Z عند t-1
2) X في الوقت t ، Y عند t-1 & amp Z عند t
3) X في الوقت t و Y & amp Z عند t

تتغير علامة متغير الاهتمام الخاص بي (الأهمية أيضًا). إذا لم تكن هناك أي نظرية ترشدني فيما يتعلق بمواصفات التأخر لمتغيرات الفائدة ومتغيرات التحكم ، فأي واحدة من النموذج أعلاه يجب أن أستخدمها؟ ما هو المبدأ العام؟

هل يمكنني استخدام الانحدار للتحقق مما إذا كان التغيير يؤثر على مواصفات المنتج

ربما يمكنك استخدام الانحدار للتنبؤ بما إذا كان التغيير يؤثر على خصائص المنتج & # 8217s. ومع ذلك ، يتم فرض مواصفات المنتج من خلال قيود خارجية. تعتبر المنتجات خارج حدود المواصفات عيوبًا. عادة ما يتم وضع حدود المواصفات لأن المنتج لن يكون مرضيًا خارج هذه الحدود. عادة ، لا تستخدم تحليل الانحدار لتحديد حدود المواصفات. ومع ذلك ، أفترض أنه إذا كنت تعرف ما يكفي عن استخدام المنتج & # 8217s ويمكنك نمذجة العوامل ذات الصلة ، فقد تتمكن من إظهار أن التغييرات في المنتج قد تؤثر على حدود المواصفات. أنا & # 8217m ليس على دراية بما يتم القيام به ، لكني أفترض أنه & # 8217s ممكن.

إذا كنت حقًا بحاجة إلى معرفة الإجابة ، فأنا & # 8217d تحقق مع خبراء الصناعة. رأيي هو أنه سيكون من الممكن نظريًا إذا كان بإمكانك نمذجة الاستخدام بشكل جيد بما فيه الكفاية ولكن ربما لا يكون نموذجيًا.

النموذج بدون تقاطع يعطي قيمة R ^ 2 عالية ، لذا هل يجب أن أختار هذا النموذج على أنه الأفضل.

هذه خاصية خادعة لتركيب نموذج بدون اعتراض. عندما تلائم النموذج مع تقاطع ، تقيم R-squared التباين حول المتغير التابع & # 8217s يعني أن النموذج يراعي. ومع ذلك ، عندما لا تناسب & # 8217t تقاطعًا ، فإن R-squared يقيم التباين حول الصفر. نظرًا لأنها تقيس أشياء مختلفة ، يمكنك & # 8217t مقارنتها. دائمًا ما يكون مربع R بدون التقاطع أعلى بكثير من مربع R مع التقاطع بسبب هذه الخاصية.

بالمناسبة ، لمعرفة سبب وجوب تضمين التقاطع في النموذج دائمًا ، اقرأ رسالتي حول تقاطع y.

شكرا لهذا ، # 8217s مفيد حقًا
أطروحة بحثي هي
النمو السكاني ومعدل البطالة في 8230 & # 8230
فكيف أحدد نموذجي

تحديد نموذجك هو عملية تتطلب الكثير من البحث. اتبع الأساليب التي أناقشها في هذه المقالة. أعتقد أن أفضل مكان للبدء هو البحث عن كيفية تحديد الآخرين لنماذجهم في نفس المجال. قم بمراجعة الأدبيات للحصول على أفكار حول المتغيرات التي يجب تضمينها.

أخبرني بأفكارك إذا سمحت. إذا كان لديك نموذجان مختلفان قمت بتشغيله على الانحدار في التفوق ، فما هي الأساليب المتسلسلة التي تنظر إليها لتحديد الوضع الأفضل؟

من فضلك انتقدني. ما أفعله حاليًا هو أولاً استخدام النهج الخلفي أو الأمامي ، ثم مراقبة قيم p للدلالة ، ثم استخدام t-stat والنطاق الأعلى من 2 أو أقل من -2 كمبدأ توجيهي لتوقع معامل جيد. أخيرًا ، ما الذي يجب فعله لاختيار أفضل نموذج عندما لنفترض أن النموذج A يحتوي على R2 معدل أعلى من النموذج B ولكن النموذج A يحتوي على الأقل على متغير غير مهم بينما النموذج B لا؟

ستكون هنا اقتراحاتي. ضع في اعتبارك أن جميع المقاييس الإحصائية التي ذكرتها ، وحتى غيرها ، يمكن أن تساعد في توجيه العملية. ومع ذلك ، لا ينبغي أن & # 8217t تذهب من خلال الإحصائيات وحدها. مطاردة مربع R عالي ، أو حتى مربع R المعدل ، يمكن أن يضللك. ضع في اعتبارك جميع الإحصائيات ، ولكن بعد ذلك فكر أيضًا في النظرية وما يوحي بها ذلك. & # 8217d قرأت هذا القسم في هذا المنشور مرة أخرى (بالقرب من النهاية). بالنسبة لحالتك ، عندما يكون لديك العديد من النماذج المرشحة حيث تشير الإحصائيات في اتجاهات مختلفة ، دع النظرية تساعدك في الاختيار. إذا كان ذلك ممكنًا ، فكر في ما قامت به الدراسات الأخرى أيضًا.

يمكن أن يساعدك الانحدار التدريجي في تحديد المتغيرات المرشحة ، ولكن أظهرت الدراسات أنه عادة لا يختار النموذج الصحيح. اقرأ مقالتي حول الانحدار التدريجي وأفضل المجموعات الفرعية لمزيد من التفاصيل.

بالنسبة لمربع R المعدل ، فإن أي متغير له قيمة t أكبر من القيمة المطلقة 1 سيؤدي إلى زيادة R-squared المعدل. ومع ذلك ، فإن المتغيرات ذات القيم t بالقرب من 1 / -1 سوف & # 8217t تكون ذات دلالة إحصائية. لذا ، فإن تركيب نموذج عن طريق زيادة مربع R المعدل يمكن أن يتسبب في تضمين متغيرات ليست مهمة ولكنها تزيد من مربع R المعدل & # 8211 كما وجدت.

إذا كنت & # 8217re تتجادل حول تضمين متغير أم لا ، فمن الأفضل بشكل عام تضمين متغير غير ضروري بدلاً من المخاطرة باستبعاد متغير مهم. هناك محاذير. يمكن أن يؤدي تضمين عدد كبير جدًا من المتغيرات غير المهمة إلى تقليل دقة نموذجك. تحتاج أيضًا إلى التأكد من عدم الانحراف في تجهيز النموذج الخاص بك عن طريق تضمين متغيرات إضافية.

أعلم أن & # 8217t لا يمنحك إجابة محددة لتذهب بها! لكن نمذجة الانحدار هي مثل هذا في بعض الأحيان. ولكن ، ركز أكثر على الجانب النظري / الدراسات الأخرى للعملة التي يجب مراعاتها جنبًا إلى جنب مع الجانب الإحصائي. ابحث عن البساطة عندما يكون ذلك ممكنًا. غالبًا ما يكون النموذج الأبسط الذي ينتج قطعًا متبقية جيدة ويتوافق مع النظرية مرشحًا جيدًا.

حسنًا ، أحتاج إلى حساب معادلة انحدار لانحدار متعدد باستخدام 3 متغيرات ind. يعطي النص الخاص بي معادلة y = b1x1 + b2x2 + b3x3 + b0 + e ، ولكن ما هي قيم x1 ، x2 ، x3؟ أعتقد أنني كنت أعرف البارحة والآن ليس لدي أي فكرة ولا يمكنني العثور على أي أمثلة تظهر في الواقع التعادل مع البيانات وتوصيلها بالأرقام لمعرفة ذلك. يجب أن أدرج المعادلة في تقرير التكليف الخاص بي لذلك أحتاج إلى معرفة القيم التي يجب تضمينها.

شيء آخر & # 8211 إذا لم يكن أحد المتغيرات ذات دلالة إحصائية ، فهل يجب أن أكرر الانحدار دون استخدام مجموعة البيانات هذه على الإطلاق؟ أعلم أنه سيغير / يقلل من قيمة r-sq (وهي بالفعل منخفضة جدًا عند 11 ٪).

ملاحظة أنا أستخدم exel مع حزمة أدوات تحليل البيانات لأنه البرنامج المطلوب من قبل معلمي ،

تمثل قيم x المتغيرات في مجموعة البيانات التي تقوم بتضمينها في النموذج. يمكنك إما إدخال القيم المرصودة لملاحظة ما لمعرفة ما يتوقعه النموذج لتلك الملاحظة أو إدخال قيم جديدة للتنبؤ بملاحظة جديدة بالخصائص المحددة.

ونعم ، كما أشرت في هذا المنشور ، عادةً ما تفكر على الأقل في إزالة المتغيرات غير المهمة. كما أشرت أيضًا ، لا تطارد أعلى مربع R. النموذج الذي يحتوي على أعلى مربع R ليس هو الأفضل بالضرورة.

عزيزي جيم أنا هاداس ، كنت أقرأ تعليقاتك واقتراحاتك البناءة من قبل الكثير من الأفراد حول أسئلة الإحصاء. كنت أقوم بتحليل البيانات باستخدام كل من الإحصاء الوصفي والنموذج اللوغاريتمي. وجد النموذج الوصفي للنتيجة أن المتغيرات المختارة لها تأثيرات ولكن نتيجة اللوغاريتم لمعظم المتغيرات ليست ذات دلالة إحصائية عند 95٪ ، بالنسبة لـ p = 5٪ فقط 4 شكل 15 متغيرًا وجدت ذات دلالة إحصائية. تم استخدام سؤال من نوع Likert لقياس مستوى المشاركة (5 مستوي). هل عدم الدلالة الإحصائية يعني أن المتغيرات لم تؤثر على المتغيرات التابعة؟ ما هي المشاكل هناك
شكرا لك جيم

أول شيء يجب إدراكه هو أنه قد لا تكون هناك مشكلة على الإطلاق. ربما لا توجد علاقة بين المتغيرات المستقلة غير المهمة والمتغير التابع؟ هذا أحد الاحتمالات تحقق من الأدبيات والنظرية لتقييم ذلك.

إذا كان لديك سبب للاعتقاد بوجوب وجود علاقات مهمة للمتغيرات في الأسئلة ، فهناك العديد من الاحتمالات. ربما يكون حجم عينتك أصغر من أن تتمكن من اكتشاف التأثير؟ ربما أنت & # 8217 تركت متغيرًا مربكًا أو انتهكت بطريقة أخرى افتراضًا يحيز التقدير ليكون غير مهم؟

من ناحية أخرى ، إذا كان لديك إحصائيات وصفية تعرض تأثيرًا واضحًا ، لكن المتغير ليس مهمًا في نموذجك ، فهناك العديد من الاحتمالات لهذه الحالة. لا تأخذ الإحصائيات الوصفية في الحسبان خطأ أخذ العينات. يمكن أن يكون لديك تأثيرات مرئية قد تكون ناجمة عن خطأ عشوائي بدلاً من تأثير موجود في المجتمع. يفسر اختبار الفرضية هذا الاحتمال. بالإضافة إلى ذلك ، عندما تنظر إلى الإحصائيات الوصفية ، فإنها لا تأخذ في الحسبان (أي التحكم في) المتغيرات الأخرى. ومع ذلك ، عند ملاءمة نموذج الانحدار ، يتحكم الإجراء في المتغيرات الأخرى في النموذج. بعد التحكم في تأثير المتغيرات الأخرى في النموذج ، فإن ما بدا وكأنه نتائج قوية في الإحصاء الوصفي قد لا يكون موجودًا بالفعل.

من الناحية الفنية ، يشير المتغير غير المهم إلى أنه ليس لديك أدلة كافية لاستنتاج وجود تأثير. إنه ليس دليلاً على عدم وجود تأثير & # 8217t. لمزيد من المعلومات حول ذلك ، اقرأ رسالتي حول الفشل في رفض فرضية العدم.

هناك & # 8217s مجموعة من الأسئلة المحتملة للنظر فيها!

شكرا لك على هذه المقالة المفيدة!

في دراستنا ، لدينا 3 متغيرات مستقلة ومتغير تابع واحد.
بالنسبة لجميع المتغيرات ، نستخدم مقياسًا مطورًا بالفعل يحتوي على حوالي 5-9 أسئلة لكل منها ويستخدم مقياس ليكرت للإجابات.
أردنا فقط معرفة ما إذا كنا قد اتبعنا الخطوات الصحيحة وأردنا توجيهاتك بشأن ذلك.
أولاً ، أخذنا مجموع إجابة كل مشارك في كل استبيان. على سبيل المثال ، استبيان استقلالية العمل (وهو أحد متغيراتنا) يحتوي على 5 أسئلة وأجاب أحد المشاركين 2 و 3 و 2 و 3 و 4 على التوالي لجميع الأسئلة الخمسة. بعد ذلك ، اتخذنا المتوسط ​​14 باعتباره متوسط ​​استجابة المشارك على الاستبيان. تم حساب هذا المتوسط ​​لجميع المستجيبين لجميع الاستبيانات / المتغيرات.
ثم استخدمنا تحليل الانحدار المتعدد لدراسة تأثير المتغيرات المستقلة الثلاثة على المتغير التابع.
هل يمكنك إعلامنا إذا كنا على الطريق الصحيح وإذا استخدمنا التحليل الصحيح؟ هل يجب أن نستخدم الانحدار الترتيبي بدلاً من ذلك؟

نعم ، هذا يبدو وكأنه نهج جيد. عندما تأخذ متوسط ​​أو مجموع متغير مقياس ليكرت مثلك ، يمكنك غالبًا معاملته كمتغير مستمر.

تتمثل إحدى المشكلات المحتملة في أنك عندما تقوم بتغيير القيم في مقاييس ليكرت بالانتقال من 2 إلى 3 إلى 4 ، وما إلى ذلك ، فإنك لا تعرف على وجه اليقين ما إذا كانت هذه القيم تمثل زيادات ثابتة. يشبه الأمر عندما تقارن أوقات المركز الأول والمركز الثاني والمركز الثالث في السباق ، فإنها لا تزيد بالضرورة بمعدل ثابت. هذه هي طبيعة المتغيرات الترتيبية. قد تحتاج إلى ملاءمة الانحناء ، وما إلى ذلك ، ولكن ، إذا كان بإمكانك ملاءمة نموذج تبدو فيه البقايا جيدة والنتائج منطقية من الناحية النظرية ، فأعتقد أنك حصلت على نموذج جيد!

حظا سعيدا في تحليلك!

كيف يمكنني تحديد نموذج انحدار يتكون من كل من الانحدار المستمر والقاطع؟ وكيف نفسر ناتج هذا النموذج؟

مرحبا جيم،
شكرا لك على تفسيراتك الممتازة والبديهية. أنا & # 8217m طالب متخرج وأحاول مؤخرًا العثور على علاقات تفاعلية بين جينين من خلال إضافة مصطلحات التفاعل الخاصة بهم في نماذج الانحدار. لدي بعض الأسئلة حول اختيار أفضل نموذج انحدار. يمكن أن تتأثر DVs بالعديد من IV (B1 ، B2 ، ... ، Bn) ، وهدفي هو العثور على Bn الذي يمكن أن ينظمه IV (A) آخر. لقد قمت ببناء ثلاثة نماذج للتعامل مع ذلك ، لكن النتائج مختلفة تمامًا.
الموديل 1: DV = A + Bn + A * Bn
أقوم بإدخال زوج واحد فقط IVs (A و Bn) في النموذج في كل مرة ، ثم كرر هذا النموذج n مرة. عندما يكون Bn هو B1 (DV = A + B1 + A * B1) ، تكون جميع المصطلحات مهمة.
—————————————————————-
معاملات:
تقدير Std. خطأ t قيمة العلاقات العامة (& gt | t |)
(اعتراض) -1.732e + 03 3.987e + 02 -4.343 5.72e-05 ***
أ 2.658 هـ + 01 8.261 هـ + 00 3.217 0.00212 **
B1 6.576e + 00 2.140e + 00 3.073 0.00323 **
أ * B1 -8.390e-02 2.889e-02 -2.904 0.00521 **

سيجنيف. الرموز: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 "" 1
الخطأ المعياري المتبقي: 1065 في 58 درجة من الحرية
تربيع R المتعدد: 0.2037 ، مربع R المعدل: 0.1625
إحصاء F: 4.945 في 3 و 58 DF ، قيمة p: 0.003994
—————————————————————
الموديل 2: DV = A + B1 + B2 +… + Bn + A * Bn
لتجنب النتائج المتحيزة ، كما اقترحت ، أقوم بإضافة جميع الأدوية الوريدية التي قد تؤثر على DV. ولكن بقي مصطلح تفاعل هدف واحد فقط. ثم كرر هذا النموذج مرات n.
عندما يكون مصطلح التفاعل A * B1 ، يكون تأثير التفاعل ضئيلًا.
—————————————————————-
معاملات:
تقدير Std. خطأ t قيمة العلاقات العامة (& gt | t |)
(اعتراض) -2.124e + 03 2.815e + 02 -7.546 7.49e-10 ***
أ 1.516 هـ + 01 5.994 هـ + 00 2.530 0.01454 *
B1 2.056e + 00 1.810e + 00 1.136 0.26145
B2 3.657e + 00 2.402e + 00 1.523 0.13404
B3 6.188e-01 4.108e-01 1.506 0.13822
B4 4.790e-01 3.337e-01 1.435 0.15734
B5 -4.909e-01 1.355e + 00 -0.362 0.71871
B6 1.485e + 00 6.239e-01 2.381 0.02104 *
B7 1.600e + 01 5.756e + 00 2.780 0.00759 **
B8 2.062e-02 1.827e-02 1.129 0.26433
أ * B1 -3.465e-02 2.225e-02 -1.558 0.12551

سيجنيف. الرموز: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 "" 1
الخطأ المعياري المتبقي: 674.5 في 51 درجة من الحرية
تربيع R المتعدد: 0.7194 ، مربع R المعدل: 0.6643
إحصائية F: 13.07 في 10 و 51 DF ، قيمة p: 6.148e-11
—————————————————————–

النموذج 3: DV = A + B1 + A * B1 + B2 + A * B2… + Bn + A * Bn
في هذا النموذج ، أقوم بإضافة كل IVs (Bn) وشروط تفاعلها مع A في وقت واحد ، وبالتالي يعمل النموذج مرة واحدة. في هذه الحالة ، لا توجد شروط كبيرة.
——————————————————————
معاملات:
تقدير Std. خطأ t قيمة العلاقات العامة (& gt | t |)
(اعتراض) -2.314e + 03 3.984e + 02-5.809 6.45e-07 ***
أ 2.410 هـ + 01 1.277 هـ + 01 1.886 0.0658.
B1 5.936e-01 2.170e + 00 0.274 0.7857
B2 5.281e + 00 6.525e + 00 0.809 0.4226
B3 4.074e-01 1.238e + 00 0.329 0.7436
B4 4.417e-01 1.202e + 00 0.368 0.7150
B5 -4.153e-01 3.814e + 00 -0.109 0.9138
B6 2.775e + 00 1.777e + 00 1.562 0.1255
B7 9.274e + 00 1.136e + 01 0.816 0.4187
B8 4.297e-02 4.573e-02 0.940 0.3524
أ * B1 -1.749e-02 3.531e-02 -0.495 0.6228
أ * B2 -8.492e-02 1.707e-01 -0.498 0.6212
أ * B3 6.077e-03 2.901e-02 0.209 0.8350
أ * B4 1.723e-03 2.737e-02 0.063 0.9501
أ * B5 4.894e-02 1.136e-01 0.431 0.6688
أ * B6 -5.186e-02 5.362e-02 -0.967 0.3388
أ * B7 3.067e-01 5.010e-01 0.612 0.5436
أ * B8 -4.106e-04 8.732e-04 -0.470 0.6405

سيجنيف. الرموز: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 "" 1
Residual standard error: 686 on 44 degrees of freedom
Multiple R-squared: 0.7496, Adjusted R-squared: 0.6528
F-statistic: 7.747 on 17 and 44 DF, p-value: 2.326e-08
——————————————————————–
My question: Is the significant interaction effect between A and B1 in model 1 reliable? Which is the best model to find the Interactive relationship between A and Bn?
In addition, the IVs above are not centered, as I get same results for interaction terms and the less significant main effect sometimes after centering.

Thank you very much for your help and support

SAMUEL K BREFO-ABABIO says

Hey Jim, thanks for your insightful post. Please, are there any steps or factors that best determine whether a data analyst should build one comprehensive model or simply put should build many models on partitions of the data.

Thank you for your useful content.
Is that mean we should use same control variables from previous literature or we can use the most suitable variables after running some experiments.

Theory and the scientific literature should guide you when possible. If other studies find that particular variables are important, you should consider them for your study. Because of omitted variable bias, it can be risk in terms bias to not include variables that other studies have found to be important. That is particularly true if you’re performing an observation study rather than a randomized study. However, you can certainly add your own variables into the mix if you’re testing new theories and/or have access to new types of data.

So, be very careful when removing control variables that have been identified as being important. You should have, and be able to explain, good reasons for removing them. Feel freer when it comes to adding new variables.

what should we do if the output variable is more skewed.skewness>4

When the output/dependent variable is skewed, it can be more difficult to satisfy the OLS assumptions. Note that the OLS assumptions don’t state that the dependent variable must be normally distributed itself, but instead state that the residuals should be normally distributed. And, obtaining normally distributed residuals can be more difficult when the DV is skewed.

There are several things you can try.

Sometimes modeling the curvature, if it exists, will help. In my post about using regression to make predictions, I use BMI to predict body fat percentage. Body fat percentage is the DV and it is skewed. However, the relationship between BMI and BF% is curved and by modeling that curvature, the residuals are normally distributed.

As the skew worsens, it becomes harder to get good residuals. You might need to transform you DV. I don’t have a blog post about that but I include a lot of information about data transformations in my regression ebook.

Those are several things that I’d look into first.

Best of luck with your analysis!

Hi Jim,
What does it mean when a regression model has a negative prediction R2 while the R2 and adjusted R2 are positive and reasonable?


شاهد الفيديو: ماذا لو فقد كل سكان العالم ذاكرتهم في نفس الوقت (شهر اكتوبر 2021).