خانه / درماتیت/ تحلیل رگرسیون در روانشناسی مثال. روش های آمار ریاضی. تجزیه و تحلیل رگرسیون

مثال تحلیل رگرسیون در روانشناسی روش های آمار ریاضی. تجزیه و تحلیل رگرسیون

تحلیل رگرسیون روشی برای ایجاد یک بیان تحلیلی برای وابستگی تصادفی بین ویژگی های مورد مطالعه است. معادله رگرسیون نشان می دهد که چگونه میانگین تغییر می کند درهنگام تغییر هر یک از ایکس من , و دارای شکل:

جایی که y -متغیر وابسته (همیشه یکسان است)؛

ایکس من - متغیرهای مستقل (عوامل) (ممکن است چندین مورد از آنها وجود داشته باشد).

اگر تنها یک متغیر مستقل وجود داشته باشد، این یک تحلیل رگرسیون ساده است. اگر تعدادی از آنها وجود داشته باشد ( پ 2), سپس چنین تحلیلی چند عاملی نامیده می شود.

تحلیل رگرسیون دو مشکل اصلی را حل می کند:

ساخت یک معادله رگرسیون، یعنی یافتن نوع رابطه بین شاخص نتیجه و عوامل مستقل ایکس 1 , ایکس 2 , …, ایکس n .

ارزیابی اهمیت معادله حاصل، یعنی. تعیین اینکه چقدر ویژگی های عامل انتخاب شده تنوع یک صفت را توضیح می دهد تو

تحلیل رگرسیون عمدتاً برای برنامه ریزی و همچنین برای توسعه یک چارچوب نظارتی استفاده می شود.

بر خلاف تحلیل همبستگی، که تنها به این سوال پاسخ می دهد که آیا رابطه ای بین ویژگی های تحلیل شده وجود دارد، تحلیل رگرسیون نیز بیان رسمی خود را ارائه می دهد. علاوه بر این، اگر تحلیل همبستگی هر گونه رابطه بین عوامل را مطالعه کند، تحلیل رگرسیون به مطالعه وابستگی یک طرفه می‌پردازد. رابطه ای که نشان می دهد چگونه تغییر در ویژگی های عامل بر ویژگی مؤثر تأثیر می گذارد.

تحلیل رگرسیون یکی از پیشرفته ترین روش های آمار ریاضی است. به بیان دقیق، برای اجرای تحلیل رگرسیون، لازم است تعدادی از الزامات ویژه (به ویژه، ایکسل ،ایکس 2 ،...،ایکس n ;yباید متغیرهای تصادفی مستقل و معمولی با واریانس ثابت باشند). که در زندگی واقعیرعایت دقیق الزامات رگرسیون و تحلیل همبستگی بسیار نادر است، اما هر دوی این روش ها در تحقیقات اقتصادی بسیار رایج هستند. وابستگی ها در اقتصاد نه تنها می توانند مستقیم، بلکه معکوس و غیرخطی نیز باشند. در صورت وجود هر وابستگی می توان یک مدل رگرسیون ساخت، با این حال، در تحلیل چند متغیره فقط از مدل های خطی شکل استفاده می شود:

معادله رگرسیون معمولاً با استفاده از روش حداقل مربعات ساخته می شود که ماهیت آن به حداقل رساندن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل از مقادیر محاسبه شده آن است، یعنی:

جایی که تی -تعداد مشاهدات؛

j =a+b 1 ایکس 1 j + ب 2 ایکس 2 j + ... + ب n ایکس n j - مقدار محاسبه شده ضریب نتیجه

توصیه می شود ضرایب رگرسیون را با استفاده از بسته های تحلیلی برای رایانه شخصی یا یک ماشین حساب مالی ویژه تعیین کنید. در ساده ترین حالت، ضرایب رگرسیون یک معادله رگرسیون خطی یک عاملی شکل y = a + bxرا می توان با استفاده از فرمول ها پیدا کرد:

آنالیز خوشه ای

تحلیل خوشه ای یکی از روش های تحلیل چند بعدی است که برای گروه بندی (خوشه بندی) جمعیتی در نظر گرفته شده است که عناصر آن با ویژگی های بسیاری مشخص می شوند. مقادیر هر ویژگی به عنوان مختصات هر واحد از جمعیت مورد مطالعه در فضای چند بعدی ویژگی ها عمل می کند. هر مشاهده ای که با مقادیر چندین شاخص مشخص می شود، می تواند به عنوان یک نقطه در فضای این شاخص ها نمایش داده شود که مقادیر آن به عنوان مختصاتی در یک فضای چند بعدی در نظر گرفته می شود. فاصله بین نقاط آرو qبا کمختصات به صورت زیر تعریف می شود:

معیار اصلی برای خوشه بندی این است که تفاوت بین خوشه ها باید بیشتر از مشاهدات اختصاص داده شده به همان خوشه باشد، یعنی. در یک فضای چند بعدی نابرابری زیر باید رعایت شود:

جایی که r 1، 2 - فاصله بین خوشه های 1 و 2.

درست مانند روش های تحلیل رگرسیون، روش خوشه بندی کاملاً کار فشرده است؛ توصیه می شود آن را روی رایانه انجام دهید.

تجزیه و تحلیل رگرسیون- روشی برای مدل سازی داده های اندازه گیری شده و بررسی خواص آنها. داده ها از جفت مقادیر متغیر وابسته (متغیر پاسخ) و متغیر مستقل (متغیر توضیحی) تشکیل شده است. مدل رگرسیون تابعی از متغیر مستقل و پارامترها با یک متغیر تصادفی اضافه شده است.

تحلیل همبستگی و تحلیل رگرسیون بخش‌های مرتبط آمار ریاضی هستند و برای مطالعه وابستگی آماری تعدادی از کمیت‌ها با استفاده از داده‌های نمونه در نظر گرفته شده‌اند. که برخی از آنها تصادفی هستند. با وابستگی آماری، کمیت ها از نظر عملکردی مرتبط نیستند، اما به عنوان متغیرهای تصادفی توسط یک توزیع احتمال مشترک تعریف می شوند.

بررسی وابستگی متغیرهای تصادفی منجر به مدل‌های رگرسیونی و تحلیل رگرسیون بر اساس داده‌های نمونه می‌شود. تئوری احتمال و آمار ریاضی تنها ابزاری برای مطالعه وابستگی آماری هستند، اما هدفشان ایجاد رابطه علّی نیست. ایده‌ها و فرضیه‌هایی در مورد یک رابطه علی باید از نظریه دیگری استخراج شوند که امکان توضیح معنادار پدیده مورد مطالعه را فراهم می‌کند.

داده های عددی معمولاً روابط صریح (معلوم) یا ضمنی (پنهان) با یکدیگر دارند.

شاخص هایی که با روش های محاسبه مستقیم به دست می آیند، یعنی با استفاده از فرمول های شناخته شده قبلی محاسبه می شوند، به وضوح مرتبط هستند. به عنوان مثال، درصد تکمیل طرح، سطوح، وزن مخصوص، انحراف در مقدار، انحراف در درصد، نرخ رشد، نرخ رشد، شاخص ها و غیره.

اتصالات نوع دوم (ضمنی) از قبل ناشناخته هستند. با این حال، لازم است که بتوانیم پدیده های پیچیده را تبیین و پیش بینی (پیش بینی) کنیم تا بتوان آنها را مدیریت کرد. از این رو متخصصان با کمک مشاهدات در تلاش برای شناسایی وابستگی های پنهان و بیان آن ها در قالب فرمول ها یعنی مدل سازی ریاضی پدیده ها یا فرآیندها هستند. یکی از این فرصت ها با تحلیل همبستگی-رگرسیون فراهم می شود.

مدل‌های ریاضی برای سه هدف کلی ساخته و استفاده می‌شوند:

* برای توضیح؛
* برای پیش بینی؛
* برای رانندگی

تحلیلگران با استفاده از روش های همبستگی و تحلیل رگرسیون، نزدیکی ارتباطات بین شاخص ها را با استفاده از ضریب همبستگی اندازه گیری می کنند. در این حالت، اتصالاتی کشف می شود که از نظر قدرت (قوی، ضعیف، متوسط و ...) و در جهت (مستقیم، معکوس) متفاوت هستند. اگر اتصالات معنی دار باشند، توصیه می شود بیان ریاضی آنها را در قالب یک مدل رگرسیونی پیدا کرده و اهمیت آماری مدل را ارزیابی کنیم.

تحلیل رگرسیون روش اصلی آمار ریاضی مدرن برای شناسایی ارتباطات ضمنی و پنهان بین داده‌های مشاهده‌ای نامیده می‌شود.

بیان مسئله تحلیل رگرسیون به صورت زیر فرموله شده است.

مجموعه ای از نتایج مشاهداتی وجود دارد. در این مجموعه، یک ستون مربوط به یک شاخص است که برای آن لازم است یک رابطه عملکردی با پارامترهای شی و محیط نشان داده شده توسط ستون های باقی مانده ایجاد شود. مورد نیاز: ایجاد رابطه کمی بین شاخص و عوامل. در این مورد، مشکل تحلیل رگرسیون به عنوان وظیفه شناسایی چنین وابستگی عملکردی y = f (x2، x3، ...، xт) درک می شود، که به بهترین شکل داده های تجربی موجود را توصیف می کند.

مفروضات:

تعداد مشاهدات برای نشان دادن الگوهای آماری در مورد عوامل و روابط آنها کافی است.

داده های پردازش شده حاوی برخی خطاها (نویز) به دلیل خطاهای اندازه گیری و تأثیر عوامل تصادفی حساب نشده است.

ماتریس نتایج مشاهدات تنها اطلاعاتی در مورد شی مورد مطالعه است که قبل از شروع مطالعه در دسترس است.

تابع f (x2, x3, ..., xт) که وابستگی شاخص به پارامترها را توصیف می کند، معادله رگرسیون (تابع) نامیده می شود. اصطلاح "رگرسیون" (رگرسیون (لاتین) - عقب نشینی ، بازگشت به چیزی) با ویژگی های یکی از مشکلات خاص حل شده در مرحله شکل گیری روش همراه است.

توصیه می شود که راه حل مشکل تحلیل رگرسیون را به چند مرحله تقسیم کنید:

پیش پردازش داده ها؛

انتخاب نوع معادلات رگرسیون؛

محاسبه ضرایب معادله رگرسیون;

بررسی کفایت تابع ساخته شده با نتایج مشاهدات.

پیش پردازش شامل استانداردسازی ماتریس داده ها، محاسبه ضرایب همبستگی، بررسی اهمیت آنها و حذف پارامترهای ناچیز از در نظر گرفتن است.

انتخاب نوع معادله رگرسیون وظیفه تعیین رابطه عملکردی که داده ها را به بهترین شکل توصیف می کند شامل غلبه بر تعدادی از مشکلات اساسی است. در حالت کلی، برای داده های استاندارد شده، وابستگی عملکردی نشانگر به پارامترها می تواند به صورت نمایش داده شود.

y = f (x1، x2، …، xm) + e

که در آن f یک تابع ناشناخته قبلی است که باید تعیین شود.

e - خطای تقریب داده ها.

این معادله را معمولا معادله رگرسیون نمونه می نامند. این معادله رابطه بین تغییرات شاخص و تغییرات عوامل را مشخص می کند. و اندازه گیری همبستگی نسبت تغییرات در یک شاخص را که با تغییرات در عوامل مرتبط است اندازه گیری می کند. به عبارت دیگر، همبستگی بین یک شاخص و عوامل را نمی توان به عنوان ارتباط بین سطوح آنها تفسیر کرد و تحلیل رگرسیون نقش عوامل را در ایجاد یک شاخص توضیح نمی دهد.

ویژگی دیگر مربوط به ارزیابی میزان تأثیر هر عامل بر شاخص است. معادله رگرسیون ارزیابی تأثیر جداگانه هر عامل بر شاخص را ارائه نمی دهد، چنین ارزیابی تنها در صورتی امکان پذیر است که همه عوامل دیگر به عامل مورد مطالعه مرتبط نباشند. اگر عامل مورد مطالعه به عوامل دیگری که بر شاخص تأثیر می گذارند مربوط باشد، نتیجه خواهد بود ویژگی های ترکیبیتاثیر عامل این مشخصه هم شامل تأثیر مستقیم عامل و هم تأثیر غیرمستقیم اعمال شده از طریق ارتباط با سایر عوامل و تأثیر آنها بر شاخص است.

در معادله رگرسیون گنجاندن عواملی که ارتباط ضعیفی با اندیکاتور دارند، اما ارتباط نزدیکی با سایر عوامل دارند، توصیه نمی شود. عواملی که از نظر عملکردی با یکدیگر مرتبط هستند در معادله گنجانده نشده اند (برای آنها ضریب همبستگی 1 است). گنجاندن چنین عواملی منجر به انحطاط سیستم معادلات برای تخمین ضرایب رگرسیون و عدم قطعیت جواب می شود.

تابع f باید طوری انتخاب شود که خطای e به نوعی حداقل باشد. برای انتخاب یک اتصال تابعی، از قبل فرضیه ای در مورد اینکه تابع f ممکن است متعلق به کدام کلاس باشد، مطرح می شود و سپس تابع "بهترین" در این کلاس انتخاب می شود. کلاس انتخاب شده از توابع باید مقداری "صافی" داشته باشد، به عنوان مثال. تغییرات "کوچک" در مقادیر آرگومان باید باعث تغییرات "کوچک" در مقادیر تابع شود.

یک مورد خاص که به طور گسترده در عمل استفاده می شود، معادله چند جمله ای یا رگرسیون خطی درجه یک است

برای انتخاب نوع وابستگی عملکردی می توان رویکرد زیر را توصیه کرد:

نقاط با مقادیر نشانگر به صورت گرافیکی در فضای پارامتر نمایش داده می شوند. با تعداد زیادی پارامتر، می توان برای هر یک از آنها نقاط ساخت و توزیع های دو بعدی مقادیر را به دست آورد.

بر اساس مکان نقاط و بر اساس تجزیه و تحلیل ماهیت رابطه بین شاخص و پارامترهای شی، در مورد نوع تقریبی رگرسیون یا گزینه های احتمالی آن نتیجه گیری می شود.

پس از محاسبه پارامترها، کیفیت تقریب ارزیابی می شود، یعنی. ارزیابی میزان شباهت بین مقادیر محاسبه شده و واقعی؛

اگر مقادیر محاسبه شده و واقعی در کل منطقه کار نزدیک باشند، می توان مشکل تحلیل رگرسیون را حل شده در نظر گرفت. در غیر این صورت، می‌توانید نوع متفاوتی از چند جمله‌ای یا تابع تحلیلی دیگری مانند تناوبی را انتخاب کنید.

محاسبه ضرایب معادله رگرسیون

حل یک سیستم معادلات بر اساس داده های موجود غیرممکن است، زیرا تعداد مجهولات همیشه بیشتر از تعداد معادلات است. برای غلبه بر این مشکل، فرضیات اضافی مورد نیاز است. حس مشترکپیشنهاد می کند: توصیه می شود ضرایب چند جمله ای را به گونه ای انتخاب کنید که از حداقل خطا در تقریب داده ها اطمینان حاصل شود. برای ارزیابی خطاهای تقریبی می توان از معیارهای مختلفی استفاده کرد. ریشه میانگین مربعات خطا به طور گسترده ای به عنوان چنین معیاری استفاده می شود. بر اساس آن توسعه یافت روش خاصبرآورد ضرایب معادلات رگرسیون - روش حداقل مربعات (OLS). این روش به شما امکان می دهد تا حداکثر احتمال ضرایب ناشناخته معادله رگرسیون را تحت گزینه توزیع نرمال بدست آورید، اما می توان از آن برای هر توزیع دیگری از عوامل استفاده کرد.

MNC ها بر اساس مقررات زیر:

مقادیر خطاها و عوامل مستقل هستند و بنابراین با هم مرتبط نیستند، یعنی. فرض بر این است که مکانیسم‌های ایجاد تداخل با مکانیسم تولید مقادیر عامل مرتبط نیستند.

انتظار ریاضی خطا e باید برابر با صفر باشد (مولفه ثابت در ضریب a0 گنجانده شده است)، به عبارت دیگر، خطا یک کمیت متمرکز است.

برآورد نمونه از واریانس خطا باید حداقل باشد.

اگر مدل خطی نادرست است یا پارامترها به طور نادرست اندازه گیری می شوند، در این مورد روش حداقل مربعات به ما اجازه می دهد تا مقادیری از ضرایب را پیدا کنیم که در آن مدل خطی به بهترین وجه شی واقعی را به معنای انحراف استاندارد انتخاب شده توصیف می کند. معیار

کیفیت معادله رگرسیون حاصل با درجه نزدیکی بین نتایج مشاهدات شاخص و مقادیر پیش بینی شده توسط معادله رگرسیون در ارزیابی می شود. امتیاز داده شدهفضای پارامتر اگر نتایج نزدیک باشند، می توان مشکل تحلیل رگرسیون را حل شده در نظر گرفت. در غیر این صورت، باید معادله رگرسیون را تغییر دهید و محاسبات را برای تخمین پارامترها تکرار کنید.

اگر چندین شاخص وجود داشته باشد، مشکل تحلیل رگرسیون به طور مستقل برای هر یک از آنها حل می شود.

در تحلیل ماهیت معادله رگرسیون باید به نکات زیر توجه کرد. رویکرد در نظر گرفته شده ارزیابی جداگانه (مستقل) ضرایب را ارائه نمی دهد - تغییر در مقدار یک ضریب مستلزم تغییر در مقادیر دیگران است. ضرایب به دست آمده نباید به عنوان سهم پارامتر مربوطه به مقدار اندیکاتور در نظر گرفته شود. معادله رگرسیون فقط یک توصیف تحلیلی خوب از داده های موجود است و نه قانونی که رابطه بین پارامترها و یک شاخص را توصیف کند. این معادله برای محاسبه مقادیر اندیکاتور در محدوده معینی از تغییرات پارامتر استفاده می شود. برای محاسبات خارج از این محدوده مناسب است، یعنی. می توان از آن برای حل مسائل درون یابی و تا حد محدودی برای برون یابی استفاده کرد.

دلیل اصلی عدم دقت پیش‌بینی، نه چندان قطعی بودن برون‌یابی خط رگرسیون، بلکه تغییر معنی‌دار شاخص به دلیل عواملی است که در مدل لحاظ نشده است. محدودیت توانایی پیش‌بینی، شرط پایداری پارامترهایی است که در مدل در نظر گرفته نشده و ماهیت تأثیر عوامل مدل در نظر گرفته شده است. اگر ناگهان تغییر کند محیط خارجی، سپس معادله رگرسیون کامپایل شده معنای خود را از دست خواهد داد.

پیش بینی به دست آمده با جایگزینی مقدار مورد انتظار پارامتر در معادله رگرسیون یک نقطه است. احتمال تحقق چنین پیش بینی ناچیز است. توصیه می شود فاصله اطمینان پیش بینی را تعیین کنید. برای مقادیر فردی شاخص، فاصله باید خطاها در موقعیت خط رگرسیون و انحراف مقادیر فردی از این خط را در نظر بگیرد.

در مدل سازی آماری، تحلیل رگرسیون مطالعه ای است که برای ارزیابی رابطه بین متغیرها استفاده می شود. این روش ریاضی شامل بسیاری از روش‌های دیگر برای مدل‌سازی و تجزیه و تحلیل متغیرهای متعدد است که تمرکز بر رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل است. به طور خاص، تحلیل رگرسیون به ما کمک می کند تا بفهمیم که اگر یکی از متغیرهای مستقل تغییر کند در حالی که متغیرهای مستقل دیگر ثابت بمانند، چگونه مقدار معمولی یک متغیر وابسته تغییر می کند.

در تمام موارد، برآورد هدف تابعی از متغیرهای مستقل است و تابع رگرسیون نامیده می شود. در تحلیل رگرسیون، مشخص کردن تغییر در متغیر وابسته به عنوان تابعی از رگرسیون نیز جالب است که می‌توان با استفاده از توزیع احتمال توصیف کرد.

مشکلات تحلیل رگرسیون

این روش تحقیق آماری به طور گسترده برای پیش بینی استفاده می شود که استفاده از آن مزیت قابل توجهی دارد، اما گاهی اوقات منجر به توهم یا روابط کاذب می شود، بنابراین توصیه می شود در موارد مذکور با دقت از آن استفاده شود، زیرا به عنوان مثال، همبستگی به معنای همبستگی نیست. علیت

تعداد زیادی روش برای تحلیل رگرسیون توسعه داده شده است، مانند رگرسیون حداقل مربعات خطی و معمولی که پارامتریک هستند. ماهیت آنها این است که تابع رگرسیون بر حسب تعداد محدودی از پارامترهای ناشناخته که از داده ها تخمین زده می شوند، تعریف می شود. رگرسیون ناپارامتری به تابع خود اجازه می دهد تا در مجموعه خاصی از توابع قرار گیرد که می تواند بینهایت بعدی باشد.

به عنوان یک روش تحقیق آماری، تحلیل رگرسیون در عمل به شکل فرآیند تولید داده و نحوه ارتباط آن با رویکرد رگرسیون بستگی دارد. از آنجایی که شکل واقعی تولید فرآیند داده معمولاً یک عدد ناشناخته است، تحلیل رگرسیونی داده ها اغلب تا حدی به فرضیات مربوط به فرآیند بستگی دارد. اگر داده های کافی در دسترس باشد، گاهی اوقات این فرضیات قابل آزمایش هستند. مدل‌های رگرسیون اغلب مفید هستند حتی زمانی که مفروضات به طور متوسط نقض شوند، اگرچه ممکن است در اوج بازدهی عمل نکنند.

در معنای محدودتر، رگرسیون ممکن است به طور خاص به تخمین متغیرهای پاسخ پیوسته اشاره داشته باشد، برخلاف متغیرهای پاسخ گسسته که در طبقه بندی استفاده می شود. حالت متغیر خروجی پیوسته نیز رگرسیون متریک نامیده می شود تا آن را از مسائل مرتبط متمایز کند.

داستان

اولین شکل رگرسیون، روش شناخته شده حداقل مربعات است. توسط لژاندر در سال 1805 و گاوس در سال 1809 منتشر شد. لژاندر و گاوس این روش را برای مسئله تعیین مدار اجسام به دور خورشید (عمدتاً دنباله‌دارها، اما بعداً سیارات کوچک تازه کشف شده) از طریق مشاهدات نجومی به کار بردند. گاوس منتشر شد پیشرفتهای بعدینظریه حداقل مربعات در سال 1821، شامل نسخه ای از قضیه گاوس-مارکوف.

اصطلاح "رگرسیون" توسط فرانسیس گالتون در قرن نوزدهم برای توصیف یک پدیده بیولوژیکی ابداع شد. ایده این بود که قد نوادگان از قد نیاکانشان به سمت پایین به سمت میانگین عادی پسرفت می کند. از نظر گالتون، رگرسیون فقط این معنای بیولوژیکی را داشت، اما بعداً کار او توسط اودنی یولی و کارل پیرسون ادامه یافت و در زمینه آماری کلی تری آورده شد. در کار یول و پیرسون، توزیع مشترک متغیرهای پاسخ و توضیحی گاوسی فرض شده است. این فرض توسط فیشر در مقالات 1922 و 1925 رد شد. فیشر پیشنهاد کرد که توزیع شرطی متغیر پاسخ گوسی است، اما توزیع مشترک لازم نیست. در این راستا، پیشنهاد فیشر به فرمول 1821 گاوس نزدیکتر است. قبل از سال 1970، گاهی اوقات تا 24 ساعت طول می کشید تا نتیجه تحلیل رگرسیون به دست آید.

روش های تجزیه و تحلیل رگرسیون همچنان یک حوزه تحقیقات فعال است. در دهه های اخیر، روش های جدیدی برای رگرسیون قوی توسعه یافته است. رگرسیون شامل پاسخ های همبسته. روش های رگرسیون که انواع مختلف داده های از دست رفته را در خود جای می دهند. رگرسیون ناپارامتریک روش های رگرسیون بیزی رگرسیون هایی که در آن متغیرهای پیش بینی با خطا اندازه گیری می شوند. رگرسیون با پیش بینی های بیشتری نسبت به مشاهدات و استنتاج علت و معلولی با رگرسیون.

مدل های رگرسیون

مدل های تحلیل رگرسیون شامل متغیرهای زیر است:

پارامترهای ناشناخته، بتا تعیین شده، که می تواند یک اسکالر یا یک برداری باشد.
متغیرهای مستقل، X.
متغیرهای وابسته، Y.

رشته‌های مختلف علوم که در آن‌ها از تحلیل رگرسیون استفاده می‌شود، به جای متغیرهای وابسته و مستقل از اصطلاحات مختلفی استفاده می‌شود، اما در همه موارد مدل رگرسیون Y را به تابعی از X و β مرتبط می‌کند.

تقریب معمولاً به صورت E(Y | X) = F(X, β) نوشته می شود. برای انجام تحلیل رگرسیون باید نوع تابع f را تعیین کرد. کمتر متداول، مبتنی بر دانش در مورد رابطه بین Y و X است که بر داده ها متکی نیست. اگر چنین دانشی در دسترس نباشد، فرم انعطاف پذیر یا راحت F انتخاب می شود.

متغیر وابسته Y

اکنون فرض می کنیم که بردار پارامترهای مجهول β دارای طول k است. برای انجام تحلیل رگرسیون، کاربر باید اطلاعاتی در مورد متغیر وابسته Y ارائه دهد:

اگر N نقطه داده از فرم (Y، X) مشاهده شود، جایی که N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

اگر دقیقاً N = K مشاهده شود و تابع F خطی باشد، معادله Y = F(X, β) را می توان دقیقاً به جای تقریبی حل کرد. این معادل حل مجموعه ای از N-معادلات با N-ناشناخته ها (عناصر β) است که تا زمانی که X مستقل خطی باشد، راه حل منحصر به فردی دارد. اگر F غیر خطی باشد، ممکن است راه حلی وجود نداشته باشد یا راه حل های زیادی وجود داشته باشد.
متداول ترین حالت در جایی است که N > نقاط داده مشاهده می شود. در این مورد، اطلاعات کافی در داده ها برای تخمین مقدار منحصر به فرد β که به بهترین وجه با داده ها مطابقت دارد، وجود دارد، و یک مدل رگرسیونی که در آن کاربرد برای داده ها می تواند به عنوان یک سیستم بیش از حد تعیین شده در β مشاهده شود.

در مورد دوم، تحلیل رگرسیون ابزارهایی را برای موارد زیر فراهم می کند:

یافتن راه حلی برای پارامترهای مجهول β، که به عنوان مثال، فاصله بین مقدار اندازه گیری شده و پیش بینی شده Y را به حداقل می رساند.
تحت فرضیات آماری خاصی، تحلیل رگرسیون از اطلاعات اضافی برای ارائه اطلاعات آماری در مورد پارامترهای ناشناخته β و مقادیر پیش‌بینی‌شده متغیر وابسته Y استفاده می‌کند.

تعداد مورد نیاز اندازه گیری مستقل

مدل رگرسیونی را در نظر بگیرید که دارای سه پارامتر ناشناخته است: β 0 ، β 1 و β 2 . فرض کنید آزمایشگر 10 اندازه گیری را بر روی همان مقدار بردار متغیر مستقل X انجام دهد. در این مورد، تجزیه و تحلیل رگرسیون مجموعه ای منحصر به فرد از مقادیر را ایجاد نمی کند. بهترین کاری که می توانید انجام دهید این است که میانگین و انحراف معیارمتغیر وابسته Y. به طور مشابه، اندازه گیری دو معانی مختلف X، شما می توانید داده های کافی برای رگرسیون با دو مجهول به دست آورید، اما نه با سه مجهول یا بیشتر.

اگر اندازه‌گیری‌های آزمایشگر در سه مقدار مختلف از بردار متغیر مستقل X انجام شده باشد، آنگاه تحلیل رگرسیون مجموعه‌ای منحصر به فرد از تخمین‌ها را برای سه پارامتر ناشناخته در β ارائه می‌کند.

در مورد رگرسیون خطی عمومی، عبارت فوق معادل شرط معکوس بودن ماتریس X T X است.

مفروضات آماری

هنگامی که تعداد اندازه‌گیری‌های N از تعداد پارامترهای مجهول k و خطاهای اندازه‌گیری εi بیشتر باشد، معمولاً اطلاعات اضافی موجود در اندازه‌گیری‌ها منتشر می‌شود و برای پیش‌بینی‌های آماری در مورد پارامترهای مجهول استفاده می‌شود. این اطلاعات اضافی، درجه آزادی رگرسیون نامیده می شود.

مفروضات اساسی

مفروضات کلاسیک برای تحلیل رگرسیون عبارتند از:

نمونه گیری نماینده پیش بینی استنتاج است.
عبارت خطا یک متغیر تصادفی با میانگین صفر است که مشروط به متغیرهای توضیحی است.
متغیرهای مستقل بدون خطا اندازه گیری می شوند.
به عنوان متغیرهای مستقل (پیش‌بینی‌کننده)، به‌طور خطی مستقل هستند، یعنی نمی‌توان هیچ پیش‌بینی‌کننده‌ای را به صورت ترکیب خطی از دیگران بیان کرد.
خطاها همبستگی ندارند، یعنی ماتریس کوواریانس خطای قطرها و هر عنصر غیرصفر واریانس خطا است.
واریانس خطا در بین مشاهدات ثابت است (همسانی). در غیر این صورت، می توان از حداقل مربعات وزنی یا روش های دیگر استفاده کرد.

اینها شرایط کافیبرای برآوردگرهای حداقل مربعات ویژگی های مورد نیاز را دارند، به ویژه، این مفروضات به این معنی است که تخمین پارامترها عینی، سازگار و کارآمد خواهند بود، به ویژه زمانی که در کلاس برآوردگرهای خطی در نظر گرفته شوند. توجه به این نکته مهم است که شواهد به ندرت شرایط را برآورده می کند. یعنی از روش استفاده می شود حتی اگر فرضیات صحیح نباشد. تغییر از مفروضات گاهی اوقات می تواند به عنوان معیاری برای میزان مفید بودن مدل استفاده شود. بسیاری از این فرضیات را می توان در روش های پیشرفته تر تسهیل کرد. گزارش‌های تحلیل آماری معمولاً شامل تجزیه و تحلیل آزمون‌های داده‌های نمونه و روش‌شناسی برای سودمندی مدل است.

علاوه بر این، متغیرها در برخی موارد به مقادیر اندازه گیری شده در مکان های نقطه اشاره می کنند. ممکن است روندهای فضایی و خودهمبستگی های مکانی در متغیرها وجود داشته باشد که مفروضات آماری را نقض می کند. رگرسیون وزنی جغرافیایی تنها روشی است که با چنین داده هایی سروکار دارد.

یکی از ویژگی های رگرسیون خطی این است که متغیر وابسته که Yi است ترکیبی خطی از پارامترها است. برای مثال، رگرسیون خطی ساده از یک متغیر مستقل xi و دو پارامتر β 0 و β 1 برای مدل‌سازی n نقطه استفاده می‌کند.

در رگرسیون خطی چندگانه، چندین متغیر مستقل یا تابع از آنها وجود دارد.

هنگامی که یک نمونه تصادفی از یک جامعه گرفته می شود، پارامترهای آن به فرد اجازه می دهد تا یک نمونه مدل رگرسیون خطی به دست آورد.

در این جنبه، محبوب ترین روش حداقل مربعات است. برای بدست آوردن تخمین پارامترهایی که مجموع مجذور باقیمانده را به حداقل می رساند استفاده می شود. این نوع کمینه سازی (که نمونه رگرسیون خطی است) این تابع منجر به مجموعه ای از معادلات نرمال و مجموعه ای می شود. معادلات خطیبا پارامترهایی که برای به دست آوردن تخمین پارامترها حل می شوند.

با این فرض که خطای جمعیت به طور کلی منتشر می‌شود، محقق می‌تواند از این تخمین‌های خطای استاندارد برای ایجاد فواصل اطمینان و انجام آزمون‌های فرضیه در مورد پارامترهای آن استفاده کند.

تحلیل رگرسیون غیرخطی

مثالی که در آن تابع با توجه به پارامترها خطی نیست نشان می دهد که مجموع مربع ها باید با استفاده از یک روش تکرار شونده به حداقل برسد. این پیچیدگی های زیادی را معرفی می کند که تفاوت بین روش های حداقل مربعات خطی و غیرخطی را تعریف می کند. در نتیجه، نتایج تحلیل رگرسیون هنگام استفاده از روش غیرخطی گاهی غیرقابل پیش‌بینی است.

محاسبه توان و حجم نمونه

به طور کلی هیچ روش ثابتی در رابطه با تعداد مشاهدات در مقابل تعداد متغیرهای مستقل در مدل وجود ندارد. قانون اول توسط دوبرا و هاردین پیشنهاد شده است و به نظر می رسد N = t^n، که در آن N حجم نمونه، n تعداد متغیرهای مستقل و t تعداد مشاهدات مورد نیاز برای دستیابی به دقت مورد نظر در صورت داشتن مدل است. فقط یک متغیر مستقل به عنوان مثال، یک محقق یک مدل رگرسیون خطی را با استفاده از یک مجموعه داده که شامل 1000 بیمار (N) است، می سازد. اگر محقق تصمیم بگیرد که برای تعریف دقیق خط (m) به پنج مشاهده نیاز است، حداکثر تعداد متغیرهای مستقلی که مدل می تواند پشتیبانی کند 4 است.

روش های دیگر

اگرچه پارامترهای مدل رگرسیون معمولاً با استفاده از روش حداقل مربعات تخمین زده می‌شوند، روش‌های دیگری نیز وجود دارند که کمتر مورد استفاده قرار می‌گیرند. به عنوان مثال، این روش ها عبارتند از:

روش های بیزی (به عنوان مثال رگرسیون خطی بیزی).
رگرسیون درصدی، برای موقعیت‌هایی که کاهش درصد خطا مناسب‌تر است، استفاده می‌شود.
کوچکترین انحرافات مطلق، که در حضور نقاط پرت که منجر به رگرسیون چندکی می شود، قوی تر است.
نیاز به رگرسیون ناپارامتریک مقدار زیادمشاهدات و محاسبات
یک متریک یادگیری از راه دور که برای یافتن یک متریک فاصله معنادار در یک فضای ورودی مشخص یاد می‌شود.

نرم افزار

تمامی بسته های نرم افزاری آماری اصلی تحلیل رگرسیون حداقل مربعات را انجام می دهند. رگرسیون خطی ساده و تحلیل رگرسیون چندگانه را می توان در برخی از برنامه های کاربردی صفحه گسترده و همچنین برخی از ماشین حساب ها استفاده کرد. اگرچه بسیاری از بسته های نرم افزاری آماری می توانند انواع مختلفی از رگرسیون ناپارامتریک و قوی را انجام دهند، این روش ها کمتر استاندارد شده اند. بسته های نرم افزاری مختلف روش های مختلفی را پیاده سازی می کنند. رگرسیون تخصصی نرم افزاربرای استفاده در زمینه هایی مانند تجزیه و تحلیل معاینه و تصویربرداری عصبی توسعه داده شد.

مفهوم رگرسیون. وابستگی بین متغیرها ایکسو yرا می توان به روش های مختلف توصیف کرد. به طور خاص، هر شکلی از اتصال را می توان با یک معادله کلی بیان کرد، که در آن yبه عنوان یک متغیر وابسته یا کارکرداز دیگری - متغیر مستقل x، فراخوانی شده است بحث و جدل. مطابقت بین یک آرگومان و یک تابع را می توان با جدول، فرمول، نمودار و غیره مشخص کرد. تغییر یک تابع بسته به تغییر در یک یا چند آرگومان فراخوانی می شود پسرفت. تمام ابزارهای مورد استفاده برای توصیف همبستگی ها محتوا را تشکیل می دهند تجزیه و تحلیل رگرسیون.

برای بیان رگرسیون، معادلات همبستگی یا معادلات رگرسیون از سری های رگرسیون تجربی و نظری محاسبه شده، نمودارهای آنها که خطوط رگرسیون نامیده می شوند و همچنین ضرایب رگرسیون خطی و غیرخطی استفاده می شود.

شاخص های رگرسیون با در نظر گرفتن تغییرات میانگین مقادیر مشخصه، رابطه همبستگی را به صورت دوطرفه بیان می کنند. Yهنگام تغییر مقادیر ایکس منامضا کردن ایکس، و برعکس، تغییر در مقادیر میانگین مشخصه را نشان می دهد ایکسبا توجه به مقادیر تغییر یافته y منامضا کردن Y. استثنا سری زمانی یا سری های زمانی است که تغییرات ویژگی ها را در طول زمان نشان می دهد. پسرفت چنین سریال هایی یک طرفه است.

اشکال و انواع مختلفی از همبستگی ها وجود دارد. کار به شناسایی شکل اتصال در هر مورد خاص و بیان آن با معادله همبستگی مربوطه می رسد که به ما امکان می دهد پیش بینی کنیم. تغییرات احتمالییک نشانه Yبر اساس تغییرات شناخته شده در دیگری ایکس، مربوط به اولی به صورت همبستگی است.

12.1 رگرسیون خطی

معادله رگرسیوننتایج مشاهدات انجام شده بر روی یک شی بیولوژیکی خاص بر اساس ویژگی های مرتبط ایکسو yرا می توان با ساختن یک سیستم با نقاط روی صفحه نمایش داد مختصات مستطیلی. نتیجه نوعی نمودار پراکندگی است که به شخص اجازه می‌دهد در مورد شکل و نزدیکی رابطه بین ویژگی‌های مختلف قضاوت کند. اغلب این رابطه مانند یک خط مستقیم به نظر می رسد یا می توان آن را با یک خط مستقیم تقریب زد.

رابطه خطی بین متغیرها ایکسو yبا یک معادله کلی توصیف می شود، جایی که آ ب پ ت،... – پارامترهای معادله که روابط بین آرگومان ها را تعیین می کند ایکس 1 ، ایکس 2 ، ایکس 3 ، …، ایکس مترو توابع

در عمل، همه استدلال های ممکن در نظر گرفته نمی شوند، بلکه فقط برخی از استدلال ها در نظر گرفته می شوند؛ در ساده ترین حالت، تنها یکی:

در معادله رگرسیون خطی (1) آعبارت آزاد و پارامتر است بشیب خط رگرسیون را نسبت به محورهای مختصات مستطیلی تعیین می کند. در هندسه تحلیلی این پارامتر نامیده می شود شیبو در بیومتریک - ضریب رگرسیون. نمایش بصری این پارامتر و موقعیت خطوط رگرسیون Yتوسط ایکسو ایکستوسط Yدر سیستم مختصات مستطیلی شکل 1 را نشان می دهد.

برنج. 1 خطوط رگرسیون Y با X و X توسط Y در سیستم

مختصات مستطیلی

خطوط رگرسیون، همانطور که در شکل 1 نشان داده شده است، در نقطه O (،) متقاطع می شوند که مربوط به مقادیر میانگین حسابی ویژگی های مرتبط با یکدیگر است. Yو ایکس. هنگام ساخت نمودارهای رگرسیون، مقادیر متغیر مستقل X در امتداد محور آبسیسا رسم می شوند و مقادیر متغیر وابسته یا تابع Y در امتداد محور ارتین رسم می شوند. خط AB که از نقطه O می گذرد ( ) مربوط به رابطه کامل (عملکردی) بین متغیرها است Yو ایکس, زمانی که ضریب همبستگی . هر چه ارتباط بین آنها قوی تر باشد Yو ایکسهر چه خطوط رگرسیون به AB نزدیکتر باشند و برعکس، هرچه ارتباط بین این کمیت ها ضعیف تر باشد، فاصله خطوط رگرسیون از AB بیشتر می شود. اگر ارتباطی بین مشخصه ها وجود نداشته باشد، خطوط رگرسیون در زاویه قائم با یکدیگر قرار دارند و .

از آنجایی که شاخص های رگرسیون رابطه همبستگی را به صورت دوطرفه بیان می کنند، معادله رگرسیون (1) باید به صورت زیر نوشته شود:

اولین فرمول مقادیر میانگین را در هنگام تغییر مشخصه تعیین می کند ایکسدر واحد اندازه گیری، برای دوم - مقادیر متوسط هنگام تغییر با یک واحد اندازه گیری ویژگی Y.

ضریب رگرسیون.ضریب رگرسیون نشان می دهد که به طور متوسط مقدار یک مشخصه چقدر است yزمانی تغییر می کند که اندازه دیگری، همبستگی با آن، با یک تغییر کند Yامضا کردن ایکس. این شاخص با فرمول تعیین می شود

در اینجا ارزش ها وجود دارد سضرب در اندازه فواصل کلاس λ ، اگر از سری تغییرات یا جداول همبستگی پیدا شده باشند.

ضریب رگرسیون را می توان بدون محاسبه میانگین ها محاسبه کرد انحرافات مربعی س yو س ایکسطبق فرمول

اگر ضریب همبستگی ناشناخته باشد، ضریب رگرسیون به صورت زیر تعیین می شود:

رابطه بین رگرسیون و ضرایب همبستگی.با مقایسه فرمول های (11.1) (مبحث 11) و (12.5) می بینیم: شمارنده آنها دارای یک مقدار است که نشان دهنده ارتباط بین این شاخص ها است. این رابطه با برابری بیان می شود

بنابراین، ضریب همبستگی برابر با میانگین هندسی ضرایب است ب yxو ب xy. فرمول (6) اولاً بر اساس مقادیر شناخته شده ضرایب رگرسیون اجازه می دهد ب yxو ب xyتعیین ضریب رگرسیون آر xyو دوم اینکه صحت محاسبه این شاخص همبستگی را بررسی کنید آر xyبین ویژگی های مختلف ایکسو Y.

مانند ضریب همبستگی، ضریب رگرسیون فقط یک رابطه خطی را مشخص می کند و با یک علامت مثبت برای یک رابطه مثبت و یک علامت منفی برای یک رابطه منفی همراه است.

تعیین پارامترهای رگرسیون خطی.مشخص است که مجموع انحرافات مجذور یک نوع است ایکس مناز میانگین کوچکترین مقدار است، یعنی این قضیه اساس روش حداقل مربعات را تشکیل می دهد. در مورد رگرسیون خطی [نگاه کنید به فرمول (1)] شرط این قضیه توسط سیستم معینی از معادلات به نام برآورده می شود طبیعی:

حل مشترک این معادلات با توجه به پارامترها آو بمنجر به نتایج زیر می شود:

;

، از کجا و.

با توجه به ماهیت دو سویه رابطه بین متغیرها Yو ایکس، فرمول تعیین پارامتر آباید به این صورت بیان شود:

و . (7)

پارامتر بیا ضریب رگرسیون با فرمول های زیر تعیین می شود:

ساخت سری رگرسیون تجربی.در حضور تعداد زیادیمشاهدات، تحلیل رگرسیون با ساخت سری‌های رگرسیون تجربی آغاز می‌شود. سری رگرسیون تجربیبا محاسبه مقادیر یک مشخصه متفاوت تشکیل می شود ایکسمقادیر متوسط دیگری، همبستگی با ایکسامضا کردن Y. به عبارت دیگر، ساخت سری‌های رگرسیون تجربی به یافتن میانگین‌های گروهی از مقادیر متناظر ویژگی‌های Y و X منجر می‌شود.

سری رگرسیون تجربی یک سری دوتایی از اعداد است که می توان آنها را با نقاط یک صفحه نشان داد و سپس با اتصال این نقاط به پاره های خط مستقیم، یک خط رگرسیون تجربی به دست آورد. سری های رگرسیون تجربی، به ویژه نمودارهای آنها، نامیده می شود خطوط رگرسیون، ایده روشنی از شکل و نزدیکی همبستگی بین ویژگی های مختلف ارائه می دهد.

هم ترازی سری های رگرسیون تجربی.نمودارهای سری رگرسیون تجربی، به عنوان یک قاعده، صاف نیستند، بلکه خطوط شکسته هستند. این با این واقعیت توضیح داده می شود که همراه با دلایل اصلی که الگوی کلی در تغییرپذیری ویژگی های همبسته را تعیین می کند، بزرگی آنها تحت تأثیر دلایل ثانویه متعددی است که باعث نوسانات تصادفی در نقاط گرهی رگرسیون می شوند. برای شناسایی گرایش (روند) اصلی تنوع مزدوج ویژگی های همبسته، لازم است خطوط شکسته را با خطوط رگرسیون صاف و هموار جایگزین کرد. فرآیند جایگزینی خطوط شکسته با خطوط صاف نامیده می شود هم ترازی سری های تجربیو خطوط رگرسیون.

روش تراز گرافیکیاین ساده ترین روشی است که نیازی به کار محاسباتی ندارد. ماهیت آن به موارد زیر خلاصه می شود. سری رگرسیون تجربی به عنوان یک نمودار در یک سیستم مختصات مستطیلی به تصویر کشیده شده است. سپس نقاط میانی رگرسیون به صورت بصری ترسیم می شود، که در امتداد آن یک خط ثابت با استفاده از یک خط کش یا الگو ترسیم می شود. مضرات این روش آشکار است: تأثیر ویژگی های فردی محقق بر نتایج هم ترازی خطوط رگرسیون تجربی را رد نمی کند. بنابراین، در مواردی که هنگام جایگزینی خطوط رگرسیون شکسته با خطوط صاف نیاز به دقت بالاتری باشد، از روش‌های دیگر همسوسازی سری‌های تجربی استفاده می‌شود.

روش میانگین متحرک.ماهیت این روش به محاسبه متوالی میانگین های حسابی از دو یا سه عبارت مجاور سری تجربی می رسد. این روش به ویژه در مواردی راحت است که سری تجربی با تعداد زیادی عبارت نشان داده می شود، به طوری که از دست دادن دو مورد از آنها - موارد شدید، که با این روش تراز اجتناب ناپذیر است، به طور قابل توجهی بر ساختار آن تأثیر نمی گذارد.

روش حداقل مربعاتاین روش در آغاز قرن نوزدهم توسط A.M. لژاندر و مستقل از او K. Gauss. این امکان را به شما می دهد تا سری های تجربی را با بیشترین دقت تراز کنید. این روش، همانطور که در بالا نشان داده شد، بر این فرض استوار است که مجموع انحرافات مجذور یک گزینه است. ایکس من از میانگین آنها یک مقدار حداقل وجود دارد، یعنی از این رو نام روشی است که نه تنها در اکولوژی، بلکه در فناوری نیز استفاده می شود. روش حداقل مربعات عینی و جهانی است؛ این روش در موارد بسیار متنوعی هنگام یافتن معادلات تجربی برای سری های رگرسیون و تعیین پارامترهای آنها استفاده می شود.

لازمه روش حداقل مربعات این است که نقاط نظری خط رگرسیون باید به گونه ای به دست آید که مجذور انحرافات از این نقاط برای مشاهدات تجربی حاصل شود. y منحداقل بود، یعنی

با محاسبه حداقل این عبارت مطابق با اصول آنالیز ریاضی و تبدیل آن به روشی خاص، می توان سیستمی به اصطلاح به دست آورد. معادلات عادی، که در آن مقادیر مجهول پارامترهای مورد نیاز معادله رگرسیون هستند و ضرایب شناخته شده توسط مقادیر تجربی مشخصه ها، معمولاً مجموع مقادیر آنها و محصولات متقاطع آنها تعیین می شود.

رگرسیون خطی چندگانهرابطه بین چندین متغیر معمولاً با یک معادله رگرسیون چندگانه بیان می شود که می تواند باشد خطیو غیر خطی. در ساده ترین شکل، رگرسیون چندگانه به صورت معادله ای با دو متغیر مستقل بیان می شود. ایکس, z):

جایی که آ- مدت آزاد معادله؛ بو ج- پارامترهای معادله برای یافتن پارامترهای معادله (10) (با استفاده از روش حداقل مربعات) از سیستم معادلات عادی زیر استفاده می شود:

سری پویا. تراز ردیف ها.تغییرات در ویژگی ها در طول زمان به اصطلاح را تشکیل می دهند سری زمانییا سری دینامیک. ویژگی مشخصه چنین سری هایی این است که متغیر مستقل X در اینجا همیشه عامل زمان است و متغیر وابسته Y یک ویژگی متغیر است. بسته به سری رگرسیون، رابطه بین متغیرهای X و Y یک طرفه است، زیرا عامل زمان به متغیر بودن ویژگی ها بستگی ندارد. با وجود این ویژگی ها، سری های دینامیک را می توان به سری های رگرسیونی تشبیه کرد و با استفاده از روش های مشابه پردازش کرد.

مانند سری‌های رگرسیون، سری‌های دینامیک تجربی نه تنها تحت تأثیر عوامل اصلی هستند، بلکه تحت تأثیر عوامل ثانویه (تصادفی) متعددی هستند که روند اصلی تغییرپذیری ویژگی‌ها را مبهم می‌کنند، که در زبان آمار به آن می‌گویند. روند.

تجزیه و تحلیل سری های زمانی با شناسایی شکل روند آغاز می شود. برای انجام این کار، سری زمانی به صورت نمودار خطی در یک سیستم مختصات مستطیلی به تصویر کشیده می شود. در این حالت، نقاط زمانی (سال، ماه و سایر واحدهای زمان) در امتداد محور ابسیسا و مقادیر متغیر وابسته Y در امتداد محور مختصات رسم می‌شوند. وابستگی خطیبین متغیرهای X و Y (روند خطی)، برای تراز کردن سری دینامیک با استفاده از روش حداقل مربعات، مناسب ترین معادله رگرسیون به صورت انحراف اعضای سری متغیر وابسته Y از میانگین حسابی سری است. از متغیر مستقل X:

در اینجا پارامتر رگرسیون خطی است.

مشخصات عددی سری دینامیکویژگی های عددی تعمیم دهنده اصلی سری های دینامیک عبارتند از میانگین هندسیو یک میانگین حسابی نزدیک به آن. آنها میانگین نرخ تغییر مقدار متغیر وابسته را در بازه های زمانی معین مشخص می کنند:

ارزیابی تغییرپذیری اعضای سری دینامیک است انحراف معیار. هنگام انتخاب معادلات رگرسیون برای توصیف سری های زمانی، شکل روند در نظر گرفته می شود که می تواند خطی (یا کاهش به خطی) و غیر خطی باشد. صحت انتخاب معادله رگرسیون معمولاً با شباهت مقادیر تجربی مشاهده شده و محاسبه شده متغیر وابسته قضاوت می شود. راه حل دقیق تر برای این مشکل، روش تحلیل واریانس رگرسیون است (مبحث 12، بند 4).

همبستگی سری های زمانیاغلب لازم است دینامیک سری های زمانی موازی مرتبط با یکدیگر را با شرایط کلی معینی مقایسه کرد، به عنوان مثال، برای یافتن رابطه بین تولید کشاورزی و رشد تعداد دام در یک دوره زمانی معین. در چنین مواردی مشخصه رابطه بین متغیرهای X و Y است ضریب همبستگی R xy (در حضور یک روند خطی).

مشخص است که روند سری‌های زمانی معمولاً با نوسانات سری متغیر وابسته Y پنهان می‌شود. این امر یک مشکل دوگانه ایجاد می‌کند: اندازه‌گیری وابستگی بین سری‌های مقایسه شده، بدون استثنا کردن روند، و اندازه‌گیری وابستگی بین اعضای همسایه یک سری، به استثنای روند. در حالت اول، نشانگر نزدیکی ارتباط بین سری های زمانی مقایسه شده است ضریب همبستگی(اگر رابطه خطی باشد)، در دوم - ضریب خود همبستگی. این شاخص ها معانی مختلفی دارند، اگرچه با استفاده از فرمول های یکسان محاسبه می شوند (به مبحث 11 مراجعه کنید).

به راحتی می توان فهمید که مقدار ضریب خود همبستگی تحت تأثیر متغیر بودن اعضای سری متغیر وابسته است: هرچه اعضای سری کمتر از روند انحراف داشته باشند، ضریب خود همبستگی بالاتر است و بالعکس.

روش تحلیل رگرسیون برای تعیین پارامترهای فنی و اقتصادی محصولات متعلق به یک سری پارامتری خاص به منظور ایجاد و تراز کردن روابط ارزش استفاده می شود. این روش برای تجزیه و تحلیل و توجیه نسبت سطح و قیمت محصولات که با وجود یک یا چند پارامتر فنی و اقتصادی مشخص می شود که ویژگی های اصلی مصرف کننده را منعکس می کند، استفاده می شود. تجزیه و تحلیل رگرسیون به ما امکان می دهد یک فرمول تجربی پیدا کنیم که وابستگی قیمت به پارامترهای فنی و اقتصادی محصولات را توصیف می کند:

P=f(X1X2،...،Xn)،

که در آن P مقدار قیمت واحد محصول است، مالش. (X1, X2, ... Xn) - پارامترهای فنی و اقتصادی محصولات.

روش تحلیل رگرسیون - پیشرفته ترین روش هنجاری-پارامتری مورد استفاده - هنگام انجام محاسبات مبتنی بر استفاده از روش های مدرن مؤثر است. فناوری اطلاعاتو سیستم ها کاربرد آن شامل مراحل اصلی زیر است:

تعیین گروه های پارامتریک طبقه بندی محصولات؛
انتخاب پارامترهایی که بیشترین تأثیر را بر قیمت محصول دارند.
انتخاب و توجیه شکل ارتباط بین تغییرات قیمت هنگام تغییر پارامترها.
ساخت سیستم معادلات نرمال و محاسبه ضرایب رگرسیون.

گروه صلاحیت اصلی محصولات که قیمت آنها مشروط به یکسان سازی است، یک سری پارامتری است که در آن محصولات بسته به کاربرد، شرایط عملیاتی و نیازمندی ها و غیره می توانند در طرح های مختلفی دسته بندی شوند. هنگام تشکیل سری های پارامتریک، روش های طبقه بندی خودکار را می توان استفاده کرد که امکان تشخیص گروه های همگن را از توده کل محصولات فراهم می کند. انتخاب پارامترهای فنی و اقتصادی بر اساس الزامات اساسی زیر انجام می شود:

پارامترهای انتخاب شده شامل پارامترهای ثبت شده در استانداردها و مشخصات فنی می باشد. علاوه بر پارامترهای فنی (قدرت، ظرفیت بار، سرعت و غیره)، از شاخص های سریال سازی محصول، ضرایب پیچیدگی، یکسان سازی و غیره استفاده می شود.
مجموعه پارامترهای انتخاب شده باید به اندازه کافی ویژگی های طراحی، فن آوری و عملیاتی محصولات موجود در این سری را مشخص کند و ارتباط نسبتاً نزدیکی با قیمت داشته باشد.
پارامترها نباید به یکدیگر وابسته باشند.

برای انتخاب پارامترهای فنی و اقتصادی که به طور قابل توجهی بر قیمت تأثیر می گذارد، ماتریسی از ضرایب همبستگی جفت محاسبه می شود. بر اساس بزرگی ضرایب همبستگی بین پارامترها، می توان نزدیکی اتصال آنها را قضاوت کرد. در عین حال، همبستگی نزدیک به صفر تأثیر ناچیز پارامتر را بر قیمت نشان می دهد. انتخاب نهایی پارامترهای فنی و اقتصادی در فرآیند تحلیل رگرسیون گام به گام با استفاده از فناوری رایانه و برنامه های استاندارد مناسب انجام می شود.

در عمل قیمت گذاری، مجموعه ای از توابع زیر استفاده می شود:

خطی

P = ao + alXl + ... + antXn،

خطی-قدرت

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

لگاریتم معکوس

P = a0 + a1: در X1 + ... + an: در Xn،

قدرت

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

نشان دهنده

P = e^(a1+a1X1+...+anXn)

هذلولی

P = ao + a1:X1 + a2:X2 + ... + ap:Xn،

جایی که P برابری قیمت است. X1 X2،...، Xn - مقدار پارامترهای فنی و اقتصادی محصولات سری؛ a0, a1 ..., аn - ضرایب محاسبه شده معادله رگرسیون.

که در کار عملیبرای قیمت گذاری بسته به شکل ارتباط بین قیمت ها و پارامترهای فنی و اقتصادی می توان از معادلات رگرسیونی دیگر استفاده کرد. نوع عملکرد ارتباط بین قیمت و مجموعه ای از پارامترهای فنی و اقتصادی را می توان به طور خودکار در طول پردازش کامپیوتری از پیش تنظیم یا انتخاب کرد. نزدیکی همبستگی بین قیمت و مجموعه پارامترها با مقدار ضریب همبستگی چندگانه ارزیابی می شود. نزدیکی آن به یکی نشان دهنده ارتباط نزدیک است. با استفاده از معادله رگرسیون، مقادیر قیمت یکسان شده (محاسبه شده) برای محصولات یک سری پارامتری معین به دست می آید. برای ارزیابی نتایج یکسان سازی، مقادیر نسبی انحراف مقادیر قیمت محاسبه شده از مقادیر واقعی محاسبه می شود:

Tsr = Rf - Rr: R x 100

جایی که Рф، Рр - قیمت های واقعی و محاسبه شده.

مقدار CR نباید از 8-10٪ تجاوز کند. در صورت انحراف قابل توجه مقادیر محاسبه شده از مقادیر واقعی، بررسی موارد زیر ضروری است:

صحت تشکیل یک سری پارامتریک، زیرا ممکن است حاوی محصولاتی باشد که در پارامترهای خود، به شدت با سایر محصولات این سری متفاوت است. آنها باید حذف شوند.
انتخاب صحیح پارامترهای فنی و اقتصادی مجموعه ای از پارامترها ممکن است که با قیمت همبستگی ضعیفی دارند. در این صورت لازم است به جستجو و انتخاب پارامترها ادامه دهید.

روش و روش انجام تحلیل رگرسیون، یافتن پارامترهای مجهول معادله و ارزیابی اقتصادی نتایج به دست آمده مطابق با الزامات آمار ریاضی انجام می شود.