Интересен

Линеен регресионен анализ

Линеен регресионен анализ

Линейна регресия е статистическа техника, която се използва, за да научите повече за връзката между независима (предиктор) променлива и зависима (критерий) променлива. Когато имате повече от една независима променлива в анализа си, това се означава като множествена линейна регресия. По принцип регресията позволява на изследователя да зададе общия въпрос „Кой е най-добрият предиктор за ...?“

Например, нека да кажем, че изучавахме причините за затлъстяването, измервани чрез индекса на телесната маса (ИТМ). По-конкретно, искахме да разберем дали следните променливи са значими предсказатели за ИТМ на човек: брой ядени храни за бързо хранене седмично, брой часове телевизия, гледани седмично, брой минути, прекарани в упражнения на седмица, и ИТМ на родителите , Линейната регресия би била добра методология за този анализ.

Регресионното уравнение

Когато провеждате регресионен анализ с една независима променлива, уравнението на регресията е Y = a + b * X, където Y е зависимата променлива, X е независимата променлива, a е константата (или прихващането) и b е наклонът на регресионната линия. Например, нека да кажем, че GPA се прогнозира най-добре от регресионното уравнение 1 + 0,02 * IQ. Ако студентът има коефициент на интелигентност от 130, тогава неговият GPA ще бъде 3.6 (1 + 0.02 * 130 = 3.6).

Когато провеждате регресионен анализ, в който имате повече от една независима променлива, регресионното уравнение е Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Например, ако искахме да включим повече променливи в нашия GPA анализ, като мерки за мотивация и самодисциплина, бихме използвали това уравнение.

R-Square

R-квадрат, известен също като коефициент на определяне, е често използвана статистика за оценка на пригодността на модела на регресионно уравнение. Тоест, колко добри са всички ваши независими променливи при прогнозиране на вашата зависима променлива? Стойността на R-квадрат варира от 0,0 до 1,0 и може да бъде умножена по 100, за да се обясни процент от дисперсията. Например, връщайки се към нашето GPA регресионно уравнение само с една независима променлива (IQ) ... Да кажем, че R-квадратът ни за уравнението е 0,4. Бихме могли да интерпретираме това да означава, че 40% от дисперсията в GPA се обяснява с IQ. Ако след това добавим и другите ни две променливи (мотивация и самодисциплина) и R-квадратът се увеличава до 0,6, това означава, че IQ, мотивация и самодисциплина заедно обясняват 60% от дисперсията в GPA оценките.

Регресионните анализи обикновено се правят с помощта на статистически софтуер, като SPSS или SAS и така R-квадратът се изчислява за вас.

Тълкуване на регресионните коефициенти (б)

B коефициентите от уравненията по-горе представляват силата и посоката на връзката между независимите и зависимите променливи. Ако погледнем уравнението GPA и IQ, 1 + 0,02 * 130 = 3,6, 0,02 е коефициентът на регресия за променливата IQ. Това ни казва, че посоката на връзката е положителна, така че с увеличаването на IQ, GPA също се увеличава. Ако уравнението беше 1 - 0,02 * 130 = Y, тогава това би означавало, че връзката между IQ и GPA е отрицателна.

Предположения

Има няколко предположения за данните, които трябва да бъдат изпълнени, за да се извърши линеен регресионен анализ:

  • Линейност: Приема се, че връзката между независимите и зависимите променливи е линейна. Въпреки че това предположение никога не може да бъде напълно потвърдено, разглеждането на разсейване на вашите променливи може да ви помогне да направите това решение. Ако е налице кривина във връзката, можете да помислите за трансформиране на променливите или изрично да позволявате нелинейни компоненти.
  • нормалност: Предполага се, че остатъците от вашите променливи обикновено се разпределят. Тоест грешките в прогнозирането на стойността на Y (зависимата променлива) се разпределят по начин, който се доближава до нормалната крива. Можете да разгледате хистограми или нормални диаграми на вероятността, за да проверите разпределението на вашите променливи и техните остатъчни стойности.
  • Независимост: Приема се, че всички грешки в прогнозирането на стойността на Y са независими една от друга (не са свързани).
  • Homoscedasticity: Приема се, че дисперсията около регресионната линия е еднаква за всички стойности на независимите променливи.

Източник

  • StatSoft: Учебник за електронна статистика. (2011 г.). //www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.