Презентация на тему "Проверка адекватности линейной регрессии"

Презентация: Проверка адекватности линейной регрессии
1 из 20
Ваша оценка презентации
Оцените презентацию по шкале от 1 до 5 баллов
  • 1
  • 2
  • 3
  • 4
  • 5
0.0
0 оценок

Комментарии

Нет комментариев для данной презентации

Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.


Добавить свой комментарий

Аннотация к презентации

"Проверка адекватности линейной регрессии" состоит из 20 слайдов: лучшая powerpoint презентация на эту тему находится здесь! Вам понравилось? Оцените материал! Загружена в 2018 году.

  • Формат
    pptx (powerpoint)
  • Количество слайдов
    20
  • Слова
    другое
  • Конспект
    Отсутствует

Содержание

  • Презентация: Проверка адекватности линейной регрессии
    Слайд 1

    Проверка адекватности линейной регрессии

    Определение: Адекватность регрессионного уравнения, это соответствие его реальному моделируемому процессу, достоверность его параметров. Схема проверки адекватности уравнения Анализируются показатели качества подгонки регрессионного уравнения ; Проверяются различные гипотезы относительно параметров регрессионного уравнения ; Проверяется выполнение условий для получения «достоверных» оценок методом наименьших квадратов; Производится содержательный анализ регрессионного уравнения. Лекция №5,Анализ данных, Лакман И.А. 1

  • Слайд 2

    Проверка качества подгонки

    Показатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим значениям зависимой переменной у. Эти показатели основываются на . Первый показатель — остаточная дисперсия. Для однофакторного уравнения остаточная дисперсия вычисляется по формуле : Чем меньше , тем лучше регрессионное уравнение описывает моделируемый процесс. является размерной величиной и сопоставление регрессионных уравнений, отражающих различные переменные, измеренные в различных единицах измерения, невозможно. Второй показатель — коэффициент детерминации R2. Коэффициент детерминации вычисляется по формуле :  Коэффициент детерминации принимает значения в интервале от 0 до 1. Чем ближе R2 к единице, тем лучше качество подгонки регрессионного уравнения, так как R2 приближается к единице при приближении вычитаемой дроби к 0. В свою очередь указанная дробь приближается к нулю при приближении к нулю числителя, то есть при небольших отклонениях фактических и теоретических значений зависимой переменной. На основании R2 возможно сопоставление различных уравнений. Лекция №5,Анализ данных, Лакман И.А. 2

  • Слайд 3

    Проверка гипотеза о том, что линейная связь между x и y не подтверждается

    Отсутствие связи можно изучить на основе отклонений расчетных значений от среднего арифметического значения и отклонения расчетных значений от фактических значений . Близкое к нулю значение свидетельствует об отсутствии какой-либо тенденции для в связи с изменением x. Н0: , (т.е. линейная связь между x и y отсутствует); H1: , (т.е. наличие линейной связи). Рассчитываем значение F-статистики Fтабл= - табличное значение распределения Фишера для вероятности p и степеней свободы m1=1, m2=n-2. принимаем H0с вероятностью p; отвергаем H0 в пользу H1 с вероятностью p. Лекция №5,Анализ данных, Лакман И.А. 3

  • Слайд 4

    Проверка гипотез относительно параметров регрессионного уравнения

    Лекция №5,Анализ данных, Лакман И.А. 4 Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменениями x. Н0: , (т.е. фактор х незначим); H1: , (т.е. фактор х значим). t-статистика считается по формуле: где — стандартная ошибка коэффициента b, вычисляемая по формуле: По общей процедуре проверки гипотез находим (в таблице Стьюдента) с заданным уровнем значимости α(вероятностью р=1-α) и степенями свободы v=n-2. Если , то с заданной вероятностью гипотезу b=0 отвергаем. Аналогично проверяется гипотеза о значимости свободного члена а в уравнении регрессии.

  • Слайд 5

    Проверка достоверности оцененных параметров регрессионного уравнения

    Возможность применения регрессионного уравнения определяются достоверностью оцененных параметров модели или, по другому, «хорошими» свойствами оценок коэффициентов регрессии: несмещенностью, состоятельностью и эффективностью оценок. Параметры регрессионного уравнения, полученные методом наименьших квадратов, являются достоверными тогда и только тогда, когда остаточная компонента εуравнения удовлетворяет условиям: Остаточная компонента носит случайный характер.  -мат. ожидание случайной компоненты равно нулю, - дисперсия случайной компоненты — постоянна, - отсутствует автокорреляция; Нормальность распределения. Лекция №5,Анализ данных, Лакман И.А. 5

  • Слайд 6

    Проверка случайности остаточной компоненты

    Лекция №5,Анализ данных, Лакман И.А. 6 Для проверки случайного характера остатков εстроят график зависимости остатков от расчетных значений зависимой переменной . Если на графике нет направленности в расположении точек , то остатки ε случайные величины. Если εзависит от , то остаточная компонента ε не случайна. Остатки – носят систематический характер В этих случаях возможно следовало выбрать в качестве регрессионной связи нелинейную зависимость.

  • Слайд 7

    Выполнение предпосылки МНК

    Проверка условия Выполнение этой предпосылки означает получение несмещенных оценок. В случае, когда значение , для проверки соответствующей предпосылки применяю следующий тест: Н0: , (математическое ожидание остатков равно нулю); H1: , (математическое ожидание остатков отлично от нуля). Рассчитывается значение критерия где - несмещенное выборочное стандартное отклонение, μ - выборочное среднее. - табличное значение распределения Стьюдента для вероятности p и степени свободы m=n-1. принимаем H0с вероятностью p; отвергаем H0 в пользу H1 с вероятностью p. Лекция №5,Анализ данных, Лакман И.А. 7

  • Слайд 8

    Проверка условия Выполнение этой предпосылки означает получение эффективных оценок. Определение. Выполнение условия постоянства дисперсии (отсутствие ее роста с ростом независимой переменной) называется гомоскедастичностью. В противном случае гетероскедастичностью. -гетероскедастичность гомоскедастичность Лекция №5,Анализ данных, Лакман И.А. 8

  • Слайд 9

    Проверка выполнения условия о постоянстве дисперсии остатков

    Тест Гольфелда-Квандта упорядочение n наблюдений по мере возрастания переменной x; исключение из рассмотрения C центральных наблюдений, при этом (n-C)/2>p, гдеp- число оцениваемых параметров; 3. разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессий; 4 определение остаточной суммы квадратов для первой (S1) и второй(S2) групп и нахождение их отношения , где S1> S2. При выполнении нулевой гипотезы о гомоскедастичности остатков отношение R будет удовлетворять F-критерию c (n-C-2p)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величинаR превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин. Лекция №5,Анализ данных, Лакман И.А. 9

  • Слайд 10

    Применение теста Гольфелда-Квандта (схема) Все n наблюдений упорядочиваются по величине xj. Вся упорядоченная выборка разбивается на три подвыборки: определяем количество отбрасываемых наблюдений из расчета n\6. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений). Определить остатки (ошибки) для первой и последней группы. Возводим каждую группу остатков в квадрат и суммируем их. Сравниваем две полученные суммы при этом разделим наибольшую из них на наименьшую (это будет Fрасч). Определяем Fтабличное со степенями свободы n1=n1-2 и n2= n2-2, где n1,2-количество наблюдений в первой и соответственно во второй группе СравнитьFрасчc Fтабл. Если первое меньше второго, то есть рост дисперсии c увеличением независимого фактора (имеется гетероскедостичность) и наоборот. Лекция №5,Анализ данных, Лакман И.А. 10

  • Слайд 11

    Тест Спирмена. Суть теста заключается в определении наличия связи между ростом остаточной компоненты и ростом независимого фактора, то есть определение роста дисперсии остатков. Проверяется такая зависимость на основе расчета коэффициента ранговой корреляции Спирменаρ между остатками модели ε и независимым фактором х. Проверка статистической значимости коэффициента Спирмена на основе соответствующего t-критерия аналогична проверке нулевой гипотезы об отсутствии гетероскедастичности в остатках. Существуют и другие тесты для определения гетероскедастичности в остатках, например тест Глейзера, Уайта. Лекция №5,Анализ данных, Лакман И.А. 11

  • Слайд 12

    Схема теста Спирмена

    Проранжировать значения независимой переменной X, присваивая ранг 1 наименьшему значению, и т.д. Занести ранги в первый столбец таблицы по порядку номеров испытуемых или признаков. Проранжировать значения ряда остатков ε, в соответствии с теми же правилами. Занести ранги во второй столбец таблицы по порядку номеров испытуемых или признаков. Подсчитать разности d между рангами X и ε по каждой строке таблицы и занести в третий столбец таблицы. Возвести каждую разность в квадрат: d2. Эти значения занести в четвертый столбец таблицы. Подсчитать сумму d2. При наличии одинаковых рангов рассчитать поправки: гдеa- объем каждой группы одинаковых рангов в ранговом ряду X;b - объем каждой группы одинаковых рангов в ранговом ряду ε. Лекция по анализу данных № 4, Лакман И.А.

  • Слайд 13

    8. Рассчитать коэффициент ранговой корреляции rs по формуле: при отсутствии одинаковых рангов при наличии одинаковых рангов где sum(d2) - сумма квадратов разностей между рангами;Taи Tb - поправки на одинаковые ранги;N - количество наблюдений признаков, участвовавших в ранжировании. Схема тестаСпирмена Лекция по анализу данных № 4, Лакман И.А.

  • Слайд 14

    Проверка значимости коэффициента ранговой корреляции Спирмена

    Нулевая и альтернативная гипотезы имеют вид: Н0: коэффициент ранговой корреляции Спирменаrsнезначимый, гетероскедастичности нет; Н1: коэффициент ранговой корреляции Спирменаrsзначим, гетероскедастичность есть Расcчитываетсяt-статистика по формуле: Определяется tтабл по таблице Стьюдента со степенями свободы n-2 и уровнем значимости α Если , то Н0 отклоняют на заданном уровне значимости, и считаем, что имеет место гетероскедастичность остатков. Лекция по анализу данных № 4, Лакман И.А.

  • Слайд 15

    Проверка выполнения условия о постоянстве дисперсии остатков

    Определение: нарушение условия независимости между ошибками для разных наблюдений называется автокорреляцией в остатках. То есть имеется зависимость случайных компонент для наблюдений с различными номерами (i и j). Нарушение условия приводит к получению неэффективных оценок и как следствие невозможности применения полученных моделей в прогнозных целей, в силу ненадежности полученных результатов. Автокорреляцию можно представить в виде авторегрессии различного порядка, так, например, если текущее значение остатков находится в линейной зависимости от предыдущего порядка ( ), то имеет место авторегрессия первого порядка (AR(1)), если имеет место влияние предпредыдущих значений остатков , то есть то имеет место авторегрессия второго порядка (AR(2)). Считаем, что номера наблюдений упорядочены по возрастанию номера наблюдения i. Лекция №5,Анализ данных, Лакман И.А. 15

  • Слайд 16

    Тест на определение автокорреляции в остатках

    Тест Дарбина-Уотсона Тест Дарбина-Уотсона: обнаружение автокорреляции остатков вида То есть представленных в виде авторегрессии первого порядка. . Н0: , (т.е. автокорреляция остатков отсутствует); H1: или , (наличие положительной или отрицательной автокорреляции остатков). Расчетное значение статистики Дарбина-Уотсона: - табличные значения распределения Дарбина-Уотсона для степеней свободы n, и вероятности p. Области принятия соответствующих гипотез: и - зона неопределенности При проверке наличия автокорреляции на практике руководствуются простым правилом: расчетное значение D-W, близкое к 2, свидетельствует об отсутствии автокорреляции. Значение близкое к 4 свидетельствует об отрицательной автокорреляции, а близкое к нулю — о положительной. Наличие авторегресииII порядка проверяют с тестом Броша-Годфри. Лекция №5,Анализ данных, Лакман И.А. 16

  • Слайд 17

    Тест Бройша- Годфри

    Тест Дарбина-Уотсонанельзя применять в случае, если: В модели содержаться лаговые переменные (сдвинутые на определенный временной интервал вперед или назад) В модели есть автокорреляция, выраженная авторегрессией второго и более высоких порядков. В модели нет свободного члена Количество наблюдений, по которым строилась модель, достаточно мало. Тест Бройша- Годфри: рассматривается Н0: , (автокорреляция, выраженная авторегрессиейk-ого порядка, отсутствует); H1: (автокорреляция в остатках имеется). Рассчитывается LR=nR2статистика подчиняется χ2-распределению с kстепенями свободы. Здесь R2 –коэффициент детерминации, n – общее число кросс-секций. Еслитабличное значение χ2

  • Слайд 18

    Условие нормальности остатков

    Нарушение условия приводит к получению несостоятельных оценок, и как следствие приводящих к ненадежным прогнозам. Критерий Колмогорова-Смирнова Н0: , где - функция нормального распределения (распределение остатков согласуется с нормальным распределением); H1: , (распределение остатков не согласуется с нормальным распределением). принимаем H0с вероятностью p; отвергаем H0 в пользу H1 с вероятностью p. Лекция №5,Анализ данных, Лакман И.А. 18

  • Слайд 19

    Тест Бера-Жарка

    Соответствие распределения остатков модели нормальному закону можно проверить с помощью теста Бера-Жарка, для которого определяется JB-статистика по формуле: где – коэффициент асимметрии распределения остатков, – коэффициент эксцесса, n – объем выборки, – среднее значение остатков, k – количество независимых факторов в модели. Нулевая гипотеза о «ненормальности» распределения остатков отклоняется на выбранном уровне значимости, если JB>χ2табл, определённого для степеней свободы n–p–q из таблицы критических значений χ2-распределения.

  • Слайд 20

    Применение регрессионных уравнений

    Пример. Зависимость урожайности какой-то культуры от уровня внесения удобрений описывается следующей регрессионной моделью , где у — то урожайность, а х уровень внесения удобрений. Определим при ц.: . Затем увеличим внесение удобрений на 1,0 ц., то есть . Тогда Найдем Следовательно, коэффициент регрессии показывает прирост зависимой переменной приходящийся на единицу прироста независимой переменной. Коэффициент регрессии является размерной величиной и абсолютная величина его зависит от единиц измерения х и у. В нашем случае единица измерения коэффициента регрессии ц/ц. Лекция №1, ТВиМС, Лакман И.А. 20

Посмотреть все слайды

Сообщить об ошибке