Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности

На практике при количественной оценке параметров эконометрической модели довольно часто сталкиваются с проблемой взаимосвязи между объясняющими переменными. Если взаимосвязь довольно тесная, то оценка параметров модели может иметь большую погрешность. Такая взаимосвязь между объясняющими переменными называется мультиколлинеарностью . Проблема мультиколлинеарности возникает только для случая множественной регрессии, поскольку в парной регрессии одна объясняющая переменная. Оценка коэффициента регрессии может оказаться незначимой не только из-за несущественности данного фактора, но и из-за трудностей, возникающих при разграничении воздействия на зависимую переменную двух или нескольких факторов. Это проявляется, когда факторы изменяются синхронно. Связь зависимой переменной с изменениями каждого из них можно определить, только если в число объясняющих переменных включается только один из этих факторов.

Природа мультиколлинеарности нагляднее всего проявляется, когда между объясняющими переменными существует строгая линейная связь. Это строгая мультиколлинеарность, когда невозможно разделить вклад каждой переменной в объяснение поведения результативного показателя. Чаще встречается нестрогая, или стохастическая мультиколлинеарность, когда объясняющие переменные коррелированы между собой. В этом случае проблема возникает только тогда, когда взаимосвязь переменных влияет на результаты оценки регрессии.

Основные последствия мультиколлинеарности:

· понижается точность оценки параметров регрессии, что проявляется в трех аспектах:

Ошибки некоторых оценок становятся очень большими;

Эти ошибки сильно коррелированными друг с другом;

Выборочные дисперсии сильно возрастают;

· коэффициенты некоторых введенных в регрессию переменных оказываются незначимыми, но в силу экономических соображений именно эти переменные должны оказывать заметное влияние объясняемую переменную;

· оценки коэффициентов становятся очень чувствительными к выборочным наблюдениям (небольшое увеличение объема выборки приводит к очень сильным сдвигам в значениях оценок).

Причины возникновения мультиколлинеарности:

· в модель включены факторные признаки, характеризующие одну и ту же сторону явления;

· уравнение регрессии содержит в качестве факторных признаков такие показатели, суммарное значение которые представляет собой постоянную величину;

· в модели использованы факторные признаки, являющиеся составными элементами друг друга;

· в моделирующую функцию включены факторные признаки, по смыслу дублирующие друг друга.

Проблема мультиколлинеарности является обычной для регрессии временных рядов, т.е. когда данные состоят из ряда наблюдений в течение некоторого периода времени. Если две или более объясняющие переменные имеют ярко выраженной временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.

Если среди парных коэффициентов корреляции независимых переменных существуют такие, значение которых приближается или равно множественному коэффициенту корреляции, то это говорит о возможности существования мультиколлинеарности.

Если в эконометрической модели получено малое значение параметра при большом коэффициенте детерминации и при этом -критерий существенно отличается от нуля, то это говорит о наличии мультиколлинеарности.

Методы исследования мультиколлинеарности

· нахождение и анализ корреляционной матрицы

Стохастическая связь между переменными характеризуется величиной коэффициента корреляции между ними. Чем ближе по абсолютной величине значение коэффициента корреляции к единице, тем сильнее мультиколлинеарность. В общем случае, если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить нет ли среди них коррелированных между собой. Для этого формируется матрица коэффициентов парной корреляции, которая является симметричной и называется корреляционной матрицей. Она имеет вид:

где - коэффициенты парной корреляции между переменной у и одним из факторов, - коэффициенты парной корреляции между факторами, которые вычисляются по формуле

Анализ корреляционной матрицы позволяет оценить, во-первых, степень влияния отдельных факторов на результативный показатель, во-вторых, взаимосвязь факторов между собой.

Если коэффициенты парной корреляции между некоторыми факторами близки к единице, это указывает на тесную взаимосвязь между ними, т.е. на наличие мультиколлинеарности. В этом случае один из факторов необходимо исключить из дальнейшего рассмотрения. Встает вопрос, какой именно. Это зависит от конкретной ситуации. Чаще всего для моделирования оставляют тот фактор, который с экономической точки зрения более весом для изучаемого процесса. Можно также оставить фактор, который имеет большее влияние на результативный показатель (т.е. коэффициент корреляции которого с результативным показателем больше). Такого рода анализ проводится для каждой пары факторов. Результатом анализа корреляционной матрицы является установление группы факторов, мало зависимых между собой – они и должны входить в модель.

· вычисление определителя корреляционной матрицы

Если в модели больше двух факторов, вопрос о мультиколлинеарности не может ограничиваться информацией, которую дает корреляционная матрица. Более широкая проверка предусматривает вычисление определителя матрицы , . Если , то существует полная мультиколлинеарность. Если , то мультиколлинеарности нет. Чем ближе к нулю, тем увереннее можно утверждать о существовании между переменными мультиколлинеарности.

· метод Феррара-Глаубера

Для исследования общей мультиколлинеарности и мультиколлинеар-ности между отдельными факторами используется корреляционная матрица , вычисляемая по формуле (3.3.2).

Для исследования общей мультиколлинеарности используется критерий . Рассчитывается величина

имеющая - распределение с степенями свободы.

По данной надёжности и числу степеней свободы находят табличное значение (приложение А). Если , то можно считать, что мультиколлинеарность между объясняющими переменными отсутствует.

Для выяснения вопроса, между какими факторами существует мультиколлинеарность, используется -статистика или -статистика. Для этой цели используют частные коэффициенты парной корреляции между объясняющими переменными, которые вычисляют по формуле

где – элементы обратной матрицы .

В качестве критерия используется величина

имеющая распределение Стьюдента с степенями свободы.

По таблицам Стьюдента (приложение Д) находят критическое значение . Сравнивают критическое значение с расчетным :

· если , то между объясняющими переменными и коллинеарности нет.

· если , то между объясняющими переменными и существует значительная коллинеарность..

Методы устранения мультиколлинеарности

Если мультиколлинеарность выявлена, необходимо предпринять ряд мер по ее уменьшению и возможному устранению. Необходимо знать, что безошибочных и абсолютно правильных рекомендаций нет, это процесс творческого поиска. Все зависит от степени мультиколлинеарности, от набора факторов, от характера данных.

Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, связаны с информационной базой и делятся на две категории. К первой относятся попытки повысить степень надежности оценок регрессии – увеличить число наблюдений в выборке, за счет сокращения временного периода увеличить дисперсию объясняющих переменных и снизить вариацию случайного числа, уточнить набор объясняющих переменных, включаемых в модель. Ко второй категории относится использование внешней информации, т.е. сбор дополнительных данных и оценок.

· метод исключения переменных

Этот метод заключается в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Отбор переменных, подлежащих исключению, производится с помощью коэффициентов корреляции. Для этого производится оценка значимости коэффициентов парной корреляции между объясняющими переменными и . Если , то одну из переменных можно исключить. Но какую переменную удалить из анализа, решают исходя из экономических соображений.

· метод линейного преобразования переменных

Этот метод устранения мультиколлинеарности заключается в переходе к регрессии приведенной формы путем замены переменных, которым присуща коллинеарность, их линейной комбинацией. Если между двумя факторами и существует мультиколлинеарность, то заменяют фактор после чего проверяют наличие мультиколлинеарности между факторами и . При отсутствии мультиколлинеарности вместо фактора рассматривается фактор .

· метод пошаговой регрессии

Процедура применения пошаговой регрессии начинается с построения простой регрессии. В анализ последовательно включают по одной объясняющей переменной. На каждом шаге проверяется значимость коэффициентов регрессии и оценивается мультиколлинеарность переменных. Если оценка коэффициента получается незначимой, то переменная исключается и рассматривают другую объясняющую переменную. Если оценка коэффициента регрессии значима, а мультиколлинеарность отсутствует, то в анализ включают следующую переменную. Таким образом, постепенно определяются все составляющие регрессии без нарушения положения об отсутствии мультиколлинеарности.

Меры по устранению мультиколлинеарности:

· необходимо изменить спецификацию модели так, чтобы коллинеарность переменных снизилась до допустимого уровня;

· необходимо применить методы оценки, которые, несмотря на существенную коллинеарность, позволяют избежать ее отрицательных последствий. К этим методам оценивания относятся: методы с ограничениями на параметры (смешанный оценщик и минимальный оценщик), метод главных компонент, двухшаговый МНК, метод инструментальных переменных, метод наибольшего правдоподобия.

Как уже было показано, устранение мультиколлинеарности может достигаться путем исключения одного или нескольких линейно-связанных факторных признаков. Вопрос о том, какой из факторов следует отбросить, решается на основании экономического, логического, качественного анализа явления. Иногда удается уменьшить мультиколлинеарность путем агрегирования или преобразования исходных факторных признаков. В частности, это может быть объединение межотраслевых показателей с рядами динамики или, например, можно перейти к первым разностям и находить уравнение регрессии для разностей.

Хотя надежных методов выявления коллинеарности не существует, есть несколько признаков, ее выявляющих:

· характерным признаком мультиколлинеарности является высокое значение коэффициента детерминации при незначимости параметров уравнения (по t -статистикам);

· в модели с двумя переменными наилучшим признаком мультиколлинеарности является значение коэффициента корреляции;

· в модели с большим числом (чем два) факторов коэффициент корреляции может быть низким из-за наличия мультиколлинеарности, следует брать во внимание частные коэффициенты корреляции;

· если коэффициент детерминации велик, а частные коэффициенты малы, то мультиколлинеарность возможна

Пример 3.6. Исследовать данные на мультиколлинеарность; если обнаружена мультиколлинеарность объясняющих переменных, то исключить из рассмотрения переменную, которая коррелирует с остальными объясняющими переменными.

Y 17,44 17,28 17,92 18,88 17,12 21,12 20,64 19,68 18,4
Х 1 22,95 24,84 29,97 28,08 24,3 32,4 29,97 33,48 29,7 26,73
Х 2 1,56 2,88 2,28 1,2 2,64 3,48 2,28 2,52 2,4
Х 3 2,8 1,148 2,66 1,96 0,77 2,38 3,36 2,17 2,24 2,03

Решение. Для исследования общей мультиколлинеарности применим метод Фаррара-Глаубера.

Для нахождения корреляционной матрицы R построим вспомогательную таблицу 3.13.

Таблица 3.13

Расчет элементов корреляционной матрицы

17,44 22,95 2,8 526,70 9,00 7,84 68,85 64,26 8,40 22,95 2,8 304,15
17,28 24,84 1,56 1,14 617,03 2,43 1,32 38,75 28,52 1,79 24,84 1,56 1,14 298,60
17,92 29,97 2,88 2,66 898,20 8,29 7,08 86,31 79,72 7,66 29,97 2,88 2,66 321,13
18,88 28,08 2,28 1,96 788,49 5,20 3,84 64,02 55,04 4,47 28,08 2,28 1,96 356,45
17,12 24,3 1,2 0,77 590,49 1,44 0,59 29,16 18,71 0,92 24,3 1,2 0,77 293,09
21,12 32,4 2,64 2,38 1049,76 6,97 5,66 85,54 77,11 6,28 32,4 2,64 2,38 446,05
29,97 3,48 3,36 898,20 12,11 11,29 104,3 100,7 11,69 29,97 3,48 3,36 400,00
20,64 33,48 2,28 2,17 1120,91 5,20 4,71 76,33 72,65 4,95 33,48 2,28 2,17 426,01
19,68 29,7 2,52 2,24 882,09 6,35 5,02 74,84 66,53 5,64 29,7 2,52 2,24 387,30
18,4 26,73 2,4 2,03 714,49 5,76 4,12 64,15 54,26 4,87 26,73 2,4 2,03 338,56
188,48 282,42 24,24 21,52 8086,36 62,76 51,47 692,26 617,5 56,68 282,42 24,24 21,5 3571,35
18,848 28,24 2,42 2,15 808,64 6,28 5,15 69,23 61,75 5,67 28,24 2,424 2,15 357,13

В предпоследней строке таблицы 3.12 указаны суммы по столбцам, а в последней – средние значения по столбцам.

Найдем средние квадратические отклонения:

Аналогично имеем , , .

Найденные значения средних квадратических отклонений подставим в формулы (3.3.3) для вычисления парных коэффициентов корреляции:

Аналогично , , , , .

Можно сделать вывод о наличии определенной связи между каждой парой факторов. Для данной задачи корреляционная матрица (3.3.1) имеет вид:

Замечание. Если команда Анализ данных отсутствует в менюСервис, то необходимо запустить программу установки Microsoft Excel и установить Пакет анализа. После установки Пакета анализа его необходимо выбрать и активизировать с помощью команды Надстройки.

Найдем определитель корреляционной матрицы :

Значение определителя корреляционной матрицы близко к нулю, что свидетельствует о наличии значительной мультиколлинеарности.

. и существует мультиколлинеарность и одна из переменных должна быть исключена. Исключим из рассмотрения переменную , поскольку .
  • 5.Порядок оценивания линейной эконометрической модели из изолированного уравнения в Excel. Смысл выходной статистической информации сервиса Регрессия. (10) стр 41
  • 6.Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам. (30) стр.24-25,
  • 7. Классическая парная регресионная модель. Спецификация модели. Теорема Гаусса-Маркова.
  • 8. Метод наименьших квадратов: алгоритм метода, условия применения.
  • 9.Идентификация отдельных уравнений системы одновременных уравнений: порядковое условие. (30)
  • Необходимое условие идентифицируемости
  • 10.Оценка параметров парной регрессионной модели методом наименьших квадратов. (10)
  • 11.Фиктивные переменные: определение, назначение, типы.
  • 12.Автокорреляция случайного возмущения. Причины. Последствия.
  • 13.Алгоритм проверки значимости регрессора в парной регрессионной модели.
  • 14.Интервальная оценка ожидаемого значения зависимой переменной в парной регрессионной модели.
  • 15. Тест Чоу на наличие структурных изменений в регрессионной модели. (20) стр. 59,60
  • 16. Алгоритм проверки адекватности парной регрессионной модели. (20) стр. 37, 79
  • 17. Коэффициент детерминации в парной регрессионной модели.
  • 18. Оценка параметров множественной регрессионной модели методом наименьших квадратов.
  • 20. Гетероскедастичность случайного возмущения. Причины. Последствия. Тест gq(20)
  • 21.Фиктивная переменная наклона: назначение; спецификация регрессионной модели с фиктивной переменной наклона; значение параметра при фиктивной переменной. (20) стр.65
  • 22..Алгоритм теста Дарбина-Уотсона на наличие (отсутствие) автокорреляции случайных возмущений. (20) стр 33
  • 23. Структурная и приведённая формы спецификации эконометрических моделей.
  • 24. Гетероскедастичность случайного возмущения. Причины. Последствия. Алгоритм теста Голдфельда-Квандта на наличие или отсутствие гетероскедастичности случайных возмущений.
  • Алгоритм теста Голдфелда-Квандта на наличие (отсутствие) гетероскедастичности случайных возмущений.
  • 25. Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам.
  • 26. Способы корректировки гетероскедастичности. Метод взвешенных наименьших квадратов
  • 27.Проблема мультиколлинеарности в моделях множественной регрессии.Признаки мультиколлениарности.
  • 28.Что такое логит,тобит,пробит.
  • 29. Что такое Метод наибольшего правдоподобия стр. 62.
  • 30. Что такое стационарный процесс?
  • 31.Свойства временных рядов.
  • 32.Модели ar и var .
  • 33. Идентифицируемость системы.
  • 34. Настройка модели с системой одновременных уравнений.
  • 35.Что такое метод Монте-Карло стр 53
  • 36.Оценить качество модели по f, gq, dw (линейнные).Стр.33, 28-29
  • 37. Оценка погрешностей параметров эконометрической модели методом Монте-Карло.
  • 38. Отражение в модели влияния неучтённых факторов. Предпосылки теоремы Гаусса-Маркова.
  • 39.Модели временных рядов. Свойства рядов цен акций на бирже (20) с.93.
  • 40. Ожидаемое значение случайной переменной, её дисперсия и среднее квадратическое отклонение. (20) с.12-21
  • 41. Оценка параметров парной регрессионной модели методом наименьших квадратов с использованием сервиса Поиск решения.
  • 42. Проверка статистических гипотез, t-статистика Стьюдента, доверительная вероятность и доверительный интервал, критические значения статистики Стьюдента. Что такое “толстые хвосты”?
  • 43.Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности
  • 44. Частные коэффициенты детерминации.
  • 46. Экономический смысл коэффициентов линейного и степенного уравнений регрессии.
  • 47.Оценка коэффициентов модели Самуэльсона-Хикса
  • 48. Ошибки от включения в модель незначимых переменных или исключения значимых.С.80
  • 49. Исследование множественной регрессионной модели с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.
  • 51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100
  • 52. Структурная и приведённая формы спецификации эконометрических моделей.
  • 53. Алгоритм проверки значимости регрессора в парной регрессионной модели. По t-статистике, по f-статистике.
  • 54.Свойства рядов цен на фондовом рынке. Принципы построения портфеля Марковица с.93,102
  • 55.Динамическая модель из одновременных линейных уравнений (привести пример) с.105.
  • 56. Метод наибольшего правдоподобия: принципы и целесообразность использования
  • 57. Этапы исследования модели множественной регрессии с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.

    Мультиколлинеарность – это взаимная зависимость влияющих переменных. Проблема состоит в том, что при её наличии становится сложно или невозможно разделить влияние регрессоров на зависимую переменную, и коэффициенты теряют экономический смысл предельной функции или эластичности. Дисперсии коэффициентов растут, сами коэффициенты, оценённые по различным выборкам или методом Монте-Карло, коррелируют между собой. Это приводит к тому, что в области настройки модели графики Y и Ŷ прекрасно совпадают, R2 и F высокие, а в области прогноза графики могут совпасть, что можно объяснить взаимным подавлением погрешностей или расходятся, то есть модель оказывается неадекватной.

    Как обнаружить мультиколлинеарность? Проще всего – по корреляционной матрице. Если коэффициенты корреляции регрессоров больше 0,7, значит они взаимосвязаны. Числовой характеристикой мультиколлинеарности может служить определитель корреляционной матрицы. Если он близок к 1, то регрессоры независимы; если к 0, значит они связаны сильно.

    Как бороться с мультиколлинеарностью?

    1. Смириться, принять во внимание и ничего не делать.

    2.Увеличить объём выборки: дисперсии коэффициентов обратно пропорциональны количеству замеров.

    3.Удалять из модели регрессоры, слабо коррелирующие с зависимой переменной, или коэффициенты которых имеют малую t-статистику. Как видно из таблицы 7.10, при этом происходит смещение коэффициентов при значимых регрессорах, и возникает вопрос об их экономическом смысле. (А смысл такой: если регрессоры коррелируют и вы можете ими управлять, например, расходы на станки и рабочих, то придётся изменять их пропорционально). F-статистика, то есть качество модели, при этом растёт.

    4.Использовать в уравнении регрессии агрегаты из коррелирующих переменных: линейные комбинации с коэффициентами, обратно пропорциональными стандартным отклонениям переменных и выравнивающими их масштабы. Такие агрегаты обычно не имеют экономического смысла, но могут повысить адекватность модели.

    5.Факторный анализ, или Метод главных компонент. Используется, если переменных много, но они являются линейными комбинациями небольшого количества независимых факторов, может быть, не имеющих экономического смысла.

    51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

    Временной ряд – это конечная реализация c тохастического процесса : генерации набора случайных переменных Y (t ).

    Стохастический процесс может быть стационарным и нестационарным. Процесс является стационарным , если

      Математическое ожидание значений переменных не меняется.

      Математическое ожидание дисперсий переменных не меняется.

    3. Нет периодических флуктуаций.

    Распознавание стационарности:

    1. График: систематический рост или убывание, волны и зоны высокой волатильности (дисперсии) в длинном ряде сразу видны.

    2. Автокорреляция (убывает при росте лага)

    3. Тесты тренда: проверка гипотезы о равенстве нулю коэффициента при t .

    4. Специальные тесты, включённые в пакеты компьютерных программ Stata, EViews и др., например, тест Дики-Фуллера (Dickey-Fuller) на единичный корень (Unit root).

    Чисто случайный процесс, стационарный с отсутствием автокорреляции (Cor(u i / u k ) = 0) называется Белый шум.

    Пример нестационарного процесса – случайное блуждание

    Y(t) = Y(t-1) + a(t) где a(t) – белый шум.

    Интересно, что процесс Y (t) = 0,999* Y (t-1) + a(t) является стационарным

    Принципиальную возможность избавиться от нестационарности называют интегрируемость. Применяют различные способы избавления от нестационарности:

    1. Вычитание тренда, что мы и делали в предыдущем разделе;

    2. Использование разностей 1-го, 2-го и т.д. порядков, что можно делать только после сглаживания временного ряда (или энергетического спектра), иначе все эффекты будут подавлены статистическими флуктуациями: дисперсия разности равна сумме дисперсий.

    Для исследования рядов цен на фондовом рынке применяются модели, использующие белый шум и авторегрессию, то есть взаимную зависимость уровней временного ряда.

    Модель MA(q) (moving average) – линейная комбинация последовательных элементов белого шума

    X(t) = a(t) – K(1)*a(t-1) – …. – K(q)*a(t-q)

    X(t) = b0 + b1*X(t-1) + …. + bp*X(t-p)

    Особенно популярны их комбинации

    ARMA(p,q) = AR(p) + MA(q)

    и ARIMA(p, i ,q): то же, с интегрируемостью i –го порядка.

    "

    Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
    Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
    Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
    Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
    Исключение переменной(ых) из модели
    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
    Получение дополнительных данных или новой выборки
    Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
    Изменение спецификации модели
    В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
    Использование предварительной информации о некоторых параметрах
    Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
    Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
    Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
    Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.

    36. способы выявления мультиколлиарности. частная корреляция

    Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.

    Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.

    Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.

    Мультиколлинеарность в матричном виде – это зависимость между столбцами матрицы факторных переменных Х:

    Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n, то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.

    Можно сделать вывод, что одной из основных причин присутствия мультиколлинеарности в модели множественной регрессии является плохая матрица факторных переменных Х.

    Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

    Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:

    1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

    2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;

    3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

    4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.

    Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ).

    Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:

    где rij – линейный коэффициент парной корреляции между i-м и j-ым факторными переменными,

    На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.

    При рассмотрении данной матрицы с целью выявления мультиколлинеарных факторов руководствуются следующими правилами:

    1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мультиколлинеарность;

    2) вычисляют собственные числа корреляционной матрицы факторных переменных λmin и λmax. Если λmin‹10-5, то в модели регрессии присутствует мультиколлинеарность. Если отношение

    то также делают вывод о наличии мультиколлинеарных факторных переменных;

    3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность.

    37. пути решения проблемы мультиколлиарности

    Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным знакам коэффициентов регрессии.

    При построении прогноза на основе модели регрессии с мультиколлинеарными факторами необходимо оценивать ситуацию по величине ошибки прогноза. Если её величина является удовлетворительной, то модель можно использовать, несмотря на мультиколлинеарность. Если же величина ошибки прогноза большая, то устранение мультиколлинеарных факторов из модели регрессии является одним из методов повышения точности прогноза.

    К основным способам устранения мультиколлинеарности в модели множественной регрессии относятся:

    1) один из наиболее простых способов устранения мультиколлинеарности состоит в получении дополнительных данных. Однако на практике в некоторых случаях реализация данного метода может быть весьма затруднительна;

    2) способ преобразования переменных, например, вместо значений всех переменных, участвующих в модели (и результативной в том числе) можно взять их логарифмы:

    lny=β0+β1lnx1+β2lnx2+ε.

    Однако данный способ также не способен гарантировать полного устранения мультиколлинеарности факторов;

    Если рассмотренные способы не помогли устранить мультиколлинеарность факторов, то переходят к использованию смещённых методов оценки неизвестных параметров модели регрессии, или методов исключения переменных из модели множественной регрессии.

    Если ни одну из факторных переменных, включённых в модель множественной регрессии, исключить нельзя, то применяют один из основных смещённых методов оценки коэффициентов модели регрессии – гребневую регрессию или ридж (ridge).

    При использовании метода гребневой регрессии ко всем диагональным элементам матрицы (ХТХ) добавляется небольшое число τ: 10-6 ‹ τ ‹ 0.1. Оценивание неизвестных параметров модели множественной регрессии осуществляется по формуле:

    где ln – единичная матрица.

    Результатом применения гребневой регрессии является уменьшение стандартных ошибок коэффициентов модели множественной регрессии по причине их стабилизации к определённому числу.

    Метод главных компонент является одним из основных методов исключения переменных из модели множественной регрессии.

    Данный метод используется для исключения или уменьшения мультиколлинеарности факторных переменных модели регрессии. Суть метода заключается в сокращении числа факторных переменных до наиболее существенно влияющих факторов. Это достигается с помощью линейного преобразования всех факторных переменных xi (i=0,…,n) в новые переменные, называемые главными компонентами, т. е. осуществляется переход от матрицы факторных переменных Х к матрице главных компонент F. При этом выдвигается требование, чтобы выделению первой главной компоненты соответствовал максимум общей дисперсии всех факторных переменных xi (i=0,…,n), второй компоненте – максимум оставшейся дисперсии, после того как влияние первой главной компоненты исключается и т. д.

    Метод пошагового включения переменных состоит в выборе из всего возможного набора факторных переменных именно те, которые оказывают существенное влияние на результативную переменную.

    Метод пошагового включения осуществляется по следующему алгоритму:

    1) из всех факторных переменных в модель регрессии включаются те переменные, которым соответствует наибольший модуль линейного коэффициента парной корреляции с результативной переменной;

    2) при добавлении в модель регрессии новых факторных переменных проверяется их значимость с помощью F-критерия Фишера. При том выдвигается основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии. Обратная гипотеза состоит в утверждении о целесообразности включения факторной переменной xk в модель множественной регрессии. Критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=1 и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров. Наблюдаемое значение F-критерия рассчитывается по формуле:

    где q – число уже включённых в модель регрессии факторных переменных.

    При проверке основной гипотезы возможны следующие ситуации.

    Fнабл›Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии отвергается. Следовательно, включение данной переменной в модель множественной регрессии является обоснованным.

    Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≤Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии принимается. Следовательно, данную факторную переменную можно не включать в модель без ущерба для её качества

    3) проверка факторных переменных на значимость осуществляется до тех пор, пока не найдётся хотя бы одна переменная, для которой не выполняется условие Fнабл›Fкрит.

    38. фиктивные переменные. Тест чоу

    Термин “фиктивные переменные” используется как противоположность “значащим” переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная - это индикаторная переменная, отражающая качественную характеристику. Чаще всего применяются бинарные фиктивные переменные, принимающие два значения, 0 и 1, в зависимости от определенного условия. Например, в результате опроса группы людей 0 может означать, что опрашиваемый - мужчина, а 1 - женщина. К фиктивным переменным иногда относят регрессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.

    Фиктивные переменные, будучи экзогенными, не создают каких-либо трудностей при применении ОМНК. Фиктивные переменные являются эффективным инструментом построения регрессионных моделей и проверки гипотез.

    Предположим, что на основе собранных данных была построена модель регрессии. Перед исследователем стоит задача о том, стоит ли вводить в полученную модель дополнительные фиктивные переменные или базисная модель является оптимальной. Данная задача решается с помощью метода или теста Чоу. Он применяется в тех ситуациях, когда основную выборочную совокупность можно разделить на части или подвыборки. В этом случае можно проверить предположение о большей эффективности подвыборок по сравнению с общей моделью регрессии.

    Будем считать, что общая модель регрессии представляет собой модель регрессии модель без ограничений. Обозначим данную модель через UN . Отдельными подвыборками будем считать частные случаи модели регрессии без ограничений. Обозначим эти частные подвыборки как PR .

    Введём следующие обозначения:

    PR1 – первая подвыборка;

    PR2 – вторая подвыборка;

    ESS(PR1) – сумма квадратов остатков для первой подвыборки;

    ESS(PR2) – сумма квадратов остатков для второй подвыборки;

    ESS(UN) – сумма квадратов остатков для общей модели регрессии.

    – сумма квадратов остатков для наблюдений первой подвыборки в общей модели регрессии;

    – сумма квадратов остатков для наблюдений второй подвыборки в общей модели регрессии.

    Для частных моделей регрессии справедливы следующие неравенства:

    Условие (ESS(PR1)+ESS(PR2))= ESS(UN) выполняется только в том случае, если коэффициенты частных моделей регрессии и коэффициенты общей модели регрессии без ограничений будут одинаковы, но на практике такое совпадение встречается очень редко.

    Основная гипотеза формулируется как утверждение о том, что качество общей модели регрессии без ограничений лучше качества частных моделей регрессии или подвыборок.

    Альтернативная или обратная гипотеза утверждает, что качество общей модели регрессии без ограничений хуже качества частных моделей регрессии или подвыборок

    Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.

    Наблюдаемое значение F-критерия сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора.

    а k1=m+1 и k2=n-2m-2 .

    Наблюдаемое значение F-критерия рассчитывается по формуле:где ESS(UN)– ESS(PR1)– ESS(PR2) – величина, характеризующая улучшение качества модели регрессии после разделения её на подвыборки;

    m – количество факторных переменных (в том числе фиктивных);

    n – объём общей выборочной совокупности.

    Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит , то основная гипотеза отклоняется, и качество частных моделей регрессии превосходит качество общей модели регрессии.

    Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл?Fкрит , то основная гипотеза принимается, и разбивать общую регрессию на подвыборки не имеет смысла.

    Если осуществляется проверка значимости базисной регрессии или регрессии с ограничениями (restricted regression), то выдвигается основная гипотеза вида:

    Справедливость данной гипотезы проверяется с помощью F-критерия Фишера-Снедекора.

    Критическое значение F-критерия Фишера определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы свободы k1=m+1 и k2=n–k–1 .

    Наблюдаемое значение F-критерия преобразуется к виду:

    При проверке выдвинутых гипотез возможны следующие ситуации.

    Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то основная гипотеза отклоняется, и в модель регрессии необходимо вводить дополнительные фиктивные переменные, потому что качество модели регрессии с ограничениями выше качества базисной или ограниченной модели регрессии.

    Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл?Fкрит , то основная гипотеза принимается, и базисная модель регрессии является удовлетворительной, вводить в модель дополнительные фиктивные переменные не имеет смысла.

    39. система одновременных уравнений (эндогенные, экзогенные, лаговые переменные). Экономически значимые примеры систем одновременных уравнений

    До сих пор мы рассматривали эконометрические модели, задаваемые уравнениями, выражающими зависимую (объясняемую) переменную через объясняющие переменные. Однако реальные экономические объекты, исследуемые с помощью эко-нометрических методов, приводят к расширению понятия эко-нометрической модели, описываемой системой регрессионных уравнений и тождеств1.

    1 В отличие от регрессионных уравнений тождества не содержат подлежащих оценке параметров модели и не включают случайной составляющей.

    Особенностью этих систем является то, что каждое из уравнений системы, кроме «своих» объясняющих переменных, может включать объясняемые переменные из других уравнений. Таким образом, мы имеем не одну зависимую переменную, а набор зависимых (объясняемых) переменных, связанных уравнениями системы. Такую систему называют также системой одновременных уравнений, подчеркивая тот факт, что в системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и независимые в других.

    Системы одновременных уравнений наиболее полно описывают экономический объект, содержащий множество взаимосвязанных эндогенных (формирующихся внутри функционирования объекта) и экзогенных (задаваемых извне) переменных. При этом в качестве эндогенных и экзогенных могут выступать лаговые (взятые в предыдущий момент времени) переменные.

    Классическим примером такой системы является модель спроса Qd и предложения Qs (см. § 9.1), когда спрос на товар определятся его ценой Р и доходом потребителя /, предложение товара - его ценой Р и достигается равновесие между спросом и предложением:

    В этой системе экзогенной переменной выступает доход потребителя /, а эндогенными - спрос (предложение) товара Qd = Q» = Q и цена товара (цена равновесия) Р.

    В другой модели спроса и предложения в качестве объясняющей предложение Qf переменной может быть не только цена товара Р в данный момент времени /, т.е. Рь но и цена товара в предыдущий момент времени Ptь т.е. лаговая эндогенная переменная:

    й"=Р4+Р5^+Рб^-1+Є2.

    Обобщая изложенное, можно сказать, что эконометринеская модель позволяет объяснить поведение эндогенных переменных в зависимости от значений экзогенных и лаговых эндогенных переменных (иначе - в зависимости от предопределенных, т.е. заранее определенных, переменных).

    Завершая рассмотрение понятия эконометрической модели, следует отметить следующее. Не всякая экономико-математическая модель, представляющая математико-статистическое описание исследуемого экономического объекта, может считаться эконометрической. Она становится эконометрической только в том случае, если будет отражать этот объект на основе характеризующих именно его эмпирических (статистических) данных.

    40. косвенный метод наименьших квадратов

    Если i -е стохастическое уравнение структурной формы идентифицируемо точно, то параметры этого уравнения (коэффициенты уравнения и дисперсия случайной ошибки) восстанавливаются по параметрам приведенной системы однозначно. Поэтому для оценивания параметров такого уравнения достаточно оценить методом наименьших квадратов коэффициенты каждого из уравнений приведенной формы методом наименьших квадратов (отдельно для каждого уравнения) и получить оценку ковариационной матрицы Q ошибок в приведенной форме, после чего воспользоваться соотношениями ПГ = В и Е = ГТQT , подставляя в них вместо П оцененную матрицу коэффициентов приведенной формы П и оцененную ковариационную матрицу ошибок в приведенной форме £2. Такая процедура называется косвенным методом наименьших квадратов (ILS indirect least squares). Полученные в результате оценки коэффициентов i -го стохастического уравнения структурной формы наследуют свойство состоятельности оценок приведенной формы. Однако они не наследуют таких свойств оценок приведенной формы как несмещенность и эффективность из-за того, что получаются в результате некоторых нелинейных преобразований. Соответственно, при небольшом количестве наблюдений даже у этих естественных оценок может возникать заметное смещение. В связи с этим при рассмотрении различных методов оценивания коэффициентов структурных уравнений в первую очередь заботятся об обеспечении именно состоятельности получаемых оценок.

    41. проблемы идентифицируемости систем одновременных уравнений

    При правильной спецификации модели задача идентификация системы уравнений сводится к корректной и однозначной оценке ее коэффициентов. Непосредственная оценка коэффициентов уравнения возможна лишь в системах внешне не связанных уравнений, для которых выполняются основные предпосылки построения регрессионной модели, в частности, условие некоррелированности факторных переменных с остатками.

    В рекурсивных системах всегда возможно избавление от проблемы коррелированности остатков с факторными переменными путем подстановки в качестве значений факторных переменных не фактических, а модельных значений эндогенных переменных, выступающих в качестве факторных переменных. Процесс идентификации осуществляется следующим образом:

    1. Идентифицируется уравнение, в котором в качестве факторных не содержатся эндогенные переменные. Находится расчетное значение эндогенной переменной этого уравнения.

    2. Рассматривается следующее уравнение, в котором в качестве факторной включена эндогенная переменная, найденная на предыдущем шаге. Модельные (расчетные) значения этой эндогенной переменной обеспечивают возможность идентификации этого уравнения и т. д.

    В системе уравнений в приведенной форме проблема коррелированности факторных переменных с отклонениями не возникает, так как в каждом уравнении в качестве факторных переменных используются лишь предопределенные переменные. Таким образом, при выполнении других предпосылок рекурсивная система всегда идентифицируема.

    При рассмотрении системы одновременных уравнений возникает проблема идентификации.

    Идентификация в данном случае означает определение возможности однозначного пересчета коэффициентов системы в приведенной форме в структурные коэффициенты .

    Структурная модель (7.3) в полном виде содержит параметров, которые необходимо определить. Приведенная форма модели в полном виде содержит параметров. Следовательно, для определения неизвестных параметров структурной модели можно составить уравнений. Такие системы являются неопределенными и параметры структурной модели в общем случае не могут быть однозначно определены.

    Чтобы получить единственно возможное решение необходимо предположить, что некоторые из структурных коэффициентов модели ввиду слабой их взаимосвязи с эндогенной переменной из левой части системы равны нулю. Тем самым уменьшится число структурных коэффициентов модели. Уменьшение числа структурных коэффициентов модели возможно и другими путями: например, путем приравнивания некоторых коэффициентов друг к другу, т. е. путем предположений, что их воздействие на формируемую эндогенную переменную одинаково и пр.

    С позиции идентифицируемости структурные модели можно подразделить на три вида:

    · идентифицируемые;

    · неидентифицируемые;

    · сверхидентифицируемые.

    Модель идентифицируема , если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели.

    Модель неидентифицируема , если число коэффициентов приведенной модели меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели.

    Модель сверхидентифицируема , если число коэффициентов приведенной модели больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически решаема, но требует для этого специальных методов нахождения параметров.

    Чтобы определить тип структурной модели необходимо каждое ее уравнение проверить на идентифицируемость.

    Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель кроме идентифицируемых содержит хотя бы одно сверхидентифицируемое уравнение .

    42. трехшаговый метод наименьших квадратов

    Наиболее эффективная процедура оценивания систем регрессионных уравнений сочетает метод одновременного оценивания и метод инструментальных переменных. Соответствующий метод называется трехшаговым методом наименьших квадратов. Он заключается в том, что на первом шаге к исходной модели (9.2) применяется обобщенный метод наименьших квадратов с целью устранения корреляции случайных членов. Затем к полученным уравнениям применяется двухшаговый метод наименьших квадратов.

    Очевидно, что если случайные члены (9.2) не коррелируют, трехшаговый метод сводится к двухшаговому, в то же время, если матрица В - единичная, трехшаговый метод представляет собой процедуру одновременного оценивания уравнений как внешне не связанных.

    Применим трехшаговый метод к рассматриваемой модели (9.24):

    ai=19,31; Pi=l,77; а2=19,98; р2=0,05; у=1,4. (6,98) (0,03) (4,82) (0,08) (0,016)

    Так как коэффициент р2 незначим, то уравнение зависимости У от X имеет вид:

    у =16,98 + 1,4х

    Заметим, что оно практически совпадает с уравнением (9.23).

    Как известно, очищение уравнения от корреляции случайных членов - процесс итеративный. В соответствии с этим при использовании трехшагового метода компьютерная программа запрашивает число итераций или требуемую точность. Отметим важное свойство трехшагового метода, обеспечивающего его наибольшую эффективность.

    При достаточно большом числе итераций оценки трехшагового метода наименьших квадратов совпадают с оценками максимального правдоподобия.

    Как известно, оценки максимального правдоподобия на больших выборках являются наилучшими.

    43. понятие экономических рядов динамики. Общий вид мультипликативной и аддитивной модели временного ряда.

    44. моделирование тенденции временного ряда, сезонных и циклических колебаний.

    Существует несколько подходов к анализу структуры временных рядов, содержащих сезонные или циклические колебания.

    1 ПОДХОД . Расчет значений сезонной компоненты методом скользящей средней и построение аддитивной или мультипликативной модели временного ряда.

    Общий вид аддитивной модели: (Т - трендовая компонента, S - сезонная, Е - случайная).

    Общий вид мультипликативной модели:

    Выбор модели на основе анализа структуры сезонных колебаний (если амплитуда колебаний приблизительно постоянна – аддитивная, если возрастает/уменьшается – мультипликативная).

    Построение моделей сводится к расчету значений T,S,E для каждого уровня ряда.

    Построение модели:

    1.выравнивание исходного ряда методом скользящей средней;

    2.расчет значений компоненты S ;

    3.Устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных (T+E ) в аддитивной или (T*E ) в мультипликативной модели.

    4.Аналитическое выравнивание уровней (T+E ) или (T*E ) и расчет значения Т с использованием полученного уровня тренда.

    5.Расчет полученных по модели значений (T+S ) или (T*S ).

    6.Расчет абсолютных и/или относительных ошибок.

    Если полученные значения ошибок не содержат автокорреляции, ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок Е для анализа взаимосвязи исходного ряда и др. временных рядов.

    2 ПОДХОД. Построение модели регрессии с включением фактора времени и фиктивных переменных. Количество фиктивных переменных в такой модели должно быть на единицу меньше числа моментов (периодов) времени внутри одного цикла колебаний. Например, при моделировании поквартальных данных модель должна включать четыре независимые переменные – фактор времени и три фиктивные переменные. Каждая фиктивная переменная отражает сезонную (циклическую) компоненту временного ряда для какого-либо одного периода. Она равна единице (1) для данного периода и нулю (0) для всех остальных. Недостаток модели с фиктивными переменными – наличие большого количества переменных.

    45. автокорреляционная функция. Ее использование для выявления наличия или отсутствия трендовой и циклической компоненты

    Автокорреляция уровней временного ряда .

    При наличии во временном ряде тенденции и циклических колебаний каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда .

    Количественно автокорреляцию уровней ряда измеряют с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутые на несколько шагов во времени.

    Пусть, например, дан временной ряд . Определим коэффициент корреляции между рядами и .

    Одна из рабочих формул расчета коэффициента корреляции имеет вид:

    И временного ряда, т.е. при лаге 2. Он определяется по формуле:

    (4)

    Заметим, что с увеличением лага число пар значений, по которым рассчитывается коэффициент корреляции, уменьшается. Обычно лаг не допускается равным числу, превышающему четверть числа наблюдений.

    Отметим два важных свойства коэффициентов автокорреляции.

    Во-первых, коэффициенты автокорреляции считаются по аналогии с линейным коэффициентом корреляции, т.е. они характеризуют только тесноту линейной связи двух рассматриваемых уровней временного ряда. Поэтому по коэффициенту автокорреляции можно судить только о наличии линейной (или близкой к линейной) тенденции. Для временных рядов, имеющих сильную нелинейную тенденцию (например, экспоненту), коэффициент автокорреляции уровней может приближаться к нулю.

    0

    Министерство образования и науки Российской Федерации

    Федеральное государственное бюджетное образовательное учреждение

    высшего образования

    ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

    Кафедра «Бухгалтерский учет и финансы»

    КУРСОВОЙ ПРОЕКТ
    по дисциплине «Эконометрика»

    “Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели”

    Руководитель работы:

    канд. тех. наук, доцент

    Коновалова

    Исполнитель:

    студент группы ЭК-1315 ЭПО

    Тверь, 2015

    Введение…………………………………………………………………………...3

    1.Аналитическая часть……………………………………………………………4

    1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях…………………………………………………………………………….4

    1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях…………..…………………………………………..7

    2.Проектная часть………………………………………………………………..11

    2.1. Информационно-методическое обеспечение эконометрического исследования………………………………………………………………….11

    2.2. Пример эконометрического исследования…………………………….17

    Заключение ……………………………………………………………………....30

    Список использованных источников…………………………………………...31

    Введение

    Актуальность темы работы “Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели” обусловлена тем, что в наше время данная проблема часто встречается в прикладных эконометрических моделях.

    Предмет исследования - проблема мультиколлинеарности. Объектом исследования выступают эконометрические модели.

    Основная цель работы - разработка проектных решений по информационно-методическому обеспечению эконометрического исследования.

    Для достижения цели поставлены и решены следующие основные задачи исследования:

    1. Обобщение признаков мультиколлинеарности в эконометрических моделях.
    2. Выявление основных способов устранения мультиколлинеарности.

    3.Разработка информационно-методического обеспечения эконометрического исследования.

    1. Аналитическая часть

    1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях

    Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность , которая означает наличие функциональной (тождественной) линейной зависимости, и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами .

    Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели:

    Пусть факторы этой модели тождественно связаны следующим образом: . Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a , а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):

    Таким образом, несмотря на относительно произвольное изменение коэффициентов модели получается та же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию. Любая точка этой прямой — истинный вектор коэффициентов .

    Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок . Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

    Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна. Тем самым чем «меньше» ковариационная матрица (ее определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим на примере двухфакторной модели:

    Тогда дисперсия оценки параметра, например, при первом факторе равна:

    где — выборочный коэффициент корреляции между факторами.

    Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.

    Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качество модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

    В линейных моделях коэффициенты корреляции между параметрами могут быть положительными и отрицательными. В первом случае увеличение одного параметра сопровождается увеличением и другого параметра. Во втором случае при повышении одного параметра происходит снижение другого.

    Исходя из этого, можно установить допустимую и недопустимую мультиколлинеарность. Недопустимая мультиколлинеарность будет тогда, когда между факторами 1 и 2 существует значительная положительная корреляция и при этом влияние каждого фактора на корреляционную связь с функцией у однонаправленное, то есть увеличение обоих факторов 1 и 2 ведёт к увеличению или снижению функции у . Другими словами, оба фактора действуют на функцию у одинаково, и значительная положительная корреляции между ними может позволить исключить один из них.

    Допустимая мультиколлинеарность такова, при которой факторы действуют на функцию у неодинаково. Здесь возможны два случая:

    а) при значительной положительной корреляции между факторами влияние каждого фактора на корреляционную связь с функцией у разнонаправленное, т.е. увеличение одного фактора ведёт к росту функции, а увеличение другого фактора приводит к уменьшению функции у.

    б) при значительной отрицательной корреляции между факторами увеличение одного фактора сопровождается уменьшением другого фактора и это делает факторы разнозначными, поэтому возможен любой знак влияния факторов на функцию у .

    На практике выделяют некоторые наиболее характерные признаки мультиколлинеарности.: 1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели. 2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R 2 и соответствующей F-статистики). 3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

    Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

    Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

    Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы (). Рекомендуется рассчитывать показатель. Слишком высокие значения последнего означают наличие мультиколлинеарности.

    Таким образом, главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при всех незначимых коэффициентах,высокие парные коэффициенты корреляции,высокие значения коэффициента VIF .

    1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях

    Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является серьёзной проблемой, предполагающей существенные усилия по ее выявлению и устранению. В основном всё зависит от целей исследования.

    Если основная задача модели - прогноз будущих значений регрессанда, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными регрессорами будут сохраняться те же отношения, что и ранее. Если же целью исследования является определение степени влияния каждого из регрессоров на регрессанд, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между регрессорами. В этой ситуации мультиколлинеарность является серьезной проблемой.

    Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки .

    На практике выделяют основные методы устранения мультиколлинеарности:

    1. Исключение регрессоров из модели простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных регрессоров. Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого можно получить смещенные оценки и сделать необоснованные выводы. Таким образом, в прикладных эконометрических моделях желательно не исключать регрессоры до тех пор, пока их коллинеарность не станет серьезной проблемой.
    2. Получение дополнительных данных или новой выборки поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности вообще не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

    III. Изменение спецификации модели В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются новые регрессоры, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым, сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

    1. Преобразование переменных в ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно только с помощью преобразования переменных. Исходные данные в каждом наблюдении делятся на значения одного из зависимых регрессоров в данном наблюдении. Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничиться небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент .

    Если по всем признакам имеется мультиколлинеарность, то среди эконометристов есть разные мнения на этот счет. При столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако следует помнить, что при этом могут возникнуть новые трудности. Во-первых, далеко не всегда ясно, какие переменные являются лишними в указанном смысле.

    Мультиколлинеарность означает лишь приблизительную линейную зависимость между факторами, но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т.е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещению коэффициентов модели. На практике, обычно при обнаружении мультиколлинеарности убирают наименее значимый для анализа фактор, а затем повторяют расчеты.

    Таким образом, на практике выделяют основные методы устранения мультиколлинеарности: изменение или увеличение выборки, исключение одной из переменной, преобразование мультиколлинеарных переменных (использовать нелинейные формы, использовать агрегаты (линейные комбинации нескольких переменных), использовать первые разности вместо самих переменных. Однако если мультиколлинеарность не устраняется, можно её игнорировать с учетом целесообразие исключения.

    1. Проектная часть

    2.1. Информационно-методическое обеспечение эконометрического исследования

    Информационное обеспечение эконометрического исследования включает следующие сведения:

    Входные сведения:

    • статистические данные по социально-экономическому показателю, определяемому как зависимая переменная (факторы - результата);
    • статистические данные по социально-экономическим показателям, определяемым как объясняющие переменные (факторы - признака);

    Промежуточные сведения:

    • модель уравнения регрессии, оцененное уравнение регрессии, показатели качества и заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели;

    Результативные сведения:

    • оцененное уравнение регрессии, заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели.

    Методика эконометрического исследования заключается в следующем: спецификация; параметризация, верификация, дополнительное исследование, прогнозирование.

    1.Спецификация модели уравнения регрессии включает в себя графический анализ корреляционной зависимости зависимой переменной от каждой объясняющей переменной. По результатам графического анализа делается заключение о модели уравнения регрессии линейного или нелинейного видов. Для проведения графического анализа чаще всего рекомендуют использовать инструмент «Точечная диаграмма» MsExcel. В результате этого этапа определяется модель уравнения регрессии, причем в случае нелинейного вида также определяются способы ее линеаризации.

    2.Параметризация уравнения регрессии включает в себя оценку параметров регрессии и их социально-экономическую интерпретацию. Для параметризации используют инструмент «Регрессия» в составе надстроек «Анализ данных» MsExcel. По результатам автоматизированного регрессионного анализа (столбец «Коэффициенты») определяются параметры регрессии, также дается их интерпретация согласно типовому правилу:

    Bj представляет собой величину, на которую в среднем изменяется значение переменной Y при увеличении независимой переменной Xj на единицу при прочих равных условиях.

    Свободный член уравнения регрессии равен предсказанному значению зависимой переменной Y в случае, когда все независимые переменные равны нулю.

    3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2) по следующим показателям: «R-квадрат», «Значимость F», «P-значение» (по каждому параметру регрессии), а также по графикам подбора и остатков.

    Определяется значимость коэффициентов и оценивается качество модели. Для этого рассматривается “Значимость F”, “P-Значение” и “R-квадрат”. Если “P-значение” меньше статического уравнения значимости, то это говорит о значимости коэффициента. Если “R-квадрат” больше 0.6, то это означает, модель регрессии хорошо описывает поведение зависимой переменной Y от факторов переменных.

    Если “Значимость F” меньше статического уравнения значимости, то коэффициент детерминации(R-квадрат) признается условно статистически значимым.

    График остатков позволяет оценить вариации ошибок. Если нет особых различий между ошибками, соответствующими разным значениям Xi, то есть вариации ошибок при разных значениях Хi приблизительно одинаковы и можно предположить, отсутствие проблем. График подбора позволяет сформировать суждения о базисном, предсказанных и факторных значений.

    В заключение формируется суждение о качестве уравнения регрессии.

    1. Дополнительное исследование.

    4.1.Обнаружение первого признака мультиколлинеарности. На основе полученных в п.2-3 результатов регрессионного анализа проверяется ситуации, при которой коэффициент детерминации имеет высокое значение (R 2 >0.7) и статически значим (Значимость F <0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05).При обнаружении, такой ситуации, делается вывод о предположении мультиколлинеарности.

    4.2.Обнаружение второго признака мультиколлинеарности. На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. Для расчетов в MS Excel, целесообразно использовать инструмент “Анализ данных / Корреляция”. По значениям коэффициента кореляции делаются выводы: чем ближе (r) к крайним точкам (±1), тем больше степень линейной связи, если коэффициент корреляции меньше 0,5, то считается, что связь слабая. Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,7 по модулю).

    4.3.Обнаружение третьего признака мультиколлинеарности. На основе оценки вспомогательных регрессий между факторными переменными, причём между переменными где имеется существенный коэффициент корреляции (п.4.2), делается вывод о наличии мультиколлинеарности, если хотя бы в одной вспомогательной регрессии является существенным и значимым. Метод дополнительных регрессий коэффициента детерминации заключается в следующем: 1) cтроятся уравнения регрессии, которые связывают каждый из регрессоров со всеми оставшимися; 2) вычисляются коэффициенты детерминации R 2 для каждого уравнения регрессии; 3) если уравнение и коэффициент детерминации признаётся статистически значимым, значит данный регрессор приводит к мультиколлинеарности.

    4.4.Обобщение суждений.

    На основе п.4.1-4.3 формируется суждение о наличии / отсутствии мультиколлинеарности и регрессоров, приводящих к мультиколлинеарности.

    Далее формируется направления использования модели (в случае игнорирования или отсутствие проблемы мультиколлинеарности) или рекомендации по устранению мультиколлинеарности (на практике, исключение переменной).

    При исключении переменной целесообразно использовать правило:

    Определяется коэффициент детерминации для первоначально построенного по n наблюдениям уравнения регрессии (R 2 1);

    Исключением из рассмотрения (k) последних переменных формируется уравнение для оставшихся факторов по первоначальным n наблюдениям и определяется для него коэффициент детерминации (R 2 2);

    Рассчитывается F-статистика: где (R 1 2 -R 2 2)- потеря уравнения в качества результате отбрасывания к переменных, (K) - число дополнительно появившихся степеней свободы, (1- R 1 2)/(n-m-l) - необъясненная дисперсия первоначального уравнения;

    Определяется критическое значение F a ,k ,n- m -1 по таблицам критических точек распределения Фишера при заданном уровне значимости а и степенях свободы v 1 =k, v 2 =n-m-l;

    Формируется суждения о целесообразности исключении по правилу: исключение (одновременное) из уравнения k переменных считается нецелесообразным при F > F a , k , n- m - 1 , в противном случае - такое исключение допустимо.

    При устранении переменной, получаемая модель анализируется согласно, п.п.3-4; и сравнивается с исходной моделью, в результате выбирается «лучшая». На практике, так как мультиколлинеарность не влияет на прогнозные качества модели, эта проблема может игнорироваться.

    5.Прогнозирование проводится по исходной/«лучшей» модели, выбранной в пункте 4.4, по схеме ретроспективного прогноза, при котором для прогноза используется последняя 1/3 наблюдений.

    5.1. Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по исходной/«лучшей» модели на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

    5.2. Интервальный прогноз предполагает расчет стандартных ошибок предсказания (с помощью фиктивных переменных Салкевера) и верхних и нижних границ прогнозных значений.

    С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Тогда коэффициент при фиктивной переменной D i равен ошибке предсказания в момент (n + i), а стандартная ошибка коэффициента равна стандартной ошибке предсказания (S i). Так, проводится автоматизированный регрессионный анализ модели, где в качестве значений X используются совокупные (выборочные и прогнозные) значения факторных переменных и значения фиктивных переменных Салкевера, в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной.

    Полученные стандартные ошибки коэффициентов при фиктивных переменных Салкевера равны стандартным ошибкам предсказания. Тогда границы интервального прогноза рассчитываются по следующим формулам: Ymin n + i =Yэмп n + i -S i *t кр, Ymax n + i =Yэмп n + i +S i *t кр, где t кр - критическое значение распределения Стьюдента, определяемое по формуле « =СТЬЮРАСПОБР(0,05; n-m-1)», m- количество объясняющих факторов в модели (Y * t), Yэмп n + i - прогнозные значения результативной переменной (п.5.1).

    С помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям. Делается вывод о вписываемости фактических значений результативной переменной в границы интервального прогноза.

    5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

    а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия, где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S;

    б) по регрессии п.5.2 с фиктивными переменными Салкевера определяется сумма квадратов остатков Sd;

    в) рассчитывается и оценивается значение Fстатистики по формуле:

    где p- количество прогнозных шагов. Если полученное значение больше критического значения F кр, определяемого по формуле «=FРАСПОБР(0,05; p; n-m-1)», тогда гипотеза о стабильности модели в прогнозном периоде отклоняется, в противном случае - принимается.

    5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о прогнозном качестве модели и рекомендации по применению модели для прогнозирования.

    Так, разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии.

    2.2. Пример эконометрического исследования

    Исследование проводится на основе данных, отражающих реальные макроэкономические показатели РФ за период 2003-2011 г.г. (табл. 1), согласно методике п.2.1.

    Таблица 1

    Расходы дом. хозяйств (млрд.руб)[Y]

    Численность населения (млн. чел)

    Денежная масса (млрд.руб.)

    Уровень безработицы (%)

    1.Спецификация модели уравнения регрессии включает графический анализ корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 1 (Численность населения) (рис. 1), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 2 (Денежная масса) (рис. 2), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 3 (Уровень безработицы) (рис. 3).

    График корреляционной зависимости между Y и X 1 , представленный на рисунке 1, отражает существенную (R 2 =0,71) обратную линейную зависимость Y от X 1 .

    График корреляционной зависимости между Y и X 2 , представленный на рисунке 2, отражает существенную (R 2 =0,98) прямую линейную зависимость Y от X 2 .

    График корреляционной зависимости между Y и X 3 , представленный на рисунке 3, отражает несущественную (R 2 =0,15) обратную линейную зависимость Y от X 3 .

    Рисунок 1

    Рисунок 2

    Рисунок 3

    В результате можно специфицировать модель линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

    2.Параметризация уравнения регрессии проводится с использованием инструмента «Регрессия» в составе надстроек «Анализ данных» MsExcel (рис. 4).

    Рисунок 4

    Оцененное уравнение регрессии имеет вид:

    233983,8- 1605,6Х 1 + 1,0Х 2 + 396,22X 3 .

    При этом коэффициенты регрессии интерпретируются следующим образом: при увеличении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1605,6 млрд. руб.; при увеличении денежной массы на 1 млрд.руб. расходы дом. хозяйств увеличатся на 1,0 млрд.руб.; при увеличении уровня безработицы на 1%, расходы дом. хозяйств будут увеличиваться на 396,2 млрд.руб. При нулевых значениях факторных переменных расходы дом. хозяйств составят 233983,8 млрд.руб, что, возможно, не имеет экономической интерпретации.

    3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2).

    Так, «R-квадрат» равен 0,998, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 2,14774253442155E-07, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,002, что говорит о том, что данный параметр значим. «Р-Значение» для b 1 равно 0,002, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 8,29103190343224E-07, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 3 равно 0,084, что говорит о том, что данный коэффициент не значим.

    На основе графиков остатков остатки е представляют собой случайные величины.

    На основе графиков подбора делается заключение о близости фактических и предсказанных значений по модели.

    Так, модель имеет хорошее качество, при этом b 3 не значим, поэтому можно предположить наличие мультиколлинеарности.

    4.Дополнительное исследование.

    4.1. Обнаружение первого признака мультиколлинеарности. По данным регрессионного анализа (рисунка 5) можно сказать, что имеется первый признак мультиколлинеарности, так как выявляется высокий и значимый R 2 , выявлено, что уравнение имеет высокий коэффициент детерминации, а также один из коэффициентов не значимый. Это позволяет предположить наличие мультиколлинеарности.

    4.2.Обнаружение второго признака мультиколлинеарности.

    На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. (табл.2). Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,5 по модулю).

    Таблица 2

    [ X2]

    [ X3]

    [ X2]

    [ X3]

    В нашем случае существует коэффициент корреляции между Х 1 и Х 2 (-0,788), что говорит о сильной зависимости между переменными X 1, X 2 , так же существует коэффициент корреляции между Х 1 и Х 3 (0,54), что говорит о сильной зависимости между переменными X 1, X 3.

    В результате можно предположить наличие мультиколлинеарности.

    4.3.Обнаружение третьего признака мультиколлинеарности.

    Так как в п.4.2 обнаружена сильная зависимость между переменными X 1 и X 2 , далее анализируется вспомогательная регрессия между этими переменными (рис. 5).

    Рисунок 5

    Так как «Значимость F» равна 0,01, что говорит о том, что «R-квадрат» и вспомогательная регрессия значимы, поэтому можно предположить, что регрессор X 2 приводит к мультиколлинеарности.

    Так как в п.4.2 обнаружена выше среднего уровня зависимость между переменными X 1 и X 3 , далее анализируется вспомогательная регрессия между этими переменными (рис. 6).

    Рисунок 6

    Так как «Значимость F» равна 0,13, что говорит о том, что «R-квадрат» и вспомогательная регрессия не значимы, поэтому можно предположить, что регрессор X 3 не приводит к мультиколлинеарности.

    Так, согласно третьему признаку, можно предположить наличие мультиколлинеарности.

    4.4.Обобщение суждений.

    По данным анализа п.4.1-4.3, обнаружены все три признака мультиколлинеарности, поэтому ее можно предположить с высокой вероятностью. При этом несмотря на предположение в п.4.3 относительно регрессора, приводящего к мультиколлинеарности, можно рекомендовать исключение X 3 из исходной модели, т.к. X 3 имеет наименьший коэффициент корреляции с Y и коэффициент при этом регрессоре является незначимым в исходном уравнении. Результаты регрессионного анализа после исключения X 3 представлены на рис. 7.

    Рисунок 7

    При этом рассчитаем F - статистику для проверки целесообразности исключения:

    F факт = 4,62,

    причем F табл = F 0,05;1;5 = 6,61, так как F факт < F табл, то исключение допустимо для переменной X 3 .

    Оценка качества модели линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 . «R-квадрат» равен 0,996, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 3,02415218982089E-08, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,004, что говорит о том, что данный параметр значим.«Р-Значение» для b 1 равно 0,005, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 3,87838361673427E-07, что говорит о том, что данный коэффициент значим. Оцененное уравнение регрессии имеет вид:

    201511,7 -1359,6Х 1 + 1,01Х 2

    При этом коэффициенты регрессии интерпретируются следующим образом: при уменьшении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1359,6 млрд. руб.; при увеличении уровня денежной массы, расходы дом. хозяйств увеличатся на 1,0) (млрд.руб). При нулевых значениях факторных переменных расходы дом. хозяйств составят 201511,7 млрд.руб, что, возможно, имеется экономическая интерпретация.

    Так, модель = 201511,7 -1359,6Х 1 + 1,01Х 2 имеет хорошее качество и рекомендуется для прогнозирования в качестве «лучшей» в сравнении с исходной моделью.

    5.Прогнозирование.

    5.1.Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

    Прогнозные значения факторных переменных представлены в табл.3.

    Таблица 3

    Прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. Прогнозные значения представлены в табл.4, для сравнения добавляются фактические значения.

    Таблица 4

    [Y] эмпирическое

    На рис.8 представлены фактические и прогнозные значения результативной переменной, а также нижние и верхние границы прогноза.

    Рисунок 8

    Согласно рис.8, прогноз сохраняет возрастающую тенденцию, а также все прогнозные значения близки к фактическим.

    5.2. Интервальный прогноз.

    С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Данные представлены в табл.5, результат регрессии на рис.9.

    Таблица 5

    [Y]сов

    Рисунок 9

    Тогда стандартная ошибка коэффициента при фиктивной переменной равна стандартной ошибке предсказания (S i): для 2012 года составит 738,5; для 2013 года составит 897,1; для 2014 года составит 1139,4.

    Границы интервального прогноза рассчитываются в табл.6.

    Таблица 6

    [Y] эмпирическое

    [Y]сов

    [S] пр

    По данным табл. 6 с помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям (рис.10).

    Рисунок 10

    Согласно графику, прогнозные значения вписываются в границы интервального прогноза, что говорит о хорошем качестве прогноза.

    5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

    а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия (рис.11), где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S=2058232,333.

    Рисунок 11

    б) по регрессии п.3.2 с фиктивными переменными Салкевера (рис. 9) определяется сумма квадратов остатков Sd=1270272,697.

    в) рассчитывается и оценивается значение Fстатистики:

    при этом F кр = F 0,05;3;5 = 5,40, тогда полученное значение меньше критического значения F кр и гипотеза о стабильности модели в прогнозном периоде принимается.

    5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о высоком прогнозном качестве модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) и даются рекомендации по применению модели для прогнозирования.

    Методика п.2.1 успешно апробирована, позволяет выявить основные признаки мультиколлинеарности и может быть рекомендована для подобных исследований.

    Заключение

    Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

    Основные последствия мультиколлинеарности: большие дисперсии оценок, уменьшение t-статистик коэффициентов, оценки коэффициентов по МНК становятся неустойчивыми, затрудненное определения вклада переменных, получение неверного знака у коэффициента.

    Главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при незначимых коэффициентах; Высокие парные коэффициенты корреляции; высокие значения коэффициента VIF.

    Основные методы устранения мультиколлинеарности: исключение переменной(ых) из модели; получение дополнительных данных или новой выборки; изменение спецификации модели; использование предварительной информации о некоторых параметрах.

    Разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии и может быть рекомендовано для подобных исследований.

    Список использованных источников

    1. Астахов, С.Н. Эконометрика [Текст]: Учебно-методический комплекс. Казань, 2008. - 107с.
    2. Бардасов, С. А. ЭКОНОМЕТРИКА [Текст]: учебное пособие. 2-е изд., пере- раб. и доп. Тюмень: Издательство Тюменского государственного университета, 2010. 264 с.
    3. Бородкина, Л.И. Курс лекций [Электронный ресурс]. Режим доступа - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
    4. Воскобойников, Ю.Е. ЭКОНОМЕТРИКА в EXCEL Часть 1 [Текст]: учебное пособие, Новосибирск 2005,156 с.
    5. Елисеева, И.И. Практикум по эконометрике: учеб. пособие для экон. вузов / Елисеева, И.И., Курышева, С.В., Гордеенко, Н.М. , [и др.] ; под ред. И.И. Елисеевой - М.: Финансы и статистика, 2001. - 191 с. - (14126-1).
    6. Мультиколлинеарность [Электронный ресурс]. Режим доступа - https://ru.wikipedia.org/wiki/Мультиколлинеарность.
    7. Новиков, А.И. Эконометрика [Текст]: учеб. пособие по напр. "Финансы и кредит", "Экономика" - М.: Дашков и К, 2013. - 223 с.- (93895-1).
    8. Проблема мультиколлинеарности [Электронный ресурс]. Режим доступа - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf .
    9. Черняк, В. Прикладная эконометрика. Лекция №9 [Электронный ресурс]. Режим доступа http://www.slideshare.net/vtcherniak/lect-09.
    10. ru - энциклопедический сайт [Электронный ресурс]. Режим доступа - http://kodcupon.ru/ra17syplinoe97/Мультиколлинеарность.

    Скачать: У вас нет доступа к скачиванию файлов с нашего сервера.

    Предположим, что мы рассматриваем регрессионное уравнение и данные для его оценки содержат наблюдения для разных по качеству объектов: для мужчин и женщин, для белых и черных. вопрос, который нас может здесь заинтересовать, следующий – верно ли, что рассматриваемая модель совпадает для двух выборок, относящихся к объектам разного качества? Ответить на этот вопрос можно при помощи теста Чоу.

    Рассмотрим модели:

    , i =1,…,N (1);

    , i =N +1,…,N +M (2).

    В первой выборке N наблюдений, во второй – М наблюдений. Пример: Y – заработная плата, объясняющие переменные – возраст, стаж, уровень образования. Следует ли из имеющихся данных, что модель зависимости заработной платы от объясняющих переменных, стоящих в правой части одинакова для мужчин и женщин?

    Для проверки этой гипотезы можно воспользоваться общей схемой проверки гипотез при помощи сравнения регрессии с ограничениями и регрессии без ограничений. Регрессией без ограничений здесь является объединение регрессий (1) и (2), т. е. ESS UR = ESS 1 + ESS 2 , число степеней свободы – N + M - 2k . Регрессией с ограничениями (т. е. регрессией в предположении, что выполнена нулевая гипотеза) будет являться регрессия для всего имеющегося набора наблюдений:

    , i = 1,…, N +M (3).

    Оценивая (3), получаем ESS R . Для проверки нулевой гипотезы используем следующую статистику:

    Которая в случае справедливости нулевой гипотезы имеет распределение Фишера с числом степеней свободы числителя k и знаменателя N + M - 2k .

    Если нулевая гипотеза справедлива, мы можем объединить имеющиеся выборки в одну и оценивать модель для N + M наблюдений. Если же нулевую гипотезу отвергаем, то мы не можем слить две выборки в одну, и нам придется оценивать эти две модели по отдельности.


    Изучение общей линейной модели, рассмотренной нами ранее, весьма существенно, как мы видели, опирается на статистический аппарат. Однако, как и во всех приложениях мат. статистики, сила метода зависит от предположений, лежащих в его основе и необходимых для его применения. Некоторое время мы будем рассматривать ситуации, когда одна или более гипотез, лежащих в основе линейной модели, нарушается. Мы рассмотрим альтернативные методы оценивания в этих случаях. Мы увидим, что роль одних гипотез более существенна по сравнению с ролью других. Нам надо посмотреть, к каким последствиям может привести нарушения тех или иных условий (предположений), уметь проверить, удовлетворяются они или нет и знать, какие статистические методы можно и целесообразно применять, когда не подходит классический метод наименьших квадратов.

    1. Связь между переменными линейная и выражается уравнением - ошибки спецификации модели (невключение в уравнение существенных объясняющих переменных, включение в уравнение лишних переменных, неправильный выбор формы зависимости между переменными);


    2. X 1 ,…,X k – детерминированные переменные – стохастические регрессоры, линейно независимые – полная мультиколлинеарность;

    4. - гетероскедастичность;

    5. при i ¹ k – автокорреляция ошибок

    Прежде чем приступать к разговору, рассмотрим следующие понятия: парный коэффициент корреляции и частный коэффициент корреляции.

    Предположим, что мы исследуем влияние одной переменной на другую переменную (Y и X ). Для того чтобы понять, насколько эти переменные связаны между собой, мы вычисляем парный коэффициент корреляции по следующей формуле:

    Если мы получили значение коэффициента корреляции близкое к 1, мы делаем вывод о том, что переменные достаточно сильно связаны между собой.

    Однако, если коэффициент корреляции между двумя исследуемыми переменными близок к 1, на самом деле они могут и не быть зависимыми. Пример с душевнобольными и радиоприемниками – пример так называемой «ложной корреляции». Высокое значение коэффициента корреляции может быть обусловлено и существованием третьей переменной, которая оказывает сильное влияние на первые две переменные, что и служит причиной их высокой коррелируемости. Поэтому возникает задача расчета «чистой» корреляции между переменными X и Y , т. е. корреляции, в которой исключено влияние (линейное) других переменных. Для этого и вводят понятие коэффициента частной корреляции.

    Итак, мы хотим определить коэффициент частной корреляции между переменными X и Y , исключив линейное влияние переменной Z . Для его определения используется следующая процедура:

    1. Оцениваем регрессию ,

    2. Получаем остатки ,

    3. Оцениваем регрессию ,

    4. Получаем остатки ,

    5. - выборочный коэффициент частной корреляции, измеряет степень связи между переменными X и Y , очищенную от влияния переменной Z .

    Прямые вычисления:

    Свойство:

    Процедура построения коэффициента частной корреляции обобщается на случай, если мы хотим избавиться от влияния двух и более переменных.


    1. Совершенная мультиколлинеарность.

    Одно из требований Гаусса-Маркова говорит нам о том, чтобы объясняющие переменные не были связаны никаким точным соотношением. Если такое соотношение между переменными существует, мы говорим о том, что в модели присутствует совершенная мультиколлинеарность. Пример. Рассмотрим модель со средней оценкой на экзамене, состоящую из трех объясняющих переменных: I - доход родителей, D - среднее число часов, затраченных на обучение в день, W - среднее число часов, затраченных на обучение в неделю. Очевидно, что W =7D . И это соотношение будет выполняться для каждого студента, который попадет в нашу выборку. Случай полной мультиколлинеарности отследить легко, поскольку в этом случае невозможно построить оценки по методу наименьших квадратов.

    2. Частичная мультиколлинеарность или просто мультиколлинеарность.

    Гораздо чаще встречается ситуация, когда между объясняющими переменными точной линейной зависимости не существует, но между ними существует тесная корреляционная зависимость – этот случай носит название реальной или частичной мультиколлинеарности (просто мультиколлинеарность) – существование тесных статистических связей между переменными. Надо сказать, что вопрос мультиколлинеарности – это вопрос скорее степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в том или ином виде, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это начинает серьезно влиять на результаты оценки регрессии (наличие статистических связей между регрессорами вовсе не обязательно дает неудовлетворительные оценки). Итак, мультиколлинеарность – это проблема, когда тесная корреляционная зависимость между регрессорами ведет к получению ненадежных оценок регрессии.

    Последствия мультиколлинеарности:

    Формально, поскольку (X "X ) – невырожденная, то мы можем построить МНК-оценки коэффициентов регрессии. Однако вспомним, как выражаются теоретические дисперсии оценок коэффициентов регрессии: , где a ii - i -й диагональный элемент матрицы . Поскольку матрица (X"X) близка к вырожденной и det(X "X ) » 0, то

    1) на главной диагонали обратной матрицы стоят очень большие числа, поскольку элементы обратной матрицы обратно пропорциональны det(X "X ). Следовательно, теоретическая дисперсия i -го коэффициента достаточно большая и оценка дисперсии так же большая, следовательно, t - статистики небольшие, что может привести к статистической незначимости i -го коэффициента. Т. е. переменная оказывает значимое влияние на объясняемую переменную, а мы делаем вывод о ее незначимости.

    2) Поскольку оценки и зависят от (X "X ) -1 , элементы которой обратно пропорциональны det(X "X ), то если мы добавим или уберем одно-два наблюдения, добавив или убрав, таким образом, одну-две строки к матрице X "X , то значения и могут измениться существенным образом, вплоть до смены знака – неустойчивость результатов оценивания.

    3) Трудность интерпретации уравнения регрессии. Допустим, у нас в уравнении есть две переменные, которые связаны между собой между собой: X 1 и X 2 . Коэффициент регрессии при X 1 интерпретируется как мера изменения Y за счет изменения X 1 при прочих равных условиях, т.е. значения всех других переменных остаются прежними. Однако, поскольку переменные Х 1 и Х 2 связаны, то изменения в переменной Х 1 повлекут за собой предсказуемые изменения в переменной Х 2 и значение Х 2 не останется прежним.

    Пример: , где Х 1 – общая площадь, Х 2 – жилая площадь. Мы говорим: "Если жилая площадь увеличиться на 1 кв. м., то при прочих равных условиях цена квартиры увеличиться на долл". Однако в этом случае и жилая площадь увеличится на 1 кв. м. и прирост цены будет . Разграничить влияние на переменную Y каждой переменной в отдельности уже не представляется возможным. Выход в данной ситуации с ценой на квартиру -–включить в модель не общую площадь, а так называемую "добавочную" или "дополнительную" площадь.

    Признаки мультиколлинеарности.

    Точных критериев для определения наличия (отсутствия) мультиколлинеарности не существует. Однако есть эвристические рекомендации по ее выявлению:

    1) Анализируют матрицу парных коэффициентов корреляции между регрессорами и если значение коэффициента корреляции близко к 1, то это считается признаком мультиколлинеарности.

    2) Анализ матрицы корреляции – лишь поверхностное суждение о наличии (отсутствии) мультиколлинеарности. Более внимательное изучение этого вопроса достигается при помощи расчета коэффициентов частной корреляции или расчетов коэффициентов детерминации каждой из объясняющих переменных по всем другим объясняющим переменным в регрессии .

    4) (Х X ) – симметричная положительно определенная матрица, следовательно, все ее собственные числа неотрицательны. Если определитель матрицы (Х X ) равен нулю, то минимальное собственное число так же ноль и непрерывность сохраняется. Следовательно, по значению манимального собственного числа можно судить и о близости к нулю определителя матрицы (Х X ). Кроме этого свойства минимальное собственное число важно еще и потому, что стандартная ошибка коэффициента обратно пропорциональна .

    5) О наличии мультиколлинеарности можно судить по внешним признакам, являющимся следствиями мультиколлинеарности:

    a) некоторые из оценок имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения;

    b) небольшое изменение исходных экономических данных приводит к существенному изменению оценок коэффициентов модели;

    c) большинство t -статистик коэффициентов незначимо отличаются от нуля, в то же время модель в целом является значимой, о чем говорит высокое значение F -статистики.

    Как избавится от мультиколлинеарности, как ее устранить:

    1) Использование факторного анализа. Переход от исходного набора регрессоров, среди которых есть статистически зависимые, к новым регрессорам Z 1 ,…,Z m при помощи метода главных компонент – вместо исходных переменных вместо исходных переменных рассматриваем некоторые их линейные комбинации, корреляция между которыми мала или отсутствует вообще. Задача здесь – дать содержательную интерпретацию новым переменным Z . Если не удалось – возвращаемся к исходным переменным, используя обратные преобразования. Полученные оценки будут, правда, смещенными, но будут иметь меньшую дисперсию.

    2) Среди всех имеющихся переменных отобрать наиболее существенно влияющих на объясняемую переменную факторов. Процедуры отбора будут рассмотрены ниже.

    3) Переход к смещенным методам оценивания.

    Когда мы сталкиваемся с проблемой мультиколлинеарности, то у неискушенного исследователя поначалу возникает желание просто исключить лишние регрессоры, которые, возможно, служат ее причиной. Однако не всегда ясно, какие именно переменные являются лишними в указанном смысле. Кроме того, как будет показано ниже, отбрасывание так называемых существенно влияющих переменных приводит к смещенности МНК-оценок.