Как рассчитать коэффициент корреляции в excel
Содержание:
- Использование MS EXCEL для расчета корреляции
- Коэффициент парной корреляции в Excel
- Обследование данных
- Коэффициент корреляции: что нужно знать, формула, пример расчёта в Excel
- Расчет коэффициента корреляции в Excel
- Основные задачи и виды регрессии
- Результаты корреляционного анализа
- Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).
- Регрессионный анализ в Excel
- Вычисляем коэффициенты уравнения линейной регрессии.
- Корреляция и диверсификация
- Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.
- Что такое корреляция простыми словами
Использование MS EXCEL для расчета корреляции
В качестве примера возьмем 2 переменные Х
иY и, соответственно,выборку состоящую из нескольких пар значений (Х i ; Y i ). Для наглядности построим диаграмму рассеяния .
Примечание
: Подробнее о построении диаграмм см. статью Основы построения диаграмм . В файле примера для построениядиаграммы рассеяния использована диаграмма График , т.к. мы здесь отступили от требования случайности переменной Х (это упрощает генерацию различных типов взаимосвязей: построение трендов и заданный разброс). В случае реальных данных необходимо использовать диаграмму типа Точечная (см. ниже).
Расчеты корреляции
проведем для различных случаев взаимосвязи между переменными:линейной, квадратичной и приотсутствии связи .
Примечание
: В файле примера можно задать параметры линейного тренда (наклон, пересечение с осью Y) и степень разброса относительно этой линии тренда. Также можно настроить параметры квадратичной зависимости.
В файле примера для построения диаграммы рассеяния
в случае отсутствия зависимости переменных использована диаграмма типа Точечная. В этом случае точки на диаграмме располагаются в виде облака.
Примечание
: Обратите внимание, что изменяя масштаб диаграммы по вертикальной или горизонтальной оси, облаку точек можно придать вид вертикальной или горизонтальной линии. Понятно, что при этом переменные останутся независимыми
Как было сказано выше, для расчета коэффициента корреляции
в MS EXCEL существует функций КОРРЕЛ() . Также можно воспользоваться аналогичной функцией PEARSON() , которая возвращает тот же результат.
Для того, чтобы удостовериться, что вычисления корреляции
производятся функцией КОРРЕЛ() по вышеуказанным формулам, в файле примера приведено вычислениекорреляции с помощью более подробных формул:
= КОВАРИАЦИЯ.Г(B28:B88;D28:D88)/СТАНДОТКЛОН.Г(B28:B88)/СТАНДОТКЛОН.Г(D28:D88)
= КОВАРИАЦИЯ.В(B28:B88;D28:D88)/СТАНДОТКЛОН.В(B28:B88)/СТАНДОТКЛОН.В(D28:D88)
Примечание
: Квадраткоэффициента корреляции r равенкоэффициенту детерминации R2, который вычисляется при построении линии регрессии с помощью функции КВПИРСОН() . Значение R2 также можно вывести надиаграмме рассеяния , построив линейный тренд с помощью стандартного функционала MS EXCEL (выделите диаграмму, выберите вкладкуМакет , затем в группеАнализ нажмите кнопкуЛиния тренда и выберитеЛинейное приближение ). Подробнее о построении линии тренда см., например, в статье о методе наименьших квадратов .
Коэффициент парной корреляции в Excel
Разберем, как правильно проводить коэффициент парной корреляции в табличном процессоре Excel.
Расчет коэффициента парной корреляции в Excel
К примеру, у вас есть значения величин х и у.
12
Х – это зависимая переменна, а у – независимая. Необходимо найти направление и силу связи между этими показателями. Пошаговая инструкция:
- Выявим средние показатели величин при помощи функции СРЗНАЧ.
13
- Произведем расчет каждого х и хсредн, у и усредн при помощи оператора «-».
14
- Производим перемножение вычисленных разностей.
15
- Вычисляем сумму показателей в этом столбце. Числитель – найденный результат.
16
- Посчитаем знаменатели разницы х и х-средн, у и у-средн. Для этого произведем возведение в квадрат.
17
- Используя функцию АВТОСУММА, найдем показатели в полученных столбиках. Производим перемножение. При помощи функции КОРЕНЬ возводим результат в квадрат.
18
- Производим подсчет частного, используя значения знаменателя и числителя.
1920
- КОРРЕЛ – интегрированная функция, которая позволяет предотвратить проведение сложнейших расчетов. Заходим в «Мастер функций», выбираем КОРРЕЛ и указываем массивы показателей х и у. Строим график, отображающий полученные значения.
21
Матрица парных коэффициентов корреляции в Excel
Разберем, как проводить подсчет коэффициентов парных матриц. К примеру, есть матрица из четырех переменных.
22
Пошаговая инструкция:
- Заходим в «Анализ данных», находящийся в блоке «Анализ» вкладки «Данные». В отобразившемся списке выбираем «Корелляция».
- Выставляем все необходимые настройки. «Входной интервал» – интервал всех четырех колонок. «Выходной интервал» – место, в котором желаем отобразить итоги. Кликаем на кнопку «ОК».
- В выбранном месте построилась матрица корреляции. Каждое пересечение строки и столбца – коэффициенты корреляции. Цифра 1 отображается при совпадающих координатах.
23
Обследование данных
Когда вы сталкиваетесь с новым набором данных, первая задача состоит в том, чтобы его обследовать с целью понять, что именно он содержит.
Файл all-london-2012-athletes.tsv достаточно небольшой. Мы можем обследовать данные при помощи pandas, как мы делали в первой серии постов «Python, исследование данных и выборы», воспользовавшись функцией :
Если выполнить этот пример в консоли интерпретатора Python либо в блокноте Jupyter, то вы должны увидеть следующий ниже результат:
Столбцы данных (нам повезло, что они ясно озаглавлены) содержат следующую информацию:
-
ФИО атлета
-
страна, за которую он выступает
-
возраст, лет
-
рост, см.
-
вес, кг.
-
пол «М» или «Ж»
-
дата рождения в виде строки
-
место рождения в виде строки (со страной)
-
число выигранных золотых медалей
-
число выигранных серебряных медалей
-
число выигранных бронзовых медалей
-
всего выигранных золотых, серебряных и бронзовых медалей
-
вид спорта, в котором он соревновался
-
состязание в виде списка, разделенного запятыми
Даже с учетом того, что данные четко озаглавлены, очевидно присутствие пустых мест в столбцах с ростом, весом и местом рождения
При наличии таких данных следует проявлять осторожность, чтобы они не сбили с толку
Визуализация данных
В первую очередь мы рассмотрим разброс роста спортсменов на Олимпийских играх 2012 г. в Лондоне. Изобразим эти значения роста в виде гистограммы, чтобы увидеть характер распределения данных, не забыв сначала отфильтровать пропущенные значения:
Этот пример сгенерирует следующую ниже гистограмму:
Как мы и ожидали, данные приближенно нормально распределены. Средний рост спортсменов составляет примерно 177 см. Теперь посмотрим на распределение веса олимпийских спортсменов:
Приведенный выше пример сгенерирует следующую ниже гистограмму:
Данные показывают четко выраженную асимметрию. Хвост с правой стороны намного длиннее, чем с левой, и поэтому мы говорим, что асимметрия — положительная. Мы можем оценить асимметрию данных количественно при помощи функции библиотеки pandas :
К счастью, эта асимметрия может быть эффективным образом смягчена путем взятия логарифма веса при помощи функции библиотеки numpy :
Этот пример сгенерирует следующую ниже гистограмму:
Теперь данные намного ближе к нормальному распределению. Из этого следует, что вес распределяется согласно логнормальному распределению.
Коэффициент корреляции: что нужно знать, формула, пример расчёта в Excel
Приветствую всех читателей моего блога! Давненько я не писал статей по основам инвестирования. Сегодня хочу рассказать вам таком понятии как корреляция, которая имеет отношение к созданию качественного инвестиционного портфеля и диверсификации ваших вложений.
Если говорить о том, что такое корреляция простыми словами, то это по сути связь между двумя явлениями, выраженными в числовой форме. Например, проанализировав данные по ВВП на душу населения и продолжительности жизни в странах мира, мы невооруженным глазом заметим тенденцию:
А благодаря расчёту коэффициента корреляции мы можем узнать силу взаимосвязи в конкретном числовом выражении. Это очень удобно и полезно при анализе данных в самых разных областях науки, в том числе в экономике и инвестировании.
Сегодня я расскажу вам подробнее о том, что такое корреляция простыми словами, без сложных формул и терминов. Также я покажу вам, как правильно и легко рассчитать коэффициент корреляции в Excel и как правильно интерпретировать результаты, чтобы использовать их для составления инвестиционного портфеля.
А чтобы не пропускать следующие статьи блога, подписывайтесь на мой Телеграм-канал! Там же я выкладываю отчёты по инвестициям, сообщаю об обновлениях в моем инвест-портфеле и иногда пишу заметки на интересные темы. Даже чатик инвесторов у нас есть, присоединяйтесь
Расчет коэффициента корреляции в Excel
Как я уже упоминал, есть несколько способов рассчитать коэффициент корреляции в Excel.
Использование формулы CORREL
CORREL — это статистическая функция, представленная в Excel 2007.
Предположим, у вас есть набор данных, показанный ниже, где вы хотите рассчитать коэффициент корреляции между ростом и весом 10 человек.
Ниже приведена формула, которая сделает это:
=CORREL(B2:B12,C2:C12)
Вышеупомянутая функция CORREL принимает два аргумента — серию с точками данных роста и серию с точками данных веса.
Вот и все!
Как только вы нажмете клавишу ВВОД, Excel выполнит все вычисления в серверной части и выдаст вам один единственный коэффициент корреляции Пирсона.
В нашем примере это значение немного больше 0,5, что указывает на довольно сильную положительную корреляцию.
Этот метод лучше всего использовать, если у вас есть две серии и все, что вам нужно, — это коэффициент корреляции.
Но если у вас есть несколько рядов, и вы хотите узнать коэффициент корреляции всех этих рядов, вы также можете рассмотреть возможность использования пакета инструментов анализа данных в Excel (рассматривается далее).
Использование пакета инструментов анализа данных
В Excel есть пакет инструментов для анализа данных, который можно использовать для быстрого расчета различных значений статистики (включая получение коэффициента корреляции).
Но пакет Data Analysis Toolpak по умолчанию отключен в Excel. Итак, первым шагом было бы снова включить инструмент анализа данных, а затем использовать его для расчета коэффициента корреляции Пирсона в Excel.
Включение пакета инструментов анализа данных
Ниже приведены шаги по включению пакета инструментов анализа данных в Excel:
- Перейдите на вкладку Файл.
- Нажмите на Параметры
- В открывшемся диалоговом окне «Параметры Excel» щелкните параметр «Надстройки» на боковой панели.
- В раскрывающемся списке «Управление» выберите надстройки Excel.
- Щелкните Далее. Откроется диалоговое окно надстроек.
- Отметьте опцию Analysis Toolpak
- Нажмите ОК
Вышеупомянутые шаги добавят новую группу на вкладке «Данные» на ленте Excel под названием «Анализ». В этой группе у вас будет опция анализа данных
Расчет коэффициента корреляции с помощью пакета Data Analysis Toolpak
Теперь, когда инструмент анализа снова доступен на ленте, давайте посмотрим, как с его помощью рассчитать коэффициент корреляции.
Предположим, у вас есть набор данных, показанный ниже, и вы хотите выяснить корреляцию между тремя рядами (рост и вес, рост и доход, вес и доход).
Ниже приведены шаги для этого:
- Перейдите на вкладку «Данные».
- В группе «Анализ» выберите параметр «Анализ данных».
- В открывшемся диалоговом окне «Анализ данных» нажмите «Корреляция».
- Щелкните ОК. Откроется диалоговое окно «Корреляция».
- Для диапазона ввода выберите три серии, включая заголовки.
- Убедитесь, что для параметра «Сгруппировано по» выбрано значение «Столбцы».
- Выберите вариант — «Ярлык в первом ряду». Это гарантирует, что в результирующих данных будут одинаковые заголовки, и будет намного легче понять результаты.
- В параметрах вывода выберите, где вы хотите получить результирующую таблицу. Я собираюсь использовать ячейку G1 на том же листе. Вы также можете получить результаты на новом листе или в новой книге.
- Нажмите ОК.
Как только вы это сделаете, Excel рассчитает коэффициент корреляции для всех серий и выдаст вам таблицу, как показано ниже:
Обратите внимание, что результирующая таблица является статической и не будет обновляться в случае изменения какой-либо точки данных в вашей таблице. В случае каких-либо изменений вам придется повторить вышеуказанные шаги еще раз, чтобы сгенерировать новую таблицу коэффициентов корреляции
Итак, это два быстрых и простых метода расчета коэффициента корреляции в Excel.
Надеюсь, вы нашли этот урок полезным!
Как рассчитать коэффициент корреляции в Excel (2 простых способа)
Основные задачи и виды регрессии
Регрессия представляет собой зависимость между заданными переменными, за счет чего можно определить прогноз будущего поведения данных переменных. Переменные — это различные периодические явления, включая и поведение человека. Такой анализ программы Excel применяется для того, чтобы проанализировать воздействие на конкретную зависимую переменную значений одной или некоторым количеством переменных. К примеру, на продажи в магазине влияет несколько факторов, включая ассортимент, цены и место локализации магазина. Благодаря регрессии в Excel можно определять степень влияния каждого из указанных факторов по результатам имеющихся продаж, а после применить полученные данные для прогнозирования продаж на другой месяц или для другого магазина, расположенного рядом.
Обычно регрессия представлена в виде простого уравнения, раскрывающего зависимости и силу связи между двумя группами переменных, где одна группа является зависимой или эндогенной, а другая — независимой или экзогенной. При наличии группы взаимосвязанных показателей зависимая переменная Y определяется исходя из логики рассуждений, а остальные выступают в роли независимых Х-переменных.
Основные задачи построения регрессионной модели заключаются в следующем:
- Отбор значимых независимых переменных (Х1, Х2, …, Xk).
- Выбор вида функции.
- Построение оценок для коэффициентов.
- Построение доверительных интервалов и функции регрессии.
- Проверка значимости вычисленных оценок и построенного уравнения регрессии.
Регрессионный анализ бывает нескольких видов:
- парный (1 зависимая и 1 независимая переменные);
- множественный (несколько независимых переменных).
Уравнения регрессии бывает двух видов:
- Линейные, иллюстрирующие строгую линейную связь между переменными.
- Нелинейные — уравнения, которые могут включать степени, дроби и тригонометрические функции.
Инструкция построения модели
Чтобы выполнить заданное построение в Excel, необходимо следовать указаниям:
Для дальнейшего вычисления следует использоваться функцию «Линейн ()», указывая Значения Y, Значения Х, Конст и статистику. После этого определите множество точек на линии регрессии с помощью функции «Тенденция» — Значения Y, Значения Х, Новые значения, Конст. При помощи заданных параметров вычислите неизвестное значение коэффициентов, опираясь на заданные условия поставленной задачи.
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ В MS EXCEL
1. Создайте файл исходных данных в MS Excel (например, таблица 2)
2. Построение корреляционного поля
Для построения корреляционного поля в командной строке выбираем меню Вставка/ Диаграмма . В появившемся диалоговом окне выберите тип диаграммы: Точечная ; вид: Точечная диаграмма , позволяющая сравнить пары значений (Рис. 22).
Рисунок 22 – Выбор типа диаграммы
Рисунок 23– Вид окна при выборе диапазона и рядов Рисунок 25 – Вид окна, шаг 4
2. В контекстном меню выбираем команду Добавить линию тренда.
3. В появившемся диалоговом окне выбираем тип графика (в нашем примере линейная) и параметры уравнения, как показано на рисунке 26.
Нажимаем ОК. Результат представлен на рисунке 27.
Рисунок 27 – Корреляционное поле зависимости производительности труда от фондовооруженности
Аналогично строим корреляционное поле зависимости производительности труда от коэффициента сменности оборудования. (рисунок 28).
от коэффициента сменности оборудования
3. Построение корреляционной матрицы.
Для построения корреляционной матрицы в меню Сервис выбираем Анализ данных.
С помощью инструмента анализа данных Регрессия , помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Для этого необходимо проверить доступ к пакету анализа. В главном меню последовательно выберите Сервис/ Надстройки . Установите флажок Пакет анализа (Рисунок 29)
Рисунок 30 – Диалоговое окно Анализ данных
После нажатия ОК в появившемся диалоговом окне указываем входной интервал (в нашем примере А2:D26), группирование (в нашем случае по столбцам) и параметры вывода, как показано на рисунке 31.
Результат расчетов представлен в таблице 4.
Результаты корреляционного анализа
Если результат корреляционного анализа положительный, то взаимосвязь двух переменных прямо пропорциональная. Это означает, что при увеличении одной переменной, вторая будет также увеличиваться. Как правило, такой результат принято называть “позитивной корреляцией”.
Если результат корреляционного анализа отрицательный, то взаимосвязь двух переменных обратно пропорциональная. Это означает, что при увеличении одной переменной, вторая будет уменьшаться. Такой эффект называется “отрицательной корреляцией”.
Таким образом, чем ближе значение КА к (+1) или (-1), тем сильнее взаимосвязь между двумя переменными. Соответственно, если результат анализа стремится к нулю, то взаимосвязь между двумя переменными отсутствует. Статистически значимыми принято считать значения, результат которых выше 0,5 в обоих направлениях.
Корреляционный анализ следует использовать, когда вы считаете, что есть связь между двумя переменными и вы хотите в этом убедиться. Также, КА можно использовать между несколькими переменными, проводя последовательную оценку, для определения наибольшей взаимосвязи.
Применение корреляционного анализа
Применение КА широко распространено, поскольку он позволяет выявить неожиданные взаимосвязи, которые позволяют делать более глубокий анализ и использовать полученные результаты для извлечения выгоды. Анализ полезен при тестировании гипотез ценообразования и продаж, развития стратегии и продуктового портфеля.
Например, корреляционный анализ поможет ответить на такие вопросы:
- Влияет ли скидка на увеличение продаж?
- Влияет ли уменьшение цены на увеличение продаж?
- Являются ли лояльные клиенты самыми прибыльными?
Самый простой пример: такие факторы, как жаркая погода и продажи мороженного можно подвергнуть корреляционному анализу. Логично сделать заключение, что жаркая погода является причиной того, что люди покупают больше мороженного. При этом, жаркая погода может стать причиной увеличения продаж хлора для бассейнов. Но при этом продажа мороженного никак не коррелируется с продажей хлора.
Более того, корреляционный анализ применяется в рамках концепции Lean SixSigma для поиска коренных причин проблемы и их взаимного влияния друг на друга.
Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).
Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения,
необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t
-критерия:
t = |
|
(2.1) |
Случайная величина t
следует t
-распределению Стьюдента
и по таблице t
-распределения необходимо найти критическое значение критерия (t
кр.α) при заданном уровне
значимости α
. Если вычисленное по формуле (2.1) t
по модулю окажется меньше
чем t
кр.α , то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные
данные не противоречат гипотезе о зависимости случайных величин.
2.1.
t = |
|
= -5.08680 |
2.2.
Искомое значение t
кр.α располагается на пересечении строки соответствующей числу степеней свободы
и столбца соответствующего заданному уровню значимости α
. В нашем случае число степеней свободы есть n — 2 = 26 — 2 = 24
и α
= 0.05
,
что соответствует критическому значению критерия t
кр.α = 2.064
(см. табл. 2)
Таблица 2 t
-распределение
Число степеней свободы(n — 2) |
α = 0.1 |
α = 0.05 |
α = 0.02 |
α = 0.01 |
α = 0.002 |
α = 0.001 |
1 | 6.314 | 12.706 | 31.821 | 63.657 | 318.31 | 636.62 |
2 | 2.920 | 4.303 | 6.965 | 9.925 | 22.327 | 31.598 |
3 | 2.353 | 3.182 | 4.541 | 5.841 | 10.214 | 12.924 |
4 | 2.132 | 2.776 | 3.747 | 4.604 | 7.173 | 8.610 |
5 | 2.015 | 2.571 | 3.365 | 4.032 | 5.893 | 6.869 |
6 | 1.943 | 2.447 | 3.143 | 3.707 | 5.208 | 5.959 |
7 | 1.895 | 2.365 | 2.998 | 3.499 | 4.785 | 5.408 |
8 | 1.860 | 2.306 | 2.896 | 3.355 | 4.501 | 5.041 |
9 | 1.833 | 2.262 | 2.821 | 3.250 | 4.297 | 4.781 |
10 | 1.812 | 2.228 | 2.764 | 3.169 | 4.144 | 4.587 |
11 | 1.796 | 2.201 | 2.718 | 3.106 | 4.025 | 4.437 |
12 | 1.782 | 2.179 | 2.681 | 3.055 | 3.930 | 4.318 |
13 | 1.771 | 2.160 | 2.650 | 3.012 | 3.852 | 4.221 |
14 | 1.761 | 2.145 | 2.624 | 2.977 | 3.787 | 4.140 |
15 | 1.753 | 2.131 | 2.602 | 2.947 | 3.733 | 4.073 |
16 | 1.746 | 2.120 | 2.583 | 2.921 | 3.686 | 4.015 |
17 | 1.740 | 2.110 | 2.567 | 2.898 | 3.646 | 3.965 |
18 | 1.734 | 2.101 | 2.552 | 2.878 | 3.610 | 3.922 |
19 | 1.729 | 2.093 | 2.539 | 2.861 | 3.579 | 3.883 |
20 | 1.725 | 2.086 | 2.528 | 2.845 | 3.552 | 3.850 |
21 | 1.721 | 2.080 | 2.518 | 2.831 | 3.527 | 3.819 |
22 | 1.717 | 2.074 | 2.508 | 2.819 | 3.505 | 3.792 |
23 | 1.714 | 2.069 | 2.500 | 2.807 | 3.485 | 3.767 |
24
|
1.711 |
2.064
|
2.492 | 2.797 | 3.467 | 3.745 |
25 | 1.708 | 2.060 | 2.485 | 2.787 | 3.450 | 3.725 |
26 | 1.706 | 2.056 | 2.479 | 2.779 | 3.435 | 3.707 |
27 | 1.703 | 2.052 | 2.473 | 2.771 | 3.421 | 3.690 |
28 | 1.701 | 2.048 | 2.467 | 2.763 | 3.408 | 3.674 |
29 | 1.699 | 2.045 | 2.462 | 2.756 | 3.396 | 3.659 |
30 | 1.697 | 2.042 | 2.457 | 2.750 | 3.385 | 3.646 |
40 | 1.684 | 2.021 | 2.423 | 2.704 | 3.307 | 3.551 |
60 | 1.671 | 2.000 | 2.390 | 2.660 | 3.232 | 3.460 |
120 | 1.658 | 1.980 | 2.358 | 2.617 | 3.160 | 3.373 |
∞ | 1.645 | 1.960 | 2.326 | 2.576 | 3.090 | 3.291 |
2.2.
Абсолютное значение t
-критерия не меньше критического t
= 5.08680,
t
кр.α = 2.064,
следовательно экспериментальные данные, с вероятностью 0.95
(1 — α
),
не противоречат гипотезе
о зависимости случайных величин X и Y.
Регрессионный анализ в Excel
Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.
Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.
Регрессия бывает:
- линейной (у = а + bx);
- параболической (y = a + bx + cx2);
- экспоненциальной (y = a * exp (bx));
- степенной (y = a*x^b);
- гиперболической (y = b/x + a);
- логарифмической (y = b * 1n (x) + a);
- показательной (y = a * b^x).
Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.
Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.
Модель линейной регрессии имеет следующий вид:
У = а0 + а1×1 +…+акхк.
Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.
В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).
В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».
Активируем мощный аналитический инструмент:
- Нажимаем кнопку «Офис» и переходим на вкладку «Параметры Excel». «Надстройки».
- Внизу, под выпадающим списком, в поле «Управление» будет надпись «Надстройки Excel» (если ее нет, нажмите на флажок справа и выберите). И кнопка «Перейти». Жмем.
- Открывается список доступных надстроек. Выбираем «Пакет анализа» и нажимаем ОК.
После активации надстройка будет доступна на вкладке «Данные».
Теперь займемся непосредственно регрессионным анализом.
- Открываем меню инструмента «Анализ данных». Выбираем «Регрессия».
- Откроется меню для выбора входных значений и параметров вывода (где отобразить результат). В полях для исходных данных указываем диапазон описываемого параметра (У) и влияющего на него фактора (Х). Остальное можно и не заполнять.
- После нажатия ОК, программа отобразит расчеты на новом листе (можно выбрать интервал для отображения на текущем листе или назначить вывод в новую книгу).
В первую очередь обращаем внимание на R-квадрат и коэффициенты. R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%
Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо»
В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо»
R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».
Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.
Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.
Вычисляем коэффициенты уравнения линейной регрессии.
Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость
между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом
Y = a + b X (3.1), где:
b = |
R x,y |
|
= |
R x,y |
|
(3.2), |
Рассчитанный по формуле (3.2) коэффициент b
называют коэффициентом линейной регрессии. В некоторых источниках
a
называют постоянным коэффициентом регрессии и b
соответственно переменным.
Погрешности предсказания Y по заданному значению X вычисляются по формулам:
Корреляция и диверсификация
Как знания о корреляции активов могут помочь лучше вкладывать деньги? Думаю, вы все хорошо знакомы с золотым правилом инвестора — не клади все яйца в одну корзину. Речь, естественно, идёт о диверсификации инвестиционных активов в портфеле. Корреляция и диверсификация неразрывно связаны, что понятно даже из названия — английское diversify означает «разнообразить», а как коэффициент корреляции как раз показывает схожесть или различие двух явлений.
Другими словами, инвестировать в финансовые инструменты с высокой корреляцией не очень хорошо. Почему? Все просто — похожие активы плохо диверсифицируются. Вот пример портфеля двух активов с корреляцией +1:
Как видите, график портфеля во всех деталях повторяет графики каждого из активов — рост и падение обоих активов синхронны. Диверсификация в теории должна снижать инвестиционные риски за счёт того, что убытки одного актива перекрываются за счёт прибыли другого, но здесь этого не происходит совершенно. Все показатели просто усредняются:
Портфель даёт небольшой выигрыш в снижении рисков — но только по сравнению с более доходным Активом 1. А так, никаких преимуществ по сути нет, нам лучше просто вложить все деньги в Актив 1 и не париться.
А вот пример портфеля двух активов с корреляцией близкой к 0:
Где-то графики следуют друг за другом, где-то в противоположных направлениях, какой-либо однозначной связи не наблюдается. И вот здесь диверсификация уже работает:
Мы видим заметное снижение СКО, а значит портфель будет менее волатильным и более стабильно расти. Также видим небольшое снижение максимальной просадки, особенно если сравнивать с Активом 1. Инвестиционные инструменты без корреляции достаточно часто встречаются и из них имеет смысл составлять портфель.
Впрочем, это не предел. Наиболее эффективный инвестиционный портфель можно получить, используя активы с корреляцией -1:
Уже знакомое вам «зеркало» позволяет довести показатели риска портфеля до минимальных:
Несмотря на то, что каждый из активов обладает определенным риском, портфель получился фактически безрисковым. Какая-то магия, не правда ли? Очень жаль, но на практике такого не бывает, иначе инвестирование было бы слишком лёгким занятием.
Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.
4.1.
Находим минимальный и максимальный элемент выборки X это 18-й и 15-й элементы соответственно, x min = 22.10000 и x max = 26.60000.
4.2.
Находим минимальный и максимальный элемент выборки Y это 2-й и 18-й элементы соответственно, y min = 29.40000 и y max = 31.60000.
4.3.
На оси абсцисс выбираем начальную точку чуть левее точки x 18
= 22.10000, и такой масштаб, чтобы на оси
поместилась точка x 15
= 26.60000 и отчетливо различались остальные точки.
4.4.
На оси ординат выбираем начальную точку чуть левее точки y 2
= 29.40000, и такой масштаб, чтобы на оси
поместилась точка y 18
= 31.60000 и отчетливо различались остальные точки.
4.5.
На оси абсцисс размещаем значения x k
, а на оси ординат значения y k
.
4.6.
Наносим точки (x 1
, y 1
),
(x 2
, y 2
),…,(x 26
, y 26
)
на координатную плоскость. Получаем диаграмму рассеяния (корреляционное поле), изображенное на рисунке ниже.
4.7.
Начертим линию регрессии.
Для этого найдем две различные точки с координатами (x r1 , y r1) и (x r2 , y r2)
удовлетворяющие уравнению (3.6), нанесем их на координатную плоскость и проведем через них прямую. В качестве абсциссы первой точки возьмем значение x min = 22.10000. Подставим значение x min в уравнение (3.6),
получим ординату первой точки. Таким образом имеем точку с координатами (22.10000, 31.96127). Аналогичным образом получим координаты второй точки, положив в качестве абсциссы значение x max = 26.60000.
Вторая точка будет: (26.60000, 30.15970).
Линия регрессии показана на рисунке ниже красным цветом
Обратите внимание, что линия регрессии всегда проходит через точку средних значений величин Х и Y, т.е. с координатами (M x , M y)
Утилита, которая широко используется во многих компаниях и на предприятиях. Реалии таковы, что практически любой работник должен в той или иной мере владеть Экселем, так как эта программа применяется для решения очень широкого спектра задач. Работая с таблицами, нередко приходится определять, связаны ли между собой определённые переменные. Для этого используется так называемая корреляция. В этой статье мы подробно рассмотрим, как рассчитать коэффициент корреляции в Excel. Давайте разбираться. Поехали!
Начнём с того, что такое коэффициент корреляции вообще. Он показывает степень взаимосвязи между двумя элементами и всегда находится в диапазоне от -1 (сильная обратная взаимосвязь) до 1 (сильная прямая взаимосвязь). Если коэффициент равен 0, это говорит о том, что взаимосвязь между значениями отсутствует.
Теперь, разобравшись с теорией, перейдём к практике. Чтобы найти взаимосвязь между переменными и у, воспользуйтесь встроенной функцией Microsoft Excel «КОРРЕЛ». Для этого нажмите на кнопку мастера функций (она расположена рядом с полем для формул). В открывшемся окне выберите из списка функций «КОРРЕЛ». После этого задайте диапазон в полях «Массив1» и «Массив2». Например, для «Массив1» выделите значения у, а для «Массив2» выделите значения х. В итоге вы получите рассчитанный программой коэффициент корреляции.
Следующий способ будет актуален для студентов, от которых требуют найти зависимость по заданной формуле. Прежде всего, нужно знать средние значения переменных x и y. Для этого выделите значения переменной и воспользуйтесь функцией «СРЗНАЧ». Далее необходимо вычислить разницу между каждым x и x ср, и y ср. В выбранных ячейках напишите формулы x-x, y-. Не забудьте закрепить ячейки со средними значениями. Затем растяните формулу вниз, чтобы она применилась и к остальным числам.
Теперь, когда есть все необходимые данные, можно посчитать корреляцию. Перемножьте полученные разности таким образом: (x-x ср) * (y-y ср). После того как вы получите результат для каждой из переменных, просуммируйте полученные числа при помощи функции автосуммы. Таким образом рассчитывается числитель.
Теперь перейдём к знаменателю. Посчитанные разности нужно возвести в квадрат. Для этого в отдельной колонке введите формулы: (x-x ср) 2 и (y-y ср) 2 . Затем растяните формулы на весь диапазон. После, при помощи кнопки «Автосумма», найдите сумму по всем колонкам (для x и для y). Осталось перемножить найденные суммы и извлечь из них квадратный корень. Последний шаг — поделите числитель на знаменатель. Полученный результат и будет искомым коэффициентом корреляции.
Что такое корреляция простыми словами
Не хочу вас сразу грузить формулами и расчётами, об этом поговорим ближе к концу. Давайте сначала разберемся, что по своей сути означает цифра коэффициента корреляции, которую вы можете встретить в какой-нибудь книге или статье.
Значение коэффициента может меняться от -1 до +1:
Если значение близко к единице или минус единице — значит два явления так или иначе сильно взаимосвязаны. Впрочем, причины этого не всегда очевидны — явление А может влиять на явление B, может быть наоборот. Нередко бывает, что существует явление C, которое приводит в движение А и В одновременно. В общем, природа корреляции — это уже второй вопрос, которым должны заниматься исследователи.
Околонулевые значения, в свою очередь, говорят об отсутствии какой-либо зависимости между явлениями. Нет конкретного предела, где заканчивается случайность и начинается взаимосвязь, все зависит от предмета исследования и количества данных. Навскидку, обычно при значениях от -0.3 до 0.3 можно говорить о том, что зависимость отсутствует.
При высокой положительной корреляции вслед за графиком А растёт и график B, и чем выше значение, тем слаженнее оба движутся. Для наглядности, вот как выглядит корреляция +1:
Движения графиков полностью повторяют друг друга, причем это как в случае простого добавления, так и с множителем.
При сильной отрицательной корреляции рост графика А приводит к падению графика B и наоборот. Вот так выглядит корреляция -1:
Движения графиков похожи на зеркальные отражения.
Коэффициент корреляции — удобный инструмент для анализа во многих сферах науки и жизни. Его легко рассчитать в Excel и применить, поэтому самая большая сложность в работе с ним — грамотно подобрать данные для расчёта. Основное правило — чем больше данных, тем лучше. Многие взаимосвязи проявляют себя лишь на длинной дистанции.
Также нужно следить за тем, чтобы найденные корреляции не были ложными.