Проведение любого статистического анализа немыслимо без расчетов. В это статье рассмотрим, как рассчитать дисперсию, среднеквадратичное отклонение, коэффиент вариации и другие статистические показатели в Excel.
Среднее линейное отклонение представляет собой среднее из абсолютных (по модулю) отклонений от в анализируемой совокупности данных. Математическая формула имеет вид:
a – среднее линейное отклонение,
X – анализируемый показатель,
X̅ – среднее значение показателя,
n
В Эксель эта функция называется СРОТКЛ .
После выбора функции СРОТКЛ указываем диапазон данных, по которому должен произойти расчет. Нажимаем «ОК».
{module 111}
Возможно, не все знают, что такое , поэтому поясню, — это мера, характеризующая разброс данных вокруг математического ожидания. Однако в распоряжении обычно есть только выборка, поэтому используют следующую формулу дисперсии:
s 2 – выборочная дисперсия, рассчитанная по данным наблюдений,
X – отдельные значения,
X̅ – среднее арифметическое по выборке,
n – количество значений в анализируемой совокупности данных.
Соответствующая функция Excel — ДИСП.Г . При анализе относительно небольших выборок (примерно до 30-ти наблюдений) следует использовать , которая рассчитывается по следующей формуле.
Отличие, как видно, только в знаменателе. В Excel для расчета выборочной несмещенной дисперсии есть функция ДИСП.В .
Выбираем нужный вариант (генеральную или выборочную), указываем диапазон, жмем кнопку «ОК». Полученное значение может оказаться очень большим из-за предварительного возведения отклонений в квадрат. Дисперсия в статистике очень важный показатель, но ее обычно используют не в чистом виде, а для дальнейших расчетов.
Среднеквадратичное отклонение (СКО) – это корень из дисперсии. Этот показатель также называют стандартным отклонением и рассчитывают по формуле:
по генеральной совокупности
по выборке
Можно просто извлечь корень из дисперсии, но в Excel для среднеквадратичного отклонения есть готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).
Стандартное и среднеквадратичное отклонение, повторюсь, — синонимы.
Далее, как обычно, указываем нужный диапазон и нажимаем на «ОК». Среднеквадратическое отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными. Об этом ниже.
Все показатели, рассмотренные выше, имеют привязку к масштабу исходных данных и не позволяют получить образное представление о вариации анализируемой совокупности. Для получения относительной меры разброса данных используют коэффициент вариации , который рассчитывается путем деления среднеквадратичного отклонения на среднее арифметическое . Формула коэффициента вариации проста:
Для расчета коэффициента вариации в Excel нет готовой функции, что не есть большая проблема. Расчет можно произвести простым делением стандартного отклонения на среднее значение. Для этого в строке формул пишем:
СТАНДОТКЛОН.Г()/СРЗНАЧ()
В скобках указывается диапазон данных. При необходимости используют среднее квадратичное отклонение по выборке (СТАНДОТКЛОН.В).
Коэффициент вариации обычно выражается в процентах, поэтому ячейку с формулой можно обрамить процентным форматом. Нужная кнопка находится на ленте на вкладке «Главная»:
Изменить формат также можно, выбрав из контекстного меню после выделения нужной ячейки и нажатия правой кнопкой мышки.
Коэффициент вариации, в отличие от других показателей разброса значений, используется как самостоятельный и весьма информативный индикатор вариации данных. В статистике принято считать, что если коэффициент вариации менее 33%, то совокупность данных является однородной, если более 33%, то – неоднородной. Эта информация может быть полезна для предварительного описания данных и определения возможностей проведения дальнейшего анализа. Кроме того, коэффициент вариации, измеряемый в процентах, позволяет сравнивать степень разброса различных данных независимо от их масштаба и единиц измерений. Полезное свойство.
Еще один показатель разброса данных на сегодня — коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.
Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.
В целом, с помощью Excel многие статистические показатели рассчитываются очень просто. Если что-то непонятно, всегда можно воспользоваться окошком для поиска во вставке функций. Ну, и Гугл в помощь.
Среднеквадратическое или стандартное отклонение - статистический показатель, оценивающий величину колебаний числовой выборки вокруг ее среднего значения. Практически всегда основное количество величин распределяется в пределе плюс-минус одно стандартное отклонение от среднего значения.
Среднеквадратическое отклонение - это квадратный корень из среднего арифметического значения суммы квадратов отклонений от среднего значения. Строго и математично, но абсолютно непонятно. Это словесное описание формулы расчета стандартного отклонения, но чтобы понять смысл этого статистического термина, давайте разберемся со всем по порядку.
Представьте себе тир, мишень и стрелка. Снайпер стреляет в стандартную мишень, где попадание в центр дает 10 баллов, в зависимости от удаления от центра количество баллов снижается, а попадание в крайние области дает всего 1 балл. Каждый выстрел стрелка - это случайное целое значение от 1 до 10. Изрешеченная пулями мишень - прекрасная иллюстрация распределения случайной величины.
Наш начинающий стрелок долго практиковался в стрельбе и заметил, что он попадает в разные значения с определенной вероятностью. Допустим, на основании большого количества выстрелов он выяснил, что попадает в 10 с вероятностью 15 %. Остальные значения получили свои вероятности:
Сейчас он готовится сделать очередной выстрел. Какое значение он выбьет с наибольшей вероятностью? Ответить на этот вопрос нам поможет математическое ожидание. Зная все эти вероятности, мы можем определить наиболее вероятный результат выстрела. Формула для вычисления математического ожидания довольно проста. Обозначим значение выстрела как C, а вероятность как p. Математическое ожидание будет равно сумме произведение соответствующих значений и их вероятностей:
Определим матожидание для нашего примера:
Итак, наиболее вероятно, что стрелок попадет в зону, дающую 7 очков. Эта зона будет самой простреленной, что является прекрасным результатом наиболее частого попадания. Для любой случайной величины показатель матожидания означает наиболее встречаемое значение или центр всех значений.
Дисперсия - еще один статистический показатель, иллюстрирующий нам разброс величины. Наша мишень густо изрешечена пулями, а дисперсия позволяет выразить этот параметр численно. Если математическое ожидание демонстрирует центр выстрелов, то дисперсия - их разброс. По сути, дисперсия означает математическое ожидание отклонений значений от матожидания, то есть средний квадрат отклонений. Каждое значение возводится в квадрат для того, чтобы отклонения были только положительными и не уничтожали друг друга в случае одинаковых чисел с противоположными знаками.
D[X] = M − (M[X]) 2
Давайте рассчитаем разброс выстрелов для нашего случая:
Итак, наше отклонение равно 2,78. Это означает, что от области на мишени со значением 7,75 пулевые отверстия разбросаны на 2,78 балла. Однако в чистом виде значение дисперсии не используется - в результате мы получаем квадрат значения, в нашем примере это квадратный балл, а в других случаях это могут быть квадратные килограммы или квадратные доллары. Дисперсия как квадратная величина не информативна, поэтому она представляет собой промежуточный показатель для определения среднеквадратичного отклонения - героя нашей статьи.
Для превращения дисперсии в логично понятные баллы, килограммы или доллары используется среднеквадратическое отклонение, которое представляет собой квадратный корень из дисперсии. Давайте вычислим его для нашего примера:
S = sqrt(D) = sqrt(2,78) = 1,667
Мы получили баллы и теперь можем использовать их для связки с математически ожиданием. Наиболее вероятный результат выстрела в этом случае будет выражен как 7,75 плюс-минус 1,667. Этого достаточно для ответа, но так же мы можем сказать, что практически наверняка стрелок попадет в область мишени между 6,08 и 9,41.
Стандартное отклонение или сигма - информативный показатель, иллюстрирующий разброс величины относительно ее центра. Чем больше сигма, тем больший разброс демонстрирует выборка. Это хорошо изученный коэффициент и для нормального распределения известно занимательное правило трех сигм. Установлено, что 99,7 % значений нормально распределенной величины лежат в области плюс-минус трех сигм от среднего арифметического.
Известно, что на валютном рынке широко используются приемы математической статистики. Во многих торговых терминалах встроены инструменты для подсчета волатильности актива, который демонстрирует меру изменчивости цены валютной пары. Конечно, финансовые рынки имеют свою специфику расчета волатильности как то цены открытия и закрытия биржевых площадок, но в качестве примера мы можем подсчитать сигму для последних семи дневных свечей и грубо прикинуть недельную волатильность.
Наиболее волатильным активом рынка Форекс по праву считается валютная пара фунт/иена. Пусть теоретически в течение недели цена закрытия токийской биржи принимала следующие значения:
145, 147, 146, 150, 152, 149, 148.
Введем эти данные в калькулятор и подсчитаем сигму, равную 2,23. Это означает, что в среднем курс японской иены изменялся на 2,23 иены ежедневно. Если бы все было так замечательно, трейдеры заработали бы на таких движениях миллионы.
Стандартное отклонение используется в статистическом анализе числовых выборок. Это полезный коэффициент позволяющий оценить разброс данных, так как два набора с, казалось бы, одинаковым средним значением могут быть абсолютно разными по разбросу величин. Используйте наш калькулятор для поиска сигм небольших выборок.
Инструкция
Пусть имеется несколько чисел, характеризующих -либо однородные величины. Например, результаты измереений, взвешиваний, статистических наблюдений и т.п. Все представленные величины должны измеряться одной и той же измерения. Чтобы найти квадратичное отклонение, проделайте следующие действия.
Определите среднее арифметическое всех чисел: сложите все числа и разделите сумму на общее количество чисел.
Определите дисперсию (разброс) чисел: сложите квадраты найденных ранее отклонений и разделите полученную сумму на количество чисел.
В палате лежат семь больных с температурой 34, 35, 36, 37, 38, 39 и 40 градусов Цельсия.
Требуется определить среднее отклонение от средней .
Решение:
« по палате»: (34+35+36+37+38+39+40)/7=37 ºС;
Отклонения температур от среднего (в данном случае нормального значения): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, получается: -3, -2, -1, 0, 1, 2, 3 (ºС);
Разделите полученную раннее сумму чисел на их количество. Для точности вычисления лучше воспользоваться калькулятором. Итог деления является средним арифметическим значением слагаемых чисел.
Внимательно отнеситесь ко всем этапам расчета, так как ошибка хоть в одном из вычислений приведет к неправильному итоговому показателю. Проверяйте полученные расчеты на каждом этапе. Среднее арифметическое число имеет тот же измеритель, что и слагаемые числа, то есть если вы определяете среднюю посещаемость , то все показатели у вас будут «человек».
Данный способ вычисления применяется только в математических и статистических расчетах. Так, например, среднего арифметического значения в информатике имеет другой алгоритм вычисления. Среднее арифметическое значение является очень условным показателем. Оно показывает вероятность того или иного события при условии, что у него только один фактор либо показатель. Для наиболее глубокого анализа необходимо учитывать множество факторов. Для этого применяется вычисление более общих величин.
Среднее арифметическое - одна из мер центральной тенденции, широко используемая в математике и статистических расчетах. Найти среднее арифметическое число для нескольких значений очень просто, но у каждой задачи есть свои нюансы, знать которые для выполнения верных расчетов просто необходимо.
Количественных результатов проведенных подобных опытов.
1. Нахождение общего среднего арифметического числа стандартным методом;
2. Нахождение среднего арифметического отрицательным чисел.
3. Вычисление среднего арифметического положительных чисел.
Ответы каждого из действий записываются через запятую.
При работе с натуральными дробями их следует привести к общему знаменателю, который умножается на количество чисел в массиве. В числителе ответа будет сумма приведенных числителей исходных дробных элементов.
Математическое ожидание и дисперсия
Пусть мы измеряем случайную величину N раз, например, десять раз измеряем скорость ветра и хотим найти среднее значение. Как связано среднее значение с функцией распределения?
Будем кидать игральный кубик большое количество раз. Количество очков, которое выпадет на кубике при каждом броске, является случайной величиной и может принимать любые натуральные значения от 1 до 6. Среднее арифметическое выпавших очков, подсчитанных за все броски кубика, тоже является случайной величиной, однако при больших N оно стремится ко вполне конкретному числу – математическому ожиданию M x . В данном случае M x = 3,5.
Каким образом получилась эта величина? Пусть в N испытаниях раз выпало 1 очко, раз – 2 очка и так далее. Тогда При N → ∞ количество исходов, в которых выпало одно очко, Аналогично, Отсюда
Модель 4.5. Игральные кости
Предположим теперь, что мы знаем закон распределения случайной величины x , то есть знаем, что случайная величина x может принимать значения x 1 , x 2 , ..., x k с вероятностями p 1 , p 2 , ..., p k .
Математическое ожидание M x случайной величины x равно:
Ответ. 2,8.
Математическое ожидание не всегда является разумной оценкой какой-нибудь случайной величины. Так, для оценки средней заработной платы разумнее использовать понятие медианы, то есть такой величины, что количество людей, получающих меньшую, чем медиана, зарплату и большую, совпадают.
Медианой случайной величины называют число x 1/2 такое, что p (x < x 1/2) = 1/2.
Другими словами, вероятность p 1 того, что случайная величина x окажется меньшей x 1/2 , и вероятность p 2 того, что случайная величина x окажется большей x 1/2 , одинаковы и равны 1/2. Медиана определяется однозначно не для всех распределений.
Вернёмся к случайной величине x , которая может принимать значения x 1 , x 2 , ..., x k с вероятностями p 1 , p 2 , ..., p k .
Дисперсией случайной величины x называется среднее значение квадрата отклонения случайной величины от её математического ожидания:
Пример 2
В условиях предыдущего примера вычислить дисперсию и среднеквадратическое отклонение случайной величины x .
Ответ. 0,16, 0,4.
Модель 4.6. Стрельба в мишень
Пример 3
Найти распределение вероятности числа очков, выпавших на кубике с первого броска, медиану, математическое ожидание, дисперсию и среднеквадратичное отклонение.
Выпадение любой грани равновероятно, так что распределение будет выглядеть так:
Среднеквадратичное отклонение Видно, что отклонение величины от среднего значения очень велико.
Свойства математического ожидания:
Пример 4
Найти математическое ожидание суммы и произведения очков, выпавшей на двух кубиках.
В примере 3 мы нашли, что для одного кубика M (x ) = 3,5. Значит, для двух кубиков
Свойства дисперсии:
D x + y = D x + D y .
Пусть за N бросков на кубике выпало y очков. Тогда
Этот результат верен не только для бросков кубика. Он во многих случаях определяет точность измерения математического ожидания опытным путем. Видно, что при увеличении количества измерений N разброс значений вокруг среднего, то есть среднеквадратичное отклонение, уменьшается пропорционально
Дисперсия случайной величины связана с математическим ожиданием квадрата этой случайной величины следующим соотношением:
Найдём математические ожидания обеих частей этого равенства. По определению,
Математическое же ожидание правой части равенства по свойству математических ожиданий равно
Среднее квадратическое отклонение
Среднеквадратическое отклонение
равно квадратному корню из дисперсии:
При определении среднего квадратического отклонения при достаточно большом объеме изучаемой совокупности (n > 30) применяются формулы:
Похожая информация.
Приближенный метод оценки колеблемости вариационного ряда - определение лимита и амплитуды, однако не учитывают значений вариант внутри ряда. Основной общепринятой мерой колеблемости количественного признака в пределах вариационного ряда является среднее квадратическое отклонение (σ - сигма) . Чем больше среднее квадратическое отклонение, тем степень колеблемости данного ряда выше.
Методика расчета среднего квадратического отклонения включает следующие этапы:
1. Находят среднюю арифметическую величину (Μ).
2. Определяют отклонения отдельных вариант от средней арифметической (d=V-M). В медицинской статистике отклонения от средней обозначаются как d (deviate). Сумма всех отклонений равняется нулю.
3. Возводят каждое отклонение в квадрат d 2 .
4. Перемножают квадраты отклонений на соответствующие частоты d 2 *p.
5. Находят сумму произведений (d 2 *p)
6. Вычисляют среднее квадратическое отклонение по формуле:
при
n больше 30,
или
при n меньше либо равно 30, где n - число
всех вариант.
Значение среднего квадратичного отклонения:
1. Среднее квадратическое отклонение характеризует разброс вариант относительно средней величины (т.е. колеблемость вариационного ряда). Чем больше сигма, тем степень разнообразия данного ряда выше.
2. Среднее квадратичное отклонение используется для сравнительной оценки степени соответствия средней арифметической величины тому вариационному ряду, для которого она вычислена.
Вариации массовых явлений подчиняются закону нормального распределения. Кривая, отображающая это распределение, имеет вид плавной колоколообразной симметричной кривой (кривая Гаусса). Согласно теории вероятности в явлениях, подчиняющихся закону нормального распределения, между значениями средней арифметической и среднего квадратического отклонения существует строгая математическая зависимость. Теоретическое распределение вариант в однородном вариационном ряду подчиняется правилу трех сигм.
Если в системе прямоугольных координат на оси абсцисс отложить значения количественного признака (варианты), а на оси ординат - частоты встречаемости вариант в вариационном ряду, то по сторонам от средней арифметической равномерно располагаются варианты с большими и меньшими значениями.
Установлено, что при нормальном распределении признака:
68,3% значений вариант находится в пределах М1
95,5% значений вариант находится в пределах М2
99,7% значений вариант находится в пределах М3
3. Среднее квадратическое отлонение позволяет установить значения нормы для клинико-биологических показателей. В медицине интервал М1 обычно принимается за пределы нормы для изучаемого явления. Отклонение оцениваемой величины от средней арифметической больше, чем на 1 указывает на отклонение изучаемого параметра от нормы.
4. В медицине правило трех сигм применяется в педиатрии для индивидуальной оценки уровня физического развития детей (метод сигмальных отклонений), для разработки стандартов детской одежды
5. Среднее квадратическое отклонение необходимо для характеристики степени разнообразия изучаемого признака и вычисления ошибки средней арифметической величины.
Величина среднего квадратического отклонения обычно используется для сравнения колеблемости однотипных рядов. Если сравниваются два ряда с разными признаками (рост и масса тела, средняя длительность лечения в стационаре и больничная летальность и т.д.), то непосредственное сопоставление размеров сигм невозможно, т.к. среднеквадратическое отклонение - именованная величина, выраженная в абсолютных числах. В этих случаях применяют коэффициент вариации (Cv ) , представляющий собой относительную величину: процентное отношение среднего квадратического отклонения к средней арифметической.
Коэффициент вариации вычисляется по формуле:
Чем выше коэффициент вариации, тем большая изменчивость данного ряда. Считают, что коэффициент вариации свыше 30 % свидетельствует о качественной неоднородности совокупности.