Как рассчитывается дисперсия альтернативного признака. Среднее значение и вариация альтернативного признака. Свойства дисперсии количественного признака

Показатели вариации

Показатели вариации характеризует колеблемость индивидуальных значений признака по отношению к среднему значению, что не менее важно, чем определение самой средней. Средняя не показывает строения совокупности, как располагаются около нее варианты осредняемого признака, сосредоточены ли они вблизи средней или значительно отклоняются от нее. Средняя величина признака в двух совокупностях может быть одинаковой, но в одном случае все индивидуальные значения отличаются от нее мало, а в другом эти отличия велики, т.е. в одном случае вариация признака мала, а в другом велика.
Это можно показать на таком примере. Предположим, что две бригады из 3-х человек каждая выполняют одинаковую работу. Количество деталей, изготовленных за смену отдельными рабочими, составило:
в первой бригаде- 95, 100, 105;
во второй бригаде- 75, 100, 125.
Средняя выработка на одного рабочего в бригадах составила

, .
Средняя выработка одинакова, но колеблемость выработки отдельных рабочих в первой бригаде значительно меньше, чем во второй.
Следовательно, чем больше варианты отдельных единиц совокупности различаются между собой, тем больше они отличаются от своей средней, и наоборот – варианты, мало отличающиеся друг от друга, более близки по значению к средней, которая в таком случае будет более реально представлять всю совокупность.

Поэтому для характеристики и измерения вариации признака в совокупности кроме средней используют следующие показатели:

  • абсолютные - вариационный размах, среднее линейное и среднее квадратическое отклонение, дисперсию;
  • относительные - коэффициенты вариации.

Вариационный размах (или размах вариации) - это разница между максимальным и минимальным значениями признака:

В нашем примере размах вариации сменной выработки рабочих составляет: в первой бригаде R=105-95=10 дет., во второй бригаде R=125-75=50 дет. (в 5 раз больше). Это говорит о том, что выработка 1-й бригады более «устойчива», но резервов роста выработки больше у второй бригады, т.к. в случае достижения всеми рабочими максимальной для этой бригады выработки, ею может быть изготовлено 3*125=375 деталей, а в 1-й бригаде только 105*3=315 деталей.
Недостатком показателя вариационного размаха является то, что его величина не отражает все колебания признака.
Простейшим обобщающим показателем, отражающим все колебания признака, является среднее линейное отклонение , представляющее собой среднюю арифметическую абсолютных отклонений отдельных вариант от их средней величины:
для несгруппированных данных
,
для сгруппированных данных
,
где хi – значение признака в дискретном ряду или середина интервала в интервальном распределении.
В вышеприведенных формулах разности в числителе взяты по модулю, иначе, согласно свойству средней арифметической, числитель всегда будет равен нулю. Поэтому среднее линейное отклонение в статистической практике применяют редко, только в тех случаях, когда суммирование показателей без учета знака имеет экономический смысл. С его помощью, например, анализируется состав работающих, рентабельность производства, оборот внешней торговли.
Дисперсия признака – это средний квадрат отклонений вариант от их средней величины:
простая дисперсия
,
взвешенная дисперсия
.
Формулу для расчета дисперсии можно упростить:

Таким образом, дисперсия равна разности средней из квадратов вариант и квадрата средней из вариант совокупности:
.
Однако, вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, поэтому ее на основе рассчитывают среднее квадратическое отклонение , которое показывает, на сколько в среднем отклоняются конкретные варианты признака от их среднего значения. Вычисляется путем извлечения квадратного корня из дисперсии:
для несгруппированных данных
,
для вариационного ряда

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность, тем более надежной (типичной) будет средняя величина.
Среднее линейное и среднее квадратичное отклонение - именованные числа, т. е. выражаются в единицах измерения признака, идентичны по содержанию и близки по значению.
Рассчитывать абсолютные показатели вариации рекомендуется с помощью таблиц.
Таблица 3 – Расчет характеристик вариации (на примере срока данных о сменной выработке рабочих бригады)

Группы рабочих по выработке, шт.

Число рабочих,

Середина интервала,

Расчетные значения

170-190 10 180 1800 -36 360 1296 12960
190-210 20 200 4000 -16 320 256 5120
210-230 50 220 11000 4 200 16 800
230-250 20 240 4800 24 480 576 11520
Итого: 100 - 21600 - 1360 - 30400

Среднесменная выработка рабочих:

Среднее линейное отклонение:

Дисперсия выработки:

Среднее квадратическое отклонение выработки отдельных рабочих от средней выработки:
.

Вычисление дисперсий связано с громоздкими расчетами (особенно если средняя величина выражена большим числом с несколькими десятичными знаками). Расчеты можно упростить, если использовать упрощенную формулу и свойства дисперсии.
Дисперсия обладает следующими свойствами (доказываемые в математической статистике):

1. если все значения признака уменьшить или увеличить на одну и ту же величину А, то дисперсия от этого не уменьшится,


Расчет дисперсии альтернативного признака

Среди признаков, изучаемых статистикой, есть и такие, которым свойственны лишь два взаимно исключающих значения. Это альтернативные признаки. Им придается соответственно два количественных значения: варианты 1 и 0. Частостью варианты 1, которая обозначается p, является доля единиц, обладающих данным признаком. Разность 1-р=q является частостью варианты 0. Таким образом,

хi wi
1 p
0 q

Средняя арифметическая альтернативного признака
, т. к. p+q=1.

Дисперсия альтернативного признака
, т.к. 1-р=q
Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающих этим признаком.
Если значения 1 и 0 встречаются одинаково часто, т. е. p=q, дисперсия достигает своего максимума pq=0,25.
Дисперсия альтернативного признака используется в выборочных обследованиях, например, качества продукции.

Среднее значение альтернативного признака и его дисперсия:

Среднее значение альтернативного признака

Дисперсия альтернативного признака

Подставив в формулу дисперсииq = 1 – p , получим:

Таким образом, дисперсия альтернативного признака равна произведению доли единиц , обладающих данным признаком и доли единиц, не обладающих данным признаком.

Среднее квадратическое отклонение альтернативного признака:

Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие - нулем (0). Долю единиц, обладающих изучаемым признаком, обозначают буквой , а долю единиц, не обладающих этим признаком - через . Учитывая, что p + q = 1 (отсюда q = 1 - p), а среднее значение альтернативного признака равно

,

средний квадрат отклонений

Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (), на долю единиц, данным свойством не обладающих ().

Максимальное значение средний квадрат отклонения (дисперсия) принимает в случае равенства долей, т.е. когда т.е. . Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Среднее квадратическое отклонение альтернативного признака:

Выборочное наблюдение, преимущества и недостатки.

Выборочное наблюдение – одно из наиболее современных видов статистического наблюдения, при котором обследованию подвергается часть единиц изучаемой совокупности, отобранных на основе научно разработанных принципов, обеспечивающих получение достаточного количества достоверных данных, для того чтобы охарактеризовать всю совокупность в целом.

Средние и относительные показатели, полученные на основе выборочных данных, должны достаточно полно воспроизводить соответствующие показатели совокупности в целом.

Основные преимущества выборочного наблюдения в том, что его можно осуществить по более широкой программе, оно более дешевое с точки зрения затрат на его проведение, и его можно организовать тогда и в тех случаях, когда отчетностью мы воспользоваться не можем.

Основными недостатками является то, что полученные данные всегда содержат в себе ошибку, и о результатах наблюдения можно судить лишь с определенной степенью достоверности. А также для его проведения требуются квалифицированные кадры.

Способы формирование выборочной совокупности.

В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.

Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.

Существуют следующие способы отбора единиц из генеральной совокупности:

1) индивидуальный отбор - в выборку отбираются отдельные единицы;

2) групповой отбор - в выборку попадают качественно однородные группы или серии изучаемых единиц;

3) комбинированный отбор - это комбинация индивидуального и группового отбора.

Способы отбора определяются правилами формирования выборочной совокупности.

Выборка может быть:

Собственно-случайная состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки. Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, т.е.

§ механическая состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы). При этом размер интервала в генеральной совокупности равен обратной величине доли выборки. Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке - каждая 20-я единица (1:0,05) и т.д. Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

§ типическая – при которой генеральная совокупность вначале расчленяется на однородные типические группы. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность. Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность;

§ серийная - при которой генеральную совокупность делят на одинаковые по объему группы - серии. В выборочную совокупность отбираются серии. Внутри серий производится сплошное наблюдение единиц, попавших в серию;

Комбинированная - выборка может быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы. Затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.

В статистике различают следующие способы отбора единиц в выборочную совокупность:

§ одноступенчатая выборка - каждая отобранная единица сразу же подвергается изучению по заданному признаку (собственно-случайная и серийная выборки);

Многоступенчатая выборка - производят подбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы (типическая выборка с механическим способом отбора единиц в выборочную совокупность).

Кроме того различают:

§ повторный отбор – по схеме возвращенного шара. При этом каждая попавшая в выборку единица иди серия возвращается в генеральную совокупность и поэтому имеет шанс снова попасть в выборку;

Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными . Примером таких признаков являются наличие бракованной продукции, ученая степень преподавателя вуза, учеба по определенной специальности и т. д.

Предположим, что вся статистическая совокупность имеет n единиц. Из нихm единиц обладают выделенным признаком, тогда оставшиесяn m единиц не обладают этим признаком.

Долю единиц, обладающих признаком, обозначим: , тогда пусть
доля единиц, не обладающих данным признаком.

р + q = 1

Единицам х, обладающим данным признаком, присвоим значениех = 1, а не обладающим –х = 0.

Среднее значение альтернативного признака :

=р.

То есть среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.

Дисперсия альтернативного признака :

То есть дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.

Пример: 5% изготовленных изделий – брак, тогда 95% изделий годных. Дисперсия доли брака равна: σ 2 = 0,050,95 = 0,0475, а среднее квадратическое отклонение доли брака составляет σ =
или 22%.

Предельное значение дисперсии альтернативного признака равно 0,25; оно получается при р =q = 0,5.

3. Дисперсионный анализ

Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий:общей , межгрупповой и внутригрупповой .

Общая дисперсия σ 2 общ измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х от общей по совокупности средней и может быть вычислена по формуле простой или взвешен ной дисперсии.

Межгрупповая дисперсия σ 2 межгр характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней:

σ 2 межгр =
,

где f - численность единиц в группе.

Внутригрупповая (частная) дисперсия σ 2 i отражает случайную вариацию, т. е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы (групповой средней) и может быть исчислена по формуле простой или взвешенной дисперсии :

σ 2 i =
(простая формула);

σ 2 i =
(взвешенная).

На основании внутригрупповой дисперсии по каждой группе (σ 2 i ) можно определить общую средн юю из внутригрупповых дисперсий :

=
.

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

σ 2 общ = σ 2 межгр + .

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью - неизвестную, а также судить о силе влияния группировочного признака.

Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

В статистическом анализе широко используется эмпирический коэффициент детерминации (η 2) - показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

η 2 =
.

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обусловливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации η 2 равен нулю, а при функциональной связи - единице. Если, например η 2 = 0,666, это значит, что на 66,6% вариация исследуемого показателя обусловлена различиями в значениях признака-фактора, положенного в основание группировки, и на 33,4% - влиянием прочих факторов.

Эмпирическое корреляционное отношение - это корень квадратный из эмпирического коэффициента детерминации:

η =
.

Оно показывает тесноту связи между группировочным и результативным признаками.

Эмпирическое корреляционное отношение η, как и η 2 , может принимать значения от 0 до 1.

Если связь отсутствует, то корреляционное отношение η = 0, т. е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение η = 1. В этом случае межгрупповая дисперсия равна общей дисперсии (σ 2 межгр = σ 2), т. е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака.

Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.


где q- доля единиц, не обладающих признаком p- доля единиц, обладающих признаком

p + q = 1

Среднее значение альтернативного признака


Дисперсия альтернативного признака:

Максимальное значение дисперсии альтернативного признака 0,25

Правило сложения дисперсий

Выделяют дисперсии:

2) групповую

3) межгрупповую

4) среднюю из групповых

Величина общей дисперсии характеризует вариацию признака под воздействием всех факторов, вызывающих эту вариацию:


где - среднее значение изучаемого признака для i – й группы

– общая средняя для всей совокупности

Номер группы

– количество единиц в i – й группе

Средняя из групповых (или остаточная) дисперсия характеризует случайную вариацию, т. е. ту часть вариации, которая вызвана действием других неучтённых факторов, и не зависящую от фактора, положенного в основании группировки:


где - групповая дисперсия


Общая дисперсия равна сумме межгрупповой и средней из групповых дисперсий:

Эмпирический коэффициент детерминации:

Эмпирический коэффициент детерминации показывает долю межгрупповой дисперсии в общей дисперсии (насколько общая вариация изучаемого признака обусловлена вариацией группировочного (факторного) признака), т.е. показывает, насколько вариация признака в совокупности обусловлена фактором группировки.

Эмпирическое корреляционное отношение:

Эмпирическое корреляционное отношение характеризует степень влияния группировочного признака на результативный показатель и оценивает тесноту связи между изучаемым и группировочным признаками. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1. Чем ближе η к 1, тем степень влияния больше, чем ближе к 0, тем слабее.

Стоимость 1 кв.м общей площади (у.е.) на рынке жилья по десяти 17-м домам улучшенной планировки составляла:

Таблица 14

При этом известно, что первые пять домов были построены вблизи делового центра, а остальные - на значительном расстоянии от него.

Для расчета общей дисперсии вычислим среднюю стоимость 1 кв.м. общей площади:

Общую дисперсию определим по формуле :

Вычислим среднюю стоимость 1 кв.м. и дисперсию по этому показателю для каждой группы домов, отличающихся месторасположением относительно центра города:

а) для домов, построенных вблизи центра:

б) для домов, построенных далеко от центра:

Вариация стоимости 1 кв.м. общей площади, вызванная изменением местоположения домов, определяется величиной межгрупповой дисперсии :

Вариация стоимости 1 кв.м. общей площади, обусловленная изменением остальных не учитываемых нами показателей, измеряется величиной внутригрупповой дисперсии

Вариация — это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение и является необходимым звеном в экономическом анализе. Необходимость изучения вариации связана с тем, что средняя, являясь равнодействующей, выполняет свою основную задачу с разной степенью точности: чем меньше различия индивидуальных значений признака, подлежащих осреднению, тем однороднее совокупность, а, следовательно, точнее и надежнее средняя, и наоборот. Следовательно по степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию.

Изменение вариации признака в совокупности осуществляется с помощью абсолютных и относительных показателей.

Абсолютные показатели вариации включают:

Размах вариации (R)

Размах вариации — это разность между максимальным и минимальным значениями признака

Он показывает пределы, в которых изменяется величина признака в изучаемой .

Пример . Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет.
Решение: размах вариации = 9 — 2 = 7 лет.

Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность .

При этом во избежании превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю , либо возводить значения отклонений в квадрат

Среднее линейное и квадратическое отклонение

Среднее линейное отклонение — это из абсолютных отклонений отдельных значений признака от средней.

Среднее линейное отклонение простое:

Опыт работы у пяти претендентов на предшествующей работе составляет: 2,3,4,7 и 9 лет.

В нашем примере: лет;

Ответ: 2,4 года.

Среднее линейное отклонение взвешенное применяется для сгруппированных данных:

Среднее линейное отклонение в силу его условности применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе качества продукции с учетом технологических особенностей производства).

Среднее квадратическое отклонение

Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, которое называют стандартом (или стандартным отклонение). () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от :

Среднее квадратическое отклонение простое:

Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:

Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1,25.

Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.

Дисперсия

Дисперсия - представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины.

Дисперсия простая:

В нашем примере:

Дисперсия взвешенная:

Более удобно вычислять дисперсию по формуле:

которая получается из основной путем несложных преобразований. В этом случае средний квадрат отклонений равен средней из квадратов значений признака минус квадрат средней.

Для несгрупиированных данных:

Для сгруппированных данных:

Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие — нулем (0). Долю единиц, обладающих изучаемым признаком, обозначают буквой , а долю единиц, не обладающих этим признаком — через . Учитывая, что p + q = 1 (отсюда q = 1 — p), а среднее значение альтернативного признака равно

,

средний квадрат отклонений

Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (), на долю единиц, данным свойством не обладающих ().

Максимальное значение средний квадрат отклонения (дисперсия) принимает в случае равенства долей, т.е. когда т.е. . Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Среднее квадратическое отклонение альтернативного признака:

Так, если в изготовленной партии 3% изделий оказались нестандартными, то дисперсия доли нестандартных изделий , а среднее квадратическое отклонение или 17,1%.

Среднее квадратическое отклонение равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической.

Относительные показатели вариации

Относительные показатели вариации включают:

Сравнение вариации нескольких совокупностей по одному и тому же признаку, а тем более по различным признакам с помощью абсолютных показателей не представляется возможным. В этих случаях для сравнительной оценки степени различия строят относительные показатели вариации. Они вычисляются как отношения абсолютных показателей вариации к средней:

Рассчитываются и другие относительные характеристики. Например, для оценки вариации в случае асимметрического распределения вычисляют отношение среднего линейного отклонения к медиан

так как благодаря свойству медианы сумма абсолютных отклонений признака от ее величины всегда меньше, чем от любой другой.

В качестве относительной меры рассеивания, оценивающей вариацию центральной части совокупности, вычисляют относительное квартильное отклонение , где — средний квартиль полусуммы разности третьего (или верхнего) квартиля () и первого (или нижнего) квартиля ().

На практике чаще всего вычисляют коэффициент вариации. Нижней границей этого показателя является нуль, верхнего предела он не имеет, однако известно, что с увеличением вариации признака увеличивается и его значение. Коэффициент вариации является в известном смысле критерием однородности совокупности (в случае нормального распределения).

Рассчитаем коэффициент вариации на основе среднего квадратического отклонения для следующего примера. Расход сырья на единицу продукции составил (кг): по одной технологии при , а по другой — при. Непосредственное сравнение величины средних квадратических отклонений могло бы привести к неверному представлению о том, что вариация расхода сырья по первой технологии интенсивнее, чем по второй (. Относительная мера вариации ( позволяет сделать противоположный вывод

Пример расчета показателей вариации

На этапе отбора кандидатов для участия в осуществлении сложного проекта фирма объявлила конкурс профессионалов. Распределение претендентов по опыту работы показало средующие результаты:

Вычислим средний производственный опыт работы, лет

Рассчитаем дисперсию по продолжительности опыта работы

Такой же результат получается, если использовать для расчета другую формулу расчета дисперсии

Вычислим среднее квадратическое отклонение, лет:

Определим коэффициент вариации, %:

Правило сложения дисперсий

Для оценки влияния факторов, определяющих вариацию, используют прием группировки: совокупность разбивают на группы, выбрав в качестве группировочного признака один из определяющих факторов. Тогда наряду с общей дисперсией, рассчитанной по всей совокупности, вычисляют внутигрупповую дисперсию (или среднюю из групповых) и межгрупповую дисперсию (или дисперсию групповых средних).

Общая дисперсия характеризует вариацию признака во всей совокупности, сложившуюся под влиянием всех факторов и условий.

Межгрупповая дисперсия измеряет систематическую вариацию, обусловленную влиянием фактора, по которому произведена группировка:

Внутригрупповая дисперсия оценивает вариацию признака, сложившуюся по влиянием других, неучитываемых в данном исследовании факторов и независящую от фактора группировки. Она определяется как средняя из групповых дисперсий.

Все три дисперсии () связаны между собой следующим равенством, которое известно как правило сложения дисперсий:

на этом соотношении строятся показатели, оценивающие влияние признака группировки на образование общей вариации. К ним относятся эмпирический коэффициент детерминации () и эмпирическое корреляционное отношение ()

() характеризует долю межгрупоовой дисперсии в общей дисперсии:

и показывает насколько вариация признака в совокупности обусловлена фактором группировки.

Эмпирическое корреляционное отношение (!!\eta = \sqrt{ \frac{\delta^2}{\sigma^2} }

оценивает тесноту связи между изучаемым и группировочным признаками. Предельными значениями являются нуль и единица. Чем ближе к единице, тем теснее связь.

Пример. Стоимость 1 кв.м общей площади (усл.ед) на рынке жилья по десяти 17-м домам улучшенной планировки составляла:

При этом известно, что первые пять домов были построены вблизи делового центра, а остальные — на значительном расстоянии от него.

Для рассчета общей дисперсии вычислим среднюю стоимость 1 кв.м. общей площади: Общую дисперсию определим по формуле:

Вычислим среднюю стоимость 1 кв.м. и дисперсию по этому показателю для каждой группы домов, отличающихся месторасположением относительно центра города:

а) для домов, построенных вблизи центра:

б) для домов, построенных далеко от центра:

Вариация стоимости 1 кв.м. общей площади, вызванная изменением местоположения домов, определяется величиной межгрупповой дисперсии :

Вариация стоимости 1 кв.м. общей площади, обусловленная изменением остальных неучитываемых нами показателей, измеряется величиной внутригрупповой дисперсии

Найденные дисперссии в сумме дают величину общей дисперсии

Эмпирический коэффициент детерминации :

показывает, что дисперсия стоимости 1.кв.м. общей площади на рынке жилья на 81,8% объясняется различиями в расположении новостроек по отношению к деловому центру и на 18,2% — другими факторами.

Эмприческое корреляционное отношение свидетельствует о существенном влиянии на стоимость жилья месторасположения домов.

Правило сложения дисперсий для доли признака записывается так:

а три вида дисперсий доли для сгруппированных данных определяется по следующим формулам:

общая дисперсия:

Формулы межгрупповой и внутригрупповой дисперсий:

Характеристики формы распределения

Для получения представления о форме распределения используются показатели среднего уровня ( , ), показатели вариации, ассиметрии и эксцесса.

В симметричных распределениях средняя арифметическая, мода и медиана совпадают (. Если это равенство нарушается — распределение ассиметрично.

Простейшим показателем ассиметрии является разность , которая в случае правосторонней ассиметрии положительна, а при левосторонней — отрицательна.

Ассиметричное распределение

Для сравнения ассиметрии нескольких рядов вычисляется относительный показатель

В качестве обобщающих характеристик вариации используются центральные моменты распределения -го порядка , соответствующие степени, в которую возводятся отклонения отдельных значений признака от средней арифметической:

Для несгруппированных данных:

Для сгруппированных данных:

Момент первого порядка согласно свойству средней арифметической равен нулю .

Момент второго порядка является дисперсией .

Моменты третьего и четвертого порядков используются для построения показателей, оценивающих особенности формы эмпирических распределений.

С помощью момента третьего порядка измеряют степень скошенности или ассиметричности распределения.

— коэффициент ассиметрии

В симметричных распределениях , как все центральные моменты нечетного порядка.Неравенство нулю центрального момента третьего порядка указывает на асимметричность распределения. При этом, если , то асимметрия правосторонняя и относительно максимальной ординаты вытянута правая ветвь; если , то асимметрия левосторонняя (на графике это соответствует вытянутости левой ветви).

Для характеристики островершинности или плосковершинности распределения вычисляют отношение момента четвертого порядка () к среднеквадратическому отклонению в четвертой степени (). Для нормального распределения , поэтому эксцесс находят по формуле:

Для нормального распределения обращается в нуль. Для островершинных распределений , для плосковершинных .

Эксцесс распределения

Кроме показателей, рассмотренных выше, обобщающей характеристикой вариации в однородной совокупности служит определенный порядок в изменении частот распределения в соответствии с изменениями величины изучаемого признака, называемый закономерностью распределения .

Характер (тип) закономерности распределения может быть выявлен путем построения вариационного ряда на основании большого объема наблюдений, а также такого выбора числа групп и величины интегралов, при котором наиболее отчетливо могла бы проявиться закономерность.

Анализ вариационных рядов предполагает выявление характера распределения (как результата действия механизма вариации), установление функции распределения, проверку соответствия эмпирического распределения теоретическому.

Эмпирическое распределение , полученное на основе данных наблюдения, графически изображается эмпирической кривой распределения с помощью полигона.

На практике встречаются различные типы распределений, среди которых можно выделить симметричные и асимметричные, одновершинные и многовершинные.

Установить тип распределения, означает выразить механизм формирования закономерности в аналитической форме. Многим явлениям и их признакам свойственны характерные формы распределения, которые аппроксимируются соответствующими кривыми. При всем многообразии форм распределения наибольшее распространение в качестве теоретических получили нормальное распределение, распределение Пауссона, биноминальное распределение и др.

Особое место в изучении вариации принадлежит нормальному закону, благодаря его математическим свойствам. Для нормального закона выполняется правило трех сигм, по которому вариация индивидуальных значений признака находится в пределах от величины средней. При этом в границах находится около 70% всех единиц, а в пределах — 95%.

Оценка соответствия эмпирического и теоретического распределений производится с помощью критериев согласия, среди которых широко известны критерии Пирсона, Романовского, Ястремского, Колмогорова.