Статистическая модель. Понятие экономико-статистической модели. Основные инструменты анализа экономических данных

Статическое моделирование - представление или описание некоторого феномена или системы взаимосвязей между явлениями посредством набора переменных (показателей, признаков) и статистических взаимосвязей между ними. Цель статического моделирования (как и любого другого моделирования) - представить наиболее существенные черты изучаемого феномена в наглядном и доступном для изучения виде. Все статистические модели предназначены, в конечном счете, для измерения силы и направления связей между двумя или более переменными. Наиболее сложные модели позволяют также судить о структуре связей между несколькими переменными. Большинство статистических моделей можно условно разделить на корреляционные, структурные и причинные. Корреляционные модели используются для измерения парных "ненаправленных" связей между переменными, т.е. таких связей, в которых причинная компонента отсутствует либо игнорируется. Примерами таких моделей являются коэффициент парной линейной корреляции Пирсона, ранговые коэффициенты парной и множественной корреляции, большинство мер связи, разработанных для таблиц сопряженности (за исключением теоретико-информационных коэффициентов и логарифмически-линейного анализа).

Структурные модели в статическом моделировании предназначены для исследования структуры некоторого множества переменных либо объектов. Исходными данными для изучения структуры связей между несколькими переменными является матрица корреляций между ними. Анализ корреляционной матрицы может осуществляться вручную либо с помощью методов многомерного статистического анализа - факторного, кластерного, метода многомерного шкалирования. Во многих случаях исследование структуры связей между переменными является предварительным этапом при решении более сложной задачи - снижения размерности пространства признаков.

Для исследования структуры совокупности объектов применяются методы кластерного анализа и многомерного шкалирования. В качестве исходных данных используется матрица расстояний между ними. Расстояние между объектами тем меньше, чем больше объекты "похожи" друг на друга в смысле значений, измеренных на них переменных; если значения всех переменных для двух объектов совпадают, расстояние между ними равно нулю. В зависимости от целей исследования, структурные модели могут быть представлены в виде матриц (корреляций, расстояний), факторной структуры либо визуально. Результаты кластерного анализа чаще всего представляются в виде дендрограммы; результаты факторного анализа и многомерного шкалирования - в виде диаграммы рассеяния. Структура матрицы корреляций может быть также представлена в виде графа, отражающего наиболее существенные связи между переменными. Причинные модели предназначены для исследования причинных связей между двумя или несколькими переменными. Переменные, измеряющие явления-причины, называются в статистике независимыми переменными или предикторами; переменные, измеряющие явления-следствия, называются зависимыми. Большинство причинных статистических причинных моделей предполагают наличие одной зависимой переменной и одного или нескольких предикторов. Исключение составляют линейно-структурные модели, в которых может одновременно использоваться несколько зависимых переменных, а некоторые переменные могут в одно и то же время выступать в качестве зависимых по отношению к одним показателям и в качестве предикторов по отношению к другим.

Различают две области применения метода статистического моделирования: статическое имитационное моделирование планирование

  • - для изучения стохастических систем;
  • - для решения детерминированных задач.

Основной идеей, которая используется для решения детерминированных задач методом статистического моделирования, является замена детерминированной задачи эквивалентной схемой некоторой стохастической системы, выходные характеристики последней совпадают с результатом решения детерминированной задачи. При такой замене погрешность уменьшается с увеличением числа испытаний (реализации моделирующего алгоритма) N.

В результате статистического моделирования системы S получается серия частных значений искомых величин или функций, статистическая обработка которых позволяет получить сведения о поведении реального объекта или процесса в произвольные моменты времени. Если количество реализации N достаточно велико, то полученные результаты моделирования системы приобретают статистическую устойчивость и с достаточной точностью могут быть приняты в качестве оценок искомых характеристик процесса функционирования системы S.

Статистическое моделирование — базовый метод моделирования, заключающийся в том, что модель испытывается множеством случайных сигналов с заданной плотностью вероятности. Целью является статистическое определение выходных результатов. В основе статистического моделирования лежит метод Монте-Карло . Напомним, что имитацию используют тогда, когда другие методы применить невозможно.

Метод Монте-Карло

Рассмотрим метод Монте-Карло на примере вычисления интеграла, значение которого аналитическим способом найти не удается.

Задача 1 . Найти значение интеграла:

На рис. 21.1 представлен график функции f (x ) . Вычислить значение интеграла этой функции — значит, найти площадь под этим графиком.

Рис. 21.1. Определение значения интеграла
методом Монте-Карло

Ограничиваем кривую сверху, справа и слева. Случайным образом распределяем точки в прямоугольнике поиска. Обозначим через N 1 количество точек, принятых для испытаний (то есть попавших в прямоугольник, эти точки изображены на рис. 21.1 красным и синим цветом), и через N 2 — количество точек под кривой, то есть попавших в закрашенную площадь под функцией (эти точки изображены на рис. 21.1 красным цветом). Тогда естественно предположить, что количество точек, попавших под кривую по отношению к общему числу точек пропорционально площади под кривой (величине интеграла) по отношению к площади испытуемого прямоугольника. Математически это можно выразить так:

Рассуждения эти, конечно, статистические и тем более верны, чем большее число испытуемых точек мы возьмем.

Фрагмент алгоритма метода Монте-Карло в виде блок-схемы выглядит так, как показано на рис. 21.2 .

Рис. 21.2. Фрагмент алгоритма реализации
метода Монте-Карло

Значения r 1 и r 2 на рис. 21.2 являются равномерно распределенными случайными числами из интервалов (x 1 ; x 2) и (c 1 ; c 2) соответственно.

Метод Монте-Карло чрезвычайно эффективен, прост, но необходим «хороший» генератор случайных чисел. Вторая проблема применения метода заключается в определении объема выборки, то есть количества точек, необходимых для обеспечения решения с заданной точностью. Эксперименты показывают: чтобы увеличить точность в 10 раз, объем выборки нужно увеличить в 100 раз; то есть точность примерно пропорциональна корню квадратному из объема выборки:

Схема использования метода Монте-Карло при исследовании
систем со случайными параметрами

Построив модель системы со случайными параметрами, на ее вход подают входные сигналы от генератора случайных чисел (ГСЧ), как показано на рис. 21.3 . ГСЧ устроен так, что он выдает равномерно распределенные случайные числа r рр из интервала . Так как одни события могут быть более вероятными, другие — менее вероятными, то равномерно распределенные случайные числа от генератора подают на преобразователь закона случайных чисел (ПЗСЧ), который преобразует их в заданный пользователем закон распределения вероятности, например, в нормальный или экспоненциальный закон. Эти преобразованные случайные числа x подают на вход модели. Модель отрабатывает входной сигнал x по некоторому закону y = φ (x ) и получает выходной сигнал y , который также является случайным.

Рис. 21.3. Общая схема метода статистического моделирования

В блоке накопления статистики (БНСтат) установлены фильтры и счетчики. Фильтр (некоторое логическое условие) определяет по значению y , реализовалось ли в конкретном опыте некоторое событие (выполнилось условие, f = 1 ) или нет (условие не выполнилось, f = 0 ). Если событие реализовалось, то счетчик события увеличивается на единицу. Если событие не реализовалось, то значение счетчика не меняется. Если требуется следить за несколькими разными типами событий, то для статистического моделирования понадобится несколько фильтров и счетчиков N i . Всегда ведется счетчик количества экспериментов — N .

Далее отношение N i к N , рассчитываемое в блоке вычисления статистических характеристик (БВСХ) по методу Монте-Карло, дает оценку вероятности p i появления события i , то есть указывает на частоту его выпадения в серии из N опытов. Это позволяет сделать выводы о статистических свойствах моделируемого объекта.

Например, событие A совершилось в результате проведенных 200 экспериментов 50 раз. Это означает, согласно методу Монте-Карло, что вероятность совершения события равна: p A = 50/200 = 0.25 . Вероятность того, что событие не совершится, равна, соответственно, 1 – 0.25 = 0.75 .

Обратите внимание: когда говорят о вероятности, полученной экспериментально, то ее называют частостью ; слово вероятность употребляют, когда хотят подчеркнуть, что речь идет о теоретическом понятии.

При большом количестве опытов N частота появления события, полученная экспериментальным путем, стремится к значению теоретической вероятности появления события.

В блоке оценки достоверности (БОД) анализируют степень достоверности статистических экспериментальных данных, снятых с модели (принимая во внимание точность результата ε , заданную пользователем) и определяют необходимое для этого количество статистических испытаний. Если колебания значений частоты появления событий относительно теоретической вероятности меньше заданной точности, то экспериментальную частоту принимают в качестве ответа, иначе генерацию случайных входных воздействий продолжают, и процесс моделирования повторяется. При малом числе испытаний результат может оказаться недостоверным. Но чем более испытаний, тем точнее ответ, согласно центральной предельной теореме.

Заметим, что оценивание ведут по худшей из частот. Это обеспечивает достоверный результат сразу по всем снимаемым характеристикам модели.

Пример 1 . Решим простую задачу. Какова вероятность выпадения монеты орлом кверху при падении ее с высоты случайным образом?

Начнем подбрасывать монетку и фиксировать результаты каждого броска (см. табл. 21.1).

Таблица 21.1.
Результаты испытаний бросания монеты
Количество опытов N 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Значение счетчика
выпадения орла N о
0 0 1 1 2 3 4
Значение счетчика
выпадения решки N р
1 2 2 3 3 3 3
Частость выпадения
орла P о =N о /N
0 0 0.33 0.25 0.4 0.5 0.57
Частость выпадения
решки P р =N р /N
1 1 0.66 0.75 0.6 0.5 0.43

Будем подсчитывать частость выпадения орла как отношение количества случаев выпадения орла к общему числу наблюдений. Посмотрите в табл. 21.1. случаи для N = 1 , N = 2 , N = 3 — сначала значения частости нельзя назвать достоверными. Попробуем построить график зависимости P о от N — и посмотрим, как меняется частость выпадения орла в зависимости от количества проведенных опытов. Разумеется, при различных экспериментах будут получаться разные таблицы и, следовательно, разные графики. На рис. 21.4 показан один из вариантов.

Рис. 21.4. Экспериментальная зависимость частости появления случайного события
от количества наблюдений и ее стремление к теоретической вероятности

Сделаем некоторые выводы.

  1. Видно, что при малых значениях N , например, N = 1 , N = 2 , N = 3 ответу вообще доверять нельзя. Например, P о = 0 при N = 1 , то есть вероятность выпадения орла при одном броске равна нулю! Хотя всем хорошо известно, что это не так. То есть пока мы получили очень грубый ответ. Однако, посмотрите на график: в процессе накопления информации ответ медленно, но верно приближается к правильному (он выделен пунктирной линией). К счастью, в данном конкретном случае правильный ответ нам известен: в идеале, вероятность выпадения орла равна 0.5 (в других, более сложных задачах, ответ нам, конечно, будет неизвестен). Допустим, что ответ нам надо знать с точностью ε = 0.1 . Проведем две параллельные линии, отстоящие от правильного ответа 0.5 на расстояние 0.1 (см. рис. 21.4 ). Ширина образовавшегося коридора будет равна 0.2. Как только кривая P о (N ) войдет в этот коридор так, что уже никогда его не покинет, можно остановиться и посмотреть, для какого значения N это произошло. Это и есть экспериментально вычисленное критическое значение необходимого количества опытов N кр э для определения ответа с точностью ε = 0.1 ; ε -окрестность в наших рассуждениях играет роль своеобразной трубки точности. Заметьте, что ответы P о (91) , P о (92) и так далее уже не меняют сильно своих значений (см. рис. 21.4 ); по крайней мере, у них не изменяется первая цифра после запятой, которой мы обязаны доверять по условиям задачи.
  2. Причиной такого поведения кривой является действие центральной предельной теоремы (см. лекцию 25 и лекцию 34). Пока здесь мы сформулируем ее в самом простом варианте «Сумма случайных величин есть величина неслучайная». Мы использовали среднюю величину P о , которая несет в себе информацию о сумме опытов, и поэтому постепенно эта величина становится все более достоверной.
  3. Если проделать еще раз этот опыт сначала, то, конечно, его результатом будет другой вид случайной кривой. И ответ будет другим, хотя примерно таким же. Проведем целую серию таких экспериментов (см. рис. 21.5 ). Такая серия называется ансамблем реализаций . Какому же ответу в итоге следует верить? Ведь они, хоть и являются близкими, все же разнятся. На практике поступают по-разному. Первый вариант — вычислить среднее значение ответов за несколько реализаций (см. табл. 21.2).
Рис. 21.5. Экспериментально снятый ансамбль случайных зависимостей
частости появления случайного события от количества наблюдений

Мы поставили несколько экспериментов и определяли каждый раз, сколько необходимо было сделать опытов, то есть N кр э . Было проделано 10 экспериментов, результаты которых были сведены в табл. 21.2. По результатам 10-ти экспериментов было вычислено среднее значение N кр э .

Таблица 21.2.
Экспериментальные данные
необходимого количества бросков монеты
для достижения точности ε = 0.1
при вычислении вероятности выпадения орла
Опыт N кр э
1 288
2 95
3 50
4 29
5 113
6 210
7 30
8 42
9 39
10 48
Среднее N кр. э 94

Таким образом, проведя 10 реализаций разной длины, мы определили, что достаточно в среднем было сделать 1 реализацию длиной в 94 броска монеты.

Еще один важный факт. Внимательно рассмотрите график на рис. 21.5 . На нем нарисовано 100 реализаций — 100 красных линий. Отметьте на нем абсциссу N = 94 вертикальной чертой. Есть какой-то процент красных линий, которые не успели пересечь ε -окрестность, то есть (P эксп – ε P теор ≤ P эксп + ε ), и войти в коридор точности до момента N = 94 . Обратите внимание, таких линий 5. Это значит, что 95 из 100, то есть 95%, линий достоверно вошли в обозначенный интервал.

Таким образом, проведя 100 реализаций, мы добились примерно 95%-ного доверия к полученной экспериментально величине вероятности выпадения орла, определив ее с точностью 0.1. Для сравнения полученного результата вычислим теоретическое значение N кр т теоретически. Однако для этого придется ввести понятие доверительной вероятности Q F , которая показывает, насколько мы готовы верить ответу. Например, при Q F = 0.95 мы готовы верить ответу в 95% случаев из 100. Формула теоретического расчета числа экспериментов, которая будет подробно изучаться в лекции 34 , имеет вид: N кр т = k (Q F ) · p · (1 – p )/ε 2 , где k (Q F ) — коэффициент Лапласа, p — вероятность выпадения орла, ε — точность (доверительный интервал). В табл. 21.3 показаны значения теоретической величины количества необходимых опытов при разных Q F (для точности ε = 0.1 и вероятности p = 0.5 ).

Как видите, полученная нами оценка длины реализации, равная 94 опытам очень близка к теоретической, равной 96. Некоторое несовпадение объясняется тем, что, видимо, 10 реализаций недостаточно для точного вычисления N кр э . Если вы решите, что вам нужен результат, которому следует доверять больше, то измените значение доверительной вероятности. Например, теория говорит нам, что если опытов будет 167, то всего 1-2 линии из ансамбля не войдут в предложенную трубку точности. Но имейте в виду, количество экспериментов с ростом точности и достоверности растет очень быстро.

Второй вариант, используемый на практике — провести одну реализацию и увеличить полученное для нее N кр э в 2 раза . Это считают хорошей гарантией точности ответа (см. рис. 21.6 ).

Рис. 21.6. Иллюстрация экспериментального определения N кр э по правилу «умножь на два»

Если присмотреться к ансамблю случайных реализаций , то можно обнаружить, что сходимость частости к значению теоретической вероятности происходит по кривой, соответствующей обратной квадратичной зависимости от числа экспериментов (см. рис. 21.7 ).

Рис. 21.7. Иллюстрация скорости схождения экспериментально получаемой частости
к теоретической вероятности

Это действительно так получается и теоретически. Если изменять задаваемую точность ε и исследовать количество экспериментов, требуемых для обеспечения каждой из них, то получится табл. 21.4.

Построим по табл. 21.4 график зависимости N кр т (ε ) (см. рис. 21.8 ).

Рис. 21.8. Зависимость числа экспериментов, требуемых для достижения
заданной точности ε при фиксированном Q F = 0.95

Итак, рассмотренные графики подтверждают приведенную выше оценку:

Заметим, что оценок точности может быть несколько. Некоторые из них будут еще обсуждаться в лекции 34 .

Пример 2. Нахождение площади фигуры методом Монте-Карло . Определите методом Монте-Карло площадь пятиугольника с координатами углов (0, 0), (0, 10), (5, 20), (10, 10), (7, 0).

Нарисуем в двухмерных координатах заданный пятиугольник, вписав его в прямоугольник, чья площадь, как нетрудно догадаться, составляет (10 – 0) · (20 – 0) = 200 (см. рис. 21.9 ).

Рис. 21.9. Иллюстрация к решению задачи
о площади фигуры методом Монте-Карло

Используем таблицу случайных чисел для генерации пар чисел R , G , равномерно распределенных в интервале от 0 до 1. Число R X (0 ≤ X ≤ 10) , следовательно, X = 10 · R . Число G будет имитировать координату Y (0 ≤ Y ≤ 20) , следовательно, Y = 20 · G . Сгенерируем по 10 чисел R и G и отобразим 10 точек (X ; Y ) на рис. 21.9 и в табл. 21.5.

Таблица 21.5.
Решение задачи методом Монте-Карло
Номер точки R G X Y Точка (X; Y) попала в прямоугольник? Точка (X; Y) попала в пятиугольник?
1 0.8109 0.3557 8.109 7.114 Да Да
2 0.0333 0.5370 0.333 10.740 Да Нет
3 0.1958 0.2748 1.958 5.496 Да Да
4 0.6982 0.1652 6.982 3.304 Да Да
5 0.9499 0.1090 9.499 2.180 Да Нет
6 0.7644 0.2194 7.644 4.388 Да Да
7 0.8395 0.4510 8.395 9.020 Да Да
8 0.0415 0.6855 0.415 13.710 Да Нет
9 0.5997 0.1140 5.997 2.280 Да Да
10 0.9595 0.9595 9.595 19.190 Да Нет
Всего: 10 6

Статистическая гипотеза заключается в том, что количество точек, попавших в контур фигуры, пропорционально площади фигуры: 6:10 = S :200 . То есть, по формуле метода Монте-Карло, получаем, что площадь S пятиугольника равна: 200 · 6/10 = 120 .

Проследим, как менялась величина S от опыта к опыту (см. табл. 21.6).

Таблица 21.6.
Оценка точности ответа
Количество испытаний N Оценка вероятности попадания случайной точки в испытуемую область Оценка площади S методом Монте-Карло
1 1/1 = 1.00 200
2 1/2 = 0.50 100
3 2/3 = 0.67 133
4 3/4 = 0.75 150
5 3/5 = 0.60 120
6 4/6 = 0.67 133
7 5/7 = 0.71 143
8 5/8 = 0.63 125
9 6/9 = 0.67 133
10 6/10 = 0.60 120

Поскольку в ответе все еще меняется значение второго разряда, то возможная неточность составляет пока больше 10%. Точность расчета может быть увеличена с ростом числа испытаний (см. рис. 21.10 ).

Рис. 21.10. Иллюстрация процесса сходимости определяемого
экспериментально ответа к теоретическому результату

Наиболее широкое распространение при построении прогнозов развития в практике коммерческой деятельности получили экономико-статистические модели , которые описывают зависимость исследуемого экономического показателя от одного или нескольких факторов, оказывающих на него существенное влияние.

Закономерности в экономике могут выражаться в виде математических моделей связей и зависимостей экономичес­ких показателей. Такие зависимости и модели получают только путем обработки реальных статистических данных с учетом внутренних механизмов связи и случайных факто­ров. Наличие и качество информационного обеспечения, ре­альные возможности сбора и обработки первичной информа­ции во многом определяют как сферу практического приме­нения статистического моделирования в экономике, так и выбор различных видов прикладных моделей.

Строить экономико-статистические модели и оценивать их параметры, проверять гипотезы о свойствах экономичес­ких показателей и формах их связей помогает математичес­кая статистика - теория обработки и анализа данных. Ее применение в экономике служит основой для экономическо­го анализа и прогнозирования, что в конечном счете создает возможности для принятия обоснованных экономических решений.

Экономические данные обычно делят на два вида: перекрестные данные и временные ряды. Особенности их формирования впоследствии определяют выбор тех или иных методов обработки и анализа данных, построения моделей, отражающих связи и зависимости по­казателей.

Перекрестные данные - это данные по какому-либо эко­номическому показателю, полученные для разных однотип­ных объектов (фирм, регионов, отдельных видов товаров и др.). При этом либо все данные относятся к одному и тому же моменту времени, либо их временная принадлежность несу­щественна. Такие данные особенно ценны при изучении кон­курентных преимуществ экономического объекта, сравни­тельной оценке его эффективности с целью определения ре­ального положения на рынке, а также для выявления об­щей, характерной для всей совокупности отобранных объек­тов, зависимости какого-либо экономического показателя от действия заданных факторов в конкретный момент времени. Примером перекрестных данных может быть набор сведений (объем реализации, количество работников, уровень доходов и т.д.) о разных торговых предприятиях в один и тот же мо­мент времени.

Временные ряды - это данные, характеризующие один и тот же объект, но в различные моменты времени, т.е. в ка­честве признака упорядочения данных в таких рядах берет­ся время. Примером временных рядов могут быть ежеквар­тальные данные об объеме товарооборота, средней заработ­ной плате, данные об инфляции, уровне доходов, затрат за последние несколько лет. Временной ряд, состоящий из n -уровней у 1 , y 2 , …, y n может быть записан в компактной форме: y t , t = 1, 2, ..., n , где t - порядковый номер наблюде­ния.


Основными требованиями, предъявляемыми к исходным данным, являются требования сопоставимости, достаточной представительности для выяв­ления закономерности, однородности и устойчивости. Невы­полнение одного из этих требований делает бессмысленным применение математического аппарата.

Сопоставимость данных достигается в результате одина­кового подхода к наблюдениям на разных этапах формирова­ния ряда динамики. Данные каждого ряда должны выра­жаться в одних и тех же единицах, иметь одинаковый шаг наблюдений, рассчитываться для одного и того же интервала времени, по одной и той же методике, охватывать одни и те же элементы, принадлежащие одной территории, относя­щейся к неизменной совокупности.

Представительность данных характеризуется их полно­той. Достаточное число наблюдений определяется в зависи­мости от цели проводимого исследования. Если целью явля­ется описательный статистический анализ, то в качестве изучаемого интервала времени можно выбрать любой, по своему усмотрению. Если же цель исследования - построе­ние модели динамики, то число уровней исходного динами­ческого ряда должно не меньше, чем в 3 раза превышать пе­риод упреждения прогноза и быть не менее 7. В случае ис­пользования квартальных или помесячных данных для ис­следования сезонности и прогнозирования сезонных процес­сов исходный временной ряд должен содержать квартальные либо помесячные данные не менее, чем за 4 года, даже если требуется прогноз на 1-2 квартала (месяца).

Однородность данных предполагает отсутствие нетипич­ных, аномальных наблюдений, а также изломов сложив­шихся тенденций. Аномальность приводит к смещению оце­нок и, следовательно, к искажению результатов анализа. Изломы тенденций свидетельствуют об измене­нии закономерностей протекания процесса.

Устойчивость данных отражает преобладание законо­мерности над случайностью в изменении уровней ряда. Свойство устойчивости легче всего проследить графически. На графиках устойчивых временных рядов даже визуально прослеживается закономерность, а на графиках неустойчи­вых рядов изменения последовательных уровней представ­ляются хаотичными, и поэтому поиск закономерностей в формировании значений уровней таких рядов лишен смысла.

2 Основные инструменты анализа экономических данных

MS Excel предлагает широкий диапазон средств для изу­чения экономической информации. Множество встроенных статистических функций (СРЗНАЧ, МЕДИАНА, МОДА и др.) используют для проведения несложного анализа дан­ных. Если возможностей встроенных функций недостаточ­но, то обращаются к пакету анализа, который содержит большой набор соответствующих инструментов и значитель­но расширяет аналитические возможности Excel. Его можно использовать для ранжирования данных, извлечения слу­чайных или периодических выборок из набора данных, про­ведения корреляционного анализа, получения основных ста­тистических характеристик для выборки и т.п.

В частности, пакет анализа MS Excel позволяет произвести Описательную статистику , содержащую информацию о центральной тенденции и из­менчивости входных данных.

Инструмент Описательная статистика , имеющийся в па­кете «Анализ данных» MS Excel, предназначен для оценки выборки экономических данных, когда есть необхо­димость проследить характер распределения и оценить меру разброса фактических величин вокруг среднего значения. Описательная статистика предлагает таблицу основных ста­тистических характеристик для одного или нескольких мно­жеств входных значений. Выходной диапазон этого инстру­мента содержит следующие статистические характеристики для каждой переменной из входного диапазона: среднее, стандартная ошибка, медиана, мода, стандартное отклоне­ние, дисперсия, коэффициент эксцесса, коэффициент асим­метрии, размах (интервал), максимальное значение, мини­мальное значение, сумма, число значений, k -e наибольшее и наименьшее значения (для любого заданного значения k ) и уровень значимости (надежности) для среднего.

Среднее значение (у ср ) является основной характеристи­кой центра распределения. Для него характерно то, что все отклонения от него (положительные и отрицательные) в сум­ме равняются нулю. Excel вычисляет среднее значение по средней арифметической, суммируя ряд данных с последую­щим делением результата на количество значений ряда.

Стандартная ошибка оценивает меру ошибки рассчитан­ного на основе сформированной выборки среднего значения и снижается при увеличении массива отобранных данных.

Стандартное отклонение и дисперсия выборки являют­ся статистическими характеристиками изменчивости (раз­броса) множества измерений. Стандартное отклонение - это квадратный корень из дисперсии. Как правило, приблизи­тельно 68 % значений случайной величины, имеющей нор­мальное распределение, находятся в пределах одного стан­дартного отклонения от среднего и около 95 % - в пределах двух. Большое стандартное отклонение указывает на то, что значения сильно разбросаны относительно среднего, а ма­лое - на то, что значения сосредоточены около среднего.

Размах (интервал) есть разность между максимальным и минимальным значениями ряда данных, т.е. длина интерва­ла, которому принадлежат все данные выборки. Чем больше эта длина, тем более рассеяна кривая распределения, тем больше колеблемость изучаемого признака.

Минимум характеризует наименьшее значение во вход­ном диапазоне данных.

Максимум отражает наибольшее значение во входном диапазоне данных.

Мода (Мо ) определяет значение, которое чаще других встречается в массиве данных.

Медиана (Me ) - это значение, разделяющее заданное множество данных (выборку) на две равные части, т.е. поло­вина чисел оказывается больше и половина - меньше меди­аны. Если количество данных четное, то значение медианы равно среднему из двух чисел, находящихся в середине мно­жества.

Соотношение среднего значения, моды и медианы указы­вает на характер распределения изучаемого признака в сово­купности, позволяет оценить его асимметрию. В симметрич­ных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средним значени­ем, тем более асимметричен ряд.

Оценку отклонения фактического распределения каждо­го набора входных данных (выборки) от нормального распре­деления проводят также с помощью коэффициентов асим­метрии и эксцесса . Для нормального распределения асим­метрия и эксцесс равны нулю. При отклонении от нормаль­ного распределения асимметрия положительна, если «длин­ная» и более пологая часть кривой распределения располо­жена справа от точки на оси абсцисс, соответствующей моде. Для правосторонней асимметрии характерно неравенство Mo. Если «длинная» и более пологая часть кривой расположена слева от моды, то асимметрия отрицательна. Для левосторонней асимметрии показатели центра имеют со­отношение Mo>Me>у ср . Принято считать, что асимметрия выше 0,5 (независимо от знака) считается значительной; если она меньше 0,25 - незначительной. Эксцесс характеризу­ет «крутизну» подъема кривой распределения по сравнению с нормальной кривой: если эксцесс положителен, то кривая имеет более высокую и острую вершину; в случае отрица­тельного эксцесса сравниваемая кривая имеет более низкую и пологую вершину. Наличие значительного отрицательного эксцесса может указывать на качественную неоднородность исследуемой совокупности.

Увеличение количества наблюдений и соответственно размера совокупности данных значительно повышает прак­тическую ценность проводимого на основе Описательной статистики исследования. Поэтому широкое применение этот инструмент анализа находит при проведении экономи­ческих исследований территориального и отраслевого мас­штаба, когда требуются расчет и оценка статистических ха­рактеристик множества различных экономических показа­телей на основе больших массивов данных по каждому их них.

3 Применение корреляционного анализа для решения экономических задач

Любая экономическая политика заключается в регулиро­вании определенных экономических параметров и поэтому должна основываться на знании того, как эти параметры влияют на другие составляющие экономической среды.

Связь одного из показателей с другими описывается с по­мощью функций одной у = f(x) или нескольких у = f(x 1 , х 2 , …, х n) переменных.

На исследуемый показатель, кроме явно учитываемых объясняющих признаков, влияет еще множество других факторов, существующих в действи­тельности, но не учитываемых явно в модели. Большинство этих факторов - случайные, незначимые или не поддающи­еся количественному выражению, но они приводят к вариации реальных данных, их несовпадению с величинами, рас­считанными по формуле связи переменной с объясняющими признаками. Это обусловливает стохастическую природу как экономических показателей, так и взаимосвязей между ними. Стохастические взаимосвязи экономических перемен­ных можно описать с помощью так называемых корреляци­онных характеристик.

Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Аппарат корреляционного анализа объединяет специальные статистические методы и, соот­ветственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о присутствии или отсутствии связи между перемен­ными.

Основной целью корреляционного анализа является уста­новление характера влияния факторной переменной на ис­следуемый показатель и определение тесноты их связи с тем, чтобы с достаточной степенью надежности строить модель развития исследуемого показателя.

Учитывая то обстоятель­ство, что на любой результирующий экономический показа­тель оказывает воздействие множество факторов, важно гра­мотно и обоснованно подойти к выбору наиболее значимых из них. От правильности сделанного выбора во многом будет зависеть и достоверность полученных на основе построенной модели прогнозов.

Предварительный отбор факторов для корреляционного анализа производится логически на основе содержательных экономических оценок. При этом все факторы, воздействую­щие на исследуемый показатель, подразделяются на два ви­да - формализуемые и неформализуемые. Формализуемые факторы допускают аналитический расчет с использовани­ем экономико-математических методов по определенным ал­горитмам с применением вычислительной техники или без нее. Именно такие факторы могут быть отобраны для корре­ляционного анализа. Неформализуемые факторы не подда­ются количественному измерению и поэтому включить их в экономико-математическую модель не представляется воз­можным. К ним относятся политические, моральные, эти­ческие факторы, социально-психологические мотивы, при­вычки, традиции, опыт и др.

Поскольку корреляционная связь с достаточной вырази­тельностью и полнотой проявляется только в массе наблюде­ний, объем выборки данных должен быть достаточно боль­шим. В условиях нестабильности экономики построение длинных динамических рядов на основе годовых данных представляется нецелесообразным вследствие несопостави­мости условий функционирования экономического объекта (в том числе и торгового предприятия). Поэтому число наб­людений можно увеличить за счет данных о динамике иссле­дуемых показателей по кварталам и месяцам.

С технической точки зрения проведение корреляционно­го анализа сводится к расчету коэффициентов парной корре­ляции, значения которых помогут судить о характере и тес­ноте связи между исследуемым показателем и каждой отоб­ранной факторной переменной.

Коэффициент парной корреляции используется в качес­тве меры, характеризующей степень линейной связи двух переменных. Значение коэффициента корреляции лежит в интервале от -1 (в случае строгой линейной отрицательной связи) до +1 (в случае строгой линейной положительной связи). Соответ­ственно, положительное значение коэффициента корреля­ции свидетельствует о прямой связи между исследуемым и факторным показателем, а отрицательное - об обратной. Чем ближе значение коэффициента корреляции к 1, тем тес­нее связь. Качественно оценить тесноту связи позволяет спе­циальная шкала значений коэффициентов корреляции, раз­работанная профессором Колумбийского университета США Чеддоком (таблица 3.1).

Таблица 3.1 - Оценка тесноты связи двух переменных на основе коэффициента корреляции

Идея случайного выбора. Прежде чем приступить к описанию статистических гипотез, обсудим еще раз понятие случайного выбора.

Если опустить детали и некоторые (хотя и важные) исключения, можно сказать, что весь статистический анализ основан на идее случайного выбора. Мы принимаем тезис, что имеющиеся данные появились как результат случайного выбора из некоторой генеральной совокупности, нередко - воображаемой. Обычно мы полагаем, что этот случайный выбор произведен природой. Впрочем, во многих задачах эта генеральная совокупность вполне реальна, и выбор из нее произведен активным наблюдателем.

Для краткости будем говорить, что все данные, которые мы собираемся изучить как единое целое, представляют собой одно наблюдение. Природа этого собирательного наблюдения может быть самой разнообразной. Это может быть одно число, последовательность чисел, последовательность символов, числовая таблица и т.д. Обозначим на время это собирательное наблюдение через х. Раз мы считаем х результатом случайного выбора, мы должны указать и ту генеральную совокупность, из которой х был выбран. Это значит, что мы должны указать те значения, которые могли бы появиться вместо реального х. Обозначим эту совокупность через X. Множество Х называют также выборочным пространством, или пространством выборок.

Мы предполагаем далее, что указанный выбор произошел в соответствии с неким распределением вероятностей на множестве X, согласно которому каждый элемент из Х имеет определенные шансы быть выбранным. Если Х - конечное множество, то у каждого его элемента x ; есть положительная вероятность р (х ) быть выбранным. Случайный выбор по такому вероятностному закону легко понимать буквально. Для более сложно устроенных бесконечных множеств Х приходится определять вероятность не для отдельных его точек, а для подмножеств. Случайный выбор одной из бесконечного множества возможностей вообразить труднее, он похож на выбор точки х из отрезка или пространственной области X.

Соотношение между наблюдением х и выборочным пространством X, между элементами которого распределена вероятность, - в точности такое же, как между элементарными исходами и пространством элементарных исходов, с которым имеет дело теория вероятностей. Благодаря этому теория вероятностей становится основой математической статистики, и поэтому, в частности, мы можем применять вероятностные соображения к задаче проверки статистических гипотез.

Прагматическое правило. Ясно, что раз мы приняли вероятностную точку зрения на происхождение наших данных (т.е. считаем, что они получены путем случайного выбора), то все дальнейшие суждения, основанные на этих данных, будут иметь вероятностный характер. Всякое утверждение будет верным лишь с некоторой вероятностью, а с некоторой тоже положительной вероятностью оно может оказаться неверным. Будут ли полезными такие выводы, и можно ли вообще на таком пути получить достоверные результаты?



На оба эти вопроса следует ответить положительно. Во-первых, знание вероятностей событий полезно, так как у исследователя быстро вырабатывается вероятностная интуиция, позволяющая ему оперировать вероятностями, распределениями, математическими ожиданиями и т.п., извлекая из этого пользу. Во-вторых, и чисто вероятностные результаты могут быть вполне убедительными: вывод можно считать практически достоверным, если его вероятность близка к единице.

Можно высказать следующее прагматическое правило, которым руководствуются люди и которое соединяет теорию вероятностей с нашей деятельностью.

Мы считаем практически достоверным событие, вероятность которого близка к 1;

Мы считаем практически невозможным событие, вероятность которого близка к 0.

И мы не только так думаем, но и поступаем в соответствии с этим!

Изложенное прагматическое правило, в строгом смысле, конечно, неверно, поскольку оно не защищает полностью от ошибок. Но ошибки при его использовании будут редки. Правило полезно тем, что дает возможность практически применять вероятностные выводы.

Иногда то же правило высказывают чуть по-другому: в однократном испытании маловероятное событие не происходит (и наоборот - обязательно происходит событие, вероятность которого близка к 1). Слово «однократный» вставлено ради уточнения, ибо в достаточно длинной последовательности независимых повторений опыта упомянутое маловероятное (в одном опыте!) событие встретится почти обязательно. Но это уже совсем другая ситуация.

Остается еще не разъясненным, какую вероятность следует считать малой. На этот вопрос нельзя дать количественного ответа, пригодного во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто - при проверке статистических гипотез, например, о чем см. ниже - полагают малыми вероятности, начиная с 0.01 ¸ 0.05. Другое дело - надежность технических устройств, например, тормозов автомобиля. Здесь недопустимо большой будет вероятность отказа, скажем, 0.001, так как выход из строя тормозов один раз на тысячу торможений повлечет большое число аварий. Поэтому при расчетах надежности нередко требуют, чтобы вероятность безотказной работы была бы порядка 1-10 -6 . Мы не будем обсуждать здесь, насколько реалистичны подобные требования: может ли обеспечить такую точность в расчете вероятности неизбежно приближенная математическая модель и как затем сопоставить расчетные и реальные результаты.

Предупреждения. 1. Следует дать несколько советов, как надо строить статистические модели, притом зачастую в задачах, не имеющих явного статистического характера. Для этого надо присущие обсуждаемой проблеме черты выразить в терминах, относящихся к выборочному пространству и распределению вероятностей. К сожалению, в общих словах этот процесс описать невозможно. Более того, этот процесс является творческим, и его невозможно заучить как, скажем, таблицу умножения. Но ему можно научиться, изучая образцы и примеры и следуя их духу. Мы разберем несколько таких примеров. В дальнейшем мы также будем уделять особое внимание этой стадии статистических исследований.

2. При формализации реальных задач могут возникать весьма разнообразные статистические модели. Однако математической теорией подготовлены средства для исследования лишь ограниченного числа моделей. Для ряда типовых моделей теория разработана очень подробно, и там можно получить ответы на основные вопросы, интересующие исследователя. Некоторую часть таких стандартных моделей, с которыми на практике приходится иметь дело чаще всего, мы обсудим в данной книге. Другие можно найти в более специальных и подробных руководствах и справочниках.

3. Об ограниченности математических средств стоит помнить и при математической формализации эксперимента. Если возможно, надо свести дело к типовой статистической задаче. Эти соображения особенно важны при планировании эксперимента или исследования; при сборе информации, если речь идет о статистическом обследовании; при постановке опытов, если мы говорим об активном эксперименте.

Математическая статистика – раздел прикладной математики, непосредственно примыкающий и основанный на теории вероятностей. Как и любая математическая теория, математическая статистика развивается в рамках некоторой модели, описывающей определенный круг реальных явлений. Чтобы определить статистическую модель и объяснить специфику задач математической статистики, напомним некоторые положения из теории вероятностей.

Математическая модель случайных явлений, изучаемых в теории вероятностей, основывается на понятии вероятностного пространства . При этом в каждой конкретной ситуации вероятность считается полностью известной числовой функцией на -алгебре , то есть для любого полностью определено число . Основной задачей теории вероятностей является разработка методов нахождения вероятностей различных сложных событий по известным вероятностям более простых (например, по известным законам распределения случайных величин определяются их числовые характеристики и законы распределения функций от случайных величин).

Однако на практике при изучении конкретного случайного эксперимента вероятность , как правило, неизвестна или известна частично. Можно только предположить, что истинная вероятность является элементом некоторого класса вероятностей (в худшем случае - класс всевозможных вероятностей, которые можно задать на ). Класс называют совокупностью допустимых для описания данного эксперимента вероятностей , а набор - статистической моделью эксперимента. В общем случае задачей математической статистики является уточнение вероятностной модели изучаемого случайного явления (то есть отыскание истинной или близкой к ней вероятности ), используя информацию, доставляемую наблюдаемыми исходами эксперимента, которые называют статистическими данными.

В классической математической статистике, изучением которой мы будем заниматься далее, имеют дело со случайными экспериментами, состоящими в проведении n повторных независимых наблюдений над некоторой случайной величиной , имеющей неизвестное распределение вероятностей, т.е. неизвестную функцию распределения . В этом случае множество всех возможных значений наблюдаемой случайной величины называют генеральной совокупностью , имеющей функцию распределения или распределенной согласно . Числа , являющиеся результатом независимых наблюдений над случайной величиной , называют выборкой из генеральной совокупности или выборочными (статистическими) данными. Число наблюдений называется объемом выборки.

Основная задача математической статистики состоит в том, как по выборке из генеральной совокупности, извлекая из нее максимум информации, сделать обоснованные выводы относительно неизвестных вероятностных характеристик наблюдаемой случайной величины .

Под статистической моделью, отвечающей повторным независимым наблюдениям над случайной величиной , естественно, вместо понимать набор , где - генеральная совокупность, - -алгебра борелевских подмножеств из , - класс допустимых функций распределения для данной случайной величины , которому принадлежит и истинная неизвестная функция распределения .

Часто тройку называют статистическим экспериментом.

Если функции распределения из заданы с точностью до значений некоторого параметра , то есть ( - параметрическое множество), то такая модель называется параметрической . Говорят, что в этом случае известен тип распределения наблюдаемой случайной величины, а неизвестен только параметр, от которого распределение зависит. Параметр может быть как скалярным, так и векторным.

Статистическая модель называется непрерывной или дискретной , если таковыми являются все составляющие класс функции распределения соответственно.

Пример 1 . Предположим, что распределение наблюдаемой случайной величины является гауссовским с известной дисперсией и неизвестным математическим ожиданием .

В этом случае статистическая модель является непрерывной и имеет вид:

Если и дисперсия неизвестна, то статистическая модель имеет вид:

а функция распределения имеет плотность вероятностей

Это, так называемая, общая нормальная модель, обозначаемая .

Пример 2 . Предположим, что распределение наблюдаемой случайной величины является пуассоновским с неизвестным параметром . В этом случае статистическая модель является дискретной и имеет вид: , случайными величинами (при этом говорят, что случайные величины - копии ), и который еще не принял конкретного значения в результате эксперимента. Переход от выборки конкретной к выборке случайной будет неоднократно использоваться далее при решении теоретических вопросов и задач для получения выводов, справедливых для любой выборки из генеральной совокупности.

Основные задачи, рассматриваемые в математической статистике, можно разбить на две большие группы:

1. Задачи, связанные с определением неизвестного закона распределения наблюдаемой случайной величины и параметров в него входящих (они рассматриваются в рамках статистической теории оценивания).

2. Задачи, связанные с проверкой гипотез относительно закона распределения наблюдаемой случайной величины (решаются в рамках теории проверки статистических гипотез).