Шкалы измерения в статистике примеры. Типы и виды данных. Шкалы измерения. Основные шкалы измерения

794. Орлов А.И. Теория измерений как часть методов анализа данных: размышления над переводом статьи П.Ф. Веллемана и Л. Уилкинсона // Социология: методология, методы, математическое моделирование. 2012. № 35. С. 155-174.
А.И. Орлов

(Москва)
МЕСТО ТЕОРИИ ИЗМЕРЕНИЙ В МЕТОДАХ АНАЛИЗА ДАННЫХ 1

Согласно современной парадигме прикладной статистики, теория измерений является неотъемлемой частью методов анализа данных. По мнению П.Ф. Веллемана и Л. Уилкинсона , применение теории измерений «при выборе или для рекомендации тех или иных методов статистического анализа неуместно и зачастую приводит к ошибкам». В статье приведены краткие сведения о шкалах измерения и применении теории измерений при выборе средних величин с соответствии с шкалами измерения данных, а затем скрупулезно анализируются аргументы П.Ф. Веллемана и Л. Уилкинсона. Итог дискуссии: «теория измерений важна для интерпретации статистического анализа» . Дискуссия позволила уточнить ряд вопросов применения прикладной статистики (анализа данных): выявлена роль решаемой задачи и применяемой модели данных для установления типов шкал измерения этих данных; разделены области применения разведочного анализа и доказательной статистики.
Ключевые слова : теория измерений, анализ данных, прикладная статистика, шкалы измерения, допустимые преобразования, инвариантность выводов.
Методы анализа данных (другими словами, прикладная статистика, статистические методы) необходимы социологу для обработки результатов массовых обследований, а также для подведения итогов экспертных опросов . Эта научная область бурно развивается. Согласно новой парадигме прикладной статистики, теория измерений является неотъемлемой частью современных методов анализа данных . В наших учебниках (, и др.) рассказано о теории измерений и ее применении при выборе адекватных методов анализа данных.

Есть и другие мнения о целесообразности использования теории измерений при анализе социологических данных. Основная идея статьи П.Ф. Веллемана и Л. Уилкинсона выражена в ее названии. По их мнению, применение теории измерений «при выборе или для рекомендации тех или иных методов статистического анализа неуместно и зачастую приводит к ошибкам» .

Прежде чем разбирать аргументы П.Ф. Веллемана и Л. Уилкинсона, целесообразно привести краткие сведения о предмете дискуссии, в частности, определить используемые нами термины и сформулировать основные положения в стиле отечественной вероятностно-статистической школы, основоположником которой является А.Н. Колмогоров, превративший теорию вероятностей и математическую статистику в раздел математики. При этом уточняем изложение в и описываем применение теории измерений в теории средних величин, позволившее создать стройную и окончательную систему средних.
Основы теории измерений
Теория измерений исходит из того, что арифметические действия с используемыми в практической работе числами не всегда имеют смысл. Например, зачем складывать или умножать номера телефонов? Далее, не всегда выполнены привычные арифметические соотношения. Например, сумма знаний двух двоечников не равна знаниям «хорошиста», т.е. для оценок знаний 2+2 не равно 4. Приведенные примеры показывают, что практика использования чисел для описания результатов наблюдений (измерений, испытаний, анализов, опытов) заслуживает методологического анализа.

Основные шкалы измерения. Наиболее простой способ использования чисел - применение их для различения объектов. Например, телефонные номера нужны для того, чтобы отличать одного абонента от другого. При таком способе измерения используется только одно отношение между числами - равенство (два объекта описываются либо равными числами, либо различными). Соответствующую шкалу измерения называют шкалой наименований (при использовании термина на основе латыни - номинальной шкалой; иногда называют также классификационной шкалой). В этой шкале измерены штрих-коды товаров, номера паспортов, ИНН (индивидуальные номера налогоплательщиков) и многие иные величины, выраженные числами. С прикладной точки зрения шкала измерения - это способ приписывания чисел рассматриваемым объектам, соответствующий имеющимся между объектами отношениям.

Отметим, что числа могут быть приписаны объектам разными способами. Переход от одного способа к другому наблюдаем при замене паспортов или телефонных номеров. Каковы свойства допустимых преобразований? Для шкалы наименований естественно потребовать только взаимной однозначности. Другими словами, применив к результатам измерений взаимно-однозначное преобразование, получаем новую шкалу, столь же хорошо описывающую систему исходных объектов, как и прежняя шкала.

Шесть основных типов шкал измерения описаны в табл.1.
Таблица 1. Основные шкалы измерения.

Тип шкалы	Определение шкалы	Примеры	Группа допустимых преобразований
Шкалы качественных признаков
Наименований	Числа используют для различения объектов	Номера телефонов, паспортов, ИНН, штрих-коды	Все взаимно-однозначные преобразования
Порядковая	Числа используют для упорядочения объектов	Оценки экспертов, баллы ветров, отметки в школе, полезность, номера домов	Все строго возрастающие преобразования
Шкалы количественных признаков (описываются началом отсчета и единицей измерения)
Интервалов	Начало отсчета и единица измерения произвольны	Потенциальная энергия, положение точки, температура по шкалам Цельсия и Фаренгейта	Все линейные преобразования φ(x ) = ax + b , a и b произвольны, а >0
Отношений	Начало отсчета задано, единица измерения произвольна	Масса, длина, мощность, напряжение, сопротивление, температура по Кельвину, цены	Все подобные преобразования φ(x ) = ax , а произвольно, а >0
Разностей	Начало отсчета произвольно, единица измерения задана	Время	Все преобразования сдвига φ(x ) = x + b , b произвольно
Абсолютная	Начало отсчета и единица измерения заданы	Число людей в данном помещении	Только тождественное преобразование φ(x ) = x

Кроме перечисленных в табл.1, используют и иные типы шкал . Отметим, что в табл.1 выражение «единица измерения произвольна» означает, что она может быть выбрана по соглашению специалистов, но не вытекает из каких-либо фундаментальных соотношений. При измерении времени естественная единица измерения задается периодами обращения небесных тел. Начало отсчета при измерении длины задается длиной отрезка, у которого начало и конец совпадают, и т.д.

В настоящее время считается необходимым перед применением тех или иных алгоритмов анализа данных установить, в шкалах каких типов измерены рассматриваемые величины. При этом с течением времени тип шкалы измерения определенной величины может меняться. Например, температура сначала измерялась в порядковой шкале (теплее - холоднее). После изобретения термометров она стала измеряться в шкале интервалов (по шкалам Цельсия, Фаренгейта или Реомюра). Температура С по шкале Цельсия выражается через температуру F по шкале Фаренгейта с помощью линейного преобразования

С открытием абсолютного нуля температур стал возможным переход к шкале отношений (шкала Кельвина).

Требование инвариантности (адекватности) выводов. Выяснение типов используемых шкал необходимо для адекватного выбора методов анализа данных. Основополагающим требованием является независимость выводов от того, какой именно шкалой измерения воспользовался исследователь (среди всех шкал, переходящих друг в друга при допустимых преобразованиях). Например, если речь о длинах, то выводы не должны зависеть от того, измерены ли длины в метрах, аршинах, саженях, футах или дюймах.

Другими словами, выводы должны быть инвариантны относительно группы допустимых преобразований шкалы измерения. Только тогда их можно назвать адекватными, т.е. избавленными от субъективизма исследователя, выбирающего определенную шкалу из множества шкал заданного типа, связанных допустимыми преобразованиями.

Требование инвариантности выводов накладывает ограничения на множество возможных алгоритмов анализа данных. В качестве примера рассмотрим порядковую шкалу. Одни алгоритмы анализа данных позволяют получать адекватные выводы, другие - нет. Например, в задаче проверки однородности двух независимых выборок алгоритмы ранговой статистики (т.е. использующие только ранги результатов измерений) дают адекватные выводы, а статистики Крамера-Уэлча и Стьюдента - нет. Значит, для обработки данных, измеренных в порядковой шкале, критерии Смирнова и Вилкоксона можно использовать, а критерии Крамера-Уэлча и Стьюдента - нет.
Выбор средних величин в соответствии со шкалами измерения
Требование инвариантности является достаточно сильным. Из многих алгоритмов анализа статистических данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.

Средние по Коши. Среди всех методов анализа данных важное место занимают алгоритмы усреднения. Еще в 1970-х годах удалось полностью выяснить, какими видами средних можно пользоваться при анализе данных, измеренных в тех или иных шкалах.

Пусть Х 1 , Х 2 ,…, Х n - выборка объема n . Наиболее общее понятие средней величины введено французским математиком первой половины ХIХ в. О. Коши. Средней величиной (по Коши) является любая функция f (X 1 , X 2 ,...,X n ) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X 1 , X 2 ,...,X n , и не больше, чем максимальное из этих чисел. Средними по Коши являются среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое.

Средние величины используются обычно для того, чтобы заменить совокупность чисел (выборку) одним числом, а затем сравнивать совокупности с помощью средних. Пусть, например, Y 1 , Y 2 ,...,Y n - совокупность оценок экспертов (или респондентов), «выставленных» одному объекту экспертизы, Z 1 , Z 2 ,...,Z n - второму. Как сравнивать эти совокупности? Самый простой способ - по средним значениям.

При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в теории измерений). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.

Пусть f (X 1 , X 2 ,...,X n ) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:

f (Y 1 , Y 2 ,...,Y n ) (Z 1 , Z 2 ,...,Z n ).

Тогда согласно теории измерений для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g (из группы допустимых преобразований в соответствующей шкале) было справедливо также неравенство

f (g (Y 1), g (Y 2),...,g (Y n )) (Z 1), g (Z 2 ),...,g(Z n )),

т.е. среднее преобразованных значений из первой совокупности было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть выполнено для любых двух совокупностей Y 1 , Y 2 ,...,Y n и Z 1 , Z 2 ,...,Z n. И, напомним, для любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно теории измерений только допустимыми средними величинами можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.

С помощью математической теории, развитой в монографии , удается описать вид допустимых средних величин в основных шкалах.

Средние величины в порядковой шкале. Рассмотрим обработку, для определенности, мнений экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.

Теорема 1. Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).

Теорема 1, впервые полученная в статье , справедлива при условии, что среднее f (X 1 , X 2 ,...,X n ) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции f (X 1 , X 2 ,...,X n ) не меняется. Это условие является вполне естественным, ибо среднюю величину находим для совокупности (множества) чисел, а не для последовательности . Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.

Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Можно применять выборочные квартили, минимум и максимум, децили и т.п. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.

Средние по Колмогорову. Естественная система аксиом (требований к средним величинам) приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н. Колмогоров . Теперь их называют «средними по Колмогорову».

Для чисел X 1 , X 2 ,...,X n средним по Колмогорову является

G {(F (X 1) + F (X 2) +...+ F (X n ))/n },

где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F . Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F (x ) = x , то среднее по Колмогорову - это среднее арифметическое, если F (x ) = ln x , то среднее геометрическое, если F (x ) = 1/x , то среднее гармоническое, если F (x ) = x , то среднее квадратическое, и т.д. (в последних трех случаях усредняются положительные величины).

Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. В статье впервые доказаны следующие утверждения.

Теорема 2. В шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое.

Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия), потенциальных энергий или координат точек не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.

Теорема 3. В шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с и среднее геометрическое.

Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например, с F (x ) = e 2 x .

Замечание 1. Среднее геометрическое является пределом степенных средних при .

Замечание 2. Теоремы 1 и 2 справедливы при выполнении некоторых внутриматематических условий регулярности. Доказательства теорем 1-3 приведены в монографии . Перенос на случай взвешенных средних дан в статье .

Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. (см., например, ). Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий. Дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д. В статье рассмотрены дальнейшие результаты о средних величинах.

Согласно рассматриваемому подходу сначала надо установить, в каких шкалах измерены социологические данные, а затем использовать только инвариантные относительно этих шкал алгоритмы обработки данных.

В статье теория измерений именуется «ограничения Стивенса», порядковая шкала названа ординальной, шкала отношений – относительной, нет понятия «группа допустимых преобразований», и т.п. Будем пользоваться устоявшимися в прикладной статистике терминами . В целом же позиция сторонников использования теории измерений при анализе данных описана в верно.

На русском языке имеется достаточно много публикаций по теории измерений, написанных строго, квалифицированными авторами. Поскольку мы не ставим целью дать здесь обзор по теории измерений, отошлем читателей к работам и имеющимся там ссылкам на литературные источники.
Первые размышления над переводом статьи П.Ф. Веллемана и Л. Уилкинсона
Эта статья написана в виде обзора различных публикаций, изложение идет на словесном уровне, строгие определения, формулы, таблицы, примеры почти отсутствуют. Поэтому приходится додумывать за авторов, что они хотели сказать. Не всегда удается придать точный смысл их высказываниям.

На с.173 выделено три направления критики:

1. Требование инвариантности выводов относительно допустимых преобразований шкал измерения «представляется опасным для анализа данных».

2. Подход на основе теории измерений «слишком строг, чтобы его можно было применять для реальных данных».

3. Этот подход «часто ведет к понижению уровня данных через их преобразования в ранги и последующее ненужное обращение к непараметрическим методам».

Начнем с разбора в общих терминах этих трех направлений критики.

1. Опасным для получения обоснованных выводов является, наоборот, отказ от требования инвариантности. Разве можно опираться на выводы, которые меняются при допустимом преобразовании шкалы?

Конечно, при первоначальном разведочном анализе данных можно их «прогнать» через весь арсенал имеющихся в программном продукте методов обработки – вдруг удастся что-нибудь интересное заметить? Полученные нестрогими методами «находки» необходимо затем проверить с помощью обоснованных процедур анализа данных .

Практика зачастую вынуждает использовать соображения теории измерений. Так, при проведении нашим научным коллективом опросов летного состава авиакомпании «Волга-Днепр» выяснилось, что пилотам легче сказать, какое событие встречается чаще, а какое реже, чем оценить число осуществлений событий на 1000 полетов. Проводить оценивание в абсолютной шкале (оценивать вероятности событий) пилоты не берутся, в то время как задачи сравнения событий по частоте встречаемости или оценки их по встречаемости условными баллами (значениями качественных признаков) не вызывают сложностей. Таким образом, полученные при опросах пилотов оценки измерены в порядковых шкалах.

2. При практической работе обычно вполне ясно, в каких шкалах измерены данные. Если попытаться навязать респондентам неправильную шкалу, их ответы будут произвольными, не отражающими истинных мнений, или же они могут попросту отказаться давать ответы, как это было в описанных выше опросах летного состава авиакомпании «Волга-Днепр».

Можно признать, что в отдельных редких случаях определение типа шкалы измерения данных требует специальных исследований.

3. Уже ко времени появления статьи П.Ф. Веллемана и Л. Уилкинсона (1993 г.) с помощью непараметрических методов можно было решать все те задачи анализа данных, для которых всё еще в отдельных работах используются параметрические методы. Согласно современной парадигме прикладной статистики , вместо параметрических методов, характерных для устаревшей парадигмы середины ХХ в., следует применять непараметрические методы.

Согласно современным взглядам, параметрические методы – это методы, основанные на вероятностно-статистических моделях, в которых распределения случайных величин принадлежат тому или иному из параметрических семейств – семейству нормальных, логарифмически-нормальных, гамма-распределений или иных, входящих в четырехпараметрическое семейство К. Пирсона, введенное им в начале ХХ в. Непараметрические методы исходят из распределений произвольного вида. «Преобразование в ранги» не обязательно при применении непараметрических методов. Оно соответствует случаю, когда данные измерены в порядковой шкале.

Как показали многочисленные исследования, почти все распределения реальных данных не принадлежат ни одному из известных параметрических семейств . Боязнь непараметрических методов не имеет рационального обоснования, она порождена предрассудками устаревшей парадигмы прикладной статистики середины ХХ в.

От анализа общих возражений против применения теории измерений при анализе социологических данных перейдем к рассмотрению конкретных примеров, приведенных П.Ф. Веллеманом и Л. Уилкинсоном. Чтобы не раздувать объем настоящей статьи, не будем повторять формулировки примеров, предполагая, что читатели имеют перед собой перевод их исходной статьи .

В критике Лорда выделим несколько составляющих. Во-первых, выбор типа шкалы может быть связан с решаемой задачей. Так, номера договоров предприятия служат прежде всего для того, чтобы различать эти договора (и связанные с ними действия), т.е. естественно принять, что они измерены в шкале наименований. Однако эти номера возрастают с течением времени (в соответствии с датами заключения договоров), поэтому в некоторых задачах принятия управленческих решений естественно считать, что они измерены в порядковой шкале. Во-вторых, при обработке порядковых данных с помощью алгоритмов, не являющимися инвариантными в порядковой шкале, может создаться впечатление, что получены обоснованные выводы. Лорд рассказывает о применении неравенства Чебышева (можно было использовать критерий Крамера-Уэлча ). Однако при применении той же процедуры анализа к данным, подвергнутым некоторому допустимому преобразованию в порядковой шкале, выводы будут прямо противоположными. Для обнаружения различия между двумя независимыми выборками следовало применить непараметрические критерии однородности, например, критерий Вилкоксона .

Бейкер, Хардик и Петринович, Боргатта и Боршштейн не хотят применять непараметрические методы, объяснений нет. Веллеман и Уилкинсон напрасно критикуют их за нежелание «связываться с проблемой робастности» . Робастные методы, т.е. устойчивые к малым отклонениям функций распределения данных, не позволяют справиться с произвольным допустимыми преобразованиями. Если же от робастности перейти к более общей системе понятий – к общей схеме устойчивости, то оказывается, что устойчивые к допустимым преобразованиям шкал методы анализа данных – это ранговые методы как частный случай непараметрических .

Гутман предлагает использовать «функцию потерь, выбранную для проверки качества модели» . Действительно, если задана функция потерь, то нет необходимости привлекать теорию измерений. Проблема в том, чтобы выбрать эту функцию, причем обоснованно. Ни с одним таким практиком за более чем 40 лет консультирования в области анализа данных мне встретиться не довелось. Тот, кто сможет выбрать функцию потерь, уже не практик, а квалифицированный специалист в области математической статистики.

По мнению Тьюки, «какое знание не основано на некоторой приблизительности» . Действительно, при первоначальном разведочном анализе одного взгляда на данные специалисту бывает достаточно для формулировки вывода. Однако и практики, и теоретики настаивают на том, чтобы интуитивные выводы были обоснованы строгими рассуждениями.
Дискуссия о статистиках и шкальных типах
Названный так раздел начинается словами: «Статистики отвергли запрет на методы, основанный на ограничениях, связанных с допустимыми преобразованиями». Это совершенно неверно. Статистики приняли этот запрет (см. обсуждения в ). Особенно ясно это сейчас, через 20 лет после написания статьи . В настоящее время сомнения остаются у некоторых из тех, кто не является профессионалом в области анализа данных, к тому же склонен к принятию простых решений и не хочет утруждать себя изучением теории измерений и непараметрической статистики. Такой настрой практиков вполне естественен и разумен, но не плодотворен. Современная прикладная статистика не является простой, для ее усвоения нужно приложить усилия и затратить время.

Приходится констатировать, что в статью включено большое количество категоричных утверждений, не подтвержденных аргументами и противоречащих практике анализа данных. На с.176 сказано: «Ключевой аргумент против использования предписания статистик на основе шкального типа гласит: это не работает!». Еще как работает – и на практике, и при развитии теории (в начальных разделах настоящей статьи показано, что теория измерений позволила придать теории средних законченный вид). На с.177 говорится, что «опыт показывает, что применение запрещенных статистик к данным приводит к научно значимым результатам, важным при принятии решений и ценным для дальнейших исследований». Примеров нет. Видимо, потому, что это утверждение неверно.

В часто используются термины без определений. Отечественного читателя может поразить заявление о «фундаментальной разнице между математикой и наукой» (с.176). В нашей стране согласно традиции и нормативным документам Минобразования и ВАК математика – одна из наук. Мы считаем, что статистические методы и анализ данных – это одно и то же. Именно поэтому наша крайняя книга называется «Статистические методы анализа данных» . Конечно, можно определить термины так, что математика не будет наукой, а анализ данных станет отличаться от математической статистики. Дискуссия о терминах – увлекательное занятие. Только в одной брошюре приведено около 200 определений термина «статистика». Однако ясно, что использование терминов без определений, как это сделано в , может только запутать читателя.
Различные виды данных
Нельзя не согласиться с Веллеманом и Уилкинсоном в том, что данные – это не всегда числа . Элементами выборок могут быть вектора, функции, различные виды объектов нечисловой природы – бинарные отношения, множества, нечеткие множества, интервалы и др. . Тем более это касается результатов расчетов, таких, как доли или набор точек на плоскости, полученных в результате многомерного шкалирования. Обратите внимание: при рассказе о применении теории измерений при анализе данных в начале этой статьи шла речь об инвариантности выводов, сделанных на основе обработки наборов чисел. Следовательно, теория измерений используется не во всех разделах прикладной статистики, а лишь при статистическом анализе числовых величин . Это замечание понадобится при дальнейшем разборе статьи .

Необходимо всегда различать разведочный статистический анализ, нацеленный на «интуитивное проникновение в закономерности массива данных» , и доказательную статистику, основанную на строгих рассуждениях. Именно к разведочному анализу относятся методы преобразования данных и многомерного шкалирования . При разведочном анализе соблюдать требования теории измерений не обязательно, а в доказательной статистике – наоборот.

В разделе «Хороший анализ данных не основан на допущениях о типе данных» Веллеман и Уилкинсон справедливо обращают внимание на важность правильного выбора статистической модели. В следующем разделе «Стивенсовские категории не описывают фиксированных свойств данных» речь фактически идет о том же: в ряде ситуаций «шкальный тип зависит от интерпретации данных или от наличия дополнительной информации» . Это утверждение совершенно верно, набор чисел сам по себе не дает возможности обосновать тип шкалы. Результат измерения равен 2911397 – какая шкала? Если это число из бухгалтерского отчета, то шкала отношений (переход от одной валюты к другой – подобное преобразование). Если же это число – из телефонного справочника, то номер телефона измерен в шкале наименований. На эту тему мы говорили ранее в связи с разбором работы Лорда . Итак, весьма важен выбор статистической модели, им определяются шкалы измерения данных.

В разделе «Категории Стивенса недостаточны для описания шкал данных» рассматриваются «многомерные шкалы». Что это такое – неясно, так как определений нет. Однако квазипрактический пример, заданный табл.1, достаточно понятен. Поскольку я пять лет проработал в медицинских учреждениях (в «кремлевской больнице» и в НИИ профессиональных заболеваний и гигиены труда АМН СССР), то отмечу, что число имеющихся у пациента симптомов нельзя рассматривать как показатель тяжести заболевания, поскольку подобное рассмотрение предполагает, что все симптомы равноценны по вкладу в тяжесть заболевания. Такого в медицине не бывает.

О чем идет речь в абзаце, посвященном работе Андерсона , остается неясным, поскольку определений используемых понятий нет.
Робастность, шкалы и анализ данных
В разделе «Статистические процедуры не могут классифицироваться по критериям Стивенса» Веллеман и Уилкинсон обсуждают обратную задачу (в терминологии ), в которой для заданной процедуры анализа данных требуется установить, в каких шкалах эта процедура дает инвариантные выводы. Действительно, нами доказано, что вывод о сравнении рассчитанных по двум выборкам значений линейной функции от порядковых статистик, заданной формулой (5) на с.185 , инвариантен в порядковой шкале, если только один весовой коэффициент отличен от 0 (см. и теорему 1 в начале статьи), и в шкале интервалов (и в шкалах с более узкими группами преобразований – отношений, разностей, абсолютной), если по крайней мере два весовых коэффициента отличны от 0 (см. ). Остальной текст этого раздела статьи не поддается интерпретации в строгих терминах. Отметим только, что рассматривается иная задача, чем раньше, - увязка процедур расчетов со шкалами измерения, а не установление типа шкалы измерения исходных данных.

В разделе «Шкальные типы – не точные категории» в очередной раз бездоказательно утверждается, что «реальные данные не удовлетворяют требованиям шкальных типов». Вместе с тем правильно отмечено, что при сомнениях «следует осуществить понижение уровня» шкалы, например, с интервальной до порядковой. В задаче, рассмотренной Тьюки в 1961 г., была бы полезна статистика интервальных данных, развиваемая с начала 1980-х годов .

В разделе «Шкалы и анализ данных» рассуждения построены на смешении разведочного статистического анализа, при котором можно не обращать внимание на шкалы, в которых измерены данные, и анализа данных на стадии получения строгих выводов, немыслимых без обращения к теории измерений. Странно, что Веллеман и Уилкинсон считают «хорошим» только разведочный анализ. Фраза: «Хороший анализ данных редко следует формальной парадигме проверки гипотезы» демонстрирует их нигилизм по отношению к математической статистике, который никак нельзя оправдать.

В разделе «Осмысленность» термин, давший название разделу, так и остался без определения. Как справедливо отмечают Веллеман и Уилкинсон, согласно теории измерений осмысленность – это то, что сохраняется при допустимых преобразованиях. Такое определение им не нравится, но дать другое они не могут, занимаясь общими рассуждениями о праве на ошибку. Странно читать такое: «Если бы наука была ограничена доказуемо осмысленными суждениями, она не смогла бы развиваться». Математика же успешно развивается!

Раздел «Роль типов данных» начинается неожиданно – с признания важности теории измерений: «Были бы ошибкой полагать, что типы данных не имеют значения… Понятие типа шкалы важно, а терминология Стивенса (т.е. теории измерений - А.О.) зачастую бывает удобна». Дальнейшие рассуждения снова посвящены констатации того, что, в нашей терминологии, тип шкалы определяется не самими данными, а моделью, соответствующей решаемой задаче (см. выше интерпретацию числа 2911397 как результата измерений в шкале отношений или в порядковой шкале в зависимости от постановки задачи). Вторая идея, которая также уже встречалась, - упор на разведочный анализ и умаление роли доказательной статистики.
Заключение
Раздел «Заключение» статьи написан взвешенно, высказанные в нем положения в целом справедливы. Как уже говорилось, нельзя считать, «что тип шкалы как бы самоочевиден и не зависит от того, какой вопрос ставит исследователь перед своими данными». За двадцать лет после написания статьи стало ясно, что после постановки вопроса исследователь должен описать модель анализа данных, обычно вероятностно-статистическую, включающую выбор типа шкал измерения данных, а затем в рамках этой модели разработать метод решения задачи или выбрать его из уже имеющихся .

Совершенно верно, что «статистическое программное обеспечение, способствующее любому анализу для любых данных, допускает и безответственный анализ». Об этом предупреждал В.В. Налимов более 40 лет назад . Он имел в виду прежде всего склонность к проведению расчетов без знакомства с сутью применяемых методов.

Анализ статьи закончен.

Подводя итоги настоящей статьи, необходимо констатировать пользу от сопоставления подходов теории измерений и критических замечаний по ее поводу, собранных в статье Веллемана и Уилкинсона . Дискуссия позволила уточнить ряд вопросов применения прикладной статистики (анализа данных). Прежде всего, выявлена роль решаемой задачи и применяемой модели данных для установления типов шкал измерения этих данных, разделены области применения разведочного анализа и доказательной статистики. Подтвердилась справедливость пословицы: «В споре рождается истина».

ЛИТЕРАТУРА
1. Орлов А.И. Статистические методы в российской социологии (тридцать лет спустя) // Социология: методология, методы, математические модели. 2005. № 20. С.32-53.

2. Орлов А.И. Новая парадигма прикладной статистики // Заводская лаборатория. 2012. Том 78. №1, часть I. С.87-93.

3. Орлов А.И. Прикладная статистика. Учебник. - М.: Экзамен, 2006. - 672 с.

4. Орлов А.И. Организационно-экономическое моделирование: учебник: в 3 ч. Часть 1: Нечисловая статистика. – М.: Изд-во МГТУ им. Н.Э. Баумана. – 2009. – 541 с.

5. Веллеман П.Ф., Уилкинсон Л. Типология номинальных, ординальных, интервальных и относительных шкал вводит в заблуждение // Социология: методология, методы, математическое моделирование. 2011. № 33. С.166 – 193.

6. Толстова Ю.Н. Измерения в социологии. - М.: Инфра-М, 1998. - 352 с.

7. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

8. Орлов А.И. Допустимые средние в некоторых задачах экспертных оценок и агрегирования показателей качества. // Многомерный статистический анализ в социально-экономических исследованиях. - М.: Наука, 1974. С. 388-393.

9. Колмогоров А.Н. Об определении среднего // Избр. труды. Математика и механика. М.: Наука, 1985. С. 136–138.

10. Орлов А.И. Допустимые преобразования в задаче сравнения средних. Пси-постоянные статистики. // Алгоритмы многомерного статистического анализа и их применения. - М.: Изд-во ЦЭМИ АН СССР, 1975. С.121-127.

11. Орлов А.И. Связь между средними величинами и допустимыми преобразованиями шкалы // Математические заметки. 1981. Т. 30. №4. С. 561–568.

12. Барский Б.В., Соколов М.В. Средние величины, инвариантные относительно допустимых преобразований шкалы измерения // Заводская лаборатория. 2006. Том 72. №1. С.59-66.

13. Орлов А.И. Организационно-экономическое моделирование: учебник: в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.

14. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина «статистика». – М.: МГУ, 1972. – 46 с.

15. Налимов В.В. О преподавании математики экспериментаторам // О преподавании математической статистики экспериментаторам. Препринт Межфакультетской лаборатории статистических методов №17. – М.: Изд-во МГУ им. М.В. Ломоносова, 1971. – С.5-39.

1Александр Иванович Орлов, профессор, доктор экономических наук, доктор технических наук, кандидат физико-математических наук, директор Института высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана, профессор МФТИ, советник президента группы авиакомпаний «Волга-Днепр», президент Российской ассоциации статистических методов. E-mail: prof - orlov @ mail . ru .

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках Постановления Правительства РФ № 218.

Теоретическая валидизация в социологическом исследовании: Методология и методы

Благодаря Стенли Стивенсону, в нашей исследовательской практике мы оперируем несколькими типами шкал. Некоторые критикуют эту типологию, но судя по-всему никто не придумал ничего лучше.

0 Нажми, если пригодилось =ъ

Независимо от того, какой сложности анкетные вопросы или же тестовые методики вы рассматриваете, все их можно разделить на три типа в зависимости от того, к какой измерительной шкале они относятся. Речь в данном случае идет не о специфических методиках построения измерительных инструментов (например, шкала Гутмана или шкала Терстоуна), а о классификации измерительных шкал, предложенной Стэнли Стивенсом в 1946 году. Знание этой классификации имеет решающее значение с точки зрения использования количественного подхода, поскольку применение тех или иных методов математической статистики опирается, в том числе, и на измерительные шкалы, в которой отображены интересующие исследователя переменные.

Более подробно о понятии "переменная"
"Переменная" является часто употребляемым понятием в рамках научных исследований (не только в социальных и поведенческих науках) и особенно, если мы говорим о количественном подходе и применении статистических методов. Фактически переменная - это любое свойство изучаемых объектов, которое меняется от одного наблюдения к другому. Под наблюдениями в данном случае понимаются объекты изучения (люди, организации, страны или что-либо другое - зависит от самого исследования).
Если же некоторое свойство не изменяется от одного наблюдения к другому, то оно не дает никакой ценной в математическом смысле информации (большинство методов будет просто непригодно для использования).
Таким образом, в рамках количественного подхода изучаемые объекты представляются в виде набора переменных, составляющих интерес и подлежащих изучению. Нетрудно догадаться что переменные, прежде всего, делятся в зависимости от шкал, в которых они отображены. Так, можно выделить, например, номинальные, порядковые и метрические переменные. При этом, порядковые можно разделить на свернутые и непрерывные порядковые. Непрерывные порядковые переменные имеют множество численных значений и выглядят (по крайней мере, на первый взгляд), как метрические. Свернутые порядковые переменные имеют лишь несколько категорий или численных значений (не более пяти-шести). Они могут быть получены либо путем сбора данных в свернутой форме, либо сворачивания непрерывной порядковой или метрической шкалы.
Еще одним важным делением переменных является деление на зависимые и независимые. Часто в процессе анализа выдвигаются гипотезы о влиянии одних переменных на другие. В таких случаях, влияющие переменные называются независимыми, а переменные, на которые влияние оказывается, - зависимыми. Например, если мы говорим о взаимосвязи между полом студента и успешностью его обучения, то пол будет - независимой переменной, а успешность обучения - зависимой.

Согласно классификации Стивенсона, в самом общем виде, можно выделить три типа шкал:
- номинальную,
- порядковую,
- метрическую.

Номинальная шкала включает в себя класс переменных, значения которых можно разделить на группы, но невозможно проранжировать. Примерами соответствующих переменных являются пол, национальность, религия и т.д. Рассмотрим более подробно такую переменную как национальность. В данном случае респондентов можно разделить на разные группы в зависимости от того, к какой национальности они себя относят. Вместе с тем, на основе этой информации, респондентов невозможно упорядочить в смысле количественной выраженности интересующего нас параметра, ведь национальность не является измеряемым, в традиционном значении этого слова, свойством.
Порядковая шкала включает в себя класс переменных, значения которых можно не только разделить на группы, но и проранжировать в зависимости от выраженности измеряемого свойства. Классическим примером порядковой шкалы является Шкала Богардуса, предназначенная для измерения национальной дистанциированности. Ниже приведен адаптированный для населения Украины вариант (Н.Панина, Е.Головаха):

Анкетное задание
Относительно каждой национальности, приведенной ниже, выберите одно из положений, наиболее близкое для вас лично, на которое бы вы допустили представителей этой национальности.
Шкала ответов
1) как членов моей семьи;
2) как близких друзей;
3) как соседей;
4) как колег по работе;
5) как жителей Украины;
6) как поситителей Украины;
7) вообще не допускал бы в Украину.

Эта шкала позволяет упорядочить респондентов в зависимости от их отношения к той или иной национальности. Вместе с тем, она предоставляет лишь приблизительную информацию, которая не дает возможности точно оценить различия между градациями шкалы. Так, например, мы может утверждать, что респондент, готовый допустить евреев в качестве членов своей семьи будет относится к ним лучше, чем тот, кто готов допустить их лишь как соседей. Вместе с тем, мы не можем сказать "на сколько?" или "во сколько?" раз первый респондент лучше относится к представителям еврейской национальности чем второй. Другими словами, у нас нет никаких аргументов, которые бы подтверждали равенство интервалов между пунктами шкалы.
Метрическая шкала включает в себя класс переменных, значения которых можно как разделить на группы и проранжировать, так и определить их величину в точных терминах (те самые "на сколько?" и "во сколько?"). Типичными примерами соответствующих переменных являются возраст, заробтная плата, количество детей и т.д. Измерение каждой из них можно осуществить максимально точно: возраст в годах, зароботнуню плату в гривнах, количество детей в... штуках;)
Естественно, если переменная может быть потенциально выражена в метрической шкале, то эту же переменную можно выразить и в порядковой.

Например, возраст можно выразить в возрастных группах (молодежь, средний возраст, пожилой возраст), которые дают лишь приблизительную информацию о респонденте, несмотря на возможность их ранжирования.
Принадлежность переменной к метрической шкале открывает возможность использования любых статистических методов. В свою очередь принадлежность к порядковой или номинальной ограничивает выбор математических инструментов (в случае порядковой шкалы в меньшей мере, а в случае номинальной - в большой). Классификация статистических методов приведена .
Для того, чтобы сделать различия между номинальной, порядковой и метрической шкалами еще более очевидными, приведу дополнительный пример, посвященный рейтингу профессиоанальных боксеров в супертяжелом весе по версии сайта boxrec.com (информация актуальна по состоянию на 31.01.2012). При этом мы рассмотрим данные относительно боксеров первой десятки по трем переменным: этническая принадлежность боксера, его место в рейтинге и количество рейтинговых очков, которые имелись у него в активе 31.01.2012.

А) Этническая принадлежность (номинальная шкала ). Три боксера (братья Кличко и Димитренко) являются украинцами, один (Поветкин) - русским, один (Адамек) - Поляком, два (Чемберс и Томпсон) - американцами, один (Фьюри) - британцем, один (Хелениус) - фином, один (Пулев) - болгарином. Таким образом переменная "национальность" помогла нам разделить всех боксеров на 7 групп, в зависимости от их этнической принадлежности. Владея этими данными, человек далекий от бокса ничего не сможет сказать об успешности перечисленных боксеров, хотя и получит информацию об этнической принадлежности 10-ти наилучших тяжеловесов (мы и далее будет обращаться к гипотетическому эксперту):
украинцы - 30%;
американцы - 20%;
русские, поляки, британцы, фины и болгары - по 10%.
Б) Место в рейтинге (порядковая шкала ) дает приблизительную информацию об успешности боксера. Ситуация следующая:
1. Владимир Кличко
2. Виталий Кличко
3. Александр Поветкин
4. Томаш Адамек
5. Эдди Чемберс
6. Тайсон Фьюри
7. Роберт Хелениус
8. Тони Томпсон
9. Александр Димитренко
10. Кубрат Пулев
Теперь наш неосведомленный аналитик знает последовательность первой десятки боксеров супертяжелого веса. И хотя здесь уже присутствуют числа от 1 до 10, он все еще не может осуществлять никаких математических операций кроме сравнения. К примеру, он не может сказать, что Владимир Кличко лучше Эдди Чемберса на 4 единицы. Выражение "5 минус 1" в данном случае не имеет смысла. В отношении этих двух боксеров он может утверждать лишь то, что Владимир Кличко лучше Эдди Чемберса как боксер (как впрочем и всех остальных из десятки). Причина невозможности осуществления математических действий заключается в том, что между пунктами с 1-го по 10-й нет равенства интервалов. Каковы на самом деле интервалы между пунктами, можно увидеть благодаря последней переменной.
В) Количество рейтинговых очков (метрическая шкала ). Данный показатель

Типы статистических шкал: номинальная шкала, порядковая шкала, интервальная шкала, шкала отношений.

Номинальная шкала используется для регистрации самого низшего уровня измерений, предполагающего наличие минимальных предпосылок для измерения. При измерениях на данном уровне практически не используются числа. Здесь важно установить подобие или различие объектов по некоторому признаку, т. е. при этом имеют дело с качественными данными. Рассмотрим примеры.

Распределения учащихся по классам, по половому признаку, по месту жительства, по видам спорта, которыми они занимаются, по числу детей в семье являются примерами величин номинальной шкалы. При этом возможно распределение учащихся по двум или более признакам (двумерные или многомерные данные).

С помощью подсчета можно установить частоту той или иной категории (число мальчиков и девочек в школе; число учащихся, проживающих в каждом микрорайоне; число учащихся в каждом классе; число учащихся, занимающихся тем или иным видом спорта; количество фирм, занимающихся производством автобусов и т. д.). При этом можно определить наиболее часто встречающуюся величину (класс, в котором учится наибольшее число учащихся; вид спорта, пользующийся наибольшей популярностью у учащихся; тип автомобиля, производством которого занимается наибольшее число фирм). Категории данных номинальной шкалы обозначаются, как правило, словесно (вербально).

Порядковая , или ранговая , шкала указывает лишь последовательность носителей признака или направление степени выраженности признака.

Например, учащихся можно ранжировать по количеству правильно выполненных тестовых заданий. Пусть учащиеся А, Б, В, Г, Д правильно выполнили соответственно 21, 16, 12, 9 и 3 задания. Графически это можно изобразить так

Эта порядковая шкала имеет величины от 1 до 5, и учащиеся на ней размещены в зависимости от количества правильно выполненных заданий: А - первый, Д - пятый. Из рисунка видно, что интервалы, разделяющие места в ряду, различны по величине. По этой причине нецелесообразно складывать, вычитать, умножать и делить порядковые места.

На шкале интервалов равные интервалы отображают одинаковую меру величины измеряемого признака. Например, 1 см между 3-м и 4-м сантиметрами на шкале измерений длин имеет такой же смысл, как и 1 см между 82-м и 83-м сантиметрами. Другими словами, на шкале интервалов расстояния между соседними делениями равны. На интервальной шкале вполне осмысленным является вопрос "на сколько?". Но не всегда, пользуясь интервальной шкалой, можно формулировать вопрос "во сколько раз?". Дело в том, что на шкале интервалов устанавливаются произвольно начало отсчета (нуль шкалы), единица измерения и направление отсчета. Примером интервальной шкалы является температурная шкала по Цельсию. Разность между температурами воздуха +30 и +20 °С столь же велика, как и между -10 и -20 °С. Однако нельзя утверждать, что при температуре воздуха +30 °С в полтора раза теплее, чем при температуре +20 °С. Даже если температура воздуха равна 0 °С, нельзя утверждать, что тепла нет совсем: ведь начало отсчета выбрано произвольно.

Шкалы на большинстве физических приборов (амперметр, вольтметр и др.) являются интервальными. Шкала коэффициента интеллекта IQ является шкалой интервалов.

Шкала интервалов является метрической, с ее помощью можно выполнять сложение и вычитание. Она имеет значительные преимущества по сравнению с номинальной и порядковой шкалами.

Шкала отношений , или шкала пропорций , дает возможность устанавливать отношения значений измеряемого признака благодаря тому, что значению шкалы "0" соответствует величина, для которой измеряемый признак отсутствует. Другими словами, начало отсчета на этих шкалах выбирают непроизвольно. Примерами шкалы отношений являются меры длины (м, см и т. д.) и массы (кг, г и т. д.). Предмет длиной 100 см вдвое длиннее предмета длиной 50 см. Иногда данные нуждаются в преобразованиях. В частности, потребность в этом возникает, когда в ряду данных одно или несколько данных существенно превышают остальные. Если данные явно несимметричны, то заменяют каждое значение приведенного набора данных логарифмом этого значения с целью упростить статистический анализ. Логарифмирование преобразует "скошенные" (ассимметричные) данные в более симметричные, так как происходит "растягивание" шкалы возле нуля, малые значения, сгруппированные вместе, распределяются вдоль шкалы. В то же время логарифмирование собирает вместе большие значения на правом конце шкалы. Наиболее часто применяют десятичные и натуральные логарифмы. Равным расстояниям на логарифмической шкале соответствует на исходной шкале равные процентные увеличения, а не равные увеличения значений.

^ Проверка наличия нормального распределения.

Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.

В качестве примера рассмотрим нормальное распределение возраста, которое строится по данным исследований гипертонии (файл hyper.sav) с помощью команд меню Graphs (Графы) Histogramm... (Гистограмма) (см. рис. 5.1).

На диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.

Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок - U-тест Манна и Уитни.

Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова, который находится в меню Analyze (анализ данных) в наборе непараметрических тестов (см. раздел 14.5).

Рис. 5.1: Распределение возраста

В нашем примере с распределением возрастов тест Колмогорова-Смирнова не показывает значительного отклонения от нормального распределения.

^ Зависимость и независимость выборок.

Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок.

Чаще всего зависимые выборки возникают, когда измерение проводится для нескольких моментов времени. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующие различным моментам времени.

В SPSS зависимые (также связанные, спаренные) выборки будут представляться разными переменными, которые сопоставляются друг с другом в соответствующем тесте на одной и той же совокупности наблюдений.

Если закономерное и однозначное соответствие между выборками невозможно, эти выборки являются независимыми. В SPSS независимые выборки содержат разные наблюдения (например, относящиеся к различным респондентам), которые обычно различаются с помощью групповой переменной, относящейся к номинальной шкале.

^ Обзор распространенных тестов для проверки гипотез о среднем.

В наиболее распространенной ситуации, когда требуется сравнить друг с другом разные выборки по их средних значениям или медианам, с учетом условий, описанных в разделе 5.1, обычно применяется один из восьми следующих тестов.

^ Переменные, относящиеся к интервальной шкале и подчиняющиеся нормальному распределению

^ Переменные, относящиеся к порядковой шкале или переменные, относящиеся к интервальной шкале, но не подчиняющиеся нормальному распределению

^ Вероятность ошибки.

В аналитической статистике разработаны методы вычисления так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из них характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t-pacnpe-лелению, F-распределению, распределению X2 и т.д.), которые позволяют вычислить так называемую вероятность ошибки. Это вероятность равна проценту ошибки, которую можно допустить отвергнув нулевую гипотезу и приняв альтернативную.

Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражаются в процентах. Обычно вероятность обозначаются буквой р:

0
Вероятности ошибки, при которой допустимо отвергнуть нулевую гипотезу и принять альтернативную гипотезу, зависит от каждого конкретного случая. В значительной степени эта вероятность определяется характером исследуемой ситуации. Чем больше требуемая вероятность, с которой надо избежать ошибочного решения, тем более узкими выбираются границы вероятности ошибки, при которой отвергается нулевая гипотеза, так называемый доверительный интервал вероятности.

Существует общепринятая терминология, которая относится к доверительным интервалам вероятности. Высказывания, имеющие вероятность ошибки р

^ Вероятность ошибки	Значимость	Обозначение
р > 0.05	Не значимая	ns
р	Значимая	*
р	Очень значимая	**
р	Максимально значимая	***

^ Доверительный интервал вероятности.

Доверительный интервал - термин, используемый в математической статистике при интервальной (в отличие от точечной) оценке статистических параметров, что предпочтительнее при небольшом объёме выборки. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Доверительным интервалом параметра θ распределения случайной величины X с уровнем доверия 100p% [примечание 1] , порождённым выборкой (x 1 ,…,x n), называется интервал с границами (x 1 ,…,x n) и (x 1 ,…,x n), которые являются реализациями случайных величин L (X 1 ,…,X n) и U (X 1 ,…,X n), таких, что

Граничные точки доверительного интервала и называются доверительными пределами .

Интерпретация доверительного интервала, основанная на интуиции, будет следующей: если p велико (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение θ .

^ Описательный (дескриптивный анализ).

Этот вид анализа включает описательное представление отдельных переменных. К нему относятся создание частотной таблицы, вычисление статистических характеристик или графическое представление. Частотные таблицы строятся для переменных, относящихся к номинальной шкале и для порядковых переменных, имеющих не слишком много категорий; об этом см. главы 6, 12 и 24.

Для переменных относящихся к номинальной шкале нельзя вычислить никаких значимых статистических характеристик. Наиболее часто для порядковых переменных и переменных, относящихся к интервальной шкале, но не подчиняющихся нормальному распределению, вычисляются медианы и оба квартиля (см. раздел 6.2); при небольшом числе категорий можно использовать вариант для концентрированных данных см. раздел 6.3).

Для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, чаще всего вычисляется среднее значение и стандартное отклонение пли стандартная ошибка (см. раздел 6.2). Однако следует выбрать только одну из этих двух характеристик разброса. Для переменных, относящихся ко всем статистическим шкалам, можно построить большое разнообразных графиков, на которых представлены частоты, средние значения или другие характеристики.

^ Аналитическая статистика.

Практически любой статистический анализ наряду с чисто описательными операциями включает те или иные аналитические методы (тесты значимости), при применении которых в конечном счете определяется вероятности ошибки р (см. раздел 5.3).

Большая группа тестов служит для выяснения того, различаются ли две или более различных выборки по своим средним значениям или медианам. При этом учитывается разница между независимыми выборками (разные наблюдения) и зависимыми выборками (разные переменные; см. раздел 5.1.3). В зависимости количества выборок (две или более), от того, зависимы ли выборки или нет, относятся ли переменные к интервальной или порядковой шкале, подчиняются ли нормальному распределению - применяются специализированные тесты (см. раздел 5.2).

Очень часто встречается ситуация, когда сравниваются различные группы наблюдений или значений переменных, относящихся к номинальной шкале. В этом случае строятся таблицы сопряженности (см. главу 11). Другая группа тестов касается исследования связей между двумя переменными, то есть выявления корреляций и восстановления регрессий (см. главу 15, раздел 16.1).

Кроме этих довольно простых статистических методов существуют также более сложные методы многомерного анализа, в которых обычно одновременно используется очень много переменных. К примеру, если требуется свести большое количество переменных к меньшему количеству "пучков переменных", называемых факторами, то проводится факторный анализ (глава 19). Если же наша цель, противоположна - объединить заданные наблюдения, образовав из них кластеры, то применяется кластерный анализ (глава 20).

В определенной группе многомерных тестов вводится различие между зависимой переменной, называемой также целевой и несколькими независимыми переменными (переменными влияния или прогнозирования).

^ Зависимая переменная	Независимые переменные	Многомерный метол
Дихотомическая	Любые	Двоичная логистическая регрессия (раздел 16.4); дискриминантный анализ (глава 18)
Дихотомическая		Логит-логарифмические линейные модели
С номинальной шкалой	С номинальной или порядковой шкалой	Мультиномиальная логистическая регрессия (раздел 16.5)
С порядковой шкалой	С номинальной или порядковой шкалой	Порядковая регрессия (раздел 16.6)
С интервальной шкалой	С номинальной или порядковой шкалой	Дисперсионный анализ (раздел 17.1)
С интервальной шкалой	Любые	Ковариационный анализ (раздел 17.2); множественный регрессионный анализ (раздел 16.2)

При мультиномиальной логистической регрессии и порядковой регрессии могут также использоваться ковариации, относящиеся к интервальной шкале.

Независимые переменные, относящиеся к номинальной шкале, при двоичной логистической регрессии, дискриминантном анализе и многозначном регрессионном анализе должны быть дихотомическими либо раскладываться на набор дихотомических переменных (см. раздел 16.2). Логит-логарифмические линейные модели рассматриваются не в этой книге, а во втором томе, посвященном методам исследования рынка и общественного мнения.

ЛЕКЦИЯ 2. ИСТОЧНИКИ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ. СТАТИСТИЧЕСКОЕ ИЗМЕРЕНИЕ И НАБЛЮДЕНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ И ПРОЦЕССОВ. МЕТОДЫ СПЛОШНОГО НАБЛЮДЕНИЯ.

План.

1. Теория измерений. Основные шкалы измерения.

2. Сущность и виды статистического наблюдения. Методы сплошного наблюдения

3. План статистического наблюдения

4. Точность статистического наблюдения

Понятийный материал:

статистическое наблюдение, цель наблюдения, объект наблюдения, единица наблюдения, программа наблюдения. критический момент, отчетность, перепись, регистровое наблюдение, непосредственное наблюдение, документальный способ наблюдения, опрос, текущее наблюдение, единовременное обследование, сплошное наблюдение, несплошное наблюдение, точность статистического наблюдения, ошибка наблюдения.

Литература .

1. Елисеева И.И. Статистика: учебник. М.: Финансы и статистика, 2005.

2. Статистика / под ред. В.С. Мхитаряна. М.: Академия, 2006.

3. Гусаров В.М. Статистика: учеб. пособие для студентов вузов, обучающихся по экономическим специальностям / В.М.Гусаров, Е.И. Кузнецова. – 2-е изд., перераб. и доп. – М.: ЮНИТИ-ДАНА, 2007.

Теория измерений. Основные шкалы измерения.

Почему необходима теория измерений? Теория измерений является одной из составных частей прикладной статистики. Она входит в состав статистики объектов нечисловой природы.

Использование чисел в жизни и хозяйственной деятельности людей отнюдь не всегда предполагает, что их можно складывать и умножать, производитъ иные арифметические действия. Что бы вы сказали о человеке, который занимается умножением телефонных номеров? И отнюдь не всегда 2+2=4. Ес-ли вы вечером поместите в клетку двух животных, а потом еще двух, то отнюдь не всегда можно утром найти в этой клетке четырех животных. Их может быть и намного больше - если вечером вы загнали в клетку овцематок или беременных кошек. Их может быть и меньше - если к двум волкам вы поместили двух ягнят. Числа используются гораздо шире, чем арифметика.

Так, например, мнения экспертов часто выражены в порядковой шкале , т.е. эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д. Но он не в состоянии сказать, во сколько раз или на сколько более важен, соответственно - более опасен. Экспертов часто просят дать ранжировку (упорядочение) объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Ранг - это номер объекта экспертизы в упорядоченном ряду значений характеристики у различных объектов. Такой ряд в статистике называется вариационным . Формально ранги выражаются числами 1, 2, 3, ..., но с этими числами нельзя совершать привычные арифметические операции. Например, хотя в арифметике 1 +2 = 3, нельзя утверждать, что для объекта, стоящем на третьем месте в упорядочении, интенсивность изучаемой характеристики равна сумме интенсивностей объектов с рангами 1 и 2. Так, один из видов экспертного оценивания - оценки учащихся. Вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), хорошист соответствует двум двоечникам (2 + 2 = 4), а между отличником и троечником такая же разница, как между хорошистом и двоечником (5 - 3 = = 4 - 2). Поэтому очевидно, что для анализа подобного рода качественных данных необходима не всем известная арифметика, а другая теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть теория измерений (ТИ).

При чтении литературы надо иметь в виду, что в настоящее время термин «теория измерений» применяется для обозначения целого ряда научных дисциплин. А именно - классической метрологии (науки об измерениях физических величин), рассматриваемой здесь ТИ, некоторых других направлений, например, алгоритмической теории измерений. Обычно из контекста понятно, о какой конкретно теории идет речь.

Краткая история теории измерений. Сначала ТИ развивалась как теория психофизических измерений. В послевоенных публикациях американский психолог С.С. Стивенс основное внимание уделял шкалам измерения. Во второй половине XX в. сфера применения ТИ стремительно расширяется. Один из томов выпущенной в США в 1950-х гг. «Энциклопедии психологических наук» назывался «Психологические измерения». Составители этого тома расширили сферу применения РТИ с психофизики на психологию в целом. А в основной статье в этом сборнике под названием «Основы теории измерений», изложение шло на абстрактно-математическом уровне, без привязки к какой-либо конкретной области применения.

Уже в одной из первых отечественных статей по РТИ (конец 1960-х гг.) было установлено, что баллы, присваиваемые экспертами при оценке объектов экспертизы, измерены, как правило, в порядковой шкале. Отечественные работы, появившиеся в начале 1970-х гг., привели к существенному расширению области использования РТИ. Ее применяли в педагогической квалимет-рии (измерении качества знаний учащихся), в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.

При статистическом исследованиисоциально-экономических процессов мы встречаемся с двумя типами данных: пространственные данные (cross-sectional data ) и временные ряды (time-series data ).

Примером пространственных данных является, например, набор сведений (объем производства, количество работников, доход и др.) по разным фирмам в один и тот же момент времени (пространственный срез). Пространственные данные часто используются для построения моделей классификации, регрессионных моделей.

Примерами временных данных могут служить ежеквартальные данные по инфляции, средней заработной плате, национальному доходу за последние годы, ежедневный курс доллара США на ММВБ и т.п. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени. Часто наблюдения в близкие моменты времени бывают зависимыми.

Наиболее информативными видами представления данных являются временные ряды , многоугольники и гистограммы распределения (частотные и кумулятивные ), диаграммы (подробный анализ видов представления данных будет представлен в выпуске 2 данного тома).

Вид представления данных определяется типом шкалы измерения. Различают четыре основные вида данных, отличающихся по тому, как наблюдаемый объект измеряется или описывается (табл. 2.1).

Таблица 2.1

Основные виды данных

Номинальная шкала (шкала наименований, классификационная шкала) является наиболее «слабой» качественной шкалой, по которой объектам дается некоторый признак. Этот тип шкал соответствует простейшему виду измерения, при котором шкальные значения используются лишь как имена объектов. Единственная цель таких измерений - выявление различий между объектами разных классов. Однако не следует пренебрегать значением этих имен; так, одной из задач кластерного анализа является назначение удачных названий выявленных групп близких по совокупности свойств объектов.

Шкала называется ранговой (шкала порядка), если множеству измеряемых объектов можно присвоить монотонно возрастающие шкальные значения. Тем самым допускается не только номинальное различение объектов, но и их упорядочение по измеряемым свойствам. Таковы балльные, рейтинговые оценки.

Измерение в шкале порядка может применяться в различных ситуациях:

Необходимо упорядочить объекты во времени или пространстве, когда интересуются не сравнением степени выраженности какого-либо свойства объектов, а лишь их взаимным пространственным или временным расположением;

Необходимо упорядочить объекты по степени выраженности какого-либо их свойства, при этом не требуется производить его точное измерение;

Какое-либо свойство в принципе измеримо, но измерение невозможно по причинам практического или теоретического характера.

Шкалы интервалов являются одним из наиболее важных типов шкал. Их отличительная особенность - возможность положительного линейного преобразования, когда меняется масштаб и начало отсчета, но сохраняется направленность измеряемого свойства. Классическим примером служат температурные шкалы Цельсия t °C и Фаренгейта t °F, связанные линейным преобразованием шкальных значений

t °F = 1,8 t °C + 32. (2.1)

Шкалы интервалов сохраняют не только различие и упорядочение объектов, но и отношение «расстояний» между парами. Однако отношение самих шкальных значений при этом не сохраняется. Например, в случае температурных шкал Цельсия и Фаренгейта нельзя сказать, что вода, нагретая до 80 °C вдвое горячее, чем вода при 40 °C, поскольку в шкале Фаренгейта соотношение температур воды будет уже другим: 176 °F и 104°F соответственно. В то же время отношение разностей этих температур в обеих шкалах сохраняется. Так, если отсчитывать разность температур двух упомянутых объектов в обеих шкалах относительно третьего объекта, охлажденного до 0 °C (32 °F), то отношение разностей в обеих температурных шкалах составляет одну и ту же величину 2:

(80 °C - 0 °C)/(40 °C - 0 °C) = (176 °F - 32 °F)/(104 °F - 32 °F) = 2.

Частным случаем шкал интервалов являются шкалы отношений, когда нулевая точка означает отсутствие измеряемого свойства. Шкалы отношений сохраняют не только отношения свойств объектов, но и отношения «расстояний» между парами объектов. Примерами измерений в шкалах отношений являются стоимостные измерения.

Иногда рассматривают также шкалы разностей и абсолютные шкалы . Первые являются частным случаем шкал интервалов; примерами служат измерения прироста продукции в абсолютных единицах, увеличение численности учреждений и т.п. Абсолютные шкалы характеризуются единственностью измерения и применяются, например, для измерения количества объектов.

Шкалы измерения следует учитывать при вычислении средних величин. В общей теории статистики различают структурные и степенные средние . К первым относятся мода и медиана , ко вторым - арифметическая , геометрическая , квадратическая и гармоническая средние.

Наименее информативная номинальная шкала допускает лишь один вид средних - моду. При переходе к более информативной порядковой шкале в моде добавляется медиана как мера центральной тенденции . Эти средние являются частными случаями средних по Коши - функции, ставящей в соответствие совокупности измерений (х 1 , х 2 , …, х n ) любое число, заключенное между наибольшим и наименьшим членом вариационного ряда.

Обобщением понятия степенных средних является средние по Колмогорову F y n , задаваемые строго монотонными функциями y:

F y n (х 1 , х 2 , …, х n ) = y -1 (1/n )S y (х i ), (2.2)

где y -1 - функция, обратная y; х i - значение i -го измерения показателя Х ; n - объем выборки. При y(х ) = х ; ln х ; х –1 ; х 2 формула (2.2) определяет соответственно среднее арифметическое, среднее геометрическое, среднее гармоническое и среднее квадратическое.

В шкале интервалов и разностей центральную тенденцию адекватно отражает среднее арифметическое, в шкале отношений - среднее геометрическое, однако среднее геометрическое не рекомендуется применять при обработке данных, измеренных в шкале интервалов и разностей. В абсолютной шкале можно пользоваться любым средним, т.е. с усложнением типа шкалы измерения число средних, адекватных в этой шкале, увеличивается.