Известно распределение вероятностей. Случайные величины и законы распределения. Случайные величины и их распределения

Случайной называется величина, которая в результате испытания может принять то или иное возможное значение, неизвестное заранее. Различают дискретные и непрерывные случайные величины.
Если множество возможных значений случайной величины конечно или образуют бесконечную числовую последовательность, то такая случайная величина называется дискретной (примеры 3.1, 3.3, 3.4).
Случайная величина, множество значений которой заполняет сплошь некоторый числовой промежуток, называется непрерывной (пример 3.2). Заметим, что дискретные и непрерывные величины не исчерпывают все типы случайных величин.
Если случайная величина не относится ни к дискретным, ни к непрерывным случайным величинам, то ее называют смешанной .
Очевидно, что для полной характеристики дискретной случайной величины мало знать ее значения. Необходимо им поставить в соответствие вероятности.
Соответствие между всеми возможными значениями дискретной случайной величины и их вероятностями называется законом распределения данной случайной величины.
Простейшая формой задания закона распределения дискретной случайной величины является таблица, в которой перечислены возможные значения случайной величины (обычно в порядке возрастания) и соответствующие им вероятности:

Такая таблица называется рядом распределения. Допустим, что число возможных значений случайной величины конечно: х 1 , х 2 , …, х n . При одном испытании случайная величина принимает одно и только одно постоянное значение. Поэтому события Х = х i (i = 1, 2, … , n ) образуют полную группу попарно независимых событий. Следовательно, р 1 + р 2 + … + р n = 1.
Можно закон распределения изобразить и графически, откладывая на оси абсцисс возможные значения случайной величины, а на оси ординат – соответствующие вероятности. Для большей выразительности полученные точки соединяются прямолинейными отрезками. Получающая при этом фигура называется многоугольником (полигоном) распределения.
Существует ряд законов распределения:

· Биномиальное

· Пуассона

· Нормальное(Гауса)

· Показательное(экспоненциальное)

· Равномерное

Биномиальное распределение случайной величины


n – количество испытаний

Пуассоновское распределение.
Ситуация, когда вероятность появления события в каждом испытании близка к 0 (такие события называются редкими явлениями), а количество испытаний велико. Вероятность того, что в n независимых испытаниях событие наступит m раз, приближенно равна:

n – количество испытаний
m – предполагаемое наступление желаемого события
p- вероятность наступления события в одном испытании
Пример: Установлено, что при транспортировке в вагоне более 5000 изделий портится в среднем одно изделие. Найти вероятность того, что испортится три изделия. (0,06).




Математическим ожиданием

Дисперсия






Показательное (экспоненциальное) распределение

- интенсивность (среднее число событий в единицу времени)

Непрерывная случайная величина X, функция плотности которой задается данным выражением, называется случайной величиной, имеющей показательное, или экспоненциальное, распределение.

Величина срока службы различных устройств и времени безотказной работы отдельных элементов этих устройств при выполнении определенных условий обычно подчиняется показательному распределению. Другими словами, величина промежутка времени между появлениями двух последовательных редких событий подчиняется зачастую показательному распределению.

Как видно из формулы, показательное распределение определяется только одним параметром . Эта особенность показательного распределения указывает на его преимущество по сравнению с распределениями, зависящими от большего числа параметров.

График функций показательного распределения имеют вид:

Вероятность попадания случайной величины X в интервал :

,математическое ожидание

, дисперсия

Среднеквадратическое отклонение

Таким образом, для показательного распределения характерно, что среднее квадратическое отклонение численно равно математическому ожиданию.

Равномерное распределение
Равномерное распределение вероятностей является простейшим и может быть как дискретным, так и непрерывным. Дискретное равномерное распределение – это такое распределение, для которого вероятность каждого из значений СВ одна и та же, то есть:


где N – количество возможных значений СВ.

Распределение вероятностей непрерывной CВ Х, принимающие все свои значения из отрезка [а;b] называется равномерным, если ее плотность вероятности на этом отрезке постоянна, а вне его равна нулю:

11.Функция распределения и её свойства.

Функцией распределения случайной величины X называется вероятность того, что она примет значение меньшее, чем аргумент функции x :

F (x )=P{X <x }.

Геометрически функция распределения интерпретируется как вероятность того, что случайная точка X попадет левее заданной точки X. Из геометрической интерпретации наглядно можно вывести основные свойства функции распределения.

1. F (-¥) = 0.

2. F (+¥) = 1.

3. F (x ) – неубывающая функция своего аргумента, т.е. при x 1 < x 2

F (x 1) £ F (x 2).

4. P(α£ X < β) = F (β) - F (α), для "[α,β[ÎR. (5.4)

Вероятность того, что случайная величина Х в результате опыта попадет на участок от α до β (включая α) равна приращению функции распределени я на этом участке.

Таким образом, функция распределения F(x)любой случайной величины есть неубывающая функция своего аргумента, значения которой заключены между 0 и 1: 0≤F(x)≤1, причем F(-∞)=0, F(+∞)=1.

12. Функция распределения дискретной и непрерывной случайной величины.

Функция распределения дискретной случайной величины

Если x - дискретная случайная величина, принимающая значения x 1 < x 2 < … < x i < … с вероятностями p 1 < p 2 < … < p i < …, то таблица вида

называется распределением дискретной случайной величины .

Функция распределения случайной величины, с таким распределением, имеет вид

У дискретной случайной величины функция распределения ступенчатая.

Множество значений непрерывной случайной величины несчетно и обычно представляет собой некоторый промежуток конечный или бесконечный.

Случайная величина x(w),заданная в вероятностном пространстве {W, S,P}, называется непрерывной (абсолютно непрерывной) W, если существует неотрицательная функция такая, что при любых х функцию распределения Fx(x) можно представить в виде интеграла

13. Плотность распределения непрерывной случайной величины.

Функция называется функцией плотности распределения вероятностей .

Из определения вытекают свойства функции плотности распределения :

1. Плотность распределения неотрицательна: .

2. Интеграл по всей числовой прямой от плотности распределения вероятностей равен единице:

3. В точках непрерывности плотность распределения равна производной функции распределения: .

4. Плотность распределения определяет закон распределения случайной величины, т. к. определяет вероятность попадания случайной величины на интервал :

5.Вероятность того, что непрерывная случайная величина примет конкретное значение равна нулю: . Поэтому справедливы следующие равенства:

График функции плотности распределения называется кривой распределения , и площадь, ограниченная кривой распределения и осью абсцисс, равна единице. Тогда геометрически значение функции распределения Fx(x) в точке х0 есть площадь, ограниченная кривой распределения и осью абсцисс и лежащая левее точки х0.

14. Связь функции распределения и плотности распределения. Интегральная формула полной вероятности.

Зная плотность распределения F(X) , можно найти функцию распределения F(X) по формуле

.

Действительно, F(X) = P(X < X ) = P(-∞ < X < X) .

Следовательно,

.

.

Таким образом, Зная плотность распределения, можно найти функцию распределения. Разумеется, по известной функции распределения можно найти плотность распределения , а именно:

F(X) = F"(X).
15. Числовые характеристики случайных величин.

Закон распределения полностью описывает случайную величину с

вероятностной точки зрения. Но часто достаточно указать только отдель-

ные числовые параметры, которые позволяют в сжатой форме выразить

наиболее существенные черты распределения. Такие параметры называ-

ются числовыми характеристиками случайной величины.

Среди числовых характеристик можно выделить характеристики по-

ложения, т. е. некие средние, ориентировочные значения случайной вели-

чины, около которых группируются ее возможные значения.

К числовым характеристикам относятся:

· Математическое ожидание

· Дисперсия

· Медиана

· Моменты

· Квантиль

· Асимметрия

· Эксцентриситет

16.Математическое ожидание случайной величины и его свойства.

Математическое ожидание - число, вокруг которого сосредоточены значения случайной величины. Математическое ожидание случайной величины x обозначается M x .

Математическое ожидание дискретной случайной величины x , имеющей распределение

называется величина , если число значений случайной величины конечно.

Если число значений случайной величины счетно, то . При этом, если ряд в правой части равенства расходится, то говорят, что случайная величина x не имеет математического ожидания.

Математическое ожидание непрерывной случайной величины с плотностью вероятностей p x (x ) вычисляется по формуле . При этом, если интеграл в правой части равенства расходится, то говорят, что случайная величина x не имеет математического ожидания.

Если случайная величина h является функцией случайной величины x , h = f (x ), то

.

Аналогичные формулы справедливы для функций дискретной случайной величины:

, .

Основные свойства математического ожидания:

· математическое ожидание константы равно этой константе, M c=c ;

· математическое ожидание - линейный функционал на пространстве случайных величин, т.е. для любых двух случайных величин x , h и произвольных постоянных a и b справедливо: M (ax + bh ) = a M (x)+ b M (h);

· математическое ожидание произведения двух независимых случайных величин равно произведению их математических ожиданий, т.е. M (x h) = M (x)M (h).

17.Диспрсия случайной величины и её свойства.

Дисперсия случайной величины характеризует меру разброса случайной величины около ее математического ожидания.

Если случайная величина x имеет математическое ожидание M x , то дисперсией случайной величины x называется величина D x = M (x - M x ) 2 .

Легко показать, что D x = M (x - M x ) 2 = M x 2 - M (x) 2 .

Эта универсальная формула одинаково хорошо применима как для дискретных случайных величин, так и для непрерывных. Величина M x 2 >для дискретных и непрерывных случайных величин соответственно вычисляется по формулам

, .

Для определения меры разброса значений случайной величины часто используетсясреднеквадратичное отклонение ,связанное с дисперсией соотношением .

Основные свойства дисперсии:

· дисперсия любой случайной величины неотрицательна, D x 0;

· дисперсия константы равна нулю, D c =0;

· для произвольной константы D (cx ) = c 2 D (x);

· дисперсия суммы двух независимых случайных величинравна сумме их дисперсий: D (x ±h ) = D (x) + D (h).

18. Момент порядка k случайной величины, абсолютный и центральный моменты.

Начальным моментом k-го порядка случайной величины x называется математическое ожидание k -й степени случайной величины x , т.е. a k = M x k .

Центральным моментом k-го порядка случайной величины x называется величина m k , определяемая формулой m k = M (x - M x ) k .

Заметим, что математическое ожидание случайной величины - начальный момент первого порядка, a 1 = M x , а дисперсия - центральный момент второго порядка,

a 2 = M x 2 = M (x - M x ) 2 =D x .

Существуют формулы, позволяющие выразить центральные моменты случайной величины через ее начальные моменты, например:

m 2 =a 2 -a 1 2 , m 3 = a 3 - 3a 2 a 1 + 2a 1 3 .

Если плотность распределения вероятностей непрерывной случайной величины симметрична относительно прямой x = M x , то все ее центральные моменты нечетного порядка равны нулю.

АБСОЛЮТНЫЙ МОМЕНТ

случайной величин ы X - математич. ожидание Обычное обозначение А. м. таким образом,

Число r наз. порядком А. м. Если F(х).- функция распределения X, то

и, напр., если распределение Xимеет плотность p(х), то

19. Мода и Модой

случайной величины X называют ее наиболее вероятное значение, т. е. то,

для которого вероятность pi

или плотность распределения f (x) дости-

гают максимума. Моду обычно обозначают через Mx

Если многоугольник вероятности или плотность распределения достигают максимума в

нескольких точках, то такие распределения называют полимодальнымимедиана случайной величины.

Медианой непрерывной случайной величины X назы-

вается такое ее значение хm , для которого

20. Квантиль уровня x распределения случайной величины.

-кванти́ль случайной величины с функцией распределения - это любое число удовлетворяющее двум условиям:

2)

Заметим, что данные условия эквивалентны следующим:

Если - непрерывная строго монотонная функция, то существует единственный квантиль любого порядка который однозначно определяется из уравнения и, следовательно, выражается через функцию, обратную к функции распределения:

Кроме указанной ситуации, когда уравнение имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:

§ если указанное уравнение не имеет решений , то это означает, что существует единственная точка в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилем порядка . Для этой точки выполнены соотношения: и (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).

§ если уравнение имеет более одного решения , то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантиля порядка может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины в данный интервал равна нулю.

21.Асимметрия и эксцентриситет распределения случайной величины.

Асимметрия

В теории вероятностей и в математической статистике в качестве меры асимметрии распределения является коэффициент асимметрии, который определяется формулой ,

где m 3 - центральный момент третьего порядка, - среднеквадратичное отклонение.

Нормальное распределение наиболее часто используется в теории вероятностей и в математической статистике, поэтому график плотности вероятностей нормального распределения стал своего рода эталоном, с которым сравнивают другие распределения. Одним из параметров, определяющих отличие распределения случайной величины x , от нормального распределения, является эксцесс.

Эксцесс g случайной величины x определяется равенством .

У нормального распределения, естественно, g = 0. Если g (x) > 0, то это означает, что график плотности вероятностей p x (x ) сильнее “заострен”, чем у нормального распределения, если жеg (x) < 0, то “заостренность” графика p x (x ) меньше, чем у нормального распределения.

22. Биномиальный закон распределения.

P – вероятность наступления события в одном испытании.
q – вероятность не наступления события в одном испытании q = (1-p)
n – количество испытаний
k – предполагаемое количество наступления желаемого события
Формула Бернулли, позволяет вычислить вероятность того, что событие появится в n испытаниях ровно k раз.

23. Нормальный закон распределения случайной величины. Теория Лапласа-Ляпунова.
Нормальное (гаусовское) распределение
Это основной закон теории вероятностей. В пределе все законы стремятся к нормальным законам распределения. Сумма бесконечного числа случайных величин, распределенных по любым законам, в итоге приобретает нормальный закон распределения.

Непрерывная случайная величина Х называется распределенной по нормальному закону, если ее плотность распределения равна:

Математическим ожиданием дискретной случайной величины называют сумму произведений возможных значений случайной величины на вероятности их появления

Дисперсия - для оценки степени разброса (отклонения) какого-то показателя от его среднего значения используются понятия дисперсии.

Дисперсия выборки или выборочная дисперсия – это мера изменчивости переменной. Дисперсия вычисляется по формуле:

где х - выборочное среднее, N - число наблюдений в выборке. Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны. - среднеквадратическое отклонение случайной величины (квадратный корень из дисперсии.)

График функции нормального распределения, как видно из рисунка, имеет вид куполообразной кривой, называемой
Гауссовой, точка максимума имеет координаты Значит, эта ордината убывает с возрастанием значения (кривая «сжимается» к оси Ох) и возрастает с убыванием значения (кривая «растягивается» в положительном направлении оси Оу). Изменение значений параметра u (при неизменном значении ) не влияет на форму кривой, а лишь перемещает кривую вдоль оси Ох. Нормальное распределение с параметрами =0 и =1 называется нормированным. Функция распределения случайной величины в этом случае будет иметь вид:

Для =0, =1 график принимает вид:

Эта кривая при =0, =1 получила статус стандарта, ее называют единичной нормальной кривой, то есть любые собранные данные стремятся преобразовать так, чтобы кривая их распределения была максимально близка к этой стандартной кривой.

Нормализованную кривую изобрели для решения задач теории вероятности, но оказалось на практике, что она отлично аппроксимирует распределение частот при большом числе наблюдений для множества переменных

Пусть x 1 , x 2 , …, x n , …- неограниченная последовательность независимых случайных величин с математическими ожиданиями m 1 , m 2 , …, m n , … и дисперсиями s 1 2 , s 2 2 , …, s n 2 … . Обозначим , и .

СЛУЧАЙНЫХ ВЕЛИЧИН

Сначала рассмотрим некоторые законы распределения дис- кретных случайных величин.

      4.1 Биномиальное распределение .

Пусть случайная величина - это число появлений неко -торого событияв серии изнезависимых испытаний, в каждом из которых вероятность появления события
, а вероятность не появления события
Ряд распределения такой величины имеет вид:

где
. Такой ряд распределения называетсябиномиальным . Математическое ожидание случайной величины
в этом случае имеет вид:

(1)

Для вычисления этого выражения, продифференцировав по следующее выражение:
получим

Если мы умножим это равенство на , получим

(2)

Но
а правые части равенств (1) и (2) совпадают, тогда

Продифференцировав то же самое выражение дважды, получим

Умножив полученное равенство на , получим:

Таким образом,

Отсюда Тода

Итак, для биномиального распределения:

Пример. Произведено 20 независимых выстрелов по мише- ни. Вероятность попадания при каждом выстреле
. Найти математическое ожидание, дисперсию и среднее квад -ратическое ожидание числа попаданий.

Случайная величина
- число попаданий, распределена по биномиальному закону.Тогда

      4.2 Распределение Пуассона.

Определение. Дискретная случайная величина
имеет

закон распределения Пуассона , если она задаётся рядом рас- пределения

в котором вероятности определяются по формуле Пуассона

(3)

где (- среднее число появлений события в серии испытаний, в каждом из которых вероятность появления события постоянная величина
).

Приведём без доказательства следующую теорему.

ТЕОРЕМА . Математическое ожидание и дисперсия случай -ной величины, распределённой по закону Пуассона, совпадают и равны параметру этого закона, т.е.

При достаточно больших (вообще при
) и малых значениях
при условии, что произведение
- постоянная величина (
), закон распределения Пуассона является хорошим приближением биномиального за –кона, т.е. распределение Пуассона - это асимптотическое рас -пространение биномиального закона. Иногда этот закон назы -ваютзаконом редких явлений. По закону Пуассона распреде- лены, например, число сбоев автоматической линии, число от- казов системы в «нормальном режиме», число сбоев в работе АТС и т.п.

      4.3 Геометрическое распределение.

Определение. Дискретная случайная величина
име- етгеометрическое распределение , если
, где для некоторого события,

и её ряд распределения имеет вид:

В этом случае вероятности представляют собой бесконечно убывающую геометрическую прогрессию и её сумма

ТЕОРЕМА . В случае случайной величины, имеющей геомет- рическое распределение с параметром , математическое ожидание и дисперсия вычисляются по формулам:

Пример. Производятся выстрелы по мишени до первого попа- дания. Вероятность попадания при каждом выстреле
.

Составить ряд распределения случайной величины
- «чис- ло попаданий». Найти её математическое ожидание и среднее квадратическое отклонение.

По теореме,

среднее квадратическое отклонение

      Гипергеометрическое распределение .

Пусть в партии из
изделий имеется
стандартных. Случайным образом отбираютизделий. Пусть случайная величина
- число стандартных изделий среди отобранных. Очевидно, озможные значения этой случайной величины:

Вероятности возможных значений вычисляются по формуле:

Для этой случайной величине математическое ожидание вы- числяется по формуле
а дисперсия:

Пример. В урне находится 5 белых и 3 чёрных шара. Слу- чайным образом отобраны 3 шара. Составить ряд распределе- ния случайной величины
- числа белых шаров среди ото –бранных. Найти её математическое ожидание и дисперсию.

Возможные значения этой случайной величины: 0, 1, 2, 3. найдём их вероятности:

Получаем ряд распределения:

Математическое ожидание можно вычислить непосредственно, пользуясь известными формулами, а можно воспользоваться формулами из теоремы. В нашем примере

. Тогда

Теперь рассмотрим основные законы распределения непре- рывных случайных величин.

      4.5 Равномерное распределение.

Определение. Непрерывная случайная величина имеет рав -номерное распределение на отрезке
, если она имеет постоянное значение на этом отрезке и равна нулю вне этого отрезка, т.е. график её плотности имеет вид:

Так как площадь под графиком плотности распределения должна быть равна единице, то
Тогда

Её функция распределения имеет вид:


и её график

      4.6 Показательное распределение .

В практических приложениях теории вероятностей (напри-

мер, в сфере массового обслуживания, исследовании опера -ций, теории надёжности, в физике, биологии и т.п.) часто при- ходится иметь дело со случайными величинами, имеющими так называемое экспоненциальное, или показательное распре- деление.

Определение. Непрерывная случайная ыеличина
рас- пределена попоказательному закону , если её плотность распределения вероятностей имеет вид:

График этой функции:


0

Её функция распределения:


имеет график

О

Математическое ожидание:

Пример. Пусть случайная величина
- время работы не- которого механизма, имеет показательное распределение. Оп- ределить вероятность того, что механизм будет работать не менее 1000 часов, если среднее время его работы составляет 800 часов.

По условию задачи, математическое ожидание работы меха- низма
, а
. Тогда

Следовательно,

Искомая вероятность:

Замечание. Показательное распределение относится к од -нопараметрическим законам распределения (зависит только от ).

      4.7 Нормальное распределение.

Определение. Нормальным называют распределение вероят- ностей непрерывной случайной величины, которое имеет плот- ность распределения вероятностей, определяемую формулой:


(1)

Видим, что нормальное распределение определяется двумя параметрами : и. Чтобы задать нормальное распре -деление, достаточно задать эти два параметра.

Нормальный закон распределения очень широко распро- странён в задачах практики. Он проявляется в тех случаях, когда случайная величина
является результатом действи- ем большого числа различных факторов. Каждый фактор в отдельности влияет на случайную величину незначительно и нельзя сказать, какой из них влияет в большей степени, чем остальные. Примерами случайных величин, имеющих нормаль- ное распределение, можно считать: отклонение размеров дета- лей, изготовленных станком, от стандартных; ошибки при из -мерении; отклонения при стрельбе по мишени и т.п.

Основной закономерностью, выделяющей нормальный закон из остальных законов, является та, что он является предель -ным законом, к которому приближаются другие законы, т.е. при достаточно большом значении сумма независимых слу- чайных величин
, подчинённых каким угодно законам распределения, будет иметь распределение, сколь угодно близкое к нормальному.

Функция распределения нормально распределённой случай –ной величины имеет вид

(2)

По определению математического ожидания непрерывной случайной величины,

Введём новую переменную

Принимая во внимание, что новые пределы интегрирования равны старым, получим

Первой слагаемое равно нулю, как интеграл по симметрич -ному промежутку от нечётной функции. Второе из слагаемых равно (интеграл Пуассона
).

Таким образом, математическое ожидание нормально рас- пределённой случайной величины

По определению дисперсии непрерывной случайной величи- ны, учитывая, что
, получим

Снова введём новую переменную

Получим
Применив формулу интегрирования по частям и предыдущие вычисления, получа- ем
Тогда
Следовательно, вторым параметром нормального распределенияявляется сре- днее квадратическое отклонение.

Замечение. Нормированным называют нормальное распре –деление с параметрами
Плотность нормиро -ванного распределения задаётся функцией:

(3)

значения которой можно либо найти непосредмьвенно, либо воспользоватся соответствующими таблицами, которые можно найти во всех справочниках. Функция нормированного распре –деления имеет вид
. Тогда функция общего нормального распределения, заданная т формулой (2), выражается формулой
. Вероятность попа- дания нормированной нормально распределённой случайной величины
в интервал
определяется с помощью функции Лапласа
, значения которой также приведены в таблицах. В самом деле,

Учитывая, что
(по свойству плотности распре- деления,), в силу симметрии функции
относительно точ- ки
:

Тогда

График плотности нормального распределения называют нормальной кривой или кривой Гаусса .

Исследуем функцию:

Она определена на всей числовой прямой и положительна для всех . При неограниченном возрастанииданная функция стремится к нулю, т.е.
Производная этой функции
.

Производная равна 0 в точке
и меняет в этой точке знак с «+» на «-», т.е.
- точка максимума и в этой точке
. Найдя вторую производную функции, можем выяснить, что график функции имеет перегибы в точ- ках
. Схематически график выглядит следующим образом:


0

Для нормально распределенной случайной величины ве- роятность попадания в заданный интервал
вычисля –ется следующим образом:

Сделаем замену
.


где
.

Таким образом,


(4)

Пример. Масса вагона - случайная величина, распределён -ная по нормальному закону с математическим ожиданием 65 т. и средним квадратическим отклонением
т. Найти веро- ятность того, что очередной вагон имеет массу не более 70 т. и не менее 60 т

Иногда требуется вычислить вероятность того, что случай -ная величина по модулю отклоняется от среднего значения меньше чем некоторое значение , т.е.
. Для вычисления этой вероятности можем воспользоваться предыдущей формулой. В самом деле:

учитывая нечётность функции
. Следовательно,

(5)

Пример. Вероятность того, что нормально распределённая случайная с математическим ожиданием
откло- нится от среднего значения меньше чем на
равна 0.09. Чему равна вероятность попадания этой случайной величины в интервал (30, 35) ?

По условию,
Тогда
По таблице значений функции Лапласа, по – лучаем:
Тогда требуемая вероятность, по формуле (4),

Правило трёх сигм.

В формуле (5) положим
, получим

Если
и, следовательно,
, получаем:

т.е. вероятность того, что отклонение по абсолютной величине случайной величины от среднего значения меньше утроенного среднего квадратического отклонения равна 0,9973, т.е. очень близка к единице.

Правило трёх сигм состоит в том, что для нормально рас- пределённой случайной величины абсолютная величина её -отклонения от среднего не превосходит утроенного сред -него квадратического отклонения. На практике это правило применяется слудующим образом: Если распределение слу -чайной величины неизвестно, но для её параметров выпол -няется правило трёх сигм, то есть основание предположить, что она распределена по нормальному закону.

ЗАКОН РАСПРЕДЕЛЕНИЯ И ХАРАКТЕРИСТИКИ

СЛУЧАЙНЫХ ВЕЛИЧИН

Случайные величины, их классификация и способы описания.

Случайной называется величина, которая в результате опыта может принимать то или иное значение, но какое именно заранее не известно. Для случайной величины, таким образом, можно указать только значения, одно из которых она обязательно примет в результате опыта. Эти значения в дальнейшем будем называть возможными значениями случайной величины. Так как случайная величина количественно характеризует случайный результат опыта, она может рассматриваться как количественная характеристика случайного события.

Случайные величины обычно обозначаются заглавными буквами латинского алфавита, например, X..Y..Z, а их возможные значения- соответствующими малыми буквами.

Различают три типа случайных величин:

Дискретные; Непрерывные; Смешанные.

Дискретной называется такая случайная величина, число возможных значений которой образует счетное множество. В свою очередь, счетным называется множество, элементы которого можно пронумеровать. Слово «дискретный» происходит от латинского discretus , что означает «прерывистый, состоящий из отдельных частей» .

Пример 1. Дискретной случайной величиной является число бракованных деталей Х в партии из nтук. Действительно, возможными значениями этой случайной величины является ряд целых чисел от 0 до n.

Пример 2. Дискретной случайной величиной является число выстрелов до первого попадания в цель. Здесь, как и в примере 1, возможные значения можно пронумеровать, хотя в предельном случае возможное значение является бесконечно большим числом.

Непрерывной называется случайная величина, возможные значения которой непрерывно заполняют некоторый интервал числовой оси, называемый иногда интервалом существования этой случайной величины. Таким образом, на любом конечном интервале существования число возможных значений непрерывной случайной величины бесконечно велико.

Пример 3. Непрерывной случайной величиной является расход электроэнергии на предприятии за месяц.

Пример 4. Непрерывной случайной величиной является ошибка измерения высоты с помощью высотомера. Пусть из принципа работы высотомера известно, что ошибка лежит в пределах от 0 до 2 м. Поэтому интервалом существования данной случайной величины является интервал от 0 до 2 м.

Закон распределения случайных величин.

Случайная величина считается полностью заданной, если на числовой оси указаны ее возможные значения и установлен закон распределения.

Законом распределения случайной величины называется соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими вероятностями.

Про случайную величину говорят, что она распределена по данному закону, или подчинена данному закону распределения. В качестве законов распределения используются ряд вероятностей, функция распределения, плотность вероятности, характеристическая функция.

Закон распределения дает полное вероятное описание случайной величины. По закону распределения можно судить до опыта о том какие возможные значения случайной величины будут появляться чаще, а какие – реже.

Для дискретной случайной величины закон распределения может быть задан в виде таблицы, аналитически (в виде формулы) и графически.

Простейшей формой задания закона распределения дискретной случайной величины является таблица (матрица), в которой перечислены в порядке возрастания все возможные значения случайной величины и соответствующие их вероятности, т.е.

Такая таблица называется рядом распределения дискретной случайной величины. 1

События Х 1 , Х 2 ,..., Х n , состоящие в том, что в результате испытания случайная величина X примет соответственно значения х 1 , x 2 ,...х n являются несовместными и единственно возможными (ибо в таблице перечислены все возможные значения случайной величины), т.е. образуют полную группу. Следовательно, сумма их вероятностей равна 1. Таким образом, для любой дискретной случайной величины

(Эта единица как-то распределена между значениями случайной величины, отсюда и термин «распределение»).

Ряд распределения может быть изображен графически, если по оси абсцисс откладывать значения случайной величины, а по оси ординат - соответствующие их вероятности. Соединение полученных точек образует ломаную, называемую многоугольником или полигоном распределения вероятностей (рис. 1).

Пример В лотерее разыгрывается: автомобиль стоимостью 5000 ден. ед., 4 телевизора стоимостью 250 ден. ед., 5 видеомагнитофонов стоимостью 200 ден. ед. Всего продается 1000 билетов по 7 ден. ед. Составить закон распределения чистого выигрыша, полученного участником лотереи, купившим один билет.

Решение . Возможные значения случайной величины X - чистого выигрыша на один билет - равны 0-7 = -7 ден. ед. (если билет не выиграл), 200-7 = 193, 250-7 = 243, 5000-7 = 4993 ден. ед. (если на билет выпал выигрыш соответственно видеомагнитофона, телевизора или автомобиля). Учитывая, что из 1000 билетов число невыигравших составляет 990, а указанных выигрышей соответственно 5, 4 и 1, и используя классическое определение вероятности, получим.

) играет осо-бо важную роль в теории вероятностей и чаще других применяется в решении практических задач. Его главная особенность в том, что он является предельным законом, к которому приближаются дру-гие законы распределения при весьма часто встречающихся типич-ных условиях. Например, сумма достаточно большого числа неза-висимых (или слабо зависимых) случайных величин приближенно подчиняется нормальному закону, и это выполняется тем точнее, чем больше случайных величин суммируется.

Экспериментально доказано, что нормальному закону под-чиняются погрешности измерений, отклонения геометрических размеров и положения элементов строительных конструкций при их изготовлении и монтаже, изменчивость физико-механических характеристик материалов и нагру-зок, действующих на строительные конструкции.

Распределению Гаусса подчи-няются почти все случайные вели-чины, отклонение которых от сред-них значений вызывается большой совокупностью случайных факто-ров, каждый из которых в отдельности незначителен (центральная предельная теорема).

Нормальным распределением называется распределение случайной непрерывной величины, для которых плотность вероят-ностей имеет вид (рис. 18.1).

Рис. 18.1. Нормальный закон распределения при а 1 < a 2 .

(18.1)

где а и — параметры распределения.

Вероятностные характеристики случайной величины, распре-деленной по нормальному закону, равны:

Математическое ожидание (18.2)

Дисперсия (18.3)

Среднеквадратичное отклонение (18.4)

Коэффициент асимметрии А = 0 (18.5)

Эксцесс Е = 0. (18.6)

Параметр σ, входящий в распределение Гаусса равен сред-неквадратичному отношению слу-чайной величины. Величина а оп-ределяет положение центра рас-пределения (см. рис. 18.1), а величина а — ширину распределе-ния (рис. 18.2), т.е. статистический разброс вокруг средней величины.

Рис. 18.2. Нормальный закон распределения при σ 1 < σ 2 < σ 3

Вероятность попадания в заданный интервал (от x 1 до x 2) для нормального распределения, как и во всех случаях, определяется интегралом от плотности вероятности (18.1), который не выража-ется через элементарные функции и представляется специальной функцией, называется функцией Лапласа (интеграл вероятностей).

Одно из представлений интеграла вероятностей:

Величина и называется квантилем.

Видно, что Ф(х) — нечетная функция, т. е. Ф(-х) = -Ф(х). Значения этой функции вычислены и представлены в виде таблиц в технической и учебной литературе.


Функция распределения нормального закона (рис. 18.3) может быть выражена через ин-теграл вероятностей:

Рис. 18.2. Функция нормального закона распределения.

Вероятность попадания случайной величины, распределенной по нормальному закону, в интервал от х. до х, определяется выра-жением:

Следует заметить, что

Ф(0) = 0; Ф(∞) = 0,5; Ф(-∞) = -0,5.

При решении практических задач, связанных с распределе-нием, часто приходится рассматривать вероятность попадания в интервал, симметричный относительно математического ожидания, если длина этого интервала т.е. если сам интервал имеет грани-цу от до , имеем:

При решении практических задач границы отклонений слу-чайных величин выражаются через стандарт, среднеквадратичное отклонение, умноженное на некоторый множитель, определяющий границы области отклонений случайной величины.

Принимая и а также используя формулу (18.10) и таблицу Ф(х) (приложение № 1), получим

Эти формулы показывают , что если случайная величина име-ет нормальное распределение, то вероятность ее отклонения от сво-его среднего значения не более чем на σ составляет 68,27 %, не бо-лее чем на 2σ — 95,45 % и не более чем на Зσ — 99,73 %.

Поскольку величина 0,9973 близка к единице, практически считается невозможным отклонение нормального распределения случайной величины от математического ожидания более чем на Зσ. Это правило, справедливое только для нормального распределения, называется правилом трех сигм. Нарушение его имеет вероятность Р = 1 - 0,9973 = 0,0027. Этим правилом пользуются при установле-нии границ допустимых отклонений допусков геометрических ха-рактеристик изделий и конструкций.

Итак, мы приходим к задаче: как найти вероятность, что при следующем испытании случайная величина попадет в наперед заданный интервал?

Для ответа на этот вопрос, прежде всего надо ввести понятие закона распределения случайной величины.

Закон распределения случайной величины (ЗРСВ) – это способ рассчитать вероятность того, что случайная величина (СВ) примет то или иное значение (для дискретных случайных величин) или попадет в тот или иной интервал (для непрерывных случайных величин) в результате испытания.

Для дискретных СВ это чаще всего таблица. Например, для правильной игральной кости эта таблица будет выглядеть так:

1/6 1/6 1/6 1/6 1/6 1/6

Выпадение 1, 2, 3, 4, 5, или 6 равновероятно и равно одной шестой.

Для непрерывной случайной величины, ЗРСВ может быть задан или в виде графика или в виде формулы. Наибольшее значение в математической статистике имеет нормальный закон распределения случайной величины или закон Гаусса.

Это связано с тем, что очень многие СВ распределены именно по этому закону, в том числе и в биологии и медицине.

Итак, для вычисления вероятностей нам нужен закон Гаусса. Рассмотрим этот закон.

Поставим задачу более точно. Пусть у нас есть некоторая непрерывная случайная величина Х и мы хотим узнать какова вероятность, что при следующем испытании эта величина примет значение х i , лежащие в маленьком интервале от х до х+dx (здесь dx – дифференциал х). Тогда вероятность P(x i), что при следующем испытании это произойдет, по закону Гаусса будет равна:


Формула (1) позволяет рассчитать вероятность попадания следующего измерения в бесконечно маленький интервал dx. Но на практике нам надо научиться рассчитывать вероятность попадания в реальные интервалы, например в интервал от х=а до х=b. Это можно сделать с помощью формулы (2):


Поскольку интервал (а,b) мы задаем сами, следовательно, для расчета вероятности того, что результат следующего испытания попадет в этот интервал нам надо знать только два числа: μ - математическое ожидание и σ - среднее квадратическое отклонение .

Таким образом, оценка этих двух чисел является одной из основных задач математической статистики.

Итак, чтобы решить главную задачу, которая как мы знаем, состоит в том, чтобы научиться рассчитывать вероятность попадания случайной величины в тот или иной наперед заданный интервал, нам надо научиться рассчитывать эти два числа. Вот здесь нас ожидает неудача, поскольку точно рассчитать эти два числа оказалось невозможным! Оказалось, что для того чтобы точно получить эти два числа, например для случайной величины «рост», надо измерить рост у всех людей в мире! Ясно, что мы этого сделать не можем. Что же нам остается? А остается нам измерить рост у тех людей, до которых мы можем добраться, и по полученным значениям ОЦЕНИТЬ значения μ и σ. Подчеркну: не получить точные значения, а только оценить чему приблизительно они равны. Вот эти оценки, которые называются выборочным арифметическим средним () и оценкой среднеквадратичного отклонения (s) и являются самой первой целью большинства статистических исследований.

В нашем рассмотрении неожиданно появилось слово «выборочная». Попробуем объяснить, что оно значит. Для этого введем следующее определение:

Совокупность объектов, из которой отбирается некоторая часть ее членов для изучения, называется генеральной, а отобранная тем или иным способом часть генеральной совокупности называется выборочной совокупностью или выборкой.

В случае с ростом генеральной совокупностью является рост всех людей, тогда как те люди, у которых мы смогли измерить рост, называются выборкой из этой совокупности. Очевидно, что это определение справедливо для любой случайной величины.

РАСЧЕТ И S.

Расчет этих двух величин очень прост и задается следующими двумя формулами:

(3)

(4)

Чтобы пояснить формулы (3) и (4), представим себе, что мы измеряли рост у 50 человек. Это значит что n=50. Далее складываем все 50 полученных чисел и полученный результат делим на 50. Получаем значение среднего арифметического. Это все расчеты по формуле (3). Расчеты по формуле (4) несколько сложнее. Сначала от всех полученных в результате измерений 50 чисел отнимаем ранее полученную оценку среднего. Получаем 50 значений разности. Потом все 50 разностей возводим в квадрат, после чего все их складываем. Полученный результат делим на 49 (n-1). Из того что получилось, извлекаем квадратный корень. Расчеты среднего арифметического и оценки среднеквадратичного отклонения закончены.

Теперь, когда мы имеем оценки среднего и среднеквадратичного отклонения нам необходимо вернуться к формуле (2). Действительно, оценки μ и σ у нас есть, интервал (а,b) задаем сами, осталось взять интеграл... Но здесь нас подстерегает новая неприятность! Неопределенный интеграл такого вида не берется в элементарных функциях. На наше счастье мы имеем дело не с неопределенным интегралом, а с определенным интегралом. Как мы помним из предыдущего курса, определенный интеграл есть число и существует достаточно много численных методов получения этого числа с любой наперед заданной точностью. Применив один из этих методов, мы получим число, которое и будет вероятностью попадания следующего измерения случайной величины в интервал (a,b). Изменив границы интервала и проведя аналогичные расчеты мы получим вероятность попадания случайной величины в этот новый интервал и т.д. Задача вроде бы решена. У нас есть методика расчета вероятности попадания случайной величины в любой наперед заданный интервал. Однако проведение таких расчетов не очень удобно, поскольку требует много вычислений. Можно ли облегчить себе жизнь? Ну, первое, что приходит на ум это рассчитать все значения интеграла для интервалов, изменяющихся с определенным (небольшим шагом) и занести их в таблицу. Тогда можно пользоваться этой таблицей и ничего не считать. Но эта таблица будет верна, только для той случайной величины, для которой она рассчитывалась. Получается, что нам надо создавать бесчисленное количество таблиц для всевозможных случайных величин. Ясно, что здесь тоже надо что-то придумать. Человечество придумало, как обойтись одной таблицей для всех случаев. Для этого от нашей случайной величины X (любой, которую мы изучаем) надо перейти к другой случайной величине Z, используя следующее соотношение:

Что же мы получим в результате этой операции? Мы получим новую случайную величину, для которой = 0 и s = 1. Эта случайная величина называется нормированной нормально распределенной случайной величиной Z. Поскольку эту операцию можно провести для ЛЮБОЙ случайной величины, подчиняющейся закону Гаусса, мы можем любую случайную величину свести к случайной величине Z, а, следовательно, для расчета вероятности попадания исходной случайной величины в наперед заданный интервал построить ТОЛЬКО ОДНУ таблицу. Конечно же, такая таблица была давно построена, она приведена в приложении 3 и называется таблицей значений функции распределения нормированной нормально распределенной случайной величины

.(6).

Научимся пользоваться этой таблицей. Например рассмотрим число стоящее на пересечении строки, начинающейся с 0,5 и столбца, помеченного цифрой 5. Это число равно 0,7088. Оно показывает, что при следующем испытании вероятность что случайная величина примет значение МЕНЬШЕ 0,55 равна 0,7088. Обратите внимание, что номер столбца есть сотый знак заданного нами числа. Теперь поставим задачу так. Как пользуясь таблицей найти вероятность попадание в интервал (z 1 ,z 2), ведь это и есть наша основная задача. Если z 2 > z 1 , то искомая вероятность будет равна разности Ф(z 2)–Ф(z 1). Например, найдем вероятность, что при следующем испытании значение нормированной случайной величины попадет в интервал (0,95; 1,54). Сначала найдем Ф(1,54). Для этого найдем в таблице строку, которая начинается с 1,5, потом двигаемся по этой строке до столбца, помеченного цифрой 4. Там стоит значение Ф(1,54) = 0,9382. Аналогичным образом найдем Ф(0,95) = 0,8289. Тогда искомая вероятность будет равна: Р = 0,9382 – 0,8289 = 0,1093.

Для полного решения поставленной задачи осталось ответить только на один вопрос: а что если значения z получатся отрицательные? Ведь в таблице приложения 3 нет отрицательных значений. Ответ на этот вопрос дает следующая формула:

Ф(-z) = 1 – Ф(z) (7).

Из формулы (7) следует: если z получилось отрицательным, то надо найти значение Ф(z) по таблице считая z положительным, а потом найденное значение отнять от единицы, это и будет ответом. Теперь задача нахождения вероятности попадания случайной величины, распределенной по закону Гаусса, в любой наперед заданный интервал решена полностью

Для иллюстрации введенных в рассмотрение понятий разберем следующий пример. Пусть в родильном доме за сутки родилось 20 детей, вес которых с точностью до 0,1 килограмма приведен в таблице 1.

Таблица 1

Вес новорожденных в килограммах

X 1,8 2,1 3,1 4,2 3,6 2,2 3,1 3,9 4,4 2,6
3,3 3,8 3,3 4,8 2,8 3,6 3,4 2,8 3,7 3,2

Итак, в формуле (2) a=2, b=3

Задача 2.

Решение первой задачи хотя и важно, но конечно не достаточно для практических целей. Следующей важнейшей задачей статистики является получение ответа на вопрос можно ли считать, что какой-то эффект действительно существует или необходимо признать, что на самом деле эффекта нет, и все, что мы наблюдаем есть игра случая. Под эффектом может подразумеваться все что угодно, например, действительно ли жители Скандинавии выше ростом жителей Африки, действительно ли одно лекарство эффективнее другого, действительно ли физиологические параметры изменяются в процессе адаптации, действительно ли успеваемость в одном классе выше успеваемости в другом и т.д.

Очевидно, что все эти задачи нацелены на сравнение двух выборок. Встает вопрос как это сделать. Допустим, мы измеряли рост 10000 жителей Скандинавии и 10000 жителей Африки. Таким образом, мы имеем два набора по 10000 чисел. Ясно, что просто разглядывая эти числа, мы мало чего добьемся. Возникает потребность описать каждый из наборов небольшим количеством производных от них параметров и уже потом сравнивать не сами числа, входящие в тот или иной набор, а эти вновь полученные параметры, характеризующие каждый из наборов. Поскольку вновь полученные параметры описывают сделанную выборку, они получили название «описательные статистики». Описательные статистики можно разделить на несколько групп. Мы будем рассматривать две из них: меры центральной тенденции и меры рассеивания.

Меры центральной тенденции характеризуют центральное значение, вокруг которого распределены значения случайной величины. К ним относятся средняя арифметическая (введена в рассмотрение в предыдущем разделе) и медиана. Средняя арифметическая хорошо подходит для описания распределений, близких к нормальным. Если же распределение существенно отличается от нормального (например, имеет очень длинные и широкие хвосты), то в этом случае имеет смысл использовать для оценки "центрального" значения медиану.

Медиана распределения какой-либо случайной величины X – это такое число Me, для которого вероятность, что при следующем испытании получиться значение исследуемой случайной величины больше Me равно 1/2. Это означает, что вероятность получить значение меньше или равно Me также равна 1/2. Таким образом, медиана характеризует центр распределения в том смысле, что появление значений больше медианы и меньше медианы равновероятны.

Теперь рассмотрим алгоритм, как по значениям выборки оценить медиану. (Обратите внимание на слово «оценить»).

Первое, что надо сделать, это отранжировать, т.е. расположить по возрастающей все значения выборки. Если мы проделаем эту процедуру с выборкой, представленной в предыдущем разделе, то мы получим следующую таблицу:

X 1,8 2,1 2,2 2,6 2,8 2,8 3,1 3,1 3,2 3,3
3,3 3,4 3,6 3,6 3,7 3,8 3,9 4,2 4,4 4,8

Далее необходимо определить четное или нечетное число значений в выборке. Если число значений нечетное, то медиана равна значению, находящемуся в центре выборки, если число значений четное, то медиана равна полусумме значений, стоящих в центре выборки. В нашем случае число значений в выборке равно 20, т.е. четное. На 10-м месте стоит число 3,3, а на 11 месте также стоит число 3,3. Следовательно, медиана равна: . В нашем случае получилось, что медиана и среднее арифметическое равны, но это не всегда так.

Меры рассеивания характеризуют разброс, с которым случайная величина распределяется вокруг своего центрального значения. К этим мерам относятся дисперсия, среднеквадратичное отклонение (введено в рассмотрение в предыдущем разделе), стандартная ошибка среднего, коэффициент вариации.

Если за центральное значение взять среднее арифметическое, то оценку дисперсии можно вычислить по следующей формуле:

(8).

Для нашего случая

Как видно из сравнения формул (4) и (8) оценка среднеквадратичного отклонения связана с оценкой дисперсии следующим соотношением:

(9)

В нашем случае .

Большое значение в медицине при проведении расчетов играет такая мера разброса как стандартная ошибка среднего (m), поскольку результаты проведенных исследований часто представляются в виде: . Формула для расчета оценки стандартной ошибки среднего задается следующим простым соотношением:

(10)

Для нашего случая

Изложенные выше меры рассеивания (дисперсия, среднеквадратичное отклонение, стандартная ошибка среднего) имеют один недостаток: они дают показатель изменчивости признака в именованных величинах, а не в относительных. Например, для выборки, представленной в Таблице 1, дисперсия будет выражаться в кг 2 , а среднеквадратичное отклонение и стандартная ошибка в килограммах. Поэтому сопоставление (или сравнение) разноименных признаков по этим параметрам невозможно. Например, если бы мы измеряли не только вес новорожденных, но и их рост, то используя эти меры разброса нельзя было бы ответить на вопрос где изменчивость больше: в случае веса или в случае роста.

Для сравнения изменчивости двух разноименных выборок удобно пользоваться коэффициентом изменчивости (вариации) признака, который выражается в относительных величинах, а именно в процентах, и вычисляется по формуле:

(11).

В нашем случае

Чем большеV , тем более изменчив признак. Значения коэффициента вариации, невыходящие за пределы 10% , принято считать нормальными.

Если V>20% , то выборка некомпактна по заданному признаку.

Теперь, когда мы ввели в рассмотрение описательные статистики, задачу определить есть эффект или нет эффекта можно свести к вопросу различаются ли какие либо описательные статистики одной выборки от другой.

Казалось бы решение вопроса очень простое: посчитай описательные статистики одной и второй выборки и сравни их друг с другом. Однако дело обстоит далеко не так просто. Действительно, если бы мы измеряли вес не 20 новорожденных, а скажем, к примеру, только 19, было бы значение среднего и всех остальных описательных статистик тем же самым? Скорее всего НЕТ! Как говорилось, выше мы же всегда имеем дело с выборкой, а не с генеральной совокупностью, поэтому мы всегда получаем ОЦЕНКИ описательных статистик, а не их истинные значения. Следовательно, для решения поставленной задачи нельзя делать выводы, сравнивая непосредственно сами значения. Как же тогда решить задачу?

На помощь приходит понятие доверительного интервала. Идея доверительных интервалов возникает из вопроса: хорошо, мы не знаем точного значения той или иной описательной статистики, но мы хотя бы можем задать интервал, в котором оно находится? Ответ на этот вопрос таков: да мы можем построить интервал, внутри которого содержится точное значение той или иной описательной статистики с наперед заданной вероятностью. Таким образом, мы можем построить доверительный интервал, в котором точное значение описательной статистики содержится с вероятностью, например, 80% или 90%, или 95% или 99% и т.д.

Рассмотрим построение доверительного интервала для среднего значения. В этом случае получается следующее соотношение:

-mt < μ < +mt (12)

В формуле (12) - среднее арифметическое, μ – математическое ожидание (это и есть «истинное» значение, смотри (2)), m – стандартная ошибка среднего (см. (10)). Остается разобраться, что такое t. Буквой t обычно обозначается значение распределения Стьюдента. Расчет конкретного значения распределения Стьюдента для какого-либо конкретного случая довольно сложная задача, поэтому это распределение уже давно затабулировано и представлено в таблице приложения 4.

Рассмотрим эту таблицу. Для отыскания нужного нам значения надо, прежде всего, ответить для себя на вопрос: с какой вероятность мы собираемся строить доверительный интервал? В приложении 4 приведена таблица, которая позволяет строить доверительные интервалы с вероятностями 0,95, 0,99 и 0,999. Если мы задаемся, к примеру, вероятностью 0,95, значит, мы будем использовать первый столбец таблицы. Для того чтобы найти в этом столбце нужное нам число, надо найти строку, которая начинается с числа равного n-1, где n – число измерений. В нашем случае n=20, значит, мы ищем строку, начинающуюся с 19. На пересечении выбранного столбца и нужной строки и стоит нужное нам значение. В нашем случае это число равно 2,093. Следовательно, доверительный интервал будет () или, после вычислений (2,965; 3,635). Итак, истинное среднее (математическое ожидание) с вероятностью 0,95 лежит ГДЕ-ТО между этими двумя числами. Мы написали слово «где-то», чтобы проиллюстрировать одно из свойств доверительных интервалов: любое значение внутри интервала может оказаться математическим ожиданием с одинаковой вероятностью. Второе свойство состоит в том, что мы строили интервал с вероятностью 0,95, это означает, что с этой вероятностью истинное среднее лежит внутри интервала, но это также означает, что с вероятностью 0,05 его нет в данном интервале. Здесь мы впервые сталкиваемся с фундаментальным свойством любого статистического вывода: всегда есть вероятность, что он не верен. Статистический вывод это расчет вероятности справедливости двух гипотез: нулевой и альтернативной. Нулевая гипотеза всегда говорит «нет». Нет различий в описательных статистиках между двумя выборками, нет связи между двумя выборками и т.д. Очевидно, что альтернативная соответственно говорит «да». Возникает вопрос, когда можно считать нулевую гипотезу опровергнутой и принять альтернативную? Для этого нужно задаться уровнем значимости. Уровень значимости - это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда на самом деле она верна. В медицине принят минимальный уровень значимости 0,05. Что это значит? Если в результате расчетов мы получаем что вероятность справедливости нулевой гипотезы меньше 0,05 мы имеем право ее опровергнуть и принять альтернативную гипотезу, тем самым считать доказанным, что различия (а, следовательно, и эффект) есть.

Теперь у нас есть все необходимые понятия, для решения задачи «есть эффект или нет». Пусть мы имеем группу мужчин из 20 больных гипертонией одинакового возрастного диапазона и одинаковой тяжести заболевания. Пусть, далее они принимают новый препарат для снижения артериального давления. Необходимо ответить на вопрос: действительно ли данный препарат эффективен. Проведено фоновое (до лечения) суточное мониторированние систолического артериального давления и получены среднесуточные значения для каждого из 20 человек. После применения схемы лечения, опять проведено суточное мониторированние систолического артериального давления и также получены среднесуточные значения для каждого больного. В результате получены значения представленные в Таблице 2.

Таблица 2

Среднесуточные значения систолического артериального давления до и после лечения

Номер больного Среднесуточное систолическое давление (до лечения), мм.рт.ст. Среднесуточное систолическое давление (после лечения) мм.рт.ст. Разность систолического давления до лечения и после лечения, мм.рт.ст.
+10
+10
-2
+11
+8
+1
+4
+9
+8
+17
+9
+17
+11
+11
+27
+11
+22
-1
+15
+21
177,1 166.2 11,0
s 6,8 8,4 7,5
m 1,5 1,9 1,7

Алгоритм решения задачи с помощью доверительных интервалов.

Таким образом, можно решить Задачу 2 с помощью построения доверительных интервалов. Однако более часто используется другой подход для решения этой задачи. Он построен на вычислении экспериментального значения распределения Стьюдента и сравнения его с табличным.

Для построения этого алгоритма решения задачи 2 надо ввести еще два понятия. Зададимся вопросом можно ли в таблице 2 переставлять экспериментальные данные в столбцах произвольным порядком? Ответ: конечно нет, ведь в таком случае данные, полученные на одном пациенте попадут к другому! Такие выборки называются связанными выборками. В нашем случае они связаны номером пациента. Для таких выборок экспериментальное значение распределения Стьюдента рассчитывается по формуле:

(13)

В формуле (13) - среднее арифметическое разности, - среднеквадратичное отклонение для разности, - ошибка среднего для разности. Используя значения в таблице 2, рассчитаем .

Как мы уже знаем, табличное значение () для уровня 0,95 и числа степеней свободы 19 (20-1) равно 2,086, следовательно, в нашем случае . Следовательно, наблюдаемые различия в артериальном давлении действительно существуют. В настоящий момент мы делаем этот вывод на уровне значимости 0,05. Но теперь, когда мы имеем экспериментальное значение распределения Стьюдента, мы можем его сравнить с табличными значениями для других доверительных вероятностей. Посмотрим, например, чему равно табличное значение распределения Стьюдента для доверительной вероятности 0,99 (уровень значимости 0,01). Как следует из таблицы приложения 4, это значение равно 2,861, а для доверительной вероятности 0,999 (уровень значимости 0,001) – 3,883. Поскольку 6,47 > 3,883, мы можем сделать вывод о том, что изучаемое лекарство эффективно не только на уровне 0,05, т.е. допуская что вероятность ошибки не больше 5%, но и на уровне 0,001, т.е. вероятность того, что наш вывод не верен не превышает 0,1% !!!

Приведенные выше расчеты справедливы для связанных выборок. Теперь будем решать ту же задачу (действительно ли есть эффект или полученные различия есть не более чем игра случая) для не связанных выборок.

Рассмотрим, как проверяется гипотеза о неравенстве средних для несвязанных выборок. В этом случае экспериментальное значение распределения Стьюдента можно рассчитать по формуле:

(14)

В формуле (14) и соответственно среднее арифметическое для первой выборки и среднее арифметическое для второй выборки. Аналогично - объем первой выборки, - объем второй выборки, s – объединенная оценка среднеквадратичного отклонения двух групп, которая вычисляется по формуле:
(15)

В формуле (15) - оценка среднеквадратичного отклонения для первой группы, а - для второй. - значение распределения Стьюдента, рассчитанное по экспериментальным данным.

В таблице 3 приведены значения усредненной по всем оценкам успеваемости двух групп студентов в первом семестре. Необходимо определить, можно ли считать, что одна группа училась лучше другой.

Очевидно, что в данном случае мы имеем дело с несвязанными выборками.

Таблица 3

Осредненная успеваемость студентов двух групп за первый семестр.

№ по порядку Успеваемость в первой группе (средний балл за семестр) Успеваемость во второй группе (средний балл за семестр)
4,1 3,1
3,8 3,7
4,1 3,8
3,5 3,2
3,2 4,0
2,9 3,4
3,7 3,6
4,2 4,1
5,0 3,3
2,8 4,2
3,6 2,7
4,9 3,2
2,7
3,9
N
3,82 3,49
s по группам 0,69 0,49
s объединенное среднеквадратичное отклонение 0,59

Рассчитывали по формуле (3), и рассчитывали по формуле (4). Используя формулу (15) рассчитаем s:

Теперь используя формулу (14) рассчитаем экспериментальное значение распределения Стьюдента:

Далее находим теоретическое значение распределения Стьюдента для доверительной вероятности 0,95 и числом степеней свободы . То есть, ищем число, стоящее на пересечении первого столбца таблицы Приложения 4 и 24 строки. Из таблицы следует, что это число равно .

Следовательно, в нашем случае: , и мы не имеем права говорить, что одна группа учиться лучше (или хуже) другой. Мы вынуждены признать, что различия, наблюдаемые в успеваемости групп, носят случайный характер, а в целом успеваемость в группах одинакова.

Этим заканчивается решение задачи 2. Осталось сделать только два замечания.

Замечание 1 состоит в том, что приведенные выше схемы расчетов справедливы в том случае, если обе выборки сделаны из генеральных совокупностей, распределенных по закону Гаусса.

Замечание 2. Мы отдаем себе отчет в том, что в настоящее время никто в реальных расчетах считать вручную не будет. Однако для закрепления материала очень полезно провести расчеты с использованием калькулятора. Для этих целей ниже приводится полное решение модельной задачи.

Задача Содержание свободного гепарина крови в двух различных возрастных группах принимало следующие значения:

X 1 (мг%) 5,7 5,9 6,3 5,6 4,1 4,0 4,5 5,0 5,1 6,7
X 2 (мг%) 5,1 3,2 6,0 5,1 4,9 3,8 6,2 4,5 5,6 5,8

1. Вычислить выборочную среднюю арифметическую, среднеквадратичное отклонение, стандартную ошибку среднего, медиану, коэффициент вариации для каждого ряда и доверительные интервалы для средних. Сравнить средние значения гепарина для двух возрастных групп.

Решение:

Число измерений в каждом ряду n=10.

Выборочная средняя определяется по формуле:

Следовательно для первого ряда она равна:

Найдем дисперсию по формуле:

Следовательно, для первого ряда выборочная дисперсия равна:

Вычислим среднеквадратичное отклонение
.

Вычислим стандартную ошибку среднего

Для определения медианы (Ме 1 ) по заданным значениям х 1 i строим вариационный ряд:

4,0 4,1 4,5 5,0 5,1 5,6 5,7 5,9 6,3 6,7

При четном числе вариант медиана определится как среднее арифметическое из двух центральных вариант:

(мг,%)

Вычислим коэффициент вариации .

Рссчитаем 95% доверительный интервал для среднего. В нашем случае число измерений 10, а доверительная вероятность 0,95. Входим в таблицу приложения 4. На пересечении столбца 0,95 и девятой строки стоит число t= 2,262.

Следовательно, в нашем случае, , и значит доверительный интервал будет или окончательно .

Проведя аналогичные расчеты для второго ряда получим:

Сравнивая доверительный интервал для среднего первого ряда, с доверительным интервалом для второго ряда, легко увидеть, что они сильно перекрываются. Следовательно, наблюдаемые различия между средними являются случайными и мы должны прийти к заключению, что различий между ними нет.

2. Сравнить средние, используя вычисление экспериментального значения распределения Стьюдента.

В данном случае мы имеем дело с не связанными выборками, поэтому для вычисление экспериментального значения будем использовать следующую формулу:
.

Вычислим объединенная оценка среднеквадратичного отклонения двух групп:

Тогда
. Число степеней свободы в нашем случае равно n=10+10-2=18. Итак, входим в таблицы Приложения 4 по восемнадцатой строке и первому столбцу. На пересечении стоит число 2,103. Это число намного больше, чем полученное 0,71. Следовательно, мы приходим к тому же заключению, что средние двух выборок не различаются.

Итак, ответ в данном случае, будет выглядеть так: .