Что такое закон больших чисел простым языком. Закон больших чисел « в форме» теоремы Чебышева. Свойства математического ожидания

ЛЕКЦИЯ 5

Повторение пройденного

Часть 1 - ГЛАВА 9. ЗАКОН БОЛЬШИХ ЧИСЕЛ. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ

При статистическом определении
вероятности она трактуется как некоторое
число, к которому стремится относительная
частота случайного события. При
аксиоматическом определении вероятность –
это, по сути, аддитивная мера множества
исходов, благоприятствующих случайному
событию. В первом случае имеем дело с
эмпирическим пределом, во втором – с
теоретическим понятием меры. Совсем не
очевидно, что они относятся к одному и тому же
понятию. Связь разных определений
вероятности устанавливает теорема Бернулли,
являющаяся частным случаем закона больших
чисел.

При увеличении числа испытаний
биномиальный закон стремится к
нормальному распределению. Это теорема
Муавра–Лапласа, которая является
частным случаем центральной предельной
теоремы. Последняя гласит, что функция
распределения суммы независимых
случайных величин с ростом числа
слагаемых стремится к нормальному
закону.
Закон больших чисел и центральная
предельная теорема лежат в основании
математической статистики.

9.1. Неравенство Чебышева

Пусть случайная величина ξ имеет
конечные математическое ожидание
M[ξ] и дисперсию D[ξ]. Тогда для
любого положительного числа ε
справедливо неравенство:

Примечания

Для противоположного события:
Неравенство Чебышева справедливо для
любого закона распределения.
Положив
факт:
, получаем нетривиальный

9.2. Закон больших чисел в форме Чебышева

Теорема Пусть случайные величины
попарно независимы и имеют конечные
дисперсии, ограниченные одной и той же
постоянной
Тогда для
любого
имеем
Таким образом, закон больших чисел говорит о
сходимости по вероятности среднего арифметического случайных величин (т. е. случайной величины)
к среднему арифметическому их мат. ожиданий (т. е.
к не случайной величине).

9.2. Закон больших чисел в форме Чебышева: дополнение

Теорема (Маркова): закон больших
чисел выполняется, если дисперсия
суммы случайных величин растет не
слишком быстро с ростом n:

10. 9.3. Теорема Бернулли

Теорема: Рассмотрим схему Бернулли.
Пусть μn – число наступлений события А в
n независимых испытаниях, р – вероятность наступления события А в одном
испытании. Тогда для любого
Т.е. вероятность того, что отклонение
относительной частоты случайного события от
его вероятности р будет по модулю сколь угодно
мало, оно стремится к единице с ростом числа
испытаний n.

11.

Доказательство: Случайная величина μn
распределена по биномиальному закону, поэтому
имеем

12. 9.4. Характеристические функции

Характеристической функцией случайной
величины называется функция
где exp(x) = ex.
Таким образом,
представляет собой
математическое ожидание некоторой
комплексной случайной величины
связанной с величиной. В частности, если
– дискретная случайная величина,
заданная рядом распределения {xi, pi}, где i
= 1, 2,..., n, то

13.

Для непрерывной случайной величины
с плотностью распределения
вероятности

14.

15. 9.5. Центральная предельная теорема (теорема Ляпунова)

16.

Повторили пройденное

17. ОСНОВЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

ЧАСТЬ II. МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА

18. Эпиграф

«Существует три вида лжи: ложь,
наглая ложь и статистика»
Бенджамин Дизраэли

19. Введение

Две основные задачи математической
статистики:
сбор и группировка статистических
данных;
разработка методов анализа
полученных данных в зависимости от
целей исследования.

20. Методы статистического анализа данных:

оценка неизвестной вероятности события;
оценка неизвестной функции
распределения;
оценка параметров известного
распределения;
проверка статистических гипотез о виде
неизвестного распределения или о
значениях параметров известного
распределения.

21. ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

22. 1.1. Генеральная совокупность и выборка

Генеральная совокупность - все
множество исследуемых объектов,
Выборка – набор объектов, случайно
отобранных из генеральной совокупности
для исследования.
Объем генеральной совокупности и
объем выборки - число объектов в генеральной совокупности и выборке - будем
обозначать соответственно как N и n.

23.

Выборка бывает повторной, когда
каждый отобранный объект перед
выбором следующего возвращается в
генеральную совокупность, и
бесповторной, если отобранный
объект в генеральную совокупность не
возвращается.

24. Репрезентативная выборка:

правильно представляет особенности
генеральной совокупности, т.е. является
репрезентативной (представительной).
По закону больших чисел, можно утверждать,
что это условие выполняется, если:
1) объем выборки n достаточно большой;
2) каждый объект выборки выбран случайно;
3) для каждого объекта вероятность попасть
в выборку одинакова.

25.

Генеральная совокупность и выборка
могут быть одномерными
(однофакторными)
и многомерными (многофакторными)

26. 1.2. Выборочный закон распределения (статистический ряд)

Пусть в выборке объемом n
интересующая нас случайная величина ξ
(какой-либо параметр объектов
генеральной совокупности) принимает n1
раз значение x1, n2 раза – значение x2,... и
nk раз – значение xk. Тогда наблюдаемые
значения x1, x2,..., xk случайной величины
ξ называются вариантами, а n1, n2,..., nk
– их частотами.

27.

Разность xmax – xmin есть размах
выборки, отношение ωi = ni /n –
относительная частота варианты xi.
Очевидно, что

28.

Если мы запишем варианты в возрастающем порядке, то получим вариационный ряд. Таблица, состоящая из таких
упорядоченных вариант и их частот
(и/или относительных частот)
называется статистическим рядом или
выборочным законом распределения.
-- Аналог закона распределения дискретной
случайной величины в теории вероятности

29.

Если вариационный ряд состоит из очень
большого количества чисел или
исследуется некоторый непрерывный
признак, используют группированную
выборку. Для ее получения интервал, в
котором заключены все наблюдаемые
значения признака, разбивают на
несколько обычно равных частей
(подинтервалов) длиной h. При
составлении статистического ряда в
качестве xi обычно выбирают середины
подинтервалов, а ni приравнивают числу
вариант, попавших в i-й подинтервал.

30.

40
- Частоты -
35
30
n2
n3
ns
n1
25
20
15
10
5
0
a
a+h/2 a+3h/2
- Варианты -
b-h/2
b

31. 1.3. Полигон частот, выборочная функция распределения

Отложим значения случайной величины xi по
оси абсцисс, а значения ni – по оси ординат.
Ломаная линия, отрезки которой соединяют
точки с координатами (x1, n1), (x2, n2),..., (xk,
nk), называется полигоном
частот. Если вместо
абсолютных значений ni
на оси ординат отложить
относительные частоты ωi,
то получим полигон относительных частот

32.

По аналогии с функцией распределения
дискретной случайной величины по
выборочному закону распределения можно
построить выборочную (эмпирическую)
функцию распределения
где суммирование выполняется по всем
частотам, которым соответствуют значения
вариант, меньшие x. Заметим, что
эмпирическая функция распределения
зависит от объема выборки n.

33.

В отличие от функции
,найденной
для случайной величины ξ опытным
путем в результате обработки статистических данных, истинную функцию
распределения
,связанную с
генеральной совокупностью, называют
теоретической. (Обычно генеральная
совокупность настолько велика, что
обработать ее всю невозможно, т.е.
исследовать ее можно только
теоретически).

34.

Заметим, что:

35. 1.4. Свойства эмпирической функции распределения

Ступенчатый
вид

36.

Еще одним графическим представлением
интересующей нас выборки является
гистограмма – ступенчатая фигура,
состоящая из прямоугольников, основаниями которых служат подинтервалы
шириной h, а высотами – отрезки длиной
ni/h (гистограмма частот) или ωi/h
(гистограмма относительных частот).
В первом случае
площадь гистограммы равна объему
выборки n, во
втором – единице

37. Пример

38. ГЛАВА 2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ

39.

Задача математической статистики –
по имеющейся выборке получить
информацию о генеральной
совокупности. Числовые характеристики репрезентативной выборки -оценка соответствующих характеристик
исследуемой случайной величины,
связанной с генеральной
совокупностью.

40. 2.1. Выборочное среднее и выборочная дисперсия, эмпирические моменты

Выборочным средним называется
среднее арифметическое значений
вариант в выборке
Выборочное среднее используется для
статистической оценки математического
ожидания исследуемой случайной величины.

41.

Выборочной дисперсией называется
величина, равная
Выборочным средним квадратическим
отклонением –

42.

Легко показать, что выполняется
следующее соотношение, удобное для
вычисления дисперсии:

43.

Другими характеристиками
вариационного ряда являются:
мода M0 – варианта, имеющая
наибольшую частоту, и медиана me –
варианта, которая делит вариационный
ряд на две части, равные числу
вариант.
2, 5, 2, 11, 5, 6, 3, 13, 5 (мода = 5)
2, 2, 3, 5, 5, 5, 6, 11,13 (медиана = 5)

44.

По аналогии с соответствующими
теоретическими выражениями можно
построить эмпирические моменты,
применяемые для статистической
оценки начальных и центральных
моментов исследуемой случайной
величины.

45.

По аналогии с моментами
теории
вероятностей начальным эмпирическим
моментом порядка m называется величина
центральным эмпирическим моментом
порядка m -

46. 2.2. Свойства статистических оценок параметров распределения: несмещен-ность, эффективность, состоятельность

2.2. Свойства статистических оценок
параметров распределения: несмещенность, эффективность, состоятельность
После получения статистических оценок
параметров распределения случайной
величины ξ: выборочного среднего, выборочной дисперсии и т. д., необходимо убедиться,
что они являются хорошим приближением
для соответствующих параметров
теоретического распределения ξ.
Найдем условия, которые должны для этого
выполняться.

47.

48.

Статистическая оценка A* называется
несмещенной, если ее математическое
ожидание равно оцениваемому параметру
генеральной совокупности A при любом
объеме выборки, т.е.
Если это условие не выполняется, оценка
называется смещенной.
Несмещенность оценки не является достаточным
условием хорошего приближения статистической
оценки A* к истинному (теоретическому) значению
оцениваемого параметра A.

49.

Разброс отдельных значений
относительно среднего значения M
зависит от величины дисперсии D.
Если дисперсия велика, то значение
найденное по данным одной выборки,
может значительно отличаться от
оцениваемого параметра.
Следовательно, для надежного
оценивания дисперсия D должна
быть мала. Статистическая оценка
называется эффективной, если при
заданном объеме выборки n она имеет
наименьшую возможную дисперсию.

50.

К статистическим оценкам
предъявляется еще требование
состоятельности. Оценка называется
состоятельной, если при n → она
стремится по вероятности к
оцениваемому параметру. Заметим, что
несмещенная оценка будет
состоятельной, если при n → ее
дисперсия стремится к 0.

51. 2.3. Свойства выборочного среднего

Будем полагать, что варианты x1, x2,..., xn
являются значениями соответствующих
независимых одинаково распределенных случайных величин
,
имеющих математическое ожидание
и дисперсию
. Тогда
выборочное среднее можно
рассматривать как случайную величину

52.

Несмещенность. Из свойств
математического ожидания следует, что
т.е. выборочное среднее является
несмещенной оценкой математического
ожидания случайной величины.
Можно также показать эффективность
оценки по выборочному среднему математического ожидания (для нормального
распределения)

53.

Состоятельность. Пусть a – оцениваемый
параметр, а именно математическое
ожидание генеральной совокупности
– дисперсия генеральной совокупности
.
Рассмотрим неравенство Чебышева
У нас:
тогда
. При n → правая часть
неравенства стремится к нулю для любого ε > 0, т.е.
и, следовательно, величина X, представляющая выборочную
оценку, стремится к оцениваемому параметру a по вероятности.

54.

Таким образом, можно сделать вывод,
что выборочное среднее является
несмещенной, эффективной (по
крайней мере, для нормального
распределения) и состоятельной
оценкой математического ожидания
случайной величины, связанной с
генеральной совокупностью.

55.

56.

ЛЕКЦИЯ 6

57. 2.4. Свойства выборочной дисперсии

Исследуем несмещенность выборочной дисперсии D* как
оценки дисперсии случайной величины

58.

59.

60. Пример

Найти выборочное среднее, выборочную
дисперсию и среднее квадратическое
отклонение, моду и исправленную выборочную
дисперсию для выборки, имеющей следующий
закон распределения:
Решение:

61.

62. ГЛАВА 3. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ ИЗВЕСТНОГО РАСПРЕДЕЛЕНИЯ

63.

Будем считать, что общий вид закона
распределения нам известен и
остается уточнить детали –
параметры, определяющие его
действительную форму. Существует
несколько методов решения этой
задачи, два из которых мы
рассмотрим: метод моментов и метод
наибольшего правдоподобия

64. 3.1. Метод моментов

65.

Метод моментов, развитый Карлом
Пирсоном в 1894 г., основан на
использовании этих приближенных равенств:
моменты
рассчитываются
теоретически по известному закону
распределения с параметрами θ, а
выборочные моменты
вычисляются
по имеющейся выборке. Неизвестные
параметры
определяются в
результате решения системы из r уравнений,
связывающих соответствующие
теоретический и эмпирический моменты,
например,
.

66.

Можно показать, что оценки
параметров θ, полученные методом
моментов, состоятельны, их
математические ожидания отличаются
от истинных значений параметров на
величину порядка n–1, а средние
квадратические отклонения являются
величинами порядка n–0,5

67. Пример

Известно, что характеристика ξ объектов
генеральной совокупности, являясь случайной
величиной, имеет равномерное распределение, зависящее от параметров a и b:
Требуется определить методом моментов
параметры a и b по известному выборочному
среднему
и выборочной дисперсии

68. Напоминание

α1 – мат.ожидание β2 - дисперсия

69.

(*)

70.

71. 3.2. Метод наибольшего правдоподобия

В основе метода лежит функция правдоподобия
L(x1, x2,..., xn, θ), являющаяся законом
распределения вектора
, где
случайные величины
принимают значения
вариант выборки, т.е. имеют одинаковое
распределение. Поскольку случайные величины
независимы, функция правдоподобия имеет вид:

72.

Идея метода наибольшего
правдоподобия состоит в том, что мы
ищем такие значения параметров θ, при
которых вероятность появления в
выборке значений вариант x1, x2,..., xn
является наибольшей. Иными словами,
в качестве оценки параметров θ
берется вектор,при котором функция
правдоподобия имеет локальный
максимум при заданных x1, x2, …, xn:

73.

Оценки по методу максимального
правдоподобия получаются из
необходимого условия экстремума
функции L(x1,x2,..., xn,θ) в точке

74. Примечания:

1. При поиске максимума функции правдоподобия
для упрощения расчетов можно выполнить
действия, не изменяющие результата: во-первых,
использовать вместо L(x1, x2,..., xn,θ) логарифмическую функцию правдоподобия l(x1, x2,..., xn,θ) =
ln L(x1, x2,..., xn,θ); во-вторых, отбросить в выражении
для функции правдоподобия не зависящие от θ
слагаемые (для l) или положительные
сомножители (для L).
2. Оценки параметров, рассмотренные нами,
можно назвать точечными оценками, так как для
неизвестного параметра θ определяется одна
единственная точка
, являющаяся его
приближенным значением. Однако такой подход
может приводить к грубым ошибкам, и точечная
оценка может значительно отличаться от истинного
значения оцениваемого параметра (особенно в
случае выборки малого объема).

75. Пример

Решение. В данной задаче следует оценить
два неизвестных параметра: a и σ2.
Логарифмическая функция правдоподобия
имеет вид

76.

Отбросив в этой формуле слагаемое, которое не
зависит от a и σ2, составим систему уравнений
правдоподобия
Решая, получаем:

77. ГЛАВА 4. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ ИЗВЕСТНОГО РАСПРЕДЕЛЕНИЯ

78.









(*)

79.

(*)

80. 4.1. Оценивание математического ожидания нормально распределенной величины при известной дисперсии







выборочное среднее
как значение случайной



81.

Имеем:
(1)
(2)

82.

(2)
(1)
(*)
(*)

83. 4.2. Оценивание математического ожидания нормально распределенной величины при неизвестной дисперсии

84.




степенями свободы. Плотность

величины есть

85.

86. Плотность распределения Стьюдента c n – 1 степенями свободы

87.

88.

89.







находить по формулам

90. 4.3. Оценивание среднего квадратического отклонения нормально распределенной величины





отклонением σ.

неизвестным математическим
ожиданием.

91. 4.3.1. Частный случай известного математического ожидания






Используя величины
,


выборочной дисперсии D*:

92.



величины
имеют нормальное




93.


условия
где
– плотность распределения χ2


94.

95.

96.

97. 4.3.2. Частный случай неизвестного математического ожидания








(где случайная величина


χ2 с n–1 степенями свободы.

98.

99. 4.4. Оценивание математического ожидания случайной величины для произвольной выборки










выборке большого объема (n >> 1).

100.




величин
, имеющих

дисперсию
, а полученное
выборочное среднее
как значение
случайной величины

величина
имеет асимптотически


.

101.






использовать формулу

102.

103.

Лекция 7

104.

Повторение пройденного

105. ГЛАВА 4. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ ИЗВЕСТНОГО РАСПРЕДЕЛЕНИЯ

106.

Задачу оценивания параметра известного
распределения можно решать путем
построения интервала, в который с заданной
вероятностью попадает истинное значение
параметра. Такой метод оценивания
называется интервальной оценкой.
Обычно в математике для оценки
параметра θ строится неравенство
(*)
где число δ характеризует точность оценки:
чем меньше δ, тем лучше оценка.

107.

(*)

108. 4.1. Оценивание математического ожидания нормально распределенной величины при известной дисперсии

Пусть исследуемая случайная величина ξ распределена по нормальному закону с известным
средним квадратическим отклонением σ и
неизвестным математическим ожиданием a.
Требуется по значению выборочного среднего
оценить математическое ожидание ξ.
Как и ранее, будем рассматривать получаемое
выборочное среднее
как значение случайной
величины, а значения вариант выборки x1, x2, …,
xn – соответственно как значения одинаково
распределенных независимых случайных величин
, каждая из которых имеет мат. ожидание a и среднее квадратическое отклонение σ.

109.

Имеем:
(1)
(2)

110.

(2)
(1)
(*)
(*)

111. 4.2. Оценивание математического ожидания нормально распределенной величины при неизвестной дисперсии

112.

Известно, что случайная величина tn,
заданная таким образом, имеет
распределение Стьюдента с k = n – 1
степенями свободы. Плотность
распределения вероятностей такой
величины есть

113.

114. Плотность распределения Стьюдента c n – 1 степенями свободы

115.

116.

117.

Примечание. При большом числе степеней
свободы k распределение Стьюдента
стремится к нормальному распределению с
нулевым математическим ожиданием и
единичной дисперсией. Поэтому при k ≥ 30
доверительный интервал можно на практике
находить по формулам

118. 4.3. Оценивание среднего квадратического отклонения нормально распределенной величины

Пусть исследуемая случайная величина
ξ распределена по нормальному закону
с математическим ожиданием a и
неизвестным средним квадратическим
отклонением σ.
Рассмотрим два случая: с известным и
неизвестным математическим
ожиданием.

119. 4.3.1. Частный случай известного математического ожидания

Пусть известно значение M[ξ] = a и требуется
оценить только σ или дисперсию D[ξ] = σ2.
Напомним, что при известном мат. ожидании
несмещенной оценкой дисперсии является
выборочная дисперсия D* = (σ*)2
Используя величины
,
определенные выше, введем случайную
величину Y, принимающую значения
выборочной дисперсии D*:

120.

Рассмотрим случайную величину
Стоящие под знаком суммы случайные
величины
имеют нормальное
распределение с плотностью fN (x, 0, 1).
Тогда Hn имеет распределение χ2 с n
степенями свободы как сумма квадратов n
независимых стандартных (a = 0, σ = 1)
нормальных случайных величин.

121.

Определим доверительный интервал из
условия
где
– плотность распределения χ2
и γ – надежность (доверительная
вероятность). Величина γ численно равна
площади заштрихованной фигуры на рис.

122.

123.

124.

125. 4.3.2. Частный случай неизвестного математического ожидания

На практике чаще всего встречается ситуация,
когда неизвестны оба параметра нормального
распределения: математическое ожидание a и
среднее квадратическое отклонение σ.
В этом случае построение доверительного
интервала основывается на теореме Фишера, из
кот. следует, что случайная величина
(где случайная величина
принимающая значения несмещенной
выборочной дисперсии s2, имеет распределение
χ2 с n–1 степенями свободы.

126.

127. 4.4. Оценивание математического ожидания случайной величины для произвольной выборки

Интервальные оценки математического
ожидания M[ξ], полученные для нормально
распределенной случайной величины ξ ,
являются, вообще говоря, непригодными для
случайных величин, имеющих иной вид
распределения. Однако есть ситуация, когда
для любых случайных величин можно
пользоваться подобными интервальными
соотношениями, – это имеет место при
выборке большого объема (n >> 1).

128.

Как и выше, будем рассматривать варианты
x1, x2,..., xn как значения независимых,
одинаково распределенных случайных
величин
, имеющих
математическое ожидание M[ξi] = mξ и
дисперсию
, а полученное
выборочное среднее
как значение
случайной величины
Согласно центральной предельной теореме
величина
имеет асимптотически
нормальный закон распределения c
математическим ожиданием mξ и дисперсией
.

129.

Поэтому, если известно значение дисперсии
случайной величины ξ, то можно
пользоваться приближенными формулами
Если же значение дисперсии величины ξ
неизвестно, то при больших n можно
использовать формулу
где s – исправленное ср.-кв. отклонение

130.

Повторили пройденное

131. ГЛАВА 5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

132.

Статистической гипотезой называют гипотезу о
виде неизвестного распределения или о параметрах
известного распределения случайной величины.
Проверяемая гипотеза, обозначаемая обычно как
H0, называется нулевой или основной гипотезы.
Дополнительно используемая гипотеза H1,
противоречащая гипотезе H0, называется
конкурирующей или альтернативной.
Статистическая проверка выдвинутой нулевой
гипотезы H0 состоит в ее сопоставлении с
выборочными данными. При такой проверке
возможно появление ошибок двух видов:
а) ошибки первого рода – случаи, когда отвергается
правильная гипотеза H0;
б) ошибки второго рода – случаи, когда
принимается неверная гипотеза H0.

133.

Вероятность ошибки первого рода будем
называть уровнем значимости и обозначать
как α.
Основной прием проверки статистических
гипотез заключается в том, что по
имеющейся выборке вычисляется значение
статистического критерия – некоторой
случайной величины T, имеющей известный
закон распределения. Область значений T,
при которых основная гипотеза H0 должна
быть отвергнута, называют критической, а
область значений T, при которых эту гипотезу
можно принять, – областью принятия
гипотезы.

134.

135. 5.1. Проверка гипотез о параметрах известного распределения

5.1.1. Проверка гипотезы о математическом
ожидании нормально распределенной случайной
величины
Пусть случайная величина ξ имеет
нормальное распределение.
Требуется проверить предположение о том,
что ее математическое ожидание равно
некоторому числу a0. Рассмотрим отдельно
случаи, когда дисперсия ξ известна и когда
она неизвестна.

136.

В случае известной дисперсии D[ξ] = σ2,
как и в п. 4.1, определим случайную
величину, принимающую значения
выборочного среднего. Гипотеза H0
изначально формулируется как M[ξ] =
a0. Поскольку выборочное среднее
является несмещенной оценкой M[ξ], то
гипотезу H0 можно представить как

137.

Учитывая несмещенность исправленных
выборочных дисперсий, нулевую гипотезу можно
записать следующим образом:
где случайная величина
принимает значения исправленной выборочной
дисперсии величины ξ и аналогична случайной
величине Z, рассмотренной в п. 4.2.
В качестве статистического критерия выберем
случайную величину
принимающую значение отношения бóльшей
выборочной дисперсии к меньшей.

145.

Случайная величина F имеет
распределение Фишера – Снедекора с
числом степеней свободы k1 = n1 – 1 и k2
= n2 – 1, где n1 – объем выборки, по
которой вычислена бóльшая
исправленная дисперсия
, а n2 –
объем второй выборки, по которой
найдена меньшая дисперсия.
Рассмотрим два вида конкурирующих
гипотез

146.

147.

148. 5.1.3. Сравнение математических ожиданий независимых случайных величин

Сначала рассмотрим случай нормального
распределения случайных величин с известными
дисперсиями, а затем на его основе – более общий
случай произвольного распределения величин при
достаточно больших независимых выборках.
Пусть случайные величины ξ1 и ξ2 независимы и
распределены нормально, и пусть их дисперсии D[ξ1]
и D[ξ2] известны. (Например, они могут быть найдены
из какого-то другого опыта или рассчитаны
теоретически). Извлечены выборки объемом n1 и n2
соответственно. Пусть
– выборочные
средние для этих выборок. Требуется по выборочным
средним при заданном уровне значимости α
проверить гипотезу о равенстве математических
ожиданий рассматриваемых случайных величин сделать из априорных соображений,
основываясь на условиях эксперимента, и
тогда предположения о параметрах
распределения исследуются, как показано
ранее. Однако весьма часто возникает
необходимость проверить выдвинутую
гипотезу о законе распределения.
Статистические критерии, предназначенные
для таких проверок, обычно называются
критериями согласия.

154.

Известно несколько критериев согласия. Достоинством
критерия Пирсона является его универсальность. С его
помощью можно проверять гипотезы о различных
законах распределения.
Критерий Пирсона основан на сравнении частот,
найденных по выборке (эмпирических частот), с
частотами, рассчитанными с помощью проверяемого
закона распределения (теоретическими частотами).
Обычно эмпирические и теоретические частоты
различаются. Следует выяснить, случайно ли
расхождение частот или оно значимо и объясняется
тем, что теоретические частоты вычислены исходя из
неверной гипотезы о распределении генеральной
совокупности.
Критерий Пирсона, как и любой другой, отвечает на
вопрос, есть ли согласие выдвинутой гипотезы с
эмпирическими данными при заданном уровне
значимости.

155. 5.2.1. Проверка гипотезы о нормальном распределении

Пусть имеется случайная величина ξ и сделана
выборка достаточно большого объема n с большим
количеством различных значений вариант. Требуется
при уровне значимости α проверить нулевую гипотезу
H0 о том, что случайная величина ξ распределена
нормально.
Для удобства обработки выборки возьмем два числа
α и β:
и разделим интервал [α, β] на s
подинтервалов. Будем считать, что значения вариант,
попавших в каждый подинтервал,приближенно равны
числу, задающему середину подинтервала.
Подсчитав число вариант, попавших в каждый Квантилью порядка α (0 < α < 1) непрерывной
случайной величины ξ называется такое число xα,
для которого выполняется равенство
.
Квантиль x½ называется медианой случайной
величины ξ, квантили x¼ и x¾ – ее квартилями, a
x0,1, x0,2,..., x0,9 – децилями.
Для стандартного нормального распределения (a =
0, σ = 1) и, следовательно,
где FN (x, a, σ) – функция распределения нормально
распределенной случайной величины, а Φ(x) –
функция Лапласа.
Квантиль стандартного нормального распределения
xα для заданного α можно найти из соотношения

162. 6.2. Распределение Стьюдента

Если
– независимые
случайные величины, имеющие
нормальное распределение с нулевым
математическим ожиданием и
единичной дисперсией, то
распределение случайной величины
называют распределением Стьюдента
с n степенями свободы (W.S. Gosset).

Если явление устойчивости средних имеет место в действительности, то в математической модели, с помощью которой мы изучаем случайные явления, должна существовать отражающая этот факт теорема.
В условиях этой теоремы введем ограничения на случайные величины X 1 , X 2 , …, X n :

а) каждая случайная величина Х i имеет математическое ожидание

M (Х i ) = a ;

б) дисперсия каждой случайной величины конечна или, можно сказать, что дисперсии ограничены сверху одним и тем же числом, например С , т. е.

D (Х i ) < C, i = 1, 2, …, n ;

в) случайные величины попарно независимы, т. е. любые две X i и X j при i ¹ j независимы.

Тогда, очевидно

D (X 1 + X 2 + … + X n )= D (X 1) + D (X 2) + ... + D (X n ).

Сформулируем закон больших чисел в форме Чебышева.

Теорема Чебышева: при неограниченном увеличении числа n независимых испытаний «средняя арифметическая наблюдаемых значений случайной величины сходится по вероятности к ее математическому ожиданию », т. е. для любого положительного ε

Р (| а| < ε ) = 1. (4.1.1)

Смысл выражения «средняя арифметическая = сходится по вероятности к a» состоит в том, что вероятность того, что будет сколь угодно мало отличаться от a , неограниченно приближается к 1 с ростом числа n .

Доказательство. Для конечного числа n независимых испытаний применим неравенство Чебышева для случайной величины = :

Р (|– M ()| < ε ) ≥ 1 – . (4.1.2)

Учитывая ограничения а – в, вычислим M ( ) и D ( ):

M ( ) = = = = = = а ;

D ( ) = = = = = = .

Подставляя M ( ) и D ( ) в неравенство (4.1.2), получим

Р (| а| < ε )≥1 .

Если в неравенстве (4.1.2) взять сколь угодно малое ε >0и n ® ¥, то получим

что и доказывает теорему Чебышева.

Из рассмотренной теоремы вытекает важный практический вывод: неизвестное нам значение математического ожидания случайной величины мы вправе заменить средним арифметическим значением, полученным по достаточно большому числу опытов. При этом, чем больше опытов для вычисления, тем с большей вероятностью (надежностью) можно ожидать, что связанная с этой заменой ошибка ( – а )не превзойдет заданную величину ε .

Кроме того, можно решать другие практические задачи. Например, по значениям вероятности (надежности) Р = Р (| а| < ε )и максимальной допустимой ошибке ε определить необходимое число опытов n ; по Р и п определить ε; по ε и п определить границу вероятности события | а | < ε.

Частный случай . Пусть при n испытаниях наблюдаются n значений случайной величины X, имеющей математическое ожидание M (X ) и дисперсию D (X ). Полученные значения можно рассматривать как случайные величины Х 1 , Х 2 , Х 3 , ... , Х n ,. Это следует понимать так: серия из п испытаний проводится неоднократно, поэтому в результате i -го испытания, i = l, 2, 3, ..., п , в каждой серии испытаний появится то или иное значение случайной величины X , не известное заранее. Следовательно, i -e значение x i случайной величины, полученное в i -м испытании, изменяется случайным образом, если переходить от одной серии испытаний к другой. Таким образом, каждое значение x i можно считать случайной величиной X i .


Предположим, что испытания удовлетворяют следующим требованиям:

1. Испытания независимы. Это означает, что результаты Х 1 , Х 2 ,
Х 3 , ..., Х n испытаний – независимые случайные величины.

2. Испытания проводятся в одинаковых условиях – это означает, с точки зрения теории вероятностей, что каждая из случайных величин Х 1 , Х 2 , Х 3 , ... , Х n имеет такой же закон распределения, что и исходная величина X , поэтому M (X i ) = M (X D (X i ) = D (X ), i = 1, 2, .... п.

Учитывая вышеуказанные условия, получим

Р (| а| < ε )≥1 . (4.1.3)

Пример 4.1.1. X равна 4. Сколько требуется произвести независимых опытов, чтобы с вероятностью не менее 0,9 можно было ожидать, что среднее арифметическое значение этой случайной величины будет отличаться от математического ожидания менее чем на 0,5?

Решение .По условию задачи ε = 0,5; Р (| а|< 0,5) 0,9. Применив формулу (4.1.3) для случайной величины Х , получим

P (|– M (X )| < ε ) ≥ 1 .

Из соотношения

1 = 0,9

определим

п = = = 160.

Ответ : требуется произвести 160 независимых опытов.

Если предположить, что средняя арифметическая распределена нормально, то получаем:

Р (| а| < ε )= 2Φ () 0,9.

Откуда, воспользовавшись таблицей функции Лапласа, получим
1,645, или ≥ 6,58, т. е. n ≥49.

Пример4.1.2. Дисперсия случайной величины Х равна D(Х ) = 5. Произведено 100 независимых опытов, по которым вычислено . Вместо неизвестного значения математического ожидания а принята . Определить максимальную величину ошибки, допускаемую при этом с вероятностью не менее 0,8.

Решение. По условию задачи n = 100, Р (| а| < ε ) ≥0,8. Применим формулу (4.1.3)

Р (| а| < ε ) ≥1 .

Из соотношения

1 = 0,8

определим ε :

ε 2 = = = 0,25.

Следовательно, ε = 0,5.

Ответ : максимальная величина ошибки ε = 0,5.

4.2. Закон больших чисел в форме Бернулли

Хотя в основе любого статистического вывода лежит понятие вероятности, мы лишь в немногих случаях можем определить вероятность события непосредственно. Иногда эту вероятность можно установить из соображений симметрии, равной возможности и т.п., но универсального метода, который позволял бы для произвольного события указать его вероятность, не существует. Теорема Бернулли дает возможность приближенной оценки вероятности, если для интересующего нас события А можно проводить повторные независимые испытания. Пусть произведено п независимых испытаний, в каждом из которых вероятность появления некоторого события А постоянна и равна р.

Теорема Бернулли. При неограниченном возрастании числа независимых испытаний п относительная частота появления события А сходится по вероятности к вероятности p появления события А ,т. е.

P (½ - p ½≤ ε) = 1, (4.2.1)

где ε – сколь угодно малое положительное число.

Для конечного n при условии, что , неравенство Чебышева для случайной величины будет иметь вид:

P (| – p| < ε ) 1 .(4.2.2)

Доказательство. Применим теорему Чебышева. Пусть X i – число появлений события А в i -ом испытании, i = 1, 2, . . . , n . Каждая из величин X i может принять лишь два значения:

X i = 1 (событие А наступило) с вероятностью p ,

X i = 0 (событие А не наступило) с вероятностью q = 1– p .

Пусть Y n = . Сумма X 1 + X 2 + … + X n равна числу m появлений события А в n испытаниях (0 m n ), а, значит, Y n = – относительная частота появления события А в n испытаниях. Математическое ожидание и дисперсия X i равны соответственно:

M ( ) = 1∙p + 0∙q = p ,

Пример 4.2.1. С целью установления доли брака продукции было проверено по схеме возвратной выборки 1000 единиц. Какова вероятность того, что установленная этой выборкой доля брака по абсолютной величине будет отличаться от доли брака по всей партии не более чем на 0,01, если известно, что в среднем на каждые 10000 изделий приходится 500 бракованных?

Решение. По условию задачи число независимых испытаний n = 1000;

p = = 0,05; q = 1 – p = 0,95; ε = 0,01.

Применяя формулу (4.2.2), получим

P (| p| < 0,01) 1 – = 1 – = 0,527.

Ответ : с вероятностью не менее 0,527 можно ожидать, что выборочная доля брака (относительная частота появления брака) будет отличаться от доли брака во всей продукции (от вероятности брака) не более чем на 0,01.

Пример 4.2.2. При штамповке деталей вероятность брака составляет 0,05. Сколько нужно проверить деталей, чтобы с вероятностью не менее 0,95 можно было ожидать, что относительная частота бракованных изделий будет отличаться от вероятности брака менее чем на 0,01?

Решение. По условию задачи р = 0,05; q = 0,95; ε = 0,01;

P (| p| <0,01) 0,95.

Из равенства 1 = 0,95 находим n :

n = = =9500.

Ответ : необходимо проверить 9500 деталей.

Замечание. Оценки необходимого числа наблюдений, получаемые при применении теоремы Бернулли (или Чебышева), очень преувеличены. Существуют более точные оценки, предложенные Бернштейном и Хинчиным, но требующие более сложного математического аппарата. Чтобы избежать преувеличения оценок, иногда пользуются формулой Лапласа

P (| p| < ε ) ≈ 2Φ .

Недостатком этой формулы является отсутствие оценки допускаемой погрешности.

Функция распределения случайной величины и ее свойства.

Функцией распределения случайной величины Х называется функция F(Х), выражающая для каждого х вероятность того, что случайная величина Х примет значение, меньшее х: F(x)=P(X

Функцию F(x) иногда называют интегральной функцией распределения или интегральным законом распределения.

Свойства функции распределения:

1.Функция распределения случайной величины есть неотрицательная функция, заключенная между нулем и единицей:

0 ≤ F(x) ≤ 1.

2. Функция распределения случайной величины есть неубывающая функция на всей числовой оси.

3. На минус бесконечности функция распределения равна нулю, на плюс бесконечности равна единицы, т.е.: F(-∞)= , F(+∞)= .

4.Вероятность попадания случайной величины в интервал [х1,х2) (включая х1) равна прирощению ее функции распределения на этом интервале, т.е. Р(х 1 ≤ Х < х 2) = F(x 2) - F(x 1).


Неравенство Маркова и Чебышева

Неравенство Маркова

Теорема : Если случайная величина Х принимает только неотрицательные значения и имеет математическое ожидание, то для любого положительного числа А верно равенство: P(x>A) ≤ .

Так как события Х > А и Х ≤ А противоположные, то заменяя Р(Х >А) выражаем 1 - Р(Х ≤ А), придем к другой форме неравенства Маркова: P(X ≥ A) ≥1 - .

Неравенство Маркова к применимо к любым неотрицательным случайным величинам.

Неравенство Чебышева

Теорема: Для любой случайной величины, имеющей математическое ожидание и дисперсию, справедливо неравенство Чебышева:

Р (|Х – a| > ε) ≤ D(X)/ε 2 или Р (|Х – a| ≤ ε) ≥ 1 – DX/ε 2 ,где а= М(Х), ε>0.


Закон больших чисел « в форме» теоремы Чебышева.

Теорема Чебышева: Если дисперсии n независимых случайных величин Х1, Х2,…. Хn ограничены одной и той же постоянной, то при неограниченном увеличении числа n средняя арифметическая случайных величин сходится по вероятности к средней арифметической их математических ожиданий а 1 ,а 2 ….,а n , т.е .

Смысл закона больших чисел заключается в том, что средние значения случайных величин стремятся к их математическому ожиданию при n → ∞ по вероятности. Отклонение средних значений от математического ожидания становится сколь угодно малым с вероятностью, близкой к единице, если n достаточно велико. Другими словами, вероятность любого отклонения средних значений от а сколь угодно мала с ростом n .



30. Теорема Бернулли .

Теорема Бернулли: Частость события в n повторных независимых испытаниях, в каждом из которых оно может произойти с одной и той же вероятностью р, при неограниченном увеличении числа n сходиться по вероятности к вероятности р этого события в отдельном испытании: \

Теорема Бернулли является следствием теоремы Чебышева, ибо частость события можно представить как среднюю арифметическую n независимых альтернативных случайных величин, имеющих один и тот же закон распределения.

18.Математическое ожидание дискретной и непрерывной случайной величины и их свойства .

Математическим ожиданием называется сумма произведений всех ее значений на соответствующие им вероятности

Для дискретной случайной величины:

Для непрерывной случайной величины:

Свойства математического ожидания:

1. Математическое ожидание постоянной величины равно самой постоянной: М(С)=С

2. Постоянный множитель можно вынести за знак математического ожидания, т.е М(кХ)=кМ(Х).

3. Математическое ожидание алгебраической суммы конечного числа случайных величин равно такой же сумме их математических ожиданий, т.е. M(X±Y)=M(X)±M(Y).

4. Математическое ожидание произведения конечного числа независимых случайных величин равно произведению их математических ожиданий: M(XY)=M(X)*M(Y).

5. Если все значения случайной величины увеличить (уменьшить) на постоянную С, то на эту же постоянную С увеличиться (уменьшиться) математическое ожидание этой случайной величины: M(X±C)=M(X)±C.

6. Математическое ожидание отклонения случайной величины от ее математического ожидания равно нулю: M=0.

Обнаруженный на большом и разнообразном материале феномен стабилизации частот появления случайных событий поначалу не имел какого-либо обоснования и воспринимался как чисто эмпирический факт. Первым теоретическим результатом в этой области стала опубликованная в 1713 г. знаменитая теорема Бернулли, положившая начало законам больших чисел.

Теорема Бернулли по своему содержанию является предельной теоремой, т. е. утверждением асимптотического смысла, говорящим, что будет с вероятностными параметрами при большом числе наблюдений. Прародительницей всех современных многочисленных утверждений такого типа является именно теорема Бернулли.

На сегодня представляется, что математический закон больших чисел является отражением некоторого общего свойства многих реальных процессов.

Имея желание придать закону больших чисел возможно больший охват, отвечающий далеко еще не исчерпанным потенциальным возможностям применения этого закона, один из крупнейших математиков нашего столетия А. Н. Колмогоров следующим образом сформулировал его суть: закон больших чисел - «общий принцип, в силу которого совокупное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая».

Таким образом, закон больших чисел имеет как бы две трактовки. Одна - математическая, связанная с конкретными математическими моделями, формулировками, теориями, и вторая - более общая, выходящая за эти рамки. Вторая трактовка связана с нередко отмечаемым на практике феноменом образования в той или иной степени направленного действия на фоне большого числа скрытых либо видимых действующих факторов, внешне такой непрерывности не имеющих. Примерами, связанными со второй трактовкой, является ценообразование на свободном рынке, формирование общественного мнения по тому или иному вопросу.

Отметив эту общую трактовку закона больших чисел, обратимся к конкретным математическим формулировкам этого закона.

Как мы уже сказали выше, первой и принципиально самой важной для теории вероятностей является теорема Бернулли. Содержание этого математического факта, отражающего одну из важнейших закономерностей окружающего мира, сводится к следующему.

Рассмотрим последовательность не связанных между собой (т. е. независимых) испытаний, условия проведения которых воспроизводятся неизменно от испытания к испытанию. Результатом каждого испытания является появление или непоявление интересующего нас события А.

Эту процедуру (схему Бернулли), очевидно, можно признать типичной для многих практических областей: «мальчик - девочка» в последовательности новорожденных, ежедневные метеорологические наблюдения («был дождь - не был»), контроль потока выпускаемых изделий («нормальное - дефектное») и т. д.

Частость появления события А при п испытаниях (т А -

частота появления события А в п испытаниях) имеет с ростом п тенденцию к стабилизации своего значения, это эмпирический факт.

Теорема Бернулли. Выберем любое сколь угодно малое положительное число е. Тогда

Подчеркнем, что математический факт, установленный Бернулли в определенной математической модели (в схеме Бернулли), не следует смешивать с эмпирически установленной закономерностью устойчивости частот. Бернулли не удовольствовался только утверждением формулы (9.1), но, учитывая потребности практики, дал оценку присутствующего в этой формуле неравенства. К такой трактовке мы еще обратимся ниже.

Закон больших чисел Бернулли был предметом исследований большого числа математиков, стремившихся уточнить его. Одно из таких уточнений было получено английским математиком Муавром и в настоящее время носит название теоремы Муавра - Лапласа. В схеме Бернулли рассмотрим последовательность нормированных величин:

Интегральная теорема Муавра - Лапласа. Выберем какие-либо два числа х { и х 2 . При этом х, х 7 , тогда при п -» °°

Если в правой части формулы (9.3) переменную х х устремить к бесконечности, то полученный предел, зависящий только от х 2 (индекс 2 при этом можно убрать), будет представлять собой функцию распределения, она называется стандартным нормальным распределением, или законом Гаусса.

Правая часть формулы (9.3) равна у = F(x 2) - F(x x). F(x 2) -> 1 при х 2 -> °° и F(x ,) -> 0 при х, -> За счет выбора достаточно большого

X] > 0 и достаточно большого по абсолютной величине X] п получим неравенство:

Принимая во внимание формулу (9.2), мы можем извлечь практически достоверные оценки:

Если достоверность у = 0,95 (т. е. вероятность ошибки 0,05) может показаться кому-то недостаточной, можно «перестраховаться» и построить немного более широкий доверительный интервал, используя упоминавшееся выше правило трех сигм:

Этому интервалу соответствует очень высокий уровень доверия у = 0,997 (см. таблицы нормального распределения).

Рассмотрим пример, состоящий в бросании монеты. Пусть мы бросили монету п = 100 раз. Может ли случиться, что частость р будет сильно отличаться от вероятности р = 0,5 (в предположении симметричности монеты), например будет равна нулю? Для этого надо, чтобы герб не выпал ни разу. Такое событие теоретически возможно, однако мы уже рассчитывали подобные вероятности, для данного события она окажется равной Эта величина

чрезвычайно мала, ее порядок - число с 30 нулями после запятой. Событие с такой вероятностью смело можно считать практически невозможным. Какие же отклонения частоты от вероятности при большом числе опытов практически возможны? Используя теорему Муавра - Лапласа, мы отвечаем на этот вопрос так: с вероятностью у = 0,95 частость герба р укладывается в доверительный интервал:

Если ошибка в 0,05 кажется не малой, надо увеличить число опытов (бросаний монеты). При увеличении п ширина доверительного интервала уменьшается (к сожалению, не так быстро, как нам хотелось бы, а обратно пропорционально -Jn). Например, при п = 10 000 получим, что р лежит в доверительном интервале с доверительной вероятностью у = 0,95: 0,5 ±0,01.

Таким образом, мы разобрались количественно в вопросе о приближении частости к вероятности.

Теперь найдем вероятность события по его частости и оценим ошибку этого приближения.

Пусть мы произвели большое число опытов п (бросали монету), нашли частость события А и хотим оценить его вероятность р.

Из закона больших чисел п следует, что:

Теперь оценим практически возможную ошибку приближенного равенства (9.7). Для этого воспользуемся неравенством (9.5) в форме:

Для нахождения р по р надо решить неравенство (9.8), для этого его надо возвести в квадрат и решить соответствующее квадратное уравнение. В результате получим:

где

Для приближенной оценки р по р можно в формуле (9.8) р справа заменить нар или же в формулах (9.10), (9.11) считать, что

Тогда получим:

Пусть в п = 400 опытах получено значение частости р = 0,25, тогда при уровне доверия у = 0,95 найдем:

А если нам нужно знать вероятность точнее, с ошибкой, скажем, не больше 0,01? Для этого надо увеличить число опытов.

Полагая в формуле (9.12) вероятность р = 0,25, приравняем величину ошибки заданной величине 0,01 и получим уравнение относительно п:

Решая это уравнение, получим п ~ 7500.

Рассмотрим теперь еще один вопрос: можно объяснить полученное в опытах отклонение частости от вероятности случайными причинами или же это отклонение показывает, что вероятность не такова, какой мы ее предполагали? Иными словами, подтверждает опыт принятую статистическую гипотезу или, наоборот, требует ее отклонить?

Пусть, например, бросив монету п = 800 раз, мы получим частость появления герба р = 0,52. У нас возникло подозрение, что монета несимметричная. Обоснованно ли такое подозрение? Чтобы ответить на этот вопрос, будем исходить из предположения, что монета симметричная (р = 0,5). Найдем доверительный интервал (при доверительной вероятности у = 0,95) для частости появления герба. Если полученное в опыте значение р = 0,52 укладывается в этот интервал - все в норме, принятая гипотеза о симметрии монеты не противоречит опытным данным. Формула (9.12) при р = 0,5 дает интервал 0,5 ± 0,035; полученное значение р = 0,52 укладывается в этот интервал, значит, придется «очистить» монету от подозрений в несимметрии.

Аналогичными методами пользуются для того, чтобы судить: случайны или «значимы» различные отклонения от математического ожидания, наблюдаемые в случайных явлениях. Например, случайно был получен недовес в нескольких образцах расфасованных товаров или он указывает на систематический обман покупателей? Случайно повысился процент выздоровлений у больных, применявших новый препарат, или это связано с действием препарата?

Нормальный закон играет особенно важную роль в теории вероятностей и ее практических приложениях. Выше мы уже видели, что случайная величина - число появлений некоторого события в схеме Бернулли - при п -» °° сводится к нормальному закону. Однако имеет место гораздо более общий результат.

Центральная предельная теорема. Сумма большого числа независимых (или слабо зависимых) случайных величин, сравнимых между собой по порядку своих дисперсий, распределена по нормальному закону независимо от того, каковы были законы распределения слагаемых. Приведенное утверждение - это грубая качественная формулировка центральной предельной теории. У этой теоремы много форм, различающихся между собой условиями, которым должны удовлетворять случайные величины, чтобы их сумма с увеличением числа слагаемых «нормализовалась».

Плотность нормального распределения Дх) выражается формулой:

где а - математическое ожидание случайной величины Х с = V7) - ее стандартное отклонение.

Для вычисления вероятности попадания х в пределы интервала (х 1? х 2) используется интеграл:

Так как интеграл (9.14) при плотности (9.13) не выражается через элементарные функции («не берется»), то для вычисления (9.14) пользуются таблицами интегральной функции распределения стандартного нормального распределения, когда а = 0, а = 1 (такие таблицы имеются в любом учебнике по теории вероятностей):

Вероятность (9.14) с помощью уравнения (10.15) выражается формулой:

Пример. Найти вероятность того, что случайная величина X, имеющая нормальное распределение с параметрами а , а, отклонится от своего математического ожидания по модулю не более чем на За.

Пользуясь формулой (9.16) и таблицей функции распределения нормального закона, получим:

Пример. В каждом из 700 независимых опытов событие А происходит с постоянной вероятностью р = 0,35. Найти вероятность того, что событие А произойдет:

  • 1) точно 270 раз;
  • 2) меньше чем 270 и больше чем 230 раз;
  • 3) больше чем 270 раз.

Находим математическое ожидание а = пр и стандартное отклонение:

случайной величины - числа появлений события А:

Находим центрированное и нормированное значение X:

По таблицам плотности нормального распределения находим f(x):

Найдем теперь Р ш (х, > 270) = Р 700 (270 F(1,98) = = 1 - 0,97615 = 0,02385.

Серьезный шаг в исследованиях проблематики больших чисел был сделан в 1867 г. П. Л. Чебышевым. Он рассмотрел весьма общий случай, когда от независимых случайных величин не требуется ничего, кроме существования математических ожиданий и дисперсий.

Неравенство Чебышева. Для сколь угодно малого положительного числа е выполняется неравенство:

Теорема Чебышева. Если х х, х 2 , ..., х п - попарно независимые случайные величины, каждая из которых имеет математическое ожидание E(Xj) = ci и дисперсию D(x,) =), причем дисперсии равномерно ограничены, т. е. 1,2 ..., то для сколь угодного малого положительного числа е выполняется соотношение:

Следствие. Если а,= аио, -о 2 , i = 1,2 ..., то

Задача. Сколько раз надо бросить монету, чтобы с вероятностью не меньшей, чем у - 0,997, можно было утверждать, что частость выпадения герба будет находиться в интервале (0,499; 0,501)?

Предположим, что монета симметричная, р - q - 0,5. Применим теорему Чебышева в формуле (9.19) к случайной величине X - частоте появления герба в п бросаниях монеты. Выше мы уже показывали, что X = Х х + Х 2 + ... +Х„, где X t - случайная величина, принимающая значение 1, если выпал герб, и значение 0, если выпала решка. Итак:

Запишем неравенство (9.19) для события, противоположного событию, указанному под знаком вероятности:

В нашем случае [е = 0,001, cj 2 = /?-р)]т - число выпадений герба в п бросаниях. Подставляя эти величины в последнее неравенство и учитывая, что по условию задачи должно выполняться неравенство, получим:

Приведенный пример иллюстрирует возможность использования неравенства Чебышева для оценок вероятностей тех или иных уклонений случайных величин (а также связанных с вычислением этих вероятностей задач типа этого примера). Достоинством неравенства Чебышева является то, что оно не требует знания законов распределений случайных величин. Разумеется, если такой закон известен, то неравенство Чебышева дает слишком грубые оценки.

Рассмотрим этот же пример, но используя тот факт, что бросание монеты является частным случаем схемы Бернулли. Число успехов (в примере - число гербов) подчиняется биномиальному закону, а при большом п этот закон можно в силу интегральной теоремы Муавра - Лапласа представить нормальным законом с математическим ожиданием а = пр = п? 0,5 и со стандартным отклонением а = yfnpq - 25=0,5л/л. Случайная же величина - частость выпадения герба - имеет математическое ожидание = 0,5 и стандартное отклонение

Тогда имеем:

Из последнего неравенства получаем:

Из таблиц нормального распределения находим:

Видим, что нормальное приближение дает число бросаний монеты, обеспечивающее заданную погрешность в оценивании вероятности герба, в 37 раз меньшее в сравнении с оценкой, полученной с использованием неравенства Чебышева (но неравенство Чебышева дает возможность подобных расчетов и в том случае, когда мы не владеем информацией о законе распределения изучаемой случайной величины).

Рассмотрим теперь прикладную задачу, решаемую с помощью формулы (9.16).

Задача о конкуренции. Две конкурирующие железнодорожные компании имеют по одному поезду, курсирующему между Москвой и Санкт-Петербургом. Эти поезда оборудованы примерно одинаково, отправляются и прибывают также примерно в одно и то же время. Предположим, что п = 1000 пассажиров независимо и наугад выбирают себе поезд, поэтому в качестве математической модели выбора поезда пассажирами используем схему Бернулли с п испытаниями и вероятностью успехар = 0,5. Компания должна решить вопрос, сколько мест предусмотреть в поезде с учетом двух взаимно противоречивых условий: с одной стороны, не хочется иметь пустые места, с другой - не хочется, чтобы появились недовольные отсутствием мест (в следующий раз они предпочтут конкурирующие фирмы). Разумеется, можно предусмотреть в поезде п = 1000 мест, но тогда заведомо будут пустые места. Случайная величина - число пассажиров в поезде - в рамках принятой математической модели с использованием интегральной теории Муавра - Лапласа подчиняется нормальному закону с математическим ожиданием а = пр = п /2 и дисперсией а 2 = npq = п/4 последовательно. Вероятность того, что на поезд придет более s пассажиров, определяется соотношением:

Зададим уровень риска а , т. е. вероятность того, что придет более s пассажиров:

Отсюда:

Если а - корень риска последнего уравнения, который находится по таблицам функции распределения нормального закона, то получаем:

Если, например, п = 1000, а = 0,01 (такой уровень риска означает, что число мест s будет достаточным в 99 случаях из 100), то х а ~ 2,33 и s = 537 мест. При этом если обе компании примут одинаковые уровни риска а = 0,01, то два поезда будут иметь в общей сложности 1074 места, 74 из которых будут пустыми. Аналогично можно вычислить, что 514 мест было бы достаточно в 80% всех случаев, а 549 мест - в 999 из 1000 случаев.

Подобные соображения применимы и в других задачах о конкурирующем обслуживании. Например, если т кинотеатров соперничают из-за одних и тех же п зрителей, то следует принять р = -. Получим,

что число мест s в кинотеатре должно определяться соотношением:

Общее число пустых мест при этом равно:

Для а = 0,01, п = 1000 и т = 2, 3, 4 значения этого числа приближенно равны соответственно 74, 126, 147.

Рассмотрим еще один пример. Пусть поезд состоит из п - 100 вагонов. Вес каждого вагона - случайная величина с математическим ожиданием а - 65 т и средним квадратическим ожиданием о = 9 т. Локомотив может везти поезд, если его вес не превышает 6600 т; в противном случае приходится подцеплять второй локомотив. Нужно найти вероятность того, что этого делать не придется.

весов отдельных вагонов: , имеющих одно и то же математическое ожидание а - 65 и одну и ту же дисперсию d - о 2 = 81. По правилу математических ожиданий: Е(х) - 100 * 65 = 6500. По правилу сложения дисперсий: D(x ) = 100 х 81= 8100. Извлекая корень, найдем среднее квадратическое отклонение. Для того чтобы один локомотив мог везти поезд, нужно, чтобы вес поезда X оказался предельным, т. е. попал в пределы интервала (0; 6600). Случайную величину х - сумму 100 слагаемых - можно считать распределенной нормально. По формуле (9.16) получим:

Отсюда следует, что локомотив «справится» с поездом приблизительно с вероятностью 0,864. Уменьшим теперь число вагонов в поезде на два, т. е. возьмем п = 98. Подсчитывая теперь вероятность того, что локомотив «справится» с поездом, получим величину порядка 0,99, т. е. практически достоверное событие, хотя для этого пришлось убрать всего два вагона.

Итак, если мы имеем дело с суммами большого числа случайных величин, то можно использовать нормальный закон. Естественно, при этом возникает вопрос: сколько нужно сложить случайных величин, чтобы закон распределения суммы уже «нормализовался»? Это зависит от того, каковы законы распределения слагаемых. Бывают такие замысловатые законы, что нормализация наступает только при очень большом числе слагаемых. Но эти законы придумывают математики, природа же, как правило, специально не устраивает таких неприятностей. Обычно на практике для того, чтобы можно было пользоваться нормальным законом, бывает достаточно пяти-шести слагаемых.

Быстроту, с которой «нормализуется» закон распределения суммы одинаково распределенных случайных величин, можно проиллюстрировать на примере случайных величин с равномерным распределением на интервале (0, 1). Кривая такого распределения имеет вид прямоугольника, что уже непохоже на нормальный закон. Сложим две такие независимые величины - получим случайную величину, распределенную по так называемому закону Симпсона, графическое изображение которого имеет вид равнобедренного треугольника. Тоже не похоже на нормальный закон, но уже лучше. А если сложить три такие равномерно распределенные случайные величины, получится кривая, состоящая из трех отрезков парабол, весьма похожая на нормальную кривую. Если же сложить шесть таких случайных величин, получится кривая, не отличающаяся от нормальной. На этом основан широко применяемый метод получения нормально распределенной случайной величины, датчиками же равномерно распределенных (0, 1) случайных чисел оснащены все современные ЭВМ.

В качестве одного из практических способов проверки этого рекомендуется следующий способ. Строим доверительный интервал для частоты события с уровнем у = 0,997 по правилу трех сигм:

и если оба его конца не выходят за рамки отрезка (0, 1), то можно пользоваться нормальным законом. Если же какая-нибудь из границ доверительного интервала оказывается за переделами отрезка (0, 1), то нормальным законом пользоваться нельзя. Однако в некоторых условиях биномиальный закон для частоты некоторого случайного события, если он не стремится к нормальному, то может стремиться к другому закону.

Во многих приложениях в качестве математической модели случайного опыта используется схема Бернулли, в которой число испытаний п велико, случайное событие довольно редко, т. е. р = пр не мало, но и не велико (колеблется в интервале О -5- 20). В этом случае имеет место предельное соотношение:

Формула (9.20) называется пуассоновским приближением для биномиального закона, так как вероятностное распределение в ее правой части называется законом Пуассона. Говорят, что пуассоновское распределение является вероятностным распределением для редких событий, так как оно имеет место, когда выполняются пределы: п -»°°, р -»0, но X = пр оо.

Пример. Дни рождения. Какова вероятность Р т (к) того, что в обществе из 500 человек к человек родились в день Нового года? Если эти 500 человек выбраны наугад, то можно применить схему Бернулли с вероятностью успеха Р = 1/365. Тогда

Расчеты вероятностей для различных к дают следующие величины: Р у = 0,3484...; Р 2 = 0,2388...; Р 3 = 0,1089...; Р 4 = 0,0372...; Р 5 = 0,0101...; Р 6 = 0,0023... Соответствующие приближения по формуле Пуассона при X = 500 1/365 = 1,37

дают следующие величины: Ру = 0,3481...; Р 2 = 0,2385...; Р ъ = 0,1089; Р 4 = 0,0373...; Р 5 = 0,0102...; Р 6 = 0,0023... Все ошибки лишь в четвертом десятичном знаке.

Приведем примеры ситуаций, где можно использовать закон редких событий Пуассона.

На телефонной станции неправильное соединение происходит с малой вероятностью р, обычно р ~ 0,005. Тогда формула Пуассона позволяет найти вероятность неправильных соединений при заданном общем числе соединений п ~ 1000, когда Х = пр =1000 0,005 = 5.

При выпечке булочек в тесто кладут изюм. Следует ожидать, что благодаря размешиванию частота булок с изюминками будет приблизительно подчиняться распределению Пуассона Р п (к, X), где X - плотность изюма в тесте.

Радиоактивное вещество испускает я-частицы. Событие, заключающееся в том, что число й-частиц, достигающих в течение времени t заданного участка пространства, принимает фиксированное значение к, подчиняется закону Пуассона.

Число живых клеток с измененными хромосомами под действием рентгеновских лучей следует распределению Пуассона.

Итак, законы больших чисел позволяют решать задачу математической статистики, связанную с оцениванием неизвестных вероятностей элементарных исходов случайного опыта. Благодаря этим знаниям мы делаем методы теории вероятностей практически содержательными и полезными. Законы больших чисел позволяют также решать задачу получения информации о неизвестных элементарных вероятностях и в другой форме - форме проверки статистических гипотез.

Рассмотрим более подробно формулировку и вероятностный механизм решения задач проверки статистических гипотез.

Практика изучения случайных явлений показывает, что хотя результаты отдельных наблюдений, даже проведенных в одинаковых условиях, могут сильно отличаться, в то же время средние результаты для достаточно большого числа наблюдений устойчивы и слабо зависят от результатов отдельных наблюдений.

Теоретическим обоснованием этого замечательного свойства случайных явлений является закон больших чисел . Названием "закон больших чисел" объединена группа теорем, устанавливающих устойчивость средних результатов большого количества случайных явлений и объясняющих причину этой устойчивости.

Простейшая форма закона больших чисел, и исторически первая теорема этого раздела - теорема Бернулли , утверждающая, что если вероятность события одинакова во всех испытаниях, то с увеличением числа испытаний частота события стремится к вероятности события и перестает быть случайной.

Теорема Пуассона утверждает, что частота события в серии независимых испытаний стремится к среднему арифметическому его вероятностей и перестает быть случайной.

Предельные теоремы теории вероятностей, теоремы Муавра-Лапласа объясняют природу устойчивости частоты появлений события. Природа эта состоит в том, что предельным распределением числа появлений события при неограниченном возрастании числа испытаний (если вероятность события во всех испытаниях одинакова) является нормальное распределение.

Центральная предельная теорема объясняет широкое распространение нормального закона распределения. Теорема утверждает, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин с конечными дисперсиями, закон распределения этой случайной величины оказывается практически нормальным законом.

Теорема, приведенная ниже под названием "Закон больших чисел " утверждает, что при определенных, достаточно общих, условиях, с увеличением числа случайных величин их среднее арифметическое стремится к среднему арифметическому математических ожиданий и перестает быть случайным.

Теорема Ляпунова объясняет широкое распространение нормального закона распределения и поясняет механизм его образования. Теорема позволяет утверждать, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин, дисперсии которых малы по сравнению с дисперсией суммы, закон распределения этой случайной величины оказывается практически нормальным законом. А поскольку случайные величины всегда порождаются бесконечным количеством причин и чаще всего ни одна из них не имеет дисперсии, сравнимой с дисперсией самой случайной величины, то большинство встречающихся в практике случайных величин подчинено нормальному закону распределения.

В основе качественных и количественных утверждений закона больших чисел лежит неравенство Чебышева . Оно определяет верхнюю границу вероятности того, что отклонение значения случайной величины от ее математического ожидания больше некоторого заданного числа. Замечательно, что неравенство Чебышева дает оценку вероятности события для случайной величины, распределение которой неизвестно, известны лишь ее математическое ожидание и дисперсия.

Неравенство Чебышева. Если случайная величина x имеет дисперсию, то для любого e > 0 справедливо неравенство , где M x и D x - математическое ожидание и дисперсия случайной величины x .

Теорема Бернулли. Пусть m n - число успехов в n испытаниях Бернулли и p - вероятность успеха в отдельном испытании. Тогда при любом e > 0 справедливо .

Центральная предельная теорема. Если случайные величины x 1 , x 2 , …, x n , … попарно независимы, одинаково распределены и имеют конечную дисперсию, то при n ® равномерно по x (- ,)