авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 || 4 |

«ФЕДЕРАЛЬНОЕ АГЕНСТВО СВЯЗИ Государственное образовательное учреждение высшего профессионального образования ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ И ...»

-- [ Страница 3 ] --

Однако, понятия коррелированности и зависимости не эквивалентны, а именно, величины могут быть зависимыми, но при этом некоррелированными.

Дело в том, что коэффициент корреляции характеризует не всякую зависимость, а только линейную.

В частности, если Y aX b, то q 1.

Формула для коэффициента корреляции была введена Фрэнсисом Гальтоном Фрэнсис Гальтон (1822-1911) — английский исследователь, внес вклад во многих областях науки:

метеорология (антициклон и первые общедоступные погодные карты), статистику (регресс и корреляция) криминологию (отпечатки пальцев). Математически обосновал практическую невозможность совпадения отпечатков пальцев у людей Найдем возможные значения коэффициента корреляции.

Теорема Коэффициент корреляции | q | 1.

Доказательство Докажем сначала, что | K xy | x y.

Действительно, если рассмотреть случайную величину Z1 y X xY и найти ее дисперсию, то получим: D( Z1 ) 2 x y 2 x y K xy.

Так как дисперсия всегда неотрицательна, то 2 x y 2 x y K xy 0, | K xy | x y.

откуда K xy q 0, что и требовалось доказать.

Отсюда x y Определение Случайные величины называются некоррелироваными, если их коэффициент корреляции равен нулю q Таким образом из независимости случайных величин следует их некоррелированность. Обратно не верно Свойства ковариации и коэффициента корреляции 1. Ковариация двух случайных величин характеризует степень зависимости случайных величин.

2. Ковариация двух независимых случайных величин равна нулю.

3. Корреляционный момент K xy M ( XY ) M ( X ) M (Y ) 4. Ковариация по абсолютной величине не превосходит их средних квадратических отклонений.

5. Коэффициент корреляции отношение их ковариации к произведению средних квадратических отклонений 6. Коэффициент корреляции 1 q 7. Коэффициент корреляции q 0 равен нулю, если сл.величины независимы.

8. Если q 1, то между сл.величинами существует линейная функциональная зависимость.

Замечание Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости.

Пример Коэффициент корреляции стремится к нулю, любому значению X может соответствовать любое значение Y, то есть события X и Y не зависят или почти не зависят друг от друга, не коррелируют друг с другом Пример При q близких к единице одному значению X могут соответствовать уже несколько значений Y, события X и Y менее коррелированы, менее зависимы друг от друга Если q 1 коэффициент Пример корреляции, то зависимость событий X и Y взаимно однозначная.

Пример Вид зависимости двух случайных величин при отрицательном коэффициенте корреляции a) q 1 ;

б) 1 q 0 ;

в) q Определение Корреляционная матрица системы двух случайных величин X и Y - матрица вида D q K x xy q D xy y Пример Распределение вероятностей случайной величины задано таблицей Определить математические ожидания случайных величин X,Y.

Решение 3 M X x p 1(0,1 0,2 0) 0(0,3 0 0,1) 1(0,1 0 0,2) i ij i 1 j 3 M Y y p 0(0,1 0,3 0,1) 1(0,2 0 0) 2(0 0,1 0,2) 0, i ij i 1 j Пример Задана плотность распределения системы случайных величин X и Y.

f ( x, y ) ( x y x 2 y 2 1) 2 2 Выяснить являются ли независимыми случайные величины иY.

X Для решения этой задачи преобразуем плотность распределения:

1 1 1 f ( x, y) 2 (1 x y (1 x )) (1 x )(1 y ) (1 x ) (1 y 2 ) 2 2 2 2 2 2 Плотность распределения - произведение двух функций, Т.е.

случайные величины X и Y независимы, они также будут и некоррелированы В отличие от коэффициента корреляции, который меняется от -1 до 1, ковариация не инвариантна относительно масштаба, т.е. зависит единицы измерения и масштаба случайных величин.

Случайные величины могут быть зависимыми в то время как их ковариация нулевая!

Замечание Знак ковариации указывает на вид линейной связи между рассматриваемыми величинами: если ковариация 0 - это означает прямую связь (при росте одной величины растет и другая), ковариация 0 указывает на обратную связь.

При ковариации 0 линейная связь между переменными отсутствует.

Пример По данным корреляционной таблицы найти выборочный корреляционный момент (ковариацию):

X -1 0 1 Y 2 20 10 0 3 0 10 20 Решение xy Выборочный корреляционный момент определяется равенством:

n xy xy x y.

xy n Здесь x, y - варианты (наблюдавшиеся значения) признаков X и Y, n xy - частота пары вариант x, y, n - объем выборки, x, y - выборочные средние. Найдем выборочные средние с помощью соотношения:

1 nx x, y n n y y, x n где частоты вариант x и y. Так как nx, n y n 20 10 30 10 20 10 100, получаем 1(20 0) 010 10 10 20 230 x 0, 220 10 0 30 30 10 20 y 2,4.

Тогда 2 120 2 0 10 2 1 0 2 2 30 3 1 0 3 0 10 3 1 20 3 2 xy 0,8 2,4 0,8.

Контрольные вопросы 1. Что такое ковариация?

2. Приведите примеры «положительной корреляции»

3. К каким изменениям коэффициента корреляции приводят ошибки измерений тех признаков для которых оценивается взаимосвязь.

4. Может ли коэффициент корреляции быть равным нулю, если между измеряемыми признаками существует функциональная зависимость?

5. Приведите пример случайных величин, у которых ковариация нулевая.

6. Какие характеристики составляют корреляционную матрицу?

Лекция Функция одного случайного аргумента При решении задач часто удобно бывает представить исследуемую случайную величину как функцию других случайных величин с известными законами распределения, что помогает установить и закон распределения заданной случайной величины.

Определение Если каждому возможному значению случайной величины X соответствует одно возможное значение случайной величины Y, то случайную величину Y называют функцией случайного аргумента X :

Y (X).

Выясним, как найти закон распределения функции по известному закону распределения аргумента.

1) Пусть аргумент X – дискретная случайная величина, причем различным значениям X соответствуют различные значения Y.

Тогда вероятности соответствующих значений X и Y равны..

Пример. Ряд распределения для X имеет вид:

X 5 6 7 p 0,1 0,2 0,3 0, Найдем закон распределения функции Y 2 X 2 3 :

Решение Закон распределения функции будет иметь вид:

Y 47 69 95 p 0,1 0,2 0,3 0, (при вычислении значений Y в формулу, задающую функцию, подставляются возможные значения X ).

2) Если разным значениям X могут соответствовать одинаковые значения Y, то вероятности значений аргумента, при которых функция принимает одно и то же значение, складываются.

Пример Ряд распределения для X имеет вид:

X 0 1 2 p 0,1 0,2 0,3 0, Найдем закон распределения функции Y X 2 2 X :

Решение Закон распределения функции Y -1 0 p 0,2 0,4 0, Y 0 X (так как при и X 2, то p(Y 0 ) p(X 0 ) p(X 2 ) 0,1 0,3 0,4 ).

Математическое ожидание функции одного аргумента Пусть Y (X) – функция случайного аргумента X, и требуется найти ее математическое ожидание, зная закон распределения X.

1) Если X – дискретная случайная величина, то n M (Y ) M ( ( x)) ( xi ) pi.

i Пример Найдем M(Y), если случайная величина Y задана рядом распределения:

Y 47 69 95 p 0,1 0,2 0,3 0, Решение M(Y) 47 0,1 69 0,2 95 0,3 125 0,4 Если X – непрерывная случайная величина, то математическое ожидание функции одного аргумента можно искать по-разному.

Если известна плотность распределения g(y), то yg ( y)dy.

M (Y ) Если же g(y) найти сложно, то можно использовать известную плотность распределения f(x) :

M (Y ) ( x) f ( x)dx.

В частности, если все значения принадлежат X промежутку (a, b), то b M (Y ) ( x) f ( x)dx.

а Функция двух случайных величин Определение Если каждой паре возможных значений случайных величин X и Y соответствует одно возможное значение случайной величины Z, то Z называют функцией двух случайных аргументов X и Y :

Z ( X,Y ).

Рассмотрим в качестве такой функции сумму X Y. В некоторых случаях можно найти ее закон распределения, зная законы распределения слагаемых.

1) Если X и Y – дискретные независимые случайные величины, то для определения закона распределения Z X Y нужно найти все возможные значения Z и соответствующие им вероятности.

Пример Рассмотрим дискретные случайные величины X и Y, законы распределения которых имеют вид:

X -2 1 p 0,3 0,4 0, Y 0 1 p 0 0 0,,2, Найдем возможные значения Z :

-2 0 -2 ( p 0,3 0,2 0,06 ), -2 1 -1 (p 0,3 0,5 0,15 ), -2 2 0 (p 0,3 0,3 0,09 ), 1 0 1 (p 0,4 0,2 0,08 ), 1 1 2 (p 0,4 0,5 0,2 ), 1 2 3 (p 0,4 0,3 0,12 ), 3 0 3 (p 0,3 0,2 0,06 ), 3 1 4 (p 0,3 0,5 0,15 ), 3 2 5 (p 0,3 0,3 0,09 ) Сложив вероятности повторившегося дважды значения Z 3, составим ряд распределения для Z :

-2 -1 0 1 2 3 4 Z p 0,06 0,15 0,09 0,08 0,2 0,18 0,15 0, 2) Если X и Y – непрерывные независимые случайные величины, то, если плотность вероятности хотя бы одного из аргументов задана на (-, ) одной формулой, то плотность суммы g(z) можно найти по формулам f ( z y) f g ( z) f1 ( x) f 2 ( z x)dx ( y )dy, 1 где f1 ( x), f 2 ( y ) – плотности распределения слагаемых. Если возможные значения аргументов неотрицательны, то z z g ( z ) f1 ( x) f 2 ( z x)dx f1 ( z y) f 2 ( y)dy.

0 Замечание Плотность распределения суммы двух независимых случайных величин называют композицией.

Лекция Равномерный закон распределения на плоскости Определение Система двух случайных величин называется равномерно распределенной на плоскости, если ее плотность вероятности f x, y = const внутри некоторой области и равна 0 вне ее.

Пусть данная область – прямоугольник вида a x b, c y d.

Тогда из свойств функции плотности f x, y следует, что 1 S (b a)(d c) внутри прямоуголь ника, f ( x, y ) np вне его.

Найдем двумерную функцию распределения:

( x a)( y c) yx dxdy (b a)(d c) F ( x, y ) (b a)( d c) c a при a x b, c y d, F x, y 0 при x a, y c, F x. y 1 при x b, y d.

Функции распределения составляющих, имеют вид:

xa yc F1 ( x) F2 ( y),.

ba d c Нормальный закон распределения на плоскости Из законов распределения системы двух случайных величин имеет смысл специально рассмотреть нормальный закон, как имеющий наибольшее распространение на практике. Так как система двух случайных величин изображается случайной точкой на плоскости, нормальный закон для системы двух величин часто называют «нормальным законом на плоскости».

Многочисленные исследования, проведнные профессорами А.Б.Яхиным, А.А.Зыковым и другими, показали, что распределение действительных размеров деталей изготовленных, обработанных на настроенных станках, очень часто подчиняется закону нормального распределения (закону Гаусса).

Это объясняется тем, что результирующая погрешность обработки обычно формируется в результате одновременного воздействия большого числа погрешностей, зависящих от станка, приспособления, инструмента и заготовки, которые по существу представляют собой взаимно независимые случайные величины. Влияние каждой из них на результирующую погрешность имеет один порядок, поэтому распределение результирующей погрешности обработки, а значит, и распределение действительных размеров изготовленных деталей подчиняются закону нормального распределения Определение Нормальный закон распределения на плоскости - распределение вероятностей двумерной случайной величины (X, Y), если плотность распределения x a1 2 y a 2 2 x a1 y a 1 2 xy 21 xy x 2 y x y f x, y 1 2 e 2 x y 1 rxy Нормальный закон на плоскости определяется 5 параметрами:

a1, a2 – математические ожидания, x, y – средние квадратические отклонения, rxy – коэффициент корреляции Х и Y.

Ниже показан график плотности нормального распределения Вероятность попадания в прямоугольник Пусть случайная точка на плоскости подчинена нормальному закону x ax 2 y a y x2 y f x, y 1 e 2 x y Вероятность попадания случайной точки X, Y в прямоугольник стороны которого параллельны координатным осям P X, Y R f x, y dxdy a x a y ay ax P X, Y R 0 x y 0 x y где 0 x - нормальная функция распределения.

Лекция Закон больших чисел Изучение статистических закономерностей позволило установить, что при некоторых условиях суммарное поведение большого количества случайных величин почти утрачивает случайный характер и становится закономерным (иначе говоря, случайные отклонения от некоторого среднего поведения взаимно погашаются). В частности, если влияние на сумму отдельных слагаемых является равномерно малым, закон распределения суммы приближается к нормальному.

Математическая формулировка этого утверждения дается в группе теорем, которые принято называть законами больших чисел.

Сущность закона больших чисел состоит в том, что при большом числе независимых опытов частота появления какого то события близка к его вероятности.

Пример Если из большого P100 мешка с орехами достать любые штук и 5 из них будут пустыми, можно делать выводы о содержимом всего 45 50 мешка. Вывод в мешке почти количество полных орехов половина всех орехов пустые имеет для этого определенное основание.

Имеется вероятность в две трети за то, что в мешке находится не меньше 45 процентов и не больше 55 процентов полных орехов.

Неравенство Чебышева Неравенство Чебышева, используемое для доказательства дальнейших теорем, справедливо как для непрерывных, так и для дискретных случайных величин.

Чебышв Пафнутий Львович - русский математик и механик.

Докажем неравенство Чебышева для дискретных случайных величин.

Теорема (первое неравенство Чебышева- неравенство Маркова) Для каждой неотрицательной случайной величины, имеющей математическое ожидание M [ ], при любом справедливо М [ ] P{ }.

Пример Пусть - время опоздания студентов на лекцию. Известно, что M [ ] =1 мин. Оценить вероятность того, что студент опоздает не менее чем на 5 минут.

Решение Используя первое неравенство Чебышева М [ ] P{ } P{ 5}.

Имеем Теорема (второе неравенство Чебышева ) Для каждой СВ, имеющей дисперсию D[ ] 2, при любом 0 справедливо P{ M [ ] } Неравенства Чебышева имеют не столь большое практическое значение, но огромное теоретическое для доказательства теорем из закона больших чисел.

Теорема (неравенство Чебышева) D X p X M X 2.

Доказательство Пусть Х задается рядом распределения xn x1 x X pn p1 p P X M X и X M X Так как события противоположны, то:

p X M X p X M X 1, следовательно, p X M X 1 p X M X.

Найдем p X M X.

D X x1 M X p1 x2 M X p2 xn M X pn 2 2 Исключим из этой суммы те слагаемые, для которых X M X При этом сумма может только уменьшиться,.

так как все входящие в нее слагаемые неотрицательны. Для определенности будем считать, что отброшены первые k слагаемых.

Тогда D X x k 1 M X p k 1 x k 2 M X p k 2 2 xn M X 2 pn pk 1 pk 2 pn.

Отметим, что p k 1 p k 2 p n есть вероятность того, X M X так как это сумма вероятностей всех что, возможных значений X, для которых это неравенство справедливо. Следовательно, D X p X M X, или D X p X M X.

Тогда вероятность противоположного события D X p X M X, что и требовалось доказать.

Пример Средний расход воды на ферме составляет 1000 л в день, а среднее квадратичное =200 л. Оценить вероятность того, что расход воды в любой выбранный день не превысит 2000 л.

Решение 0 Т.к. границы интервала симметричны относительно M [ ] 1000 и P{ 2000} P{0 2000} P{ 1000 1000}, тогда, учитывая 2 P{ M [ ] } P{ M [ ] } 1 2 получим P{ 1000 1000} 1 0.96 Вероятность не менее 0. Теоремы Чебышева и Бернулли Обычно при измерении некоторой физической величины ее измеряют несколько раз и берут среднее арифметическое.

При каких условиях это правильно (частный случай теоремы Чебышева):

1) измерения попарно независимы;

2) имеют одно и тоже математическое ожидание;

3) дисперсии их ограничены.

Теорема Чебышева Если X 1, X 2,, X n – попарно независимые случайные величины, дисперсии которых равномерно ограничены D X i C, то для сколь угодно малого числа вероятность неравенства X 1 X 2 X n M X 1 M X 2 M X n n n будет сколь угодно близка к 1, если число случайных величин достаточно велико.

Замечание Иначе говоря, при выполнении этих условий X1 X 2 X n n lim p M X 1 M X 2 M X n n n Доказательство Рассмотрим новую случайную величину X X2 Xn X n и найдем ее математическое ожидание. Используя свойства математического ожидания, получим, что X X 2 X n M X 1 M X 2 M X n p 1 n n X X2 Xn D 1 n X X 2 X n D X 1 D X 2 D X n Cn C D n n n n X X 2 X n M X 1 M X 2 M X n M 1.

n n Применим к X неравенство Чебышева:

Так как рассматриваемые случайные величины независимы, то, учитывая условие теоремы, имеем:

Используя этот результат, представим предыдущее неравенство в виде:

X X 2 X n M X1 M X 2 M X n С p 1 1 n n n Перейдем к пределу при n :

X1 X 2 X n n lim p M X1 M X 2 M X n n n Поскольку вероятность не может быть больше 1, можно утверждать, что:

X1 X 2 X n n lim p M X1 M X 2 M X n n n Теорема доказана.

Следствие Если X 1, X 2,, X n – попарно независимые случайные величины с равномерно ограниченными дисперсиями, имеющие одинаковое математическое ожидание, равное а, то для любого сколь угодно малого 0 вероятность неравенства X1 X 2 X n a n будет как угодно близка к 1, если число случайных величин достаточно велико. Иначе говоря, X X 2 X n lim p 1 a n n Вывод: среднее арифметическое достаточно большого числа случайных величин принимает значения, близкие к сумме их математических ожиданий, то есть утрачивает характер случайной величины. Например, если проводится серия измерений какой-либо физической величины, причем:

а) результат каждого измерения не зависит от результатов остальных, то есть все результаты представляют собой попарно независимые случайные величины;

б) измерения производятся без систематических ошибок (их математические ожидания равны между собой и равны истинному значению a измеряемой величины);

в) обеспечена определенная точность измерений, следовательно, дисперсии рассматриваемых случайных величин равномерно ограничены;

то при достаточно большом числе измерений их среднее арифметическое окажется сколь угодно близким к истинному значению измеряемой величины.

Практическое значение теоремы Чебышева Если все измерения проводятся с одинаковой точностью, то дисперсия их средней 2... n n 2 D 1 2... n D n 2 ( D[1 ] D[ 2 ]... D[ n ]).

n n Т.о., увеличивая число измерений, можно увеличивать точность измерений.

Теорема Бернулли Если в каждом из n независимых опытов вероятность p появления события A постоянна, то при достаточно большом числе испытаний вероятность того, что модуль отклонения относительной частоты появлений A в n опытах от p будет сколь угодно малым, как угодно близка к 1:

m lim p p n n Доказательство Введем случайные величины X 1, X 2,, X n, где X i – число появлений A в i -м опыте.

При этом X i могут принимать только два значения:

а) 1(с вероятностью p ) б) 0 (с вероятностью q 1 p ).

Кроме того, рассматриваемые случайные величины попарно независимы и их дисперсии равномерно ограничены (так как D X i pq, p q 1, откуда pq ). Следовательно, к ним можно применить теорему Чебышева при M i p :

X X2 Xn lim p 1 p 1.

n n Но X1 X 2 X n m n n так как X i принимает значение, равное 1, при появлении A в данном опыте, и значение, равное 0, если A не произошло.

Таким образом, m lim p p n n что и требовалось доказать.

Замечание Из теоремы Бернулли не следует, что m lim p n n Речь идет лишь о вероятности того, что разность относительной частоты и вероятности по модулю может стать сколь угодно малой.

Разница заключается в следующем: при обычной сходимости, рассматриваемой в математическом анализе, для m p всех n, начиная с некоторого значения, неравенство n выполняется всегда;

в нашем случае могут найтись такие значения n, при которых это неравенство неверно.

Этот вид сходимости называют сходимостью по вероятности.

Замечание Теорема Бернулли – следствие теоремы m Чебышева, т.к. статистическую вероятность события n можно представить как среднее арифметическое n независимых случайных величин, имеющих одинаковый закон.

распределения:

n Предельные теоремы Закон больших чисел не исследует вид предельного закона распределения суммы случайных величин. Этот вопрос рассмотрен в группе теорем, называемых центральной предельной теоремой. Они утверждают, что закон распределения суммы случайных величин, каждая из которых может иметь различные распределения, приближается к нормальному при достаточно большом числе слагаемых. Этим объясняется важность нормального закона для практических приложений.

Характеристические функции Для доказательства центральной предельной теоремы используется метод характеристических функций.

Дадим определение характеристической функции.

Определение Характеристической функцией случайной величины X называется функция g t M e itX Таким образом, g t представляет собой математическое ожидание некоторой комплексной случайной величины U e itX, связанной с величиной X.

В частности, если X – дискретная случайная величина, заданная рядом распределения, то itx g t e k pk k Для непрерывной случайной величины с плотностью распределения f (x) g t e itx f x dx Пример Найдем характеристическую функцию для случайной величины X – число выпадений 6 очков при одном броске игральной кости.

Решение 5 e it g t e 5 it 1 it e 6 6 Пример Найдем характеристическую функцию для нормированной непрерывной случайной величины, распределенной по закону 1 x f x e Решение x2 x2 t 1 2 itx g t e e 2 dx e e dx itx 2 AC B e Ax 2 2 Bx C dx ( использовалась формула и то, A e A что i 2 1 ).

Свойства характеристических функций 1) Функцию f x можно найти по известной функции g t по формуле f x g t dt e itx 2 2) Если случайные величины X и Y связаны соотношением Y Ax, то их характеристические функции связаны соотношением gyt gxat.

3) Характеристическая функция суммы независимых случайных величин равна произведению характеристических n функций слагаемых: для Y X k k g y t g x1 t g x2 t g xn t Теорема (центральная предельная теорема) Если X 1, X 2,, X n - независимые случайные величины с одинаковым законом распределения, математическим ожиданием m и дисперсией, то при неограниченном n Yn X k увеличении закон распределения суммы n k неограниченно приближается к нормальному.

Доказательство Докажем теорему для непрерывных случайных величин X 1, X 2,, X n (доказательство для дискретных величин аналогично). Согласно условию теоремы, характеристические функции слагаемых одинаковы:

g x t e itx f x dx Тогда по свойству 3 характеристическая функция суммы Yn будет g y n t g x t.

n Разложим функцию g x t в ряд Маклорена:

g g x t g x 0 g 0t x t t x 2 Где t 0, при t 0.

Найдм:

g x 0 f x dx 1, g 0 ixeitx f x dx t 0 i xe itx f x dx x i xf x dx im t Если предположить, что m 0 ( то есть перенести начало отсчета в точку m ), то g 0 0.

x g 0 x e f x dx t 0 x 2 f x dx 2 itx x Подставив полученные результаты в формулу Маклорена, найдем, что g x t 2 t t.

Yn Zn Рассмотрим новую случайную величину, n отличающуюся от Yn тем, что ее дисперсия при любом n равна 0.

Так как Yn и Z n связаны линейной зависимостью, достаточно доказать, что Z n распределена по нормальному закону, или, что то же самое, что ее характеристическая функция приближается к характеристической функции нормального закона. По свойству характеристических функций n t t g xn t g yn gx n n n t t 1 2 n n Прологарифмируем полученное выражение:

ln g xn t n ln 1 k, t t где k 2 n n, n k 0.

lim Разложим ln1 k в ряд при n, ограничившись двумя членами разложения, тогда ln 1 k k. Отсюда t2 t t lim ln g xn t lim n k lim n n n n t2 t t lim 2, 2 n n где последний предел равен 0, так как t 0 при t 0.

t t2 Следовательно, lim ln f x n t, то есть lim g x n t e 2 n n характеристическая функция нормального распределения.

Итак, при неограниченном увеличении числа слагаемых характеристическая функция величины Z n неограниченно приближается к характеристической функции нормального закона;

следовательно, закон распределения Z n ( и Yn ) неограниченно приближается к нормальному. Теорема доказана.

Ляпунов Александр Михайлович(1857-1918).Русский математик и механик. Исследовал проблемы устойчивости движения материальных систем. Методы, предложенные Ляпуновым, применяются во многих разделах теории дифференциальных уравнений. Дал простое и строгое доказательство центральной предельной теоремы в общем виде.

Для доказательства разработал метод характеристических функций, который широко применяется в современной теории вероятностей.

Замечание (практическое значение предельной теоремы) Пусть производится измерение некоторой физической величины. Каждое из измерений является приблизительным, на него влияют многие факторы – температура, колебания прибора, влажность и т.д. Каждый из факторов порождает ничтожно малую ошибку, но совокупность факторов – заметную суммарную ошибку. Рассматривая суммарную ошибку как сумму очень большого числа взаимно независимых случайных величин, можно заключить, что ошибка имеет нормальное распределение. На этом строится статистическое оценивание погрешности.

А.М.Ляпунов доказал центральную предельную теорему для условий более общего вида:

Теорема (теорема Ляпунова) Если случайная величина Х представляет собой сумму очень большого числа взаимно независимых случайных величин, для которых выполнено условие:

n b k k lim n n Dk k где bk – третий абсолютный центральный момент величины X k, а Dk – ее дисперсия, то X имеет распределение, близкое к нормальному ( условие Ляпунова означает, что влияние каждого слагаемого на сумму ничтожно мало).

Практически можно использовать центральную предельную теорему при достаточно небольшом количестве слагаемых, так как вероятностные расчеты требуют сравнительно малой точности.

Опыт показывает, что для суммы даже десяти и менее слагаемых закон их распределения можно заменить нормальным.

Замечание Смысл условия теоремы состоит в том, чтобы в сумме не было слагаемых, влияние которых на разброс подавляюще велико по сравнению с остальными и не должно быть большого числа слагаемых, влияние которых очень мало.

Т.о. удельный вес каждого отдельного слагаемого должен стремиться к нулю при увеличении числа слагаемых.

Частным случаем центральной предельной теоремы для дискретных случайных величин является теорема Муавра Лапласа.

Муавр Абрахам (1667-1754) - английский математик.

Труды по теории рядов, теории вероятностей, теории комплексных чисел. В теории вероятностей доказал важную предельную теорему (1730). В теории комплексных чисел вывел правила возведения в степень и извлечения корней.

Лаплас Пьер Симон (1749-1827) -французский математик, физик и астроном. Фундаментальные работы по математике, экспериментальной и математической физике и небесной механике. Является одним из создателей теории вероятностей.

Доказал важную предельную теорему, развил теорию ошибок.

Ввел теоремы сложения и умножения вероятностей, понятия производящих функций и математического ожидания.

Теорема (теорема Муавра-Лапласа) Если производится n независимых опытов, в каждом из которых событие A появляется с вероятностью p, то справедливо соотношение:

Y np, p npq где Y – число появлений события A в n опытах, q 1 p.

Доказательство n Будем считать, что Y X i, где X i – число появлений i события A в i -м опыте.

Y my Тогда случайную величину Z можно считать y распределенной по нормальному закону и нормированной, следовательно, вероятность ее попадания в интервал, можно найти по формуле p Z.

Поскольку Y имеет биномиальное распределение, m y np, D y npq, y npq.

Y np Тогда Z.

npq Подставляя это выражение в предыдущую формулу, получим равенство Y np.

p npq Следствие В условиях теоремы Муавра-Лапласа вероятность того, что событие A появится в n опытах ровно k раз, при большом количестве опытов можно найти по формуле:

pn k x npq x k np 1, а x где x (значения этой функции e npq приводятся в специальных таблицах).

Пример Найти вероятность того, что при 100 бросках монеты число выпадений герба окажется в пределах от 40 до 60.

Решение Применим формулу Y np p npq учитывая, что n 0,5.

npq 50 1 0,5 5.

Тогда np 100 0,5 05, Y Тогда, если 40 y 60, 2 2.

Следовательно, Y p40 Y 60 p 2 2 2 0,9772 0,0228 0, Пример В условиях предыдущего примера найти вероятность того, что выпадет 45 гербов.

Решение 45 Найдем x 1, тогда 1 1 0,2420 0,0484.

1 1 p 5 5 Контрольные вопросы 1. Что такое закон больших чисел в широком смысле и в узком смысле?

2. Что позволяет оценить неравенство Чебышева?

3. Сформулируйте теорему Чебышева и условия е применения.

4. Сформулируйте теорему Бернулли и теорему Пуассона.

5. Что устанавливает центральная предельная теорема?

6. Сформулируйте теорему Ляпунова.

7. Сформулируйте условия, при которых нормальное распределение может служить аппроксимацией к биноминальному.

Лекция Математическая статистика Математическая статистика изучает различные методы сбора, обработки и осмысления результатов многократно повторяемых случайных событий. Понятие случайного события определяется в теории вероятностей, обработка результатов также производится при помощи теоретически разработанных вероятностных методов.

Для процесса построения и применения моделей характерно, чем больше данных, тем точнее, адекватнее модель. О современной математической статистике можно говорить как о науке о принятии решений в условиях неопределенности.

Определение Математическая статистика – раздел математики, занимающейся установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений.

Двумя основными задачами математической статистики являются:

- определение способов сбора и группировки этих статистических данных;

- разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся:

а) оценка неизвестной вероятности события;

оценка неизвестной функции распределения;

оценка параметров распределения, вид которого известен;

оценка зависимости от других случайных величин и т.д.;

б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.

Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов.

Пример Имеется партия деталей, качественным признаком может служить стандартность детали, а количественным — контролируемый размер детали.

Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяется сравнительно редко.

Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.

Обычно совокупность исследуется относительно некоторого качественного или количественного признака, характеризующего эти объекты. Определим основные понятия математической статистики.

Определение Генеральная совокупность –- полное множество некоторых единиц, которые обладают теми или иными общими свойствами, существенными для их характеристики.

В математической статистике понятие генеральной совокупности трактуется как совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данном реальном комплексе условий и аналогично понятию случайной величины.

Определение Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов.

Определение Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности.

Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности выносить суждение о свойствах в целом.

Пример Из 1000 деталей отобрано для обследования деталей, то объем генеральной совокупности N 1000, а объем выборки n 100.

Исследуемый признак генеральной совокупности является дискретным, если он принимает отдельные, изолированные возможные значения с определнными вероятностями.

Исследуемый признак генеральной совокупности является непрерывным, если он может принимать все значения из некоторого конечного или бесконечного промежутка.

По всякой ли выборке можно достаточно уверенно судить об генеральной совокупности?

Случайная выборка строится таким образом, что каждый объект генеральной совокупности имеет одинаковую вероятность быть отобранным;

объекты выбирают независимо друг от друга.

случайность гарантирует надежность.

Виды выборки Пусть случайная величина X принимает в выборке значение x1 - n1 раз, x2 - n2 раз, …, xn - nn раз, и k n n, k i где n – объем выборки.

Определение Варианты - наблюдаемые значения x1, x2,…, xn случайной величины X, принимаемые в выборке n раз, n2 раз, …, nn раз.

Определение Частоты n1, n2,…, nk –. величины, показывающие, сколько раз встречается то или иное значение признака Определение Относительные частоты - отношение частот к объему ni wi n Определение Вариационный ряд - последовательность вариант, записанных в порядке возрастания, а перечень вариант и соответствующих им частот или относительных частот.

Определение Статистический ряд последовательность частот или относительных частот, записанных в порядке возрастания.

Различные значения признака X называются вариантами.

… xi x1 xk x … n1 n ni xk … w1 w wi wk Замечание: В теории вероятности под распределениями понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми вариантами и их частотами.

Пример При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1.

Составим вариационный ряд: 0,1,2,3,4,5.

Статистический ряд для абсолютных и относительных частот имеет вид:

0 1 2 3 4 xi 3 6 5 3 2 ni 0,15 0,3 0,25 0,15 0,1 0, wi Определение Расположение, упорядочение вариантов в порядке возрастания (убывания) называется ранжированием вариантов ряда.

При составлении выборки можно поступать двояко: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен, либо не возвращен в генеральную совокупность.

В соответствии со сказанным, выборки подразделяют на повторные и бесповторные Определение Повторная выборка – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность;

Определение Бесповторная выборка – отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Замечание Для того, чтобы по исследованию выборки можно было сделать выводы о поведении интересующего признака генеральной совокупности, нужно, чтобы выборка правильно представляла пропорции генеральной совокупности, то есть была репрезентативной (представительной).

Выборка будет репрезентативной, если е осуществить случайно, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отображенными и отбор одного объекта не влияет на вероятность отбора другого объекта совокупности.

Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова.

Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается;

в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.

Способы отбора На практике применяются различные способы отбора.

Принципиально эти способы можно подразделить на два вида:

1. Отбор, не требующий расчленения генеральной совокупности на части, сюда относятся:

простой случайный бесповторный отбор;

простой случайный повторный отбор.

2. Отбор, при котором генеральная совокупность разбивается на части, сюда относятся:

типический отбор;

механический отбор;

серийный отбор.

Определение Простой случайный отбор - отбор, при котором объекты извлекают по одному из всей генеральной совокупности.

Осуществить простой отбор можно различными способами.

Например, для извлечения n объектов из генеральной совокупности объема N поступают так: пронумеровывают все объекты генеральной совокупности и выписывают номера от до N на карточках, которые тщательно перемешивают и наугад вынимают одну карточку;

объект, имеющий одинаковый номер с извлеченной карточкой, подвергают обследованию;

затем карточка возвращается в пачку, и процесс повторяется, т. е.

карточки перемешиваются, наугад вынимают одну из них и т. д.

Так поступают n раз;

в итоге получают простую случайную повторную выборку объема n.

Если извлеченные карточки не возвращать в пачку, то выборка будет простой случайной бесповторной.

При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким.

В этом случае пользуются готовыми таблицами «случайных чисел», в которых числа расположены в случайном порядке.

Для того чтобы отобрать, например 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд чисел;

в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами.

Если бы оказалось, что случайное число таблицы превышает число N, то такое случайное число пропускают. При осуществлении бесповторной выборки случайные числа таблицы, уже встречавшиеся ранее, следует также пропустить.

Определение Типический отбор - отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части.

Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности.

Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности.

Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесообразен.

Определение Механический отбор - отбор, при котором генеральная совокупность «механически» делится на столько групп, сколько объектов должно войти в выборку, и из каждой группы отбирается один объект.

Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь;

если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь и т.

д.Следует указать, что иногда механический отбор может не обеспечить репрезентативности выборки.

Например, если отбирается каждый двадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае надо устранить совпа дение ритма отбора с ритмом замены резца, для чего надо отбирать, скажем, каждый десятый валик из двадцати обточенных.

Определение Серийный отбор - отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию.

Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.

На практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы.

Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты.

Табличное представление статистических данных После того, как данные собраны, выполняется их обработка, при этом необходимо обеспечить наглядность представления данных, позволяющую получить какие-то первоначальные представления об их закономерности. Эта наглядность достигаются путем построения таблиц и графиков Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку.

Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni – сумму частот вариант, попавших в i -й интервал.

Составленная по этим результатам таблица называется группированным статистическим рядом:

Определение Числа, показывающие, сколько раз встречаются варианты из данного интервала, называются частотами, а отношение их к общему числу наблюдений – относительными частотами.

Номера интервалов … 1 2 k Границы … (b – h, b) (a, a + h) (a + h, a + 2h) интервалов Сумма частот … n1 n2 nk вариант, попавших в интервал Частоты и относительные частоты называют весами.

Определение Вариационный ряд – ранжированный ряд вариантов с соответствующими весами.

Пример Распределение рабочих по тарифному разряду 1 2 3 4 5 Тарифный разряд xi Частота 2 3 6 8 22 9 (кол-во рабочих) ni Пример Составить дискретный вариационный ряд успеваемости студентов, сдавших экзамен по курсу "Математическая статистика". На курсе 100 человек.

Полученные студентами оценки представляют собой следующий набор чисел:

5 3 4 5 4 3 5 4 2 4 5 4 4 3 3 4 2 5 4 3 4 3 3 4 5 4 5 3 4 5 4 4 5 2 3 5 4 5 3 4 4 4 5 5 4 3 4 5 5 4 5 4 3 5 2 4 4 3 5 4 2 5 4 5 3 5 4 5 4 4 5 2 3 5 4 5 5 5 3 5 4 3 3 4 5 4 5 4 3 5 3 4 5 4 5 Решение Полученные сведения образуют выборку или статистический ряд. Выборку надо "организовать". Расположим наблюдавшиеся значения признака (оценки) в порядке возрастания (ранжирование) Оценка принимает дискретные значения от 2 до 5.

Ранжированный ряд удобно представлять в табличной форме в виде дискретного вариационного ряда Частота признака m x - величина, показывающая, сколько раз встречается то или иное значение признака.

Относительная частота wx - отношение частоты m x к общему объему выборки n :

mx mx x mx n Доля Накопленная Количество Накопленная студентов Оценка относительная студентов (относительная частота m нак (х) нак частота x (частота m x ) x частота x ) 2 6 0,06 6 0, 3 20 0,2 26 4 40 0,4 66 0, 5 34 0,34 100 Итого 100 1,0 - Наряду с понятиями частоты и относительной частоты, в математической статистике рассматриваются понятия нак накопленной частоты m x и накопленной относительной частоты нак которые показывают, во скольких наблюдениях x признак принял значения не больше заданного значения x :

нак mx mx mx, нак нак x n В случае непрерывной случайной величины рассматривают не дискретные значения признака, а их значения в пределах определенного интервала. В качестве частоты при таком подходе выступает количество случаев, в которых признак принял значения, входящие в некоторый интервал.

Такую величину называют интервальной частотой и обозначают тh (соответственно рассматривается также и интервальная относительная частота wh ). Полученный таким образом ряд называют интервальным вариационным рядом.

Интервальный вариационный ряд строят не только на основе наблюдений за непрерывно меняющимся признаком. Во многих случаях, когда признак варьирует дискретно, однако число наблюдений достаточно велико, удобнее как раз строить интервальный ряд.

Для построения интервального ряда необходимо установить величину интервала h. Она должна быть такой, чтобы ряд был не слишком громоздким и не отвлекал внимание на частности, и, в то же время, обеспечивал выявление характерных черт и закономерностей исследуемых явлений.

Определение Вариационный размах – разность между наибольшим и наименьшим вариантами ряда R x max x min Определение Группировка - разбиение вариантов на различные интервалы.

Для определения величины интервала h можно использовать формулу Стэрджесса:

RB h 1 3.3221lg( n ) где RB - вариационный размах и является мерой разброса данных;

xmax и xmin - соответственно наибольшее и наименьшее значение признака в выборке.

Ширина интервала xmax xmin k h Когда величина интервала h выбрана, строят шкалу интервалов. При этом за верхнюю границу первого интервала принимают обычно величину a1 xmin h / а верхняя граница каждого последующего интервала определяется добавлением к верхней границе предыдущего значения интервала h a j a j 1 h, ( j 2,3...) до тех пор, пока начало очередного интервала не окажется больше xmax.

Затем все значения признака, входящие в выборку, распределяются между соответствующими интервалами, и строится интервальный вариационный ряд.

Пример Студенты некоторого факультета, состоящего из 100 человек, написали выпускную контрольную работу.

Каждый студент набрал определенное количество баллов.

Приведем эти баллы (в порядке алфавитного списка студентов):

64 59 116 89 76 55 87 65 99 76 59 78 34 89 42 91 41 99 59 66 57 79 65 94 67 103 38 85 51 78 38 87 43 104 49 58 53 75 28 67 37 50 98 56 71 68 58 82 67 57 72 59 86 51 70 53 32 56 100 57 69 87 82 37 74 39 84 337 99 47 110 57 66 46 72 54 75 47 79 61 115 67 70 24 73 40 58 78 75 87 Решение В таблице подчеркнуты максимальное и минимальное значения признака. Величина интервала h = 12.

Тогда h 24 6 30 ;

a2 a1 h 30 12 42 ;

a1 xmax a3 a2 h 54 ;

… Результаты построения интервального вариационного ряда по приведенным объемам выпуска ДСП представлены:

Верхняя граница Частота Относительная Накопленная Накопленная интервала а частота относительная частота нак mx частота m x x нак x 30 2 0,02 2 0, 42 12 0,12 14 0, 54 13 0,13 27 0, 66 23 0,23 50 0, 78 24 0,24 74 0, 90 12 0,12 86 0, 102 9 0,09 95 0, 114 3 0,03 98 0, 126 2 0,02 100 1, Итого 100 1 - Графическое представление статистических данных Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики. Наиболее часто используют следующие виды графического представления характеристик выборки: полигон, гистограмма и кумулятивная кривая. Гистограмма и полигон позволяют выявить преобладающие значения признака и характер распределения частот и относительных частот.

Определение Полигон - ломаная линия с координатами xi, mx где xi откладываются на оси абсцисс, а mx, – на оси ординат.

Если на оси ординат откладывать не абсолютные, а относительные частоты, то получим полигон ( wi ) относительных частот.

Полигон служит обычно для представления дискретного вариационного ряда. В системе координат ( x, m x,) строятся точки, соответствующие значениям частот или относительных частот ряда, а затем эти точки соединяются прямыми линиями.

Показан полигон частот для ряда, представленного ранее в примере.

Частота mx 2 3 4 Оценка х Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni h (гистограмма частот) или wi h (гистограмма относительных частот).

В первом случае площадь гистограммы равна объему выборки, во втором – единице Определение Гистограмма – прямоугольники, с основаниями, равными интервалам значений признака и высотами, равными частотам.

Полигон (гистограмма) аналогичны кривой распределения, эмпирическая функция распределения – функции распределения случайной величины.

Гистограмма — это диаграмма, используемая, как правило, для представления интервального вариационного ряда.

Наиболее существенное отличие от полигона в том, что частота и относительная частота отображаются не точкой, а прямой, параллельной оси абсцисс на всем интервале.

Это объясняется тем, что данная частота (относительная частота) относится не к дискретному значению признака, а ко всему интервалу.

mh 30 42 54 66 78 90 102 114 aj Любой вариационный ряд можно изобразить графически в виде кривой накопленных частот — кумуляты. На оси абсцисс откладываются либо варианты, либо границы интервалов. На оси ординат — накопленная частота. Получают точки при пересечении каждой пары абсциссы и ординаты, которые соединяют плавной кривой.

Определение Кумулятивная кривая (кривая сумм) — ломаная, составленная по последовательно суммированным, т.е.

накопленным частотам или относительным частотам.

При построении кумулятивной кривой дискретного признака на ось абсцисс наносятся значения признака, а ординатами служат нарастающие итоги частот. Соединением вершин ординат прямыми линиями получают кумуляту.


При построении кумуляты интервального признака на ось абсцисс откладываются границы интервалов и верхним значениям присваивают накопленные частоты. Кумулятивную кривую называют полигоном накопленных частот.

Кумулятивная кривая строится для накопленных частот или накопленных относительных частот, причем по оси ординат откладывают верхнюю границу интервала соответствующего интервального ряда, так что последняя точка кумулятивной кривой всегда отвечает либо количеству наблюдений в выборке, либо единице.

нак mh 30 42 54 66 78 90 102 114 aj По аналогии с функцией распределения случайной величины можно задать некоторую функцию, относительную частоту события X x. Кумулятивная кривая, то же, что график функции распределения.

Выборочная функция распределения Определение Выборочной (эмпирической) функцией распределения называют функцию F x, определяющую для каждого значения x относительную частоту события X x.

nx x * F n, где n x – число вариант, меньших x, n – объем выборки.

Замечание. В отличие от эмпирической функции распределения, найденной опытным путем, функцию распределения F x генеральной совокупности называют F x определяет теоретической функцией распределения.

вероятность события X x, а F x – его относительную частоту.

Замечание При достаточно больших n, как следует из теоремы Бернулли, F x стремится по вероятности к F x.

Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F x, а именно:

1) 0 F x 1.

2) F x – неубывающая функция.

3) Если х1 – наименьшая варианта, то F x 0 при x x1 ;

если x k – наибольшая варианта, то F x 1 при x xk.

Числовые характеристики вариационного ряда К числовым характеристикам обычно относят так называемые средние (центральные) величины и меры, характеризующие разброс данных вокруг средних величин, а также некоторые другие дополнительные параметры, описывающие характер распределения опытных данных.

Средние величины — это характеристики, обобщенно представляющие одним числом всю выборку.

Существует несколько видов средних величин:

средняя арифметическая, средняя геометрическая, средняя гармоническая Какой из них пользоваться в каждом конкретном случае определяется тем, какое свойство ряда желательно описать данной величиной.

Наиболее распространенной является средняя арифметическая или, как часто говорят, просто средняя.

Определение Средней арифметической вариационного ряда называется сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот.

m x i ni i x, n где x i - варианты дискретного ряда или середины интервалов вариационного ряда, ni - соответствующие им частоты, m n ni.

i Это наиболее общая формула для вычисления средней арифметической.

Однако при большом числе наблюдений пользоваться ей не очень удобно, поэтому существуют некоторые другие более удобные формулы. В частности, если уже построены вариационные ряды, то среднюю арифметическую можно найти с помощью частот по формулам:

1 x xm x x x h mh и nx nh, или x x x x xh h и x h где x и x h — соответственно значение признака для дискретного и интервального (центр интервала) ряда.

Для дискретного ряда эти формулы дают точные значения величин x, а для интервального ряда — приближенные, поскольку предполагают, что все значения наблюдаемой величины совпадают с центром интервала или равномерно распределены вокруг него.

Однако чем больше объем выборки, тем ближе приближенное значение к среднему.

Средняя арифметическая обладает рядом свойств, основными из которых являются следующие.

Свойства средней арифметической 1. Средняя арифметическая - это такая величина, которая обеспечивает неизменность суммы значений результатов наблюдений, если каждое из них заменить средней арифметической:

n n x i x nx i 1 i 2. Сумма отклонений результатов наблюдений от средней арифметической равна нулю:

n ( xi x ) i 3. Средняя арифметическая сумм (разностей) двух рядов наблюдении с одинаковым объемом выборок равна сумме (разности) средних арифметических этих рядов, если исследуемые признаки взаимно соответствуют друг другу:

(x y) x y Последнее свойство обобщается на любое количество рядов.

Средняя арифметическая является важной характеристикой ряда наблюдений. Она показывает наиболее часто встречающееся, наиболее вероятное значение анализируемой величины и подобна математическому ожиданию в теории вероятностей.

Но это не единственная средняя характеристика выборки.

Часто в практике приходится прибегать к средней геометрической, которая определяется как корень n - ой степени из произведения всех полученных измерений (наблюдений):

n xi x геом n x1 x2 xn i Часто употребляемыми характеристиками являются также мода и медиана.

Определение Медианой называется значение признака, приходящееся на середину ранжированного ряда наблюдений.

Медиана (Me или ~ ) - значение признака, для которого x половина всех наблюдений меньше (соответственно половина больше) этого значения или, иначе говоря, срединное значение признака.

Наиболее просто медиану можно найти по графику кумулятивной кривой накопленных относительных частот, определяя значение ~, отвечающее величине h = 0,5, или x ближайшего к нему целому для дискретного целочисленного ряда.

К вычислению медианы прибегают в том случае, когда надо определять значение признака, которое лежит в середине распределения.

Для дискретного вариационного ряда с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов.

Пример n 50 четное, серединных интервалов два x 25 5, x 26 x 25 x 26 5 M 2 Для интервального вариационного ряда находится медианный интервал, на который приходится середина ряда, а значения медианы на этом интервале находят с помощью линейного интерполирования.

Определение Мода –вариант, которому соответствует наибольшая частота.

Мода (Мо) — это такое значение признака, которому отвечает максимум частоты или относительной частоты вариационного ряда. Для дискретного вариационного ряда значение моды определяется непосредственно из таблицы или по полигону частот (относительных частот).

Пример Mo 5, так как этому варианту соответствует наибольшая частота ni 22.

Для интервального ряда сначала определяют модальный интервал, т. е. интервал, отвечающий наибольшей частоте признака. Обозначим через a 0 начало модального интервала.

Через m0 ( 0 ), m0 ( ) и m0( ) обозначим частоту 0 (относительная частота) модального, предшествующего и последующего интервалов. Тогда m0 m Mo a0 h 2m0 m0 m или Mo a0 h 20 0 Обычно модой пользуются, чтобы установить, например, какая производительность труда, себестоимость продукции, объем ее выпуска и т. п. преобладают в данном ряду наблюдении, на данной группе предприятии, в данном районе, в данном году и т. п.

Определение Коэффициент ассиметрии – числовая характеристика вариационного ряда xi 3 ni m x m3 i A n s s если A 0, то распределение имеет симметричную форму, т.е. варианты равноудалены от x, имеют одинаковую частоту.

Ассиметрия характеризует симметричность распределения относительно средней арифметической.

Определение Эксцесс - числовая характеристика вариационного ряда xi 4 ni m x m 3 i E n s s Эксцесс или коэффициент эксцесса характеризуют остроту вершины полигона или гистограммы. Чем больше значение этих величин, тем острее вершина.

Эксцесс является показателем крутости вариационного ряда по сравнению с нормальным распределением. Если E 0 - то нормальное распределение.

Меры разброса опытных данных Средние величины характеризуют всю выборку, при этом такие характеристики даются единственным числом. Степень изменчивости наблюдаемых значений или, как принято говорить, вариация признака такими характеристиками никак не учитывается. Однако на практике небезразлично, как разбросаны значения измеряемых величин.

Средняя арифметическая характеризует только центр рассеивания опытных данных. Нужны еще какие-то меры, которые характеризовали бы рассеяние этих данных вокруг центра. Таких мер существует несколько.

Простейшей из них является вариационный размах. Эта величина легко вычисляется, поэтому ею часто пользуются на практике. Однако эта характеристика, опираясь только на два крайних значения из всего ряда наблюдений, не учитывает, как расположены внутри этого интервала остальные значения.

Поэтому чаще используются более эффективные меры для оценки рассеивания.

Определение Дисперсия – средняя арифметическая квадратов отклонений вариантов от их средней арифметической xi 2 ni m x i s2, n где s - средне квадратическое отклонение.

Выборочная дисперсия является наиболее важной из них и равна 1n ( xi x )2 - для неранжированного ряда в n i Или в2 ( xi x )2h - для ранжированного ряда.

h Дисперсия полно характеризует меру рассеивания измеренных значений вокруг средней арифметической.

Чем меньше дисперсия, тем теснее группируются данные около центра рассеивания.

Дисперсия и средняя арифметическая имеют разные размерности, что создает затруднения при практических оценках. Поэтому часто прибегают к выборочному стандартному отклонению:

1n ( xi x ) в - для неранжированного ряда или n i (x x ) в - для ранжированного ряда.

i h h Достаточно удобной величиной, дающей возможность оценить меру рассеивания, является выборочный коэффициент вариации, определяемый либо в относительных значениях, либо x x в процентах:

x Формулами, которыми значительно удобнее пользоваться на практике:

1n 2 xi2 x в n i 2 xh h x в h Для подсчета истинных характеристик вводят поправки к группировке (поправки Шеппарда), при этом истинные моменты связываются h, m3 m3, s2 s 1 m4 m4 s 2 h 2 h 2 m A, E E h k - ширина интервала s Контрольные вопросы 1. Сформулируйте основные задачи математической статистики.


2. Дайте определение генеральной и выборочной совокупностей.

3. Какие способы отбора выборки Вы знаете? Приведите примеры.

4. Что такое вариационный ряд.

5. Приведите пример статистического распределения выборки. Найдите объем выборки.

6. Что такое статистическая оценка неизвестного параметра генеральной совокупности?

7. Напишите формулы для нахождения выборочной средней и дисперии выборки.

8. Запишите формулы для нахождения генеральной средней и генеральной дисперсии.

9. Что такое исправленное среднее квадратическое отклонение?

10. В чем различие между полигоном частот и полигоном относительных частот?

11. Чему равна площадь прямоугольника в гистограмме частот?

12. Как определить моду на полигоне частот?

13. Чему равна площадь одного прямоугольника в гистограмме частот?

14. Чему равна сумма площадей всех прямоугольников в гистограмме частот?

15. Может ли значение дисперсии равно значению стандартного отклонения?

16. При каких условиях распределение случайных величин может оказаться бимодальным?

17. Какие факторы должны учитываться при выборе числа интервалов гистограммы?

Лекция Проверка статистических гипотез Часто необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, но имеются основания предположить, что он имеет определенный вид (назовем его A ), выдвигают гипотезу: генеральная совокупность распределена по закону A. Таким образом, в этой гипотезе речь идет о виде предполагаемого распределения.

Возможен случай, когда закон распределения известен, а его параметры неизвестны. Если есть основания предположить, что неизвестный параметр равен определенному значению 0, выдвигают гипотезу: 0. Таким образом, в этой гипотезе речь идет о предполагаемой величине параметра одного известного распределения.

Возможны и другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и многие другие.

Определение Статистическая гипотеза – гипотеза о виде неизвестного распределения, или о параметрах известных распределений.

Например, статистическими будут гипотезы:

1) генеральная совокупность распределена по закону Пуассона;

2) дисперсии двух нормальных совокупностей равны между собой.

В первой гипотезе сделано предположение о виде неизвестного распределения, во второй - о параметрах двух известных распределений.

Гипотеза «в 2010г. не будет дождей» не является статистической, поскольку в ней не идет речь ни о виде, ни о параметрах распределения.

Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза.

По этой причине эти гипотезы целесообразно различать.

Нулевой (основной) называют выдвинутую гипотезу H 0.

Конкурирующей (альтернативной) называют гипотезу H 1, которая противоречит нулевой.

Например, если нулевая гипотеза состоит в предположении, что математическое ожидание а нормального распределения равно 10, то конкурирующая гипотеза, в частности, может a состоять в предположении, что H 0 : a 10;

H1 : a 10.

Нулевая гипотеза представляет собой такое утверждение, которое принимается тогда, когда нет убедительных аргументов для его отклонения.

Альтернативную гипотезу принимают только тогда, когда есть убедительное статистическое доказательство, которое отвергает нулевую гипотезу.

Определяя, какая из двух гипотез будет альтернативной, надо спросить себя: «Какая из гипотез требует доказательств?».Эта гипотеза и будет альтернативной Различают гипотезы, которые содержат только одно и более одного предположений.

Простой называют гипотезу, содержащую только одно предположение. Например, если параметр показательного распределения, то гипотеза H 0 : 5 простая.

Пример Гипотеза H 0 : математическое ожидание нормального распределения равно 3 ( известно) - простая.

Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез.

Например, сложная гипотеза H : 5 состоит из бесчисленного множества простых вида H i : bi, где bi любое число, большее 5.

Гипотеза H 0 : математическое ожидание нормального распределения равно 3 ( неизвестно) - сложная.

Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно.

Эту величину обозначают через U или Z, если она распределена нормально, F или v2 - по закону Фишера Снедекора, Т - по закону Стьюдента, 2 - по закону «хи квадрат» и т. д.

Признаем, что и принимая, и отвергая H 0, мы подвергаем себя определнному риску.

В итоге статистической проверки могут быть допущены ошибки двух типов:

Ошибка 1 рода - будет отвергнута правильная 1.

гипотеза. Принимается H1, тогда как верна H 0.

Ошибка 2 рода – будет принята неправильная 2.

гипотеза. Примем H 0, тогда как на самом деле верна H1.

Решение Фактически H 0 верно Фактически H 0 не верно Ошибка 1 рода Правильное решение H 0 отвергается Правильное решение Ошибка 2 рода H 0 принимается Пример H 0 - подсудимый невиновен ( гипотеза либо принимается, либо отвергается). Могут быть 2 ошибки:

1.осудить невиновного (1 рода) 2.оправдать виновного (2 рода) Последствия ошибок разны.

Пример Идет строительство дома. Однако выявлены ряд ошибок в проекте и самом строительстве. Продолжать ли стройку? H 0 - продолжать.

Ошибка 1 рода – остановили стройку. Денежные потери.

Ошибка 2 рода – продолжили строительство. Дом обвалился.

Вероятность совершить ошибку 1 рода (отвергнуть правильную H 0 ) обычно обозначается и называется уровнем значимости.

Если 0.05, то это означает, что имеется риск в 5 случаях из 100 отвергнуть правильную гипотезу.

Вероятность совершить ошибку 2 рода (принять H 0, когда она неверна) обычно обозначается. Вероятность 1 не допустить ошибку 2 рода (отвергнуть H 0, когда она неверна) называется мощностью критерия.

Возможностью двойной ошибки проверка гипотез отличается от интервального оценивания, где рассматривалась только одна ошибка.

Определение Статистический критерий (или просто критерий)- случайная величина K, которая служит для проверки нулевой гипотезы.

Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия K принимают отношение исправленных выборочных дисперсий:

s F s Эта величина случайная, потому что в различных опытах дисперсии будут принимать различные, наперед неизвестные значения.

Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин, и таким образом получают частное (наблюдаемое) значение критерия.

Наблюдаемым значением K набл назначают значение критерия, вычисленное по выборкам.

Например, если по двум выборкам, извлеченным из нормальных генеральных совокупностей, найдены исправленные выборочные дисперсии s1 20 и s2 5, то наблюдаемое значение критерия F s1 2 Fнабл s Общий алгоритм 1.Сформулировать нулевую и альтернативную гипотезы.

2.Задать уровень значимости (допустимую вероятность ошибки 1 рода).

3.Выбрать подходящий критерий (меру расхождения) K 4. Определить критическую область.

5. По выборочным данным найти фактическое значение критерия..

6.Если наблюденное значение критерия принадлежит критической области, то нулевая гипотеза отклоняется, иначе – принимается.

Если H 0 принята, она ещ не доказана. Говорят, что данные согласуются с H Если гипотеза отвергается, то этот вывод более категоричен.

Пример Для проведения экзамена по курсу «Теория вероятностей» подготовлено 100 вопросов. Если студент знает не менее 60 вопросов, считается, что он усвоил курс и ему может быть поставлен экзамен. Каждому студенту предлагается 5 вопросов. Студент получает экзамен, если ответит не менее, чем на 3 вопроса.

Решение Генеральная совокупность – 100 вопросов. Выборка – вопросов. Гипотеза H 0 - «студент курса не усвоил». Критерием для проверки служит число правильных ответов. Областью принятия гипотезы является совокупность чисел 0,1,2, а критической областью – 3,4,5.

Пусть «хороший» студент знает 70 из 100 вопросов и объективно должен получить экзамен. Тогда H 0 неверна. Но возможно, что из 5 вопросов студент будет знать меньше 3 и не получит экзамен. Произойдет ошибка 2 рода.

Наоборот, «плохой» студент, знающий 30 вопросов, может получить 3 и более известных вопросов. В этом случае будет отвергнута правильная гипотеза H 0 и произойдет ошибка 1 рода.

Как уменьшить вероятность ошибок 1 и 2 рода? Можно уменьшить вероятность ошибки 1 рода путем сужения критической области (ставить экзамен за 4 или 5 правильных ответов). Но при этом возрастет и вероятность ошибки 2 рода.

Одновременное уменьшение вероятностей ошибок 1 и 2 рода возможно только за счет увеличения объема выборки, т.е. числа предлагаемых вопросов.

Критическая область Как построить критическую область.

1. Задаем уровень значимости.

Зная закон распределения K ищем K кр, исходя из 2.

требования (для односторонней области) K K кр или K K кр.

3. Находим K набл. Если K набл K кр или K набл K кр – отвергаем H 0.. В противном случае принимаем H 0 с уровнем значимости.

Если критерий двусторонний, то критические точки выбираются, исходя из требования K K кр K K кр. Чаще всего выбирается так, чтобы K K кр K K кр.

Распределение Пусть X i i 1,2,, n — независимые случайные величины, распределенные по гауссовскому закону, причем м.о.

каждой из них равно нулю, а с.к.о. — единице.

Тогда сумма квадратов этих величин распределена по закону (''хи квадрат") с k n степенями свободы.

n 2 X i i Плотность этого распределения x f ( x) 1 x /2 k /2 x 2k /2 Г (k / 2) e x где x = t x 1e t dt гамма-функция, в частности, n 1 n!

Распределение 2 определяется одним параметром — числом степеней свободы k.

С увеличением числа k распределение медленно приближается к гауссовскому.

Критерий Пирсона Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины по эмпирическим данным.

Предположение о виде закона распределения может быть выдвинуто, исходя из теоретических предпосылок, опыта предшествующих исследований и на основании графического представления опытных данных. Параметры распределения заменяют их точечными оценками.

Между теоретическим и эмпирическим распределениями неизбежны расхождения. Возникает вопрос: объясняются ли эти расхождения случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон подобран неудачно. Для ответа на этот вопрос служат критерии согласия.

Определение Критерий согласия -критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Статистические критерии подразделяются на следующие категории:

Критерии значимости. Проверка на значимость предполагает проверку гипотезы о численных значениях известного закона распределения: — нулевая гипотеза. или — конкурирующая гипотеза.

Критерии согласия. Проверка на согласие подразумевает проверку предположения о том, что исследуемая случайная величина подчиняется предполагаемому закону.

Критерии согласия можно также воспринимать, как критерии значимости.

Критерии на однородность. При проверке на однородность случайные величины исследуются на факт взаимного соответствия их законов распределения (подчиняются ли эти величины одному и тому же закону). Используются в факторном (дисперсионном) анализе для определения наличия зависимостей.

Это разделение условно, и зачастую один и тот же критерий может быть использован в разных качествах.

Критерий Пирсона, или критерий 2 — наиболее часто употребляемый критерий для проверки гипотезы о законе распределения. Во многих практических задачах точный закон распределения неизвестен, то есть является гипотезой, которая требует статистической проверки.

Обозначим через X исследуемую случайную величину.

Пусть требуется проверить гипотезу H0 о том, что эта случайная величина подчиняется закону распределения F x. Для проверки гипотезы произведм выборку, состоящую из n независимых наблюдений над случайной величиной X. По выборке можно построить эмпирическое распределение F x исследуемой случайной величины. Сравнение эмпирического F x и теоретического распределений производится с помощью специально подобранной случайной величины — критерия согласия. Одним из таких критериев и является критерий Пирсона.

Пусть проведено n независимых опытов, в каждом из которых случайная величина приняла определенное значение.

Все значения упорядочены в таблице … Xi X1 X2 Xk ni p1* * p pi* … * pk n Выдвигаем гипотезу H 0, состоящую в том, что случайная величина имеет закон распределения F :

… Xi X1 X2 Xk p1 p … pi pk H Согласно гипотезе 0 отклонение эмпирических частот n pi* i pi P( X i ) n от теоретических вероятности объясняется случайными причинами. Чтобы проверить правдоподобие этой гипотезы для уровня значимости в качестве меры расхождения между гипотетическим и статистическим распределениями рассчитывается величина (n npi ) k набл i.

npi i Эта величина – случайна, т.к. в различных опытах она принимает различные, заранее неизвестные значения. Чем меньше отличаются теоретические и эмпирические частоты, тем меньше величина критерия, следовательно, критерий 2 характеризует степень близости теоретического и эмпирического распределений.

При n закон распределения критерия Пирсона независимо от того, какому закону подчинена генеральная совокупность, стремится к закону распределения 2 с k степенями свободы.

Число степеней свободы k m r 1 где m - число значений, которые принимает случайная величина, r – число параметров предполагаемого теоретического распределения, вычисленных по экспериментальным данным.

Критерий 2 – правосторонний.

Потребуем, чтобы вероятность попадания в критическую область, в предположении справедливости H 0, была равна принятому уровню значимости.

P{ 2 кр (, k )} По таблице находим кр (, k ) и если набл кр – нет 2 оснований отвергать H 0, если набл кр – отвергаем гипотезу.

2 Необходимо, чтобы каждое ni 5. Если некоторые значения меньше 5, имеет смысл объединить их с соседними.

Замечание - критерий Пирсона в качестве меры 2, расхождения U берется равная сумме квадратов отклонений частоты m U 2 ci i p i i n в качестве весов берут c i pi Схема применения критерия Определяется мера расхождения эмпирических и 1.

теоретических частот Для выбранного уровня значимости по таблице 2.

,k распределения находят критическое значение Если фактически наблюдаемое больше 3.

2,k, то гипотеза отвергается, критического, т.е.

2,k если то принимается.

Случайная величина ni n p i r n pi i характеризует согласованность гипотезы Н 0 с опытными данными.

Схема применения критерия для непрерывных случайных величин Пусть проведено n ( n 50 ) независимых опытов, в каждом из которых случайная величина приняла определенное значение. Все значения упорядочены в виде вариационного ряда.

Весь интервал значений делим на S частичных одинаковых интервалов [ ai, ai 1 ] и считаем число значений выборки, попавших в i - тый интервал Выдвигаем гипотезу H 0, состоящую в том, что случайная величина имеет закон распределения F :

В качестве меры расхождения между гипотетическим и статистическим распределениями рассчитывается величина (ni npi ) k набл, npi i где pi P(ai ai 1 ).

Число степеней свободы k m r 1 где m - число частичных интервалов, на которые разбивается выборка, r – число параметров предполагаемого теоретического распределения, вычисленных по экспериментальным данным.

Задаваясь уровнем значимости, по таблице находим кр (, k ) и если набл кр – нет оснований отвергать H 0, если 2 набл кр – отвергаем гипотезу.

2 Число выборочных значений ni, i 1 r в каждом разряде должно быть не менее 5-10.Если это не выполняется, то разряды надо объединять. В этом случае и соответствующие частоты надо сложить.

Пример При 4040 бросаниях монеты французский естествоиспытатель Бюффон получил 2048 выпадений герба и 1992 выпадения цифры. На уровне значимости = 0, проверим гипотезу о том, что монета была правильной.

Решение Здесь в результате испытания может произойти одно из двух событий — выпадение герба либо выпадение цифры. Поэтому имеем:

A1 = {выпадение герба}, A2 = {выпадение цифры}, n = 4040, m1 = 2048, m2 = 1992.

Нулевая гипотеза - H 0 : p A1 p A, т. е. p1 p Вычислим величину 2. Имеем:

m np1 m np 2 1 2 np1 np 2048 2020 1992 2 0. 2020 Число степеней свободы k в данном случае равно r 1 2 1 1.

По известным значениям = 0.05, k = 1 находим в таблице 2 3. kp 2 2, то нулевая гипотеза принимается Так как kp монета была правильной.

Пример Фирма владеет тремя магазинами. Руководство фирмы решило выяснить, посещают ли покупатели все три магазина одинаково охотно либо имеется некоторое различие.

Для проверки была собрана информация о количестве покупателей, сделавших покупки в течение недели. Оказалось, что в первом магазине это число составляет 160 человек, во втором — 225. в третьем —215.

Решение Нулевой гипотезой будет равенство вероятностей посещения покупателем первого ( p1 ), второго ( p 2 ) и третьего ( p3 ) магазинов:

p1 p2 p H0 :.

В результате испытания получаем m1 =160, m2 =225, m3 =215, n =160+225+215= Вычислим величину 160 2002 225 2002 215 2 12. 200 200 Обратимся теперь к таблице критических значений (при k 2 ). Даже на уровне значимости = 0.01 имеем 2 = kp 2 2.

9.2. Таким образом, kp Поэтому, видимо, разницу в посещаемости магазинов в течение недели нельзя объяснить случайными колебаниями.

Пример По выборке из 24 вариант выдвинута гипотеза о нормальном распределении генеральной совокупности.

Используя критерий Пирсона при уровне значимости 0,025 среди заданных значений 2 = {34, 35, 36, 37, 38} указать:

а) наибольшее, для которого нет оснований отвергать гипотезу;

б) наименьшее, начиная с которого гипотеза должна быть отвергнута.

Решение Найдем число степеней свободы k с помощью формулы:

k S r 1, где S - число групп выборки (вариант), r - число параметров распределения.

Так как нормальное распределение имеет 2 параметра ( m и ), получаем k 24 2 1 21.

По таблице критических точек распределения 2, по заданному уровню значимости 0,025 и числу степеней кр 35,5.

свободы k 21 определяем критическую точку В случае а) для значений 2, равных 34 и 35, нет оснований отвергать гипотезу о нормальном распределении, так как 2 кр. А наибольшее среди этих значений 2 35.

В случае б) для значений 36, 37, 38 гипотезу отвергают, так как 2 кр. Наименьшее среди них 2 36.

Контрольные вопросы Что произойдет со стандартной ошибкой среднего, 1.

если размер выборки увеличить в 2 раза?

Приведите пример нулевой, конкурирующей 2.

гипотезы.

Что представляют собой ошибки 1-го и 2-го рода?

3.

Дайте определения свойствам эффективности, 4.

состоятельности и несмещенности оценок.

Задачи для самостоятельного решения Ваш друг утверждает, что он умеет различать на вкус два 1.

близких сорта вина если и не всегда, то хотя бы в четырех случаях из пяти. Вы же склонны считать, что он просто угадывает.

Сформулируйте оба этих мнения в виде статистических 2.



Pages:     | 1 | 2 || 4 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.