авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 3 | 4 || 6 | 7 |   ...   | 8 |

«Вероятность, математическая статистика, случайные процессы Учебное пособие Д. Х. Муштари Казанский университет ...»

-- [ Страница 5 ] --

Пример. При определении глубины моря в заданной точке 0 = 20м, требуемый диаметр доверительного интервала равен 30 м (радиус = 15м), определить количество наблюдений, необходимых для построения доверительного интервала заданной длины и заданным довери тельным уровнем = 0.9.

Решение. Решаем неравенство относительно n:

20n1/2 1.65 15, n1/2 2.2, n 4.84.

Хотя это вряд ли разумно, можно последнее 5-е наблюдение проводить с вероятностью 0, (или не проводить с вероятностью 0,16), используя для принятия решения о проведении на блюдения датчик случайных чисел.

Задача 2. Оценка дисперсии 2 при известном среднем m0.

n (xi m0 )2 (это новое обозначение).

В этой задаче рассматривается статистика Sm0 = n i= Мы так преобразуем случайную величину Sm0, чтобы получилась новая, распределение кото рой не зависит от и более того, является табличным распределением 2. Действительно, мы n покажем, что случайная величина nSm T (x1, x2,..., xn ) = имеет распределение 2. Напомним, что распределение 2 это распределение случайной ве n n 2 2 личины 1 +2 +...+n, где 1, 2,..., n независимые одинаково распределенные нормальные N (0, 1) случайные величины. Имеем:

n nSm (xi m0 )2 / = 2 i= представляется в виде суммы 2, где i = (xi m0 )/.

Используя таблицы распределения случайной величины 2, строится доверительный ин n тервал 2. Чаще всего доверительный интервал строится в виде (, ) (если нас интересует наиболее точное задание дисперсии), (0, ) (если нас интересует вопрос может ли дисперсия оказаться больше какого-то числа, быть слишком большой), и (, ) (если нас интересует может ли дисперсия оказаться слишком маленькой). Доверительный интервал всех трех видов строится одинаковым способом. Построим, например, доверительный интервал третьего вида:

выберем такое 0, что nSm =.

P nSm, Мы получаем, что интервал имеет доверительный уровень nSm 2 =.

P Замечание 3. Как видно из задачи 1, знание дисперсии позволяет оценить точность оценки x. Тогда доверительный интервал для дисперсии это оценка точности точности. Интуитивно ясно, что для такой оценки нужно существенно больше наблюдений чем в задаче 1. Однако для больших n таблиц распределения 2 не существует. Нужно пользоваться нормальным n 2 n приближением случайная величина 2n имеет при больших n почти стандартное нормаль n ное распределение. В таких ситуациях нужно (умеючи!) пользоваться таблицами нормального распределения N (0, 1).

Задача 3. Оценка дисперсии 2 при неизвестном среднем.

В этом случае мы не можем использовать центрирование случайных величин xi средним m0, поэтому вместо статистики Sm0 здесь используется несмещенная оценка дисперсии n S2 = (xi x)2.

n1 i= Теорема. Случайная величина n S (xi x)2 / (n 1) = 2 i= имеет распределение 2. n Доказательство. Мы используем тождество (1) в §2, а также следующую лемму о вращении нормального случайного вектора:

Лемма 1. Пусть (1, 2,..., n ) стандартный нормальный случайный вектор (т.е. распре деления 1, 2,..., n нормальны N (0, 1), сами эти величины независимы). Пусть также U ортогональное вращением, U = [uij ], i, j n, матрица вращения, случайный вектор (i ) задан равенствами uij j, i n.

i = i= Тогда случайный вектор (1, 2,..., n ) также имеет стандартное n-мерное нормальное распре деление.

Вернемся к доказательству теоремы. Обозначим i = xi m, = 1 + 2 +... + n. Тогда n n n (xi x)2 / 2 = [(xi m) ( m)]2 / 2 = T (x1, x2,..., xn ) = x i=1 i= n n (i )2 = i n 2.

= i=1 i= Далее мы построим такое вращение U, матрица U которого имеет вид 1/ n · · · 1/ n U = ··· ··· ···.

··· ··· ··· Задана 1-я строка, в последующих строках стоят какие-то числа достаточно произвольно, но так, чтобы матрица U была ортогональной (Напомним, строки и столбцы ортогональной мат рицы составляют ортонормированный базис. Любую ортонормированную систему, в частности, даже один нормированный вектор, можно дополнить до ортонормированного базиса).

В этом случае 1 = n1/2 (1 +· · ·+n ). Так как при ортогональном вращении сумма квадра n n 2 n 2 = 2 2 = 2, т.е. имеет распределение тов переходит в сумму квадратов, то i i i i=1 i=1 i= 2.

n Задача 4. Оценка среднего при неизвестной дисперсии.

При решении задачи 1 мы использовали известность дисперсии и то, что распределение случайной величины n1/2 ( m)/ есть N (0, 1). Теперь мы будем считать, что дисперсия x неизвестна, поэтому эту статистику при всем желании вычислить мы не можем. Естественно попытаться заменить ее на Tm (x1, x2,..., xn ) = n1/2 ( m)/S, x где S 2 несмещенная оценка дисперсии. И действительно, можно определить распределение статистики Tm, которое не зависит от неизвестной нам дисперсии и от m, и использовать Tm для построения доверительного интервала для среднего m. Имеем:

(x1 m) + (x2 m) +... + (xn m) xm n1/ = n1/ Tm = = 1/ S n 1 (xi x) n i= x1 m + x2 m +... + xn m 1/ =n.

1/ n xi m) x m 1 n i= Обозначим i = xi m, тогда i независимы и имеют распределение N (0, 1), n1/2 (1 + · · · + n ) Tm =.

1/ n (i ) n i= Как и при решении задачи 3 проведем вращение нормального случайного вектора (x1, x2,..., xn ), мы уже видели, что n 1 n1/2 (1 +... + n ) = 1, (i )2 = 2 +... + n.

2 n i= Таким образом, Tm = 1/ n 1 i n i= имеет распределение Стьюдента с параметром n 1, доверительный интервал определяется из неравенства |Tm |, где P{|Tm | } = а определяется по и таблице распределения Стьюдента.

Замечание 4. При больших n распределение Стьюдента хорошо аппроксимируется стан дартным нормальным распределением.

Замечание 5. Мы видим, что в этой задаче, так же, как и в задачах 2 и 3, длина довери тельного интервала случайна и зависит от результатов наблюдений. Это не очень соответству ет высказанной выше идее введения состоятельной оценки. В то же время оценка x является состоятельной согласно закону больших чисел. Для эмпирической дисперсии выше была сфор мулирована задача о состоятельности, которую сейчас есть смысл решить.

n (xi m)2 ( m)2.

s= x n i= Первое слагаемое сходится к 2 по вероятности в силу закона больших чисел, среднее второго слагаемого сходится к нулю, а в силу неотрицательности слагаемого оно сходится к нулю по вероятности.

Замечание 6. Из анализа примеров создается впечатление, что доверительный интервал с одним и тем же доверительным уровнем для всех значений параметра существует редко и лишь в особых ситуациях, в которых возникают инвариантные распределения, не зависящие от неизвестного нам значения параметра. Оказывается, это не так, и аналог доверительного интервала можно связать почти с любой статистикой T. Действительно, зафиксируем для любого два числа t1 () и t2 () такие, что (n) P {t1 () T t2 ()} =. () (Гарантировать существование таких t1 () и t2 () можно лишь в том случае, когда функция распределения статистики T непрерывна при любом значении параметра.) Тогда при любом значении T в качестве аналога доверительного интервала мы можем взять множество всех таких, что выполняется (*). Действительно, при любом это значение параметра с вероят ностью удовлетворяет условию (*) и попадает в выбранное множество. Разумеется, такое множество в конкретной модели может быть не интервалом (и даже не одномерным), поэтому множество таких корректнее называть доверительным множеством, но такого термина я не встречал.

В случае многомерного параметра приведенная конструкция имеет смысл лишь если мы оцениваем все координаты одновременно. Например, в нормальной модели при фиксирован ном m множество (*) будет разным при разных значениях.

3. Вывод функции плотности распределения Стьюдента. В теории вероятности мы отложили вывод распределения Стьюдента. Сейчас самое время этим заняться, хотя для поль зователей математической статистики этот вывод не нужен, достаточно иметь таблицу функ ции распределения, а для составления таблиц нужно уметь хорошо приближать интегралы, которые заведомо не берутся в явном виде.

Итак, мы рассматриваем случайную величину tn = =, 2 1 +... + n n n где и i n+1 независимых нормальных N (0, 1) случайных величин. В частности, числитель и знаменатель случайной величины tn независимы. При n = 1 величину tn можно представить в виде ||, где и независимы и нормальны N (0, 1). Заметим, что если произвольную слу чайную величину умножить на независимую двузначную случайную величину, которая задается соотношением P{ = 1} = P{ = 1} = 1/2, то получим новую случайную величину, распределение которой связано с распределением соотношением P{ [x, x]} = 2P{ [0, x]} = P{ [x, x]}.

Распределение со свойством P{[x, x]} = 2P{[0, x]} называется симметричным. Для симмет ричных распределений (например, для нормального N (0, 1)) таблицу значений функции рас пределения F (x) достаточно задать лишь для x 0. Если же случайная величина сама имеет симметричное распределение, то легко видеть, что умножение на случайный знак не меняет распределение. Поэтому (объяснить!) L L L = = =, || || || то есть имеет распределение Коши. Итак, при выводе распределения Стьюдента целесообразно использовать преобразование координат, которое использовалось при выводе распределения Коши. Но предварительно мы выпишем плотности распределения:

1 x n e 2 x 2 1 I(0,) (x), p2 (x) = n 2n/ n n n/ nx n e x 2 1 I(0,) (x), p n 2 (x) = n n n n/ nx p 1 2 (x) = 2 e xn1 I(0,) (x), 2 n n n Далее запишем функцию распределения tn :

n/ n 1 nv p (u)p 1 2 (v)dudv = e 2 u 2 2 e v n1 dudv = Ftn (x) = n n n u/vx,v0 u/vx,v (u,v) Перейдем к новым координатам y = u/v, z = v, тогда = z:

(x,y) n/ n 1 (n+y 2 ) z n e 2 z = dydz = n 2 yx,z (w = 1 z 2 (n + y 2 )) n+ 1 n+ 1 nn/2 w n1 y2 n+ w 2 (n + y 2 ) 2 dydw = = ne 1+ dy.

n n n 2 yx,w0 yx §20. Достаточные статистики.

При построении новых оценок обычно стараются использовать статистики, которые назы ваются достаточными.

Определение. Статистика T = T (x1,..., xn ) называется достаточной для статистической (n) (n) модели P,, если (в непрерывной модели) условная плотность p (x1,..., xn |T = t) или (n) (в дискретной модели) условная вероятность P {x1,..., xn |T = t} не зависит от. Объяснить это определение можно следующим образом: если статистика достаточна, то в ней содержится вся информация выборки относительно параметра.

Замечание 1. Разумеется, статистика T может принимать и векторные значения.

Теорема. Если (в непрерывной модели) совместная плотность pn допускает факториза цию (n) p (x1,..., xn ) = g (T (x1,..., xn ))h(x1,..., xn ), (n) или (в дискретной модели) совместная вероятность P {x1,..., xn } допускает факториза цию (n) P {x1,..., xn } = g (T (x1,..., xn ))h(x1,..., xn ), где функция g (t) зависит от, а функция h(x1,..., xn ) не зависит от, то статистика T является достаточной.

Доказательство мы проведем лишь для дискретного случая, где оно наиболее просто. По определению условной вероятности имеем:

(n) P {{x1,..., xn } {T = t}} (n) P {x1,..., xn |T = t} =.

(n) P {T = t} В этой дроби числитель равен нулю, если T (x1,..., xn ) = t, и равен (n) P {{x1,..., xn } = g (t)h(x1,..., xn ), если T (x1,..., xn ) = t. Знаменатель считается суммированием:

(n) (n) P {T = t} = P {x1,..., xn } = g (t)h(x1,..., xn ).

T (xi )=t T (xi )=t В результате дробь имеет вид h(x1,..., xn ), h(x1,..., xn ) T (xi )=t то есть не зависит от.

Замечание 2. В вероятностной модели с плотности (такое распределение мы называем непрерывным) возникает некоторая трудность при вычислении условной плотности, так как совместная плотность вектора (x1,..., xn ) и статистики T (x1,..., xn ) не существует. Действи тельно, она должна была бы быть определена на n + d-мерном пространстве, где d размер ность T, но вся вероятность на этом пространстве сосредоточена на множестве лебеговой меры нуль {(x1,..., xn, t) : t = T (x1,..., xn )}.

Пример 1. В нормальной модели n n (xi m) 1 p(n) (x1, x2,..., xn ) exp = = m, 2 i=1 n n x2 2m xi + nm i n 1 1 i=1 i= exp =.

2 2 Легко видеть, что условиям теоремы удовлетворяет статистика n n x T (x1,..., xn ) = xi,, i i=1 i= и что эмпирические среднее и дисперсию являются функциями этой статистики, в свою оче редь, двумерная статистика T является функцией двумерной статистики (, s2 ).

x Пример 2. Поучительный пример приведен в в книге И.Н. Володина. Рассмотрим равномер ное распределение на отрезке [0, ], где 0 неизвестный параметр. Совместная функция плотности задается формулой n (n) I[0,] (x1 ) · · · I[0,] (xn ).

p (x1, x2,..., xn ) = В этой модели достаточной статистикой является статистика T (x1,..., xn ) = max xi.

in Действительно, если T, то n (n) p (x1, x2,..., xn ) =, если T, то (n) p (x1, x2,..., xn ) = 0.

Все же оба этих примера являются примерами ’второго сорта’, в них функцию h можно считать равной константе, например, 1. Иная ситуация в модели Пуассона:

Пример 3.

k1 +k2 +···kn n (n) P (k1, k2,..., kn ) == e.

k1 !k2 ! · · · kn !

В этом примере T (k1, k2,..., kn ) = k1 + k2 +... + kn, h(k1, k2,..., kn ) =.

k1 !k2 ! · · · kn !

§21. Сравнение двух гипотез Рассматриваются две гипотезы: гипотеза H0 ’истинное распределение P0 с функцией плотности p0 ’, и гипотеза H1 ’истинное распределение P1 с функцией плотности p1 ’. На основании выборки (x1,..., xn )(xi имеют распределение P0 или P1 ) нам следует выбрать одну из гипотез H0 или H1.

Естественно, что критерий различения двух гипотез имеет вид Rn = 0 + 1 (Rn в данном случае – пространство всех выборок), гипотеза H0 принимается, если выборка окажется в 0, H1 принимается, если выборка окажется в 1. Нас интересует такое разбиение 0 + 1, при котором минимальны вероятности ошибок. Отметим, что P{принять гипотезу H1 при условии, что верна гипотеза H0 } = называется вероятностью (n) ошибки первого рода, = P0 1, P{принять гипотезу H0 при условии, что верна гипотеза H1 } = называется вероятностью (n) ошибки второго рода, = P1 0.

Эта терминология придает разный смысл гипотезам H0 и H1, гипотеза H0 считается основ ной, а H1 альтернативной, поэтому вероятность отвергнуть правильную гипотезу (т.е.

H0 ), вероятность принять неправильную гипотезу (тоже H0 ). Оптимальность выбора раз биения 0 +1 обычно означает фиксацию вероятности и минимизацию при фиксированном вероятности.

Лемма Неймана Пирсона. Если (n) p0 (x1,..., xn ) (xi ) : =C = 0, (0) P0 (n) p1 (x1,..., xn ) где константа C определяется из равенства (n) ··· p0 (x1,..., xn )dx1... dxn = = P{H1 |H0 }, то оптимальный критерий имеет вид (n) p0 (x1,..., xn ), 1 = Rn \0.

0 = (xi ) : C () (n) p1 (x1,..., xn ) Доказательство. Сравним с критерием (*) любой другой критерий Rn = 0 + 1, где (n) также · · · p0 (x1,..., xn )dx1... dxn =. Имеем:

(n) (n) (n) (n) (n) (n) 1 = P0 0 = P0 (0 0 ) + P0 (0 \0 ) = P0 0 = P0 (0 0 ) + P0 (0 \0 ).

Поэтому (n) (n) P0 (0 \0 ) = P0 (0 \0 ).

Мы используем следующие очевидные равенства:

0 \ 0 = 1 \ 1, 0 \ 0 = 1 \ 1.

В итоге имеем:

(n) (n) (n) P1 0 = P1 (0 0 ) + P1 (0 \0 ) = (n) (n) = P1 (0 0 ) + ··· p1 dx1... dxn = 0 \ (n) p (n) (n) = P1 (0 0 ) + ···... dxn p dx (n) p 0 \ 1 (n) (n) P1 (0 0 ) + ··· p dx1... dxn = C 0 \ 1 (n) (n) = P1 (0 0 ) + ··· p dx1... dxn C 0 \ (n) p (n) (n) (n) P1 (0 ··· 0 ) + p dx1... dxn = P1 0, (n) p 0 \ что и требовалось.

Эта простая лемма (если подумать, то она очевидна) используется при исследовании кри териев в задаче проверки гипотезы (см. следующую лекцию).

В ситуации, когда вероятность в (0) не равна 0, вероятность ошибки первого рода может перескочить через заданное нами. Поэтому задачу решает рандомизированный критерий Неймана Пирсона. Суть критерия состоит в том, что если имеет место событие в равенстве (0), мы ’подбрасываем монету’ и в зависимости от результата эксперимента выбираем либо H либо H1. Монета ’изготавливается’ так, что при этом вероятность ошибки первого рода будет в точности равна.

Термин ’рандомизация’ в переводе с английского означает ослучайнивание.

Переставить лекции??

§22. Задача проверки гипотез.

В этой лекции будет идти речь о проверки вероятностных гипотез. Имеется в виду, что по результатам наблюдений мы должны вынести суждение (для заказчика) согласуются ре зультаты наблюдений с выдвигаемой им (или вами) гипотезой (или нет). Вначале для простоты мы будем считать, что гипотеза заключается в задании распределения наблюдаемой случай ной величины. Итак, наблюдаются числа x1,..., xn, мы проверяем гипотезу о том, что это результаты наблюдений независимых случайных величин с одним и тем же распределением P0. Критерий имеет вид Rn, это множество называется критическим, гипотеза отверга ется, если мы (т.е. (x1,..., xn )) попадем в критическое множество (точнее, мы говорим, что в этом случае результаты наблюдений не согласуются с выдвинутой гипотезой). Само критиче ское множество выбирается по уровню значимости вероятности попадания в критическое множество при условии справедливости гипотезы (обычно равно одному из чисел 0.001, 0.01, 0.05, 0.1), именно для этих значений обычно составляются вероятностные таблицы. Итак, при условии справедливости P0 вероятность попадания в критическое множество мала, при проверке гипотез мы исходим из убеждения, что события с малой вероятностью как прави ло не происходят, если же такое событие произошло, то, скорее всего, наше первоначальное предположение (о малости вероятности попадания в ) неверно, а следовательно, неверна и гипотеза, при условии справедливости которой была сосчитана вероятность попадания в.

(n) Замечание. = P0 ().

1. Примеры.

Пример (который должен заставить задуматься!). Пусть мы подбрасываем большое число раз монету (например, 10000 раз), гипотеза состоит в том, что вероятность выпадения герба в точности равна половине, т.е. монета симметрична. Как можно выбрать критическое множе ство (для простоты вычислений уровень значимости будет считаться равным 1/125 примерно).

Обозначим частота выпадения герба. 1 вариант критического множества = { 1}, где выбирается так, что (n) P0 { 1 } = 1/125.

Второй вариант = { }, (n) P = 1/125.

Можно также придумать симметричный критерий: # = {| 1/2| }, где подбирается (n) так, что P0 # 1/125.

Но оказывается возможен вообще парадоксальный критерий = { = 1/2}, по формуле (n) Стирлинга P0 1/125.

Критерий не противоречит формальному определению критерия, вероятность попада ния в мала, в то же время получается, что мы отвергаем гипотезу, если она слишком хорошо подтверждается: = 1/2. Итак критериев много, нужно не только уметь их придумывать, но и уметь сравнивать, а для этого кроме основной гипотезы P0 нужен также набор альтернативных гипотез (в данном случае это гипотезы Pp, где Pp {0} = p, Pp {1} = 1 p. Обозначим:

(p) = Pp c, (p) = Pp c, # (p) = Pp #c, (p) = Pp c.

Мы будем считать, что один критерий лучше другого, если функция (p) для одного критерия всегда больше чем аналогичная функция для другого критерия. При таком способе сравнения выбор оптимального критерия зависит от выбора набора альтернатив {Pp }. Если этот набор совпадает с {Pp : p 1/2}, то, нетрудно видеть, что оптимальным является критерий, если {Pp : p 1/2}, то оптимален критерий, если {Pp : p = 1/2}, то вообще не будет оптимального критерия (это легко проверить). Ни для одной из этих альтернатив критерий не будет хорошим (это тоже легко проверяется).

Пример. 1000 раз подбрасывали монету, 550 раз выпал герб. Согласуется ли этот результат с гипотезой p = 1/2? Критическое множество разумно выбрать в виде = {k 550}, где k число гербов в 1000 испытаниях, тогда 1000 1000 C1000 pk (1 p)1000k = k k = P() = C1000.

550 Эту вероятность можно явно вычислить на компьютере, но при этом надо избегать машин ных нулей и бесконечностей. Можно воспользоваться и нормальным приближением. Согласно центральной предельной теореме, распределение случайной величины k примерно нормально, нужно свести вопрос к таблицам нормального распределения N (0, 1) функции. Для этого надо вычесть из k среднее и разделить разность на корень квадратный из дисперсии. Имеем 1 Ek = 1000 · = 500, Dk = 1000 · = 250.

2 Итак, P{k 550} (50/ 250) (3.164) 0.001.

Гипотеза не подтвердилась.

Задача выбора критического множества существенно усложняется, если наша гипотеза яв ляется параметрической. Нужно стремиться к тому, что вероятность попадания в критическое множество была бы инвариантна не зависела бы от неизвестных нам значений параметра.

Замечание. Чаще всего критическое множество имеет вид = {T t}, где T некоторая статистика (в параметрическом случае ее распределение не должно зависеть от параметра). В такой ситуации процедура проверки приобретает другой вид мы вычисляем конкретное значение T и узнаем (обычно по таблице) уровень значимости, для которого наша гипотеза не подтвердилась. В результате мы можем получить любое число между 0 и 1, которое не обязательно равно 0.01, 0.05 или 0.1. Такой подход иногда удобнее. Результаты вычислений становятся более информативными, кроме того, вместо таблиц мы можем иногда использовать компьютерные вычисления (см. Ранговые критерии). Действительно, мы вычислили значение T для нашей конкретной серии экспериментов, получили некоторое значение T, и теперь нас не интересует вся таблица значений функции распределения статистики T, а лишь конкретное число P{T T }.

2. Критерий Стьюдента.

Даны две выборки (x1,..., xn ) и (y1,..., yk ). Мы предполагаем, что одна выборка получена в ходе одних экспериментов, а другая в ходе других экспериментов, но при этом измерялось одно и то же. В результате мы получили, что среднее одной выборки, x больше среднего другой выборки y, x y. Возникает естественный вопрос, случайно это превышение или нет, не означает ли оно, что на самом деле в двух сериях экспериментов мы измеряли разные характеристики.

Пример из истории химии.

Двумя способами измерялся удельный вес воздуха. В первой серии экспериментов воздух фиксированного объема воздух сжижался и после этого взвешивался, были получены числа (x1,..., xn ). Во второй серии отдельные химические вещества в воздухе измерялись благодаря участию в химических реакциях и их вес складывался. Таким образом были получены числа (y1,..., yk ). В итоге выяснилось, что x y = 0. Не означает ли это, что в воздухе присут ствуют вещества, не вступающие в химические реакции? В дальнейшем такие вещества были открыты, это инертные газы. Итак, возникает вопрос: чему равна вероятность P{ y }, x где вычислена раньше из двух конкретных выборок, полученных в результате конкретного эксперимента, а x и y средние произвольных случайных выборок? Если эта вероятность мала, то мы можем думать, что превышение x над y не случайно, и на самом деле среднее mx = Exi my = Eyi.

Но в вероятностной модели, в рамках которой мы считаем P{ y }, мы предполагаем, x что m = mx = my, 2 = Dxi = Dyi, случайные величины xi, yj независимые нормальные случайные величины с одними и теми же параметрами m,. Если в рамках такой модели вероятность P{ y } будет мала, то будет естественно предположить, что модель не x верна, а на самом деле mx my. Все это проделал химик Стьюдент (псевдоним Госсета). К сожалению, у меня нет данных Стьюдента, но по-видимому, не все xi были больше всех yj.

Иначе утверждение mx my стало бы очевидным и без использования критерия Стьюдента.

Как и при построении доверительного интервала для среднего при неизвестной дисперсии, число будет случайным. Точнее, малое событие имеет вид xy C(n, k).

n k 2 i=1 (xi x) + j=1 (yj y ) Оказалось, что при некотором выборе константы C(m, k) случайная величина xy C(n, k) n k x)2 + y ) i=1 (xi j=1 (yj имеет распределение Стьюдента с параметром n + k 2, то есть распределение случайной величины tn+k2 =, n+k n + k 2 i=1 i в частности, распределение этой величины не зависит от параметров m и, а число мо жет быть найдено по таблице распределения случайной величины tn+k2. Для доказательства используются простые выкладки, к которым мы уже привыкли.

xy C(n, k) = n k x) 2 + y ) i=1 (xi j=1 (yj xm ym C(n, k) = n k 2 [xi m] [ m] [yj m] [ m] x y + i=1 j= далее мы введем независимые случайные величины с распределением N (0, 1):

xi m yj m i =, j =, также 1 +... + n, = 1 +... + k.

= n k Теперь мы продолжим наше равенство:

= C(n, k) = n k ]2 + ] i=1 [i j=1 [j = C(n, k).

n k 2 n 2 + j k i=1 i j= x1 +...+xn Далее мы используем вращение, после которого первая координата имеет вид, а вто n y1 +...+yk рая координата имеет вид, при этом случайный вектор (1,..., n, 1,..., k ) превратится k в вектор 1 +... + n 1 +... + k 1 =, 2 =, 3,..., n+k.

n k Числитель и знаменатель оказываются независимыми между собой. Числитель равен 1 2, n k n+k 2 2 2. Знаменатель дает нам в C(n, k) множитель i=1 i 1 n + k 2, а знаменатель nk.

а числитель имеет дисперсию 1/n + 1/k, поэтому дает множитель n+k Замечание. Критерий Стьюдента вошел в парадигму многих гуманитарных и естествен ных дисциплин. Вопросы ’Что дала проверка по Стьюденту?’, ’А Вы проверили эффектив ность Вашего метода по Стьюденту?’ часто задаются на защитах докторских и кандидатских диссертаций по медицине, психологии, социологии и даже педагогике. Положительный ответ вызывает одобрение. При этом имеется в виду сравнение результатов, полученных для одной группы новым, предлагаемым диссертантом методом, со старым, испытанным методом для контролькой группы. Попадание в критическую область интерпретируется как проверка эф фективности нового метода. Во многих случаях применение нормальной модели не только не обосновано, но и заведомо неверно, поэтому при подсчете вероятности попадания в критиче ское множество можно ошибиться в несколько раз. Для малых выборок мы не вправе мыслить и в рамках центральной предельной теоремы и вытекающей из нее нормальной модели. Но если уровень значимости критерия близок к нулю, то это не страшно. Действительно, пусть даже произошло событие с вероятностью не 0.01, а например 0.03. Все равно эта вероятность мала и результаты проверки свидетельствуют о преимуществах новой методики. Математик находится в таких случаях в худшем положении. Он прекрасно понимает, что использование распределения Стьюдента некорректно, но ничего лучшего у него все равно нет.

Из сделанных выкладок следует знаменитая Теорема Фишера. В нормальной модели эмпирическое среднее x и эмпирическая диспер сия s2 независимые случайные величины.

2. Критерий 2.

Критерий 2 проверяет гипотезу P(A1 ) = p1,..., P(Ar ) = pr где = A1 +... + Ar.

Пусть мы провели n экспериментов, в ni экспериментах произошло событие Ai (n1 +...+nr = n).

Из многомерной центральной предельной теоремы вытекает, что при больших n случайная величина r nj npj T= npj j= имеет распределение, близкое распределению случайной величины 2. Критерий строится в r виде r nj npj = T =, () npj j= где число определяется по уровню значимости по таблицам распределения 2. r Важное замечание. Критерий 2 применим и в ситуации, когда сами вероятности pi явля ются функциями s параметров 1,..., s. В этом случае надо предварительно оценить парамет ры i так, чтобы сумма T оказалась бы минимальной (в сложных ситуациях это можно сделать только приближенно). Доказывается (Крамер, гл. 30, п, 3), что при подстановке этих оценок в выражение для T случайная величина T будет иметь распределение 2 rs1. Заодно мы сообщили также еще об одном универсальном методе оценивания параметров методе мини мума 2. В книге Крамера написано также об упрощенной процедуре вычисления минимума 2. Дело в том, что при дифференцировании системы (*) по параметрам может получиться система уравнений, которую очень трудно разрешить. Предлагается упрощенная процедура, в рамках которой мы дифференцируем в (*) лишь числители. Оказываеься (см. Крамер), это приводит при больших n к небольшой ошибке. Там же доказывается теорема о существовании и единственности при выполнении определенных условий решения возникающей системы и о сходимости распределения вычисляемой после подстановки в (*) этих решений случайной ве личины к распределению 2 rs1. Пример применения критерия будет дан ниже, в разделе проверки на независимость.

Мы приведем обоснование критерия 2 только в непараметрической ситуации. Сначала рассмотрим случайный вектор nj npj (j ) =.

npj Очевидно, что nj npj = E npj для всех j. Введем n независимых при различных i n двузначных случайных величин 1 с вероятностью pj (i) j = 0 с вероятностью 1 pj таких, что (i) (i) j k = 0 при j = k.

Тогда случайные величины nj можно представить в виде (i) nj = j, i а случайные величины j как (i) n j pj pj i= j =.

n Итак, случайный вектор (j ) можно представить как деленную на n сумму n независимых (i) j p j случайных векторов с нулевым средним. При большом числе экспериментов мы мо pj жем считать вектор (j ) имеющим совместное нормальное распределение. Действительно, со гласно многомерной центральной предельной теореме, распределение суммы сходится к нор мальному распределению с той же матрицей вторых центральных смешанных моментов, что и (i) pj у вектора j, где i некоторый номер эксперимента, например, i = 1. Вычислим эту мат pj (1) (1) рицу, которую мы обозначим [µjk ]n j,k=1. При k = j случайная величина j k тождественно равна 1, поэтому (1) (j )2 p2 pj p j j = 1 pj.

µjj = E = pj pj (1) (1) При k = j случайная величина j k тождественно равна 0, поэтому (1) (1) j k p j p k = pj pk.

µjk = E pj pk Резюмируем: (j ) случайные величины с нулевым средним, с выписанной выше матрицей вторых центральных смешанных моментов и с совместным нормальным распределением. Нас r интересует распределение случайной величины j. Чтобы найти это распределение, не за j= нимаясь слишком много линейной алгеброй, мы используем искусственный прием. А именно, мы рассмотрим вектор (j ) независимых нормальных случайных величин N (0, 1), т.е. с еди ничной матрицей вторых центральных смешанных моментов и небольшим изменением этого вектора получим другой вектор с той же матрицей вторых центральных смешанных моментов, что и вектор (j ), поэтому мы будем иметь право считать этот вектор вектором (j ).

Для любого j положим j = j pj ( p1 1 + p2 2 +... + pr r ).

Заметим, что E p1 1 +... + p r r = p1 +... + pr = 1. Имеем:

2 Ej = Ej 2Ej pj ( p1 1 +... + pr r ) + Epj ( p1 1 +... + pr r ) = = 1 2pj + pj = 1 pj.

Ej k = Ej k Ej pk ( p1 1 +... + pr r ) Ek pj ( p1 1 +... + pr r ) + E pj pk ( p1 1 +... + pr r ) = = 0 pk pj pj pk + pj pk = pj pk.

r Далее мы рассмотрим сумму j, преобразуем ее с помощью ортогонального преобразования j= (n ) = U (n ), где по лемме о вращении стандартного нормального вектора n независимы и нормальны N (0, 1), а 1 = p1 1 +... + pr r.

Итак, r j = j= r r j = j pj ( p1 1 + p2 2 +... + pr r ) + j=1 j= r 2 j ( p1 1 +... + pr r ) = + ( p1 1 +... + pr r ) = j= r r 2 2 j 1 = = j.

j=1 j= §23. Обзор статистических критериев Мы в основном приводим статистики, на которых основаны те или иные критерии. С вы водом распределений или предельных распределений этих статистик можно познакомиться в специальной литературе.

1. Критерий Колмогорова Смирнова.

Проверяет гипотезу о том, что выборка {x1,..., xn } принадлежит генеральной совокупности с распределением F, где функция распределения F непрерывна. Основан на статистике T = n sup |Fэ (x) F (x)|, x эмпирическая функция распределения. Критерий обычно имеет вид {T }, где где Fэ вычисляется по таблицам. Впрочем, для большого числа наблюдений известна асимптотиче ская формула Колмогорова: при x x (1)k e2k P{T x} K(x) = 1 + 2.

k= Впрочем, предпочтительнее использовать таблицы. Заметим, что распределение статистики T не зависит от функции F. Легко показывается, что мы можем принять в качестве F (x) = x (0 x 1), то есть функцию равномерного распределения на [0, 1]. Дело в том, что P{F (xi ) x} = P{xi F 1 (x)} = F (F 1 (x)) = x.

Таким образом, преобразование аргумента x F (x) приводит к равномерному распределению величин xi (которые переходят в F (xi )). Очевидно, что это преобразование не меняет величину T.

Можно в качестве популярного текста рассказать о выводе формулы Колмогорова. В сле дующем семестре мы будем изучать теорию случайных процессов и найдем распределение максимума случайного блуждания. Точно так же, с помощью метода отражения, находится распределение максимума процесса одномерного броуновского движения. Но нас интересует распределение максимума аболютной величины, то есть вероятность захода движения вверх за уровень x или вниз за уровень x, то есть вероятность объединения двух событий, при вычислении которой мы должны знать и вероятность пересечения этих событий. При этом приходится иметь дело с многократными пересечениями обоих уровней, и это приводит к ря ду. Имеется и другая тонкость: зависящий от времени x [0, 1] процесс n {Fэ (x) F (x)} (после преобразования времени) сходится не к броуновскому процессу w(x), а к так называе мому броуновскому мосту w(x) xw(1), который в момент времени x = 1 должен вернуться в 0. Действительно, в случае равномерного распределения на [0, 1], к которому все сводится, Fэ (1) F (1) = 0.

2. 2 -критерий Крамера-Мизеса.

3. Проверка однородности Пусть имеются две выборки {x1, x2,..., xn }, {y1, y2,..., yk }. Задача состоит в проверке одно родности объединения двух выборок, т.е. проверяется гипотеза о том, что обе выборки выбраны из одной генеральной совокупности.

Мы обсудим несколько возможных критериев проверки этой гипотезы.

Критерий Смирнова.

Основан на статистике n sup Fэ,x (u) Fэ,y (u), T= u где Fэ,x, Fэ,y эмпирические функции распределения, построенные соответственно по ре зультатам наблюдений {x1, x2,..., xn } и {y1, y2,..., yk }. Критерий обычно имеет вид {|T | }, где вычисляется по таблицам.

Критерий Основан на статистике r r (nj npj )2 (kj kpj ) T= +. (1) npj kpj j=1 j= Здесь мы разбиваем множество исходов на r событий Aj, nj число попаданий xi в собы тие Aj, kj число попаданий yi в событие Aj, pj неизвестные нам вероятности Aj, причем p1 +...+pr = 1. Проверяется гипотеза, что в обеих выборках мы наблюдали случайные величины с одними и теми же вероятностями попадания в Aj. Неизвестные параметры pj (их r 1) нахо дятся по методу минимума 2, (1) нужно продифференцировать по неизвестным параметрам и производные приравнять нулю. Причем используется упрощенная процедура вычисления минимума (т.е. дифференцируются по параметрам лишь числители в сумме). Проверьте сами, что решением системы уравнений является следующая сумма r 1 nj kj 2 = nk.

nj + kj n k j= Заметим, что число параметров равно r 1, точки минимума проще не вычислять, а угадать, они равны pi = nn+ki. Согласно общему правилу предельное распределение имеет вид 2, где i +k s 2r 2 (r 1) = r 1. (Как и выше, из 2r вычитается 2 ввиду зависимостей возводимых i ki = k.) Итак, критерий имеет вид { }, где в квадрат слагаемых: i ni = n, вычисляется из таблицы распределения r1.

Критерий серий Объединим выборки {x1, x2,..., xn }, {y1, y2,..., yk } в одну и построим вариационный ряд.

Напомним, что вариационным рядом {x,..., x } для выборки {x1,..., xn } называется сама вы n борка, но расположенная в порядке возрастания. Вариационный ряд для объединения состоит из n + k чисел, расположенных в порядке возрастания. Запишем этот ряд как набор из n + k символов x и y. Любой максимальный поднабор из расположенных рядом символов x мы будем называть серией. Критерий серий основан на статистике числе таких серий. В справочниках можно найти инструкцию по вычислению функции распределения числа серий в предположе нии, что x и y имеют одно и то же распределение.

Критерий Вилкоксона Рангом xi называется номер наблюдения xi в вариационном ряде {x, x,..., x }. Снова 2 n рассмотрим вариационный ряд объединения выборок {x1, x2,..., xn } и {y1, y2,..., yk } в одну и обозначим через Xi ранг xi в этом ряду. Критерий Вилкоксона основан на статистике T = X1 +... + Xn n(n + k + 1) T и имеет вид.

§24. Проверка независимости 1. Критерий независимости в случае нормальной модели, основанный на эмпи рическом коэффициенте корреляции.

В нашей модели выборка имеет вид (x1, y1 ), (x2, y2 ),..., (xn, yn ), где xi независимые нор мальные случайные величины N (mx, x ),. yi независимые нормальные случайные величины N (my, y ), мы проверяем гипотезу о независимости x-ов и y-ов между собой, то есть о ра венстве нулю коэффициента корреляции. Напомню формулу для вычисления эмпирического коэффициента корреляции между переменными x и y (после очевидного сокращения):

n xi yi ny x i= r=.

n n x2 n2 yi n x y i i=1 i= Итак, мы ищем распределение случайной величины r в предположении, что векторы (xi ) и (yi ) независимы, и компоненты каждого из них одинаково распределены и независимы. Мы сначала сведем эту случайную величину к виду r=, (2) n i i= где i независимы и нормальны N (0, 1). В свою очередь, легко проверяется, что случайная величина вида (2) сводится к случайной величине с распределением Стьюдента преобразова r нием tn2 = n 2 1r2. Итак, по таблицам распределения tn2 мы строим критерий в виде {|tn2 | } и разрешаем это неравенство относительно r, получаем критерий вида {|r| 1 }.

Теперь докажем что случайные величины в левой и правой частях (2) имеют одно и то же распределение.

y m i) Заменой i = xi xmx и i = i y y мы приходим к представлению n i i n i= r=. (3) n n 2 i n 2 i n i=1 i= Из этого представления уже видно, что распределение r не зависит от неизвестных нам па раметров mx, my, x, y. Дальше мы хотим избавиться от и в (3). Это опять достигается вращением на ортогональную матрицу U, первый столбец которой имеет вид 1/ n,..., 1/ n.

Мы вводим случайные вектор-строки = (1,..., n ) ( вектор-столбец), = (1,..., n ), = (1,..., n ), = (1,..., n ), которые связаны соотношениями = U, = U. Имеем:

= 1, n = 1. По правилам умножения матриц имеем также n n n i i = = U (U ) = = i i.

i=1 i= Поэтому n n i i n = i i.

i=1 i= Аналогично (и как и в выводах для доверительных интервалов), имеем:

n i i i= r=. (4) n n 2 i i i=2 i= ii) Теперь мы приведем (4) к виду (2). В терминах плотностей нам надо доказать, что pr (u) = p (u). (5) n i i= Мы используем формулу для условной плотности (аналог формулы полной вероятности для плотностей) pr (u) = pr (u|2 = v2,..., n = vn )p2,...,n (v2,..., vn )dv2...dvn. (6) Rn Дело в том, что условную плотность pr (u|2 = v2,..., n = vn ) найти очень просто. Мы под ставляем вместо случайных величин 2,..., n их значения v2,...,vn и получаем случайную величину n n vi i i i i=2 i= r(v2,..., vn ) = =, n n n i 2 vi i i= i=2 i= где n vi 2 = 1.

i =, i n i= vi i= Итак, pr (u|2 = v2,..., n = vn ) = pr(v2,...,vn ) (u).

Чтобы найти функцию плотности pr(v2,...,vn ) (u), мы проведем вращение случайного вектора U (i ) = (2 ) так, что первая строка (точнее, строка с номером 2) ортогональной матрицы u совпадает с вектором (i ). После вращения случайная величина r(v2,..., vn ) приводится к виду r(v2,..., vn ) =.

n i i= Заметим, что плотность этой случайной величины не зависит от выбора (v2,..., vn ). Поэтому в интеграле (6) первый множитель постоянен и равен p 2 (u), а интеграл по второму n i i= множителю (плотность!) равен 1. Мы доказали (5).

iii) r n 2 = = tn2. (7) 1r n n 2 i=3 i Как все это используется. По таблицам распределения Стьюдента находим такое число, что P{|tn2 | } =, где запланированный нами уровень значимости. Далее решаем уравнение (7) относительно r, то есть находим такое, что |tn2 | = |r| =.

После этого вычисляем эмпирический коэффициент корреляции r и проверяем неравенство |r|.

Замечание. Парадокс теории проверки гипотез. Допустим, что мы имеем не одну, а много одинаковых выборок, например, 500 (мы разбили одну большую выборку на много средних).

Сделано это для того, чтобы быть более уверенным в справедливости гипотезы. Итак, мы проверяем 500 раз гипотезу с уровнем значимости 0.05, и все 500 раз подтверждается гипотеза.

О чем это говорит? О том, что гипотеза неверна. Если бы она была верна, то примерно 25 раз гипотеза должна была бы не подтвердиться.

Когда я рассказал этот парадокс одному очень умному практику и его сотрудникам, он сказал: ’Не слушайте его, это означает, что подтверждается лучшая гипотеза’. И это разумно, но, как мы сейчас увидим, не всегда. Контрпример – проверка на независимость в рамках нормальной модели. Если гипотеза независимости все время подтверждается, то это указывает на ошибочность исходной нормальной модели. Но если совместное распределение не является нормальным, то даже равенство коэффициента корреляции нулю не влечет независимость.

2. Критерий независимости, основанный на методе 2.

Если информации о нормальности совместного распределения у нас нет, то критерий неза висимости наблюдаемых случайных величин xx и y может быть основан на методе 2. Для этого мы должны разделить область значений x на s частей, = A1 +... + As, а область значений y на t частей, = B1 +... + Bs. Мы также обозначим:

njk число попадания вектора (x, y) в Aj Bk, njk = n, njk = nj·, njk = n·k.

j j,k k Параметрами модели будут числа pj· = P(Aj ), p·k = P(Bk ).

Так как суммы вероятностей по j и по k равны 1, общее число параметров равно t + s 2. Проверяется гипотеза P(Aj Bk ) = pj· p·k. Оценки для параметров находятся с помощью упрощенной процедуры минимума 2 и имеют естественный вид: pj· = nj· /n, p·k = n·k /n. Итак, для проверки независимости мы имеем статистику (njk nj· n·k /n) T= nj· n·k /n j,k с распределением 2 stst+1.

3. Ранговые критерии применяются в ситуации, когда у нас нет разумной модели (часто это бывает в задачах психологии и педагогики), а сами величины наблюденных нами харак теристик не имеют существенного значения, важны лишь неравенства между этими числами.

Например, мы знаем, что оценка 5 лучше 4, а 4 лучше 3, но были бы очень странными утвер ждения ’5 лучше 4 в 5/4 раза’, ’4 лучше 3 в 4/3’. (Впрочем, если бы стипендия была прямо пропорциональна сумме баллов, оценки превратились бы в рубли, и эти соотношения стали бы очень даже разумными). Итак, в такого рода ситуации целесообразно заменить наблюденные значения x1,...,xn на числа x1,...,n из множества {1, 2,..., n} по правилу: xi xj влечет xi xj x (для простоты мы будем рассматривать лишь случай, когда все значения чисел xi различны).

Аналогично мы заменяем числа y1,...,yn на числа y1,...,n из множества {1, 2,..., n}. Напри y мер, число 1 мы ставим на место самого маленького числа из всех xi и самого маленького числа из всех yj, а число n мы ставим на место самого большого числа из всех xi и самого большого числа из всех yj. Итак, мы имеем набор векторов (1, y1 ),..., (n, yn ). Теперь мы x x можем проверить независимость x-ов и y-ов. Для этого мы считаем эмпирический коэффици ент корреляции r для двумерной выборки (1, y1 ),..., (n, yn ). Если число || окажется велико, x x r то мы можем сказать, что ’гипотеза независимости не подтвердилась’. Но мы должны уметь определять, что значит ’велико’. Гипотеза независимости означает, что все варианты наборов (1, y1 ),..., (n, yn ) равновероятны, то есть вероятность каждого набора в нашей модели равна x x квадрату числа перестановок множества {1, 2,..., n}, то есть n!. Для каждого такого набора легко считается свое |[(1, y1 ),..., (n, yn )]|. Но как вычислить P{ r0 }? Аналитическое (да rx x r же приближенное) построение функции распределения r для конкретного n представляется очень сложной задачей. Для этого нужно упорядочить n! чисел. Но вам эта функция распре деления не нужна. Для вашего конкретного случая вы вычислили эмпирический коэффициент для рангов (обозначим результат r0 ). Далее перебрали на компьютере все возможные элемен тарные исходы и для каждого из них подсчитали r, подсчитали долю исходов, для которых r r это и будет нужная вам вероятность. Заметим, что общее число элементарных ис ходов можно считать равным не n!2, а лишь n!. Это следует из соображений симметрии. Мы можем рассматривать лишь исходы вида [(1, y1 ), (2, y2 ),..., (n, yn )] и лишь для них подсчитать эмпирический коэффициент корреляции. Разумеется, нужна программа, перебирающая все перестановки множества {1, 2,..., n}.

Замечание. В русском переводе книги ’M. Kendall. Rank Correlation Methods’ (М. Кендэл.

Ранговые корреляции. М. Статистика. 1975) имеется таблица для n = 10, но разбираться в книге не очень удобно слишком много текста, книга написана для неспециалистов. Как мне кажется, 91 P{|| } 0.104, P{|| } 0.096, r r 165 105 P{|| } 0.054, P{|| } 0.048, r r 165 но неплохо было бы проверить с помощью компьютерных вычислений правильно ли я разо брался в таблицах, или самим разобраться в этой книге или в других книгах. Определение используемого в таблице термина ’функция вероятности’ я не нашел. Впрочем, компьютерные вычисления лучше со всех точек зрения, так как они дают точное значение уровня значимости для данной выборки (не обязательно, рядом с 0.1 или 0.05).

4. Коэффициент конкордации.

Для измерений степени тесноты статитистической связи у более чем двух порядковых пе ременных r 2 используется коэффициент конкордации Кендалла n r 12 r(n + 1) Ri (j), 2 (n3 n) r i=1 j= где Ri (j) ранг i-го наблюдения j-й случайной величины, r число переменных, n число наблюдений.

5. Проверка нормальности.

Проверить гипотезу нормальности генеральной совокупности, из которой извлечена дан ная одномерная выборка (x1,..., xn ), можно, например, с помощью критерия 2. Для этого надо разделить числовую прямую на r частей, оценивание параметров m 2 проводить мето дом минимума 2. Другие критерии используют свойства моментов стандартного нормального распределения. А именно, если нормальна N (0, 1), то E 3 = 0. Третий центральный норми рованный момент случайной величины называется асимметрией. Эмпирическая асимметрия имеет вид n [xi x] n i= A=.

3/ n [xi x] n i= Легко показывается, как мы уже делали неоднократно, что в случае нормальной модели рас пределение эмпирической асимметрии не зависит от параметров m и. Соответствующие таб лицы для распределения A имеются, используя их, вычисляется вероятность критического множества {|A| }. Известно также, что четвертый центральный нормированный момент E( E) 2 3 называется эксцессом нормального распределения равен 3. Характеристика E( E) распределения. Эмпирический эксцесс также используется для построения критерия нормаль ности.

6. Вывод распределения Фишера. Критерий Фишера.

В классической ситуации сравнения двух нормальных выборок (xi )n и (yj )k целесооб i=1 j= разно использовать с маленьким уровнем значимости кроме самого критерия Стьюдента еще проверку на нормальность и критерий Фишера, позволяющий проверить гипотезу о равенстве дисперсий обеих выборок. Этот критерий основан на статистике Фишера n n,x = 12, k k,y где 2 = (xi x)2, 2 = (yj y )2, n,x k,y i j Очевидно, что сходится по вероятности к 1 (когда n, k ), поэтому критическое множество Фишера состоит из значений, существенно отклоняющихся от 1, где понятие ’существенно’ определяется с помощью распределения Фишера статистики. Нам будет удобнее найти плот ность распределения случайной величины = n, выразить через нее плотность читатель k должен самостоятельно.

Функцию распределения обозначим через Fn,k. Мы используем стандартную для отно шения двух независимых случайных величин замену: y = u/v, z = v. Имеем:

Fn,k (x) = p2 (u)p2 (v)dudv = n k u/vx,u0,v 1 u n v k e 2 u 2 1 I(0,) (u) e 2 v 2 1 I(0,) (v)dudv = = n 2n/2 u/vx,u0,v 1 yz n z k e (yz) 2 1 e 2 z 2 1 dydz = = n k 2n/2 2k/ 2 0yx,z x 1 y+ )z z n+k 1 dz = e ( n y 2 1 dy = 2 n+k n k 2 2 0 x n n+k y 2 = dy.

n k n+k (y + 1) 2 Отсюда немедленно получается функция плотности.

§25. Различение двух гипотез методом последовательного анализа Вальда В отличие от всего предыдущего, в этом разделе число наблюдений не является постоян ным n, а является случайной величиной. Рассматривается задача различения двух гипотез:

гипотезы H0, состоящей в том, что случайная величина имеет распределение P0 с функцией плотности p0 (x), и гипотезы H1, состоящей в том, что случайная величина имеет распределение P1 с функцией плотности p1 (x). На каждом шаге n для полученной выборки (x1,..., xn ) вычис (n) (n) ляется отношение p0 /p1 = p0 (x1 ) · · · p0 (xn )/p1 (x1 ) · · · p1 (xn ) двух совместных плотностей.

(n) (n) (n) (n) Если p0 /p1 C0, то выбирается гипотеза H0, если p0 /p1 C1, то выбирается гипотеза (n) (n) H1, если C1 p0 /p1 C0, то наблюдения продолжаются. Задача состоит в подборе чисел 0 и C1 при фиксированных вероятностях ошибок первого и второго рода и. Оказывается, числа 0 и C1 вычисляются только по и и не зависят от распределений P0 и P1 (если прене бречь ошибками при подсчете вероятностей, которые получаются из за перескока за указанные выше границы).

В этом подходе области 0 и 1 являются суммами соответствующих областей для раз личных n:

(n) (n) 0 = 0, 1 = 1, n n (n) (n) где0 событие, состоящее в принятии гипотезы H0 на n-ом шаге, 1 событие, состо ящее в принятии гипотезы H1 на n-ом шаге. Тогда (n) (n) = P0 (1 ), = P1 (0 ).

n n По построению имеем для каждого n:

(n) (n) (n) (n) P0 (0 ) = p0 C0 p1 = C0 P1 (0 ) (n) (n) 0 1 (n) (n) (n) (n) P1 (1 ) = p1 p0 = P0 (1 ).


C1 C (n) (n) 1 Суммируя эти неравенства, получаем 1 1 = P0 (0 ) C0 P1 (0 ) = C0, 1 = P1 (1 ) P0 (1 ) =.

C1 C Итак, 1 C0, C1.

§26. Равномерно наиболее мощные критерии 1. Определение. Пусть проверяется гипотеза H0 (отвечающая распределению P0 ) со слож ной альтернативой P1 = {P1, }, критерий таков, что i) уровень значимости критерия равен, ii) для любого другого критерия с тем же уровнем значимости = P 0 = P0, справедливо неравенство () = P1, P1, для всех.

Тогда критерий называется равномерно наиболее мощным.

Мы приведем простой пример, когда действительно существует равномерно наиболее мощ ный критерий, лучший других при всех альтернативах P1, и много примеров, когда такого критерия не существует. Заметим, что лемма Неймана Пирсона однозначно определяет такой критерий (если он существует).

Пример 1. H0 выборка принадлежит нормальной генеральной совокупности N (m0, 0 ).

Альтернативой является набор распределений N (m, 0 ), где m m0. В этом случае критерий вида = { C} является равномерно наиболее общим. Это утверждение следует из леммы x Неймана Пирсона. Действительно, для любого m m0 критерий, минимизирующий (m) при заданном имеет вид p(n),0 (x1,...xn ) m = C(m) = (n) pm,0 (x1,...xn ) xi m 0 n n 1 e 2 i= 0 = C(m) = xi m n n 1 e 2 i= 0 n n 2 xi m0 xi m + 2 ln C(m) = 0 i=1 i= n n xi m 20 ln C(m) + nm2 nm xi m0 2.

i=1 i= Разделив это неравенство на 2(m0 m)n и обозначив правую часть через C, мы получим множество требуемого вида. Заметим, что C зависит только от (и от m0 и 0 ), но не зависит от m. Действительно, находится из равенства P(n),0 { C} =.

x m Пример 2. H0 выборка принадлежит нормальной генеральной совокупности N (m0, 0 ).

Альтернативой является набор распределений N (m, 0 ), где m = m0. Действуя так же, мы получим множество вида = { C} для альтернатив m m0, но множество вида = x { C} для альтернатив m m0. К сожалению, одно множество, которое минимизировало x бы (m) и для m m0 и для m m0, мы получить не можем.

Замечание. В обеих задачах ничего хорошего не получается при неизвестной дисперсии, так как константа C, определяющая множество по уровню значимости зависит от параметра.

2. Дополнение. Слова.

Если мы попали в критическое множество, то некорректно говорить, что наша гипотеза неверна. Может так оказаться, что на самом деле гипотеза верна, но нам не повезло. Поэто му правильнее сказать, что гипотеза не подтвердилась, а если мы не попали в критическое множество, то гипотеза подтвердилась. В ситуации, когда одновременно с основной гипотезой мы рассматриваем альтернативную гипотезу, не совсем корректно утверждать при попада нии в критическое множества, что подтвердилась альтернативная гипотеза. Дело в том, что (малую !) вероятность критического множества мы вычислили лишь в предположении спра ведливости основной гипотезы. Такое высказывание оказывается еще менее разумным, если альтернативная гипотеза является сложной, тогда верояность критического множества зави сит от выбора параметра в рамках альтернативной гипотезы. В то же время в условиях леммы Неймана Пирсона такого рода утверждение может оказаться разумным, но тогда вероят ность также должна быть мала, и критические множества для обеих гипотез, основной и альтернативной, должны являться дополнениями друг друга.

3. Дополнение.

Напомним определение условной плотности p, (x, y) p (x| = y) =.

p, (x, y)dx Понятие условной плотности само является условным, так как изменение значения совместной плотности на множестве нулевой меры (например, на прямой {x = x0 }) не меняет совместно го распределения, но полностью меняет условную плотность. Однако рассмотрим случайную величину f (, ) и вычислим ее плотность следующим образом:

pf (,) (x) = pf (,y) (x)p (y)dy. (3) Нетрудно видеть, что определенная так плотность действительно дает нам распределение слу чайной величины f (, ). Действительно, по определению плотности мы должны иметь P{f (, ) B} = pf (,) (x)dx.

B Подставим в это равенства вместо pf (,) выражение из (3) и получим тождество по теореме Фубини:

dx pf (,y) (x))dy = p (y)dy pf (,y) (x)dx = B B = p (y)dy pf (,y) (x)dx B Критерий Колмогорова-Смирнова. Критерий Спирмена. Является ли оценка максималь ного правдоподобия для параметра m логнормального распределения эффективной? Область безразличия.

§27. Многомерный анализ (обзор) Здесь мы не будем приводить какик-либо алгоритмы и формулы, а напишем лишь об из вестных в литературе постановках задач и подходах к их решениям. Более подробно с этим материалом можно познакомиться, например, в книгах [11], [32].

Наблюдается n раз r-мерный случайный вектор. Результаты наблюдения составляют вы (1) (1) (n) (n) борку (x1,...xr ),..., (x1,...xr ). По этим данным мы хотим получить некую информацию о связи координат наблюдаемого вектора. Очевидно, что n должно быть не меньше r, иначе координаты xi, которые являются векторами в n-мерном пространстве, связаны между собой линейными соотношениями бесконечным числом способов. Для разумного статистического вы вода нужно, чтобы n было существенно больше r. Люди с гуманитарным образованием часто пренебрегают этим требованием.

1. Регрессия.

Представляет большой практический интерес задача о наилучшем приближении значения одной координаты, x1, функцией f (x2,..., xr ) других координат. Мы используем метод наи меньших квадратов, а именно, минимизируем число (x1 f (x2,..., xr ))2, где суммирование производится по всем полученным в результате эксперимента выборкам. Заметим, что воз можна ситуация, когда ошибка эксперимента зависит от значения x1, тогда слагаемые в сумме надо умножать на некоторые веса (если ошибка больше, вес наблюдения должен быть меньше).

В курсе теории вероятностей мы решали аналогичную задачу наилучшего приближения слу чайной величины функцией f (1,..., r ) других случайных величин. Под словом ’наилучшее’ имелся в виду выбор такой функции f, для которой минимально число E( f (1,..., r ))2. Ре шением этой задачи является условное математическое ожидание E(|1,..., r ). Обычно такое решение неприменимо в задачах математической статистики. Дело в том, что если наблю дения проводить достаточно точно, то набор (x2,..., xr ) встречается лишь в одной выборке (x1, x2,..., xr ) и наилучшей функцией оказывается f (x2,..., xr ) = x1. Разумеется, такая ’функ ция’ задана лишь на множестве результатов проведенных наблюдений и ничего не говорит о наблюдениях, которые еще не проведены. Поэтому в математической статистике нужно ис кусственно ограничивать класс функций f и решать задачу регрессии лишь в этом классе.

Возникает произвол в выборе класса, функции оказываются зависимыми от некоторого ко нечного числа параметров, и наша задача сводится к задаче нахождения минимума функции нескольких переменных. Например, если мы ищем функцию f в классе всех линейных функций l(x2,..., xr ) = a2 x2 +... + ar xr + b, мы должны решить систему уравнений n (i) (i) (i) (x1 [a2 x2 +... + ar xr + b])2 = 0, a i= ··· n (i) (i) (i) (x1 [a2 x2 +... + ar xr + b])2 = 0, ar i= n (i) (i) (i) (x1 [a2 x2 +... + ar xr + b])2 = 0.

b i= Не всегда разумно искать f в классе линейных функций. Например, в случае, когда наблю дения y (i) мы стремимся приблизить функцией f наблюдений x(i), может оказаться правиль n (i) ным выбрать функцию f (x) = eax+b и минимизировать y (i) eax +b. Однако удобнее i= использовать линейную зависимость для логарифма y, но тогда мы придем к другому ре шению. Наконец, если возможна периодическая зависимость, целесообразно искать f в виде a sin(x + b) + c.

Замечание для практического применения. Гаусс, который предложил метод наименьших квадратов, по-видимому, использовал его для уточнений траекторий (значительную часть жиз ни он был директором астрономической обсерватории). Наблюдения одним человеком прово дились в разные моменты времени, по-существу, наблюдался случайный процесс реальная кривая, зависящая от нескольких параметров, портилась случайным процессом помех. Для оценки параметров использовался изложенный выше метод, но только выше x(ti ), y(ti ), z(ti ) приближаются результатами наблюдений xi, yi, zi и нужно найти параметры, для которых сумма квадратов ошибок минимальна. По-видимому, Гаусс заменял координаты в простран стве на расстояния на небесной сфере, и через эти числа выражал сумму квадратов. Метод наименьших квадратов можно применять для анализа случайных процессов, например, при анализе изменения курса валют, но очень осторожно ввиду зависимости этого процесса от правительственных решений.

2. Корреляция.

Кроме выборочного коэффициента корреляции (для которого в модели двух независимых нормальных случайных величин нам удалось получить распределение) для векторных выбо рок размерности больше 2 рассматриваются две другие выборочные характеристики, которые могут дать дополнительное представление об изучаемом объекте. Здесь мы дадим лишь гео метрическое объяснение для этих характеристик, вывод формул требует выкладок с матрица (1) (1) (n) (n) ми. Итак, мы имеем выборку (x1,...xr ),..., (x1,...xr ) длины n (наблюдений) из r-мерных векторов (параметров) и матрицу [rij ]i,jr выборочных коэффициентов корреляции (диаго наль которой состоит из единиц). Таким образом, в пространстве параметров Rr определено скалярное произведение n A ([xi ]ir, [yi ]ir ) = rij xi yj.

i,j= Сопоставляя i-му параметру вектор ei = [0,..., 0, 1, 0...] (1 на i-м месте, остальные координаты равны 0), мы имеем: rij = A(ei, ej ). Напомним, что ортогональное проектирование P на линей ное подпространство L переводит элемент x линейного пространства в такой элемент P x L, что A(x P x, y) = 0 для всех y L. Разумеется, для проверки этого свойства достаточно проверить его для всех y из некоторого базиса в L. Теперь введем частный (выборочный) коэффициент корреляции элементов e1 и e2 (для любых других ei, ej он определяется анало гично). Рассмотрим проекции e1 и e2 элементов e1 и e2 на линейное подпространство, порож денное всеми векторами e3,..., er. Тогда частный коээффициент корреляции 1 и 2 координат обозначается r12·34...r. Имеем:


A(e1 e1, e2 e2 ) r12·34...r :=.

A(e1 e1, e1 e1 )1/2 A(e2 e2, e2 e2 )1/ Частный коэффициент корреляции 1 и 2 координат можно интерпретировать как характе ристику зависимости этих координат после того, как убрали из них зависимости от других координат, которые также связывают эти две координаты. Действительно, если x и y зави сят от одного и того же z, то очевидно они зависят друг от друга. При вычислении частного коэффициента корреляции мы эти зависимости убираем.

Замечание.Из приведенной выше интерпретации не следует, что r12·34...r меньше по аб солютной величине чем r12. Пример для случайных величин, тогда коэфициент корреляции обозначается буквой. Пусть, независимы и нормальны с параметрами N (0, 1). Рассмотрим x1 = +, x2 =, x3 =. Тогда 12 = 0, 12·3 = 1.

Сводный коэффициент корреляции. Рассмотрим проекцию P e1 элемента e1 на линейное про странство L, порожденное элементами e2,..., er. Сводный коэффициент корреляции элемента e1 и всех элементов e2,..., er определяется равенством A(e1, P e1 ) r1(2...r) :=.

A(e1, e1 )1/2 A(P e1, P e1 )1/ (·) Замечание. Как обычно, будем считать координаты xk (i n) векторов выборки слу чайными величинами, заданными на вероятностном пространстве из n элементарных исходов с вероятностью 1/n, каждый элементарный исход элемент выборки. В этой ситуации бу (·) дем решать задачу регрессии, аппроксимируя случайную величину x1 линейной комбинацией (·) (·) (·) (·) (·) (·) l(x2,..., xr ) случайных величин x2,...,xr или аппроксимируя случайные величины x1 и x (·) (·) (·) (·) (·) (·) линейными комбинациями l1 (x3,..., xr ) и l2 (x3,..., xr ) случайных величин x3,...,xr. Тогда частный коэффициент корреляции r12·34...r равен коэффициенту корреляции случайных ве (·) (·) (·) (·) (·) (·) личин x1 l1 (x3,..., xr ) и x2 l2 (x3,..., xr ), а сводный коэффициент корреляции r1(2...r) (·) (·) (·) равен коэффициенту корреляции случайных величин x1 и l(x2,..., xr ).

3. Факторный анализ С помощью метода факторного анализа пытаются уменьшить число координат наблюдае мого вектора. А именно, делается попытка выявить скрытые факторы, влияющие не резуль таты экспериментов. В используемой вероятностной модели предполагается, что случайный вектор (xi )ir наблюдаемых представим в следующем виде:

d xi = lij zj + ei, j= где d r (d не должно быть большим), случайные величины zj независимы, нормальны, цен трированы и имеют дисперсию 1, величины ei представляют собой шумы при наблюдениях, поэтому они независимы между собой и с zj, нормальны. Задача состоит в наилучшей оценке коэффициентов lij. Зная эти коэффициенты, мы можем выразить zj через xi, эти новые вели чины называются факторами. Как видите, в этом подходе число факторов задается заранее, от выбора этого числа зависит результат.

Решение осуществляется методом максимального правдоподобия,то есть записывается сов местная плотность n наблюдений вектора (xi ), которая зависит от параметров lij и дисперсий и средних величин ei, и вычисляется максимум (по неизвестным параметрам) этой плотности для данных результатов наблюдений. В результате мы находим lij и дисперсии ei. Легко ви деть, что факторы восстанавливаются по матрице [lij ] неоднозначно, с точностью до вращения.

Практики (психологи и социологи) стараются с помощью такого вращения придать факторам разумный смысл, например, линейная комбинация координат, отвечающих за трудолюбие, ма тематические способности, гуманитарные способности, память, выносливость, финансирование и т. д. (см. [32]). Далее результатам придается гуманитарное звучание.

Для корректности нужно провести проверку самой модели с помощью какого-нибудь кри терия. Если в процессе проверки мы попали в критическое множество, то нужно увеличить число факторов в модели.

4. Метод главных компонент.

Метод главных компонент также служит снижению размерности и выявлению факторов.

Использование этого метода имеет особенность в случае, когда все координаты можно сравнить друг с другом (например, время, затраченное на одно, другое и т.д. ). Тогда мы рассматриваем матрицу вторых центральных моментов и приводим ее к главным осям. Векторы, соответству ющие самым большим собственным векторам, называются главными компонентами, осталь ные считаются помехами. Чтобы вспомнить процедуру вычисления собственных чисел, надо посмотреть курс линейной алгебры.

Немного отличная ситуация возникает тогда, когда координаты несравнимы между собой (например, килограммы и метры). Тогда обычно наблюдаемые величины нормируются и мат рица смешанных центральных моментов заменяется на матрицу коэффициентов корреляции.

Заметим, что и в этой ситуации следует проверить незначимость проигнорированных нами маленьких собственных значений. Для такой проверки разрабатываются критерии.

Часть 5. СЛУЧАЙНЫЕ ПРОЦЕССЫ Введение Под случайным процессом понимается коллекция случайных величин, заданных на одном (t ), где либо t 0, либо t R, либо t T R вероятностном пространстве (, A, P) (процесс с непрерывным временем), (n ), n {0} N или n Z (процесс с дискретным вре менем). Случайные процессы бывают одномерными или многомерными (например, реальный процесс броуновского движения). Более общее понятие случайной функции, индексированной точками произвольной природы, включает в себя также важнейшие для анализа изображений случайные поля.

Изучение случайного процесса начинается с рассмотрения трех определяемых в терминах процесса объектов:

i) среднее процесса m (t) = Et, t T ;

ii) ковариация процесса r (t, s) = E (t Et ) (s Es ), t, s T.

iii) совместные распределения процесса Pt1 ···tn, где {t1,..., tn } произвольное конечное подмножество области определения процесса T ;

Разумеется, среднее и ковариация процесса существуют не всегда, примером является класс процессов Леви, которые в последнее время все чаще используются при моделировании про цессов в экономике. Впрочем, наболее часто используются гауссовские процессы, у которых все совместные распределения нормальны. Как мы уже видели, совместные распределения такого процесса однозначно определяются средним и ковариацией процесса.

Во многих ситуациях, и мы с этим неоднократно столкнемся, процесс задается не как за висящая от времени функция на вероятностном пространстве, а набором своих совместных распределений. Знаменитая теорема Колмогорова доказывает, что в этом случае можно при думать вероятностное пространство и процесс на нем, который будет иметь заданный набор совместных распределений.

Теория случайных процессов находит многочисленные применения: задачи прогнозирова ния, задача о разладке (определение момента внезапной смены одного наблюдаемого случай ного процесса другим), процессы массового обслуживания, финансовая математика. Теория случайных процессов предоставляет модели для физики, механики, химии, биологии, метео рологии, практической статистики, гуманитарных наук.

Этот раздел теории вероятности использует многие глубокие факты теории меры, и, в свою очередь, стимулирует развитие этой теории. Он теснейшим образом связан с функцио нальным анализом. Важнейшие для приложений процессы второго порядка. в частности, ста ционарные случайные процессы, интерпретируются как кривые в гильбертовом пространстве.

Другие важные процессы не имеют второго момента, развитие их теории связано с изучени ем других классов банаховых пространств. Случайные функции рассматриваются не только на евклидовых пространствах, но и на различных геометрических многообразиях. На основе теорий случайных процессов развивается важная для изучения процессов управления теория стохастических дифференциальных уравнений.

После этого введения придется ограничить задачи нашего курса лишь изучением началь ных разделов этой теории и знакомством с рядом более продвинутых разделов.

Упражнение 1. Найти парные совместные распределения Pt s, а также функции среднего и ковариации для процесса t, который задан соотношением t () = I[0,t] (), t [0, 1], [0, 1], на вероятностном пространстве [0, 1] с борелевской -алгеброй событий и вероятностной мерой P, которая является обычной мерой Лебега, T = [0, 1].

§28. Случайное блуждание.

Предварительные замечания Один из способов вычисления вероятностей в классической модели интересующего нас со бытия A это представления его в виде суммы или разности событий, вероятности которых вычислить легче.

A = A1 + A2 +... An или A = A1 A так, что вероятности событий Ai легко вычисляются.

Иногда имеет смысл представить = 1 2, каждый случайный исход при этом пред ставляется = (1, 2 ), где 1 траектория до некоторого фиксированного момента k включительно, а 2 траектория от момента k + 1 до n. Иногда наше событие, которое нас интересует, можно представить в виде произведения A = A1 A2, где событие A1 формулиру ется в терминах условий на траектории до момента k включительно, а A2 в терминах условий на траектории от момента k + 1 до n. Очевидно, что тогда |A| = |A1 | |A2 |.

1. Модель симметричного случайного блуждания.

Элементарный исход траектория, состоящая из отрезков, направленных вверх и на правленных вниз. Эта модель по существу совпадает с моделью Бернулли, но некоторым событиям можно сопоставить новый геометрический смысл. Начинается траектория с момента времени 0 с точки 0 на числовой оси, то есть с точки (0, 0) на координатной плоскости. Итак, если время движения равно n, то || = 2n. Ввиду симметричности движения вероятности всех элементов равны 2n. Однако при изменении числа шагов случайного блуждания меняет ся. Имеются задачи и для бесконечного числа шагов, тогда множество элементарных исходов оказывается бесконечным и даже несчетным, точнее, оно совпадает с множеством всех дво ичных разложений чисел отрезка [0, 1]. Саму траекторию мы будем обозначать, а значение случайного блуждания в момент времени n через n.

Физики любят такие простые модели, на простых примерах они стараются уловить эффек ты, которые могут произойти в более сложной ситуации.

Введем события An,k, состоящие из всех траекторий, кончающихся в точке (n, k). An,k = {n = k}. Вычислим вероятность P(An,k ), которая равна |An,k |/2n. Очевидно, что для попа и n k участков дания в точку (n, k) наша траектория должна содержать n + k участков 2. Число таких траекторий мы можем отождествить с числом вариантов подбрасывания мо n+k nk неты, где n + k гербов и n k решек. Оно равно Cn 2 = Cn 2. Обратим внимание на одну 2 особенность модели в точке (n, k) числа n и k имеют одинаковую четность.

2. Задача о пьяном гуляке.

Случайное блуждание мы будем считать как движение одномерного пьяного гуляки. Его домом мы считаем точку 0, город кончается в точке r.

Задача. Найти вероятность того, что за n шагов пьяный гуляка хотя бы раз достигнет границы города. Другая, менее приятная версия этой задачи такая. Пьяный гуляка лежит в канаве на расстоянии r шагов от оврага. Каждую минуту он делает шаг к оврагу или от него с вероятностью 2. Если он достигнет оврага, то обязательно в него упадет. Через n минут за ним приедет машина. Какова вероятность, что пьяный гуляка упадет в овраг?

Замечу, что наше решение будет иметь вид не очень красивой формулы для подсчета ве роятности.

Введем обозначения для событий:

A = {событие, состоящее в том, что траектория коснулась уровня r} Тогда A= An,k + AAn,k.

kr kr Введем обозначение для k r:

Bn,k = ABn,k = {событие, состоящее в том, что траектория кончается в точке (n, k), но по дороге касается уровня r}.

2. Лемма об отражении. |Bn,k | = |An,2rk |.

Доказывается путем построения взаимно-однозначного соответствия между множествами Bn,k и An,2rk. Оно осуществляется следующим образом: до момента первого касания уровня r траекторию Bn,k мы оставляем неизменной, а после этого касания симметрично отобра жаем относительно прямой y = r.

Из этой леммы следует следующая формула для вычисления P(A):

n+k n+r 2n.

Cn 2 + Cn P(A) = P(An,k ) + P(Bn,k ) = kr kr kr 3. Независимость будущего от прошлого при фиксированном настоящем. Мар ковское свойство.

Марковское свойство процесса означает независимость будущего от прошлого при извест ном настоящем. Напомним, что события A и B называются условно независимыми при условии C, если P(AB|C) = P(A|C)P(B|C).

Для случайного процесса t это свойство должно выглядеть так: при s t u P({u = x, s = y}|t = z) = P(u = x|t = z)P(s = y|t = z).

Однако если случайные величины u, t, s имеют непрерывный тип распределения, то все выписанные вероятности будут равны нулю, также вероятность условия будет равна нулю, а на нуль делить нельзя. Положение не спасает введение в рассмотрение событий вида {u A}, {s C}, {t B}. Действительно, если мы возьмем B = R, то событие {t R} будет достоверным и из условной независимости будет вытекать обычная незавсимость.

Таким образом, введение понятия марковости требует использования тонких понятий услов ного среднего в самой общей ситуации. В нашем случае симметричного случайного блуждания проблем с корректным определением не возникает, так как n+k Cn P({n = k} = = 2n при одинаковой четности n и k.

Упражнение. Независимость приращений случайного блуждания. Проверьте, что события {n m = i} и {k l = j} независимы при l k m n. Для этого найдите число траекторий в каждом из этих событий и в их пересечении.

Из этого упражнения следует, что вероятность P{u = x} зависит от положения случайного блуждания в момент времени t, но не зависит от других свойств предшествющего пути.

Комментарий. Марковость случайного блуждания можно обосновать и по другому, более строго. Будем использовать сохранение независимости при операции сложения несовместных событий (см. пункт 4.7). Это полезно, так как удобно проверять независимость самых малень ких событий, являющихся элементарными исходами в соответствующих моделях.

Событие C = { набор шагов за время от s до t }.

и Событие D = { набор шагов за время от m до n }.

и P(C) = 2(ts), P(D) = 2(nm), P(CD) = 2[(ts)+(nm)].

В то же время случайные величины n и m при m n, вообще говоря зависимы. Возьмем, например, события {10 = 6} и {11 = 9}. Это события с ненулевой вероятностью, но они несовместны. Следовательно, они зависимы.

Докажем независимость будущего случайного блуждания от прошлого при фиксированном настоящем p (т. е. независимость его значений при n t p от его значений при s p при условии Ap,r = {p = r}). Это свойство случайного блуждания называется марковским. Мы должны доказать равенство P(CD|Ap,r ) = P(C|Ap,r )P(D|Ap,r ) (1) для любого события C, означающего некое условие на значения процесса в моменты времени s p и для любого события D, означающего некое условие на значения процесса в моменты времени t : n t p. Простым сложением показывается, что условная независимость (1) для элементарных событий C = Ci и D = Dj при всех i и j, где события Ci попарно несовместны между собой при разных i, события Dj попарно несовместны между собой при разных j, влечет условную независимость (1) для пары сумм событий C = C1 +C2 +...+Ck и D = D1 +D2 +...+Dl.

Таким образом, условная независимость C и D следует из условной независимости всех пар Ci и Dj. А в качестве этих событий мы можем взять самые маленькие события нужного нам вида.

Минимальное событие Ci, зависящее от всех s : s p состоит из всех траекторий, значения которых в промежутке s p составляют фиксированную траекторию 1 (т. е. все значения 1 (s) зафиксированы при s p).

Минимальное событие Dj, зависящее от всех t : n t p состоит из всех траекторий, значения которых в промежутке n t p составляют фиксированную траекторию 2 (т. е.

все значения 2 (t) зафиксированы при n t p).

Возможны две ситуации. В первой ситуации либо траектория 1 не кончается в точке (p, r), либо траектория 2 не продолжается на момент времени p со значением r. В этих случаях события Ci или Dj несовместны с Ap,r и тогда либо P(Ci |Ap,r ) = 0, либо P(Dj |Ap,r ) = 0 и равенство (1) очевидно, так как обе его части равны. 0.

Во второй ситуации обе траектории продолжаются на момент времени p со значением r.

Поэтому Ci Ap,r, Dj Ap,r =. Мы можем вычислить число траекторий в событиях Ci Ap,r и Dj Ap,r и сосчитать условные вероятности. Начнем с числа |Ap,r |. Число траекторий из точки p+r (0, 0) в (p, r) мы уже сосчитали, оно равно Cp 2. Но число способов продолжения каждой такой траектории на моменты времени от p + 1 до n равно 2np. Таким образом, p+r |Ap,r | = Cp 2 2np, p+r p+r P(Ap,r ) = Cp 2 2np /2n = Cp 2 2p.

Далее, |Ci Ap,r | равно числу способов продолжения траектории 1 на 1, p на все моменты времени n t p. Число таких продолжений равно 2np. И, наконец, |Dj Ap,r | равно чис лу таких продолжений траектории 2 на s p, соединяющих (0, 0) и (p, r). Таким образом, p+r |Dj Ap,r | = Cp 2. Резюмируем, p+r 2np 2n Cp 2 2n P(Ci |Ap,r ) =, P(Dj |Ap,r ) =, p+r p+r Cp 2 2p Cp 2 2p 2n P(Ci Dj |Ap,r ) = = P(Ci |Ap,r )P(Dj |Ap,r ).

p+r Cp 2 2p Итак, (1) выполняется.

4. Задача о баллотировке.

В рамках схемы случайного блуждания мы решим следующую задачу:

Задача. У двух кандидатов, A и B, имеется ровно по n голосов. Эти голоса были поданы и происходит подсчет голосов. Какова вероятность события A = {в течение подсчета A будет всегда опережать B}.

Уточним, что в начальный момент времени и в последний момент времени у них одинаковое число голосов – по 0 и по n.

Элементарный исход в этой задаче это траектория, которая в каждый момент времени показывает разность числа учтенных голосов за A и за B. Нарисуйте примерную траекторию.

Каждая такая траектория начинается в точке (0, 0) и кончается в точке (2n, 0). Траектории в интересующем нас событии A состоят из траекторий, которые всюду, за исключением 0 и 2n, находятся выше оси x-ов. Итак, |A| n || = C2n, P(A) =, |A| =?

|| Для подсчета |A| мы используем принцип отражения. Очевидно, что каждый A проходит через точки (1, 1) и (2n 1, 1). Легко считается число всех траекторий из (1, 1) в (2n 1, 1) во всех этих траекториях имеется n 1 участков и n 1 участков. Поэтому число таких n траекторий равно C2n2. Вычтем из него число траекторий из (1, 1) в (2n 1, 1), по дороге касающихся оси x-ов, разность равна |A|. По принципу отражения {число траекторий из (1, 1) в (2n 1, 1), по дороге касающихся оси x-ов} = n = {число траекторий из (1, 1) в (2n 1, 1)} = C2n2.

n1 n Итак, |A| = C2n2 C2n2.

Упражнение. Спички продаются по цене 50 копеек за коробку. 2n человек хотят купить по одной коробке, причем у n из них имеются 50-копеечные монеты, а у остальных n монеты в 1 рубль. У продавца в данный момент нет ни одной 50-копеечной монеты. Какова вероятность того, что если наши 2n человек выстроятся в очередь случайным образом, продавец сможет каждому из них в случае необходимости без задержки вернуть сдачу.

Указание. Очевидно, что первым в очереди должен оказаться человек с 50-копеечной мо нетой, а последним с 1 рублем.

5. Задача о постоянном везении.

Два игрока играют совершенно одинаково и выигрывают друг у друга с вероятностью 1/2. Сыграно 2n партий. Доказать, что вероятность того, что один из них будет всегда не позади другого равна вероятности того, что в 2n-й момент времени у обоих будет равное число выигрышей, то есть равна числу C2n /22n.

n Доказательство с помощью взаимно однозначного соответствия множества A всех траекто рий не ниже оси x-в и множества A всех траекторий, кончающихся в точке (2n, 0). Рассмотрим траекторию A и разделим ее на два участка: 1 – часть от начала до первого достижения инфимума, 2 – часть после первого достижения инфимума.



Pages:     | 1 |   ...   | 3 | 4 || 6 | 7 |   ...   | 8 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.