авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |

«А.М. Чеботарев Введение в теорию вероятностей и математическую статистику для физиков ...»

-- [ Страница 2 ] --

1 Обозначим через R – шар радиуса = ( 1/2 ) с центром в начале координат. Тогда E(, )2 () = (, )+ (), () = E(, )2 R () при равномерно по на ограниченных множествах. С другой стороны, E|(, )|3 () ||(, ).

Используя лемму 3.5, представим функцию (,) в виде (,) = (,) () + R () = ( ) ((, )) ( ) = 2 (, ) + 1 + (, ) + ()+ 2!

+ (1 (, ) + 1 + (, ))R () = (, )2 (, )2 ( ) = 1 + (, ) () 1 (, ) R () 2! 2!

(, )3 ( ) 2 (, ) (), | ()| 1.

3!

Полагая =, вычислим по этой формуле математическое (,) ожидание от :

(, ) ( ) (, ) + (, ) (,) E =1 E () = 3! 3/ 2 (, ) + () ( ||3 ) =1 +.

3/ 3.4. ЦПТ в форме Ляпунова и Линдеберга Поэтому семейство функций ( 1/2 ||3 ) (, ) (,) log () = log E = + ( ()) + 1/ непрерывно по на любом конечном отрезке равномерно по.

Согласно оценке (3.9), равномерно непрерывному семейству { ()} соответствует плотное семейство вероятностных мер, которое является слабо сходящимся в силу теоремы Прохорова.

Поскольку имеет место равномерная сходимость любой подпо следовательности () к единственному пределу, то из пото чечной сходимости характеристических функций при (, ) ( ()) ( 1/2 ||3 ) ( ) () = 1 + + = 3/ 2 (,) (,) +( ())+(1)|| = 2 следует, что сумма = в пределе сходится к нормаль ному распределению с корреляционной матрицей, имеющему плотность, абсолютно непрерывную относительно меры Лебе га. Таким образом, из поточечной сходимости характеристи ческих функций следует слабая сходимость распределений.

Важно отметить, что приведенное выше доказательство не использует предположений о существовании абсолютных мо ментов выше второго.

3.4. Центральная предельная теорема в форме Ляпунова и Линдеберга Приведем формулировку ЦПТ, принадлежащую Ляпунову, уче нику Чебышева. Его обобщение предполагает существование третьего абсолютного момента и распространяется на случай ные величины с различными средними и дисперсиями. Теорема Чебышева применима к независимым случайным Глава 3. Теорема Бохнера–Хинчина и ЦПТ величинам, имеющим различные распределения, и допускает неограниченный рост дисперсии 2 () и третьего абсолютного 1/ момента 3 () при условии, что 3 ()/() 0 при.

Более точно утверждение формулируется следующим образом.

Теорема 3.6. Пусть – независимые действительные слу 2 def 3 def чайные величины, = =1, = =1 E | |.

2 Если / 0 при, то 1 def 2 / ) = lim (, =.

= Условие Ляпунова является достаточным для сходимости к нормальному закону. Линдеберг нашел более слабые достаточ ные условия, которые в ряде важных случаев являются необ ходимыми (см. [4], гл. III, §4).

Теорема 3.7. Пусть – независимые действительные слу чайные величины с распределениями (), = 2 = и ( ) def ( )2 ().

() = 2 + =1 + (3.10) Если () 0 при для любого 0, то 1 /2. (3.11) lim ( ) = Рассмотрим примеры, иллюстрирующие теорему Линдеберга.

Пример 3.2. Если независимы и одинаково распределены, то = и все интегралы совпадают. Обозначим через 2 (, ) – -окрестность точки. Поэтому 1 () ( )2 () 0, () = 2 R R (, ) 3.4. ЦПТ в форме Ляпунова и Линдеберга в силу теоремы Лебега о предельном переходе под знаком ин теграла, поскольку для любого R существует предел () lim = 0.

R (, ) Таким образом, выполнено условие Линдеберга (3.10). Этот случай соответствует утверждению теоремы 3.5.

Пример 3.3. Пусть | | и = 2 = при. Тогда из [, ] и неравенства Чебышева следует, что | | 2 и при существует предел ER (, ) () ( ) () = = 42 42 ER (, ) () 2 2 2 = 2 2 0, что гарантирует выполнение условия Линдеберга (3.10), доста точного для сходимости (3.11).

Упражнение 3.7. Проверить условие Линдеберга (3.10) в случае, если существует 0, такое, что =1 E| | 2+ lim = 0.

2+ Пример 3.4. Пусть {1,..., } – случайная перестановка последовательности {1,..., }. Числом инверсий, обра зованных элементом в последовательности {1,..., }, называется число нарушений порядка индексов {, }| и {, }|. Более точно def,,, = {1, если ;

0, если }.

= = Задача об асимптотическом распределении суммы на зывается задачей о распределении числа инверсий в переста новках. При равновероятном распределении элементов в пе рестановках число инверсий элемента принимает значения Глава 3. Теорема Бохнера–Хинчина и ЦПТ 0, 1,..., 1 с равной вероятностью = 1/ (проверьте это утверждение самостоятельно). Отсюда следует, что среднее значение числа инверсий и его дисперсия для элемента равны соответственно 1 2 1 1 2 = = =, =, 2 =0 = а полное число инверсий имеет среднее и дисперсию, равные ( 1) = =, 4 = 2 3 + 3 2 5 2 = =.

72 = Поскольку ± = (2 ) ± ( 3/2 ), то для любого пределы интегрирования в условии Линдеберга (3.10) стремят ся к ± при, так что () 0. Следовательно, (3.11) выполнено. Отсюда, в частности, следует, что для по ловины всех перестановок число инверсий лежит в интервале 2 3/2 (см. [2], т. 1, гл. Х, §6, п. (a)).

4 ± 0. 3.5. Безгранично делимые и устойчивые законы Случайная величина называется безгранично делимой, если для любого 1 существуют независимые одинаково рас пределенные случайные величины { }, такие, что =.

Это важное понятие было введено де Финетти (Bruno de Finetti) в 1929 г. В терминах характеристических функций свойство безграничной делимости означает, что для любого существу ет характеристическая функция, (), такая, что характери ) стическая функция () равна, (). Из леммы Шура ( следует, что безгранично делимые распределения образуют ал гебру относительно свертки.

3.5. Безгранично делимые и устойчивые законы Извлечение корня по стандартному правилу:

def ( ())1/ = | ()|1/ Arg( ())/ не нарушает непрерывность в нуле и, (0) = ( (0))1/ = 1;

поэтому содержательная часть условия, налагаемого на класс безгранично делимых распределений, состоит в требовании по ложительной определенности функции ( ())1/. Если функ ции такого вида, соответствующие, положительно опреде лены, то из теоремы Шура следует положительная опреде ленность функций вида ( ()), = /, где, – целые.

По непрерывности это свойство распространяется на все веще ственные R+.

Пример 3.5. Класс безгранично делимых распределений до статочно узок. Равномерное распределение не является в об щем случае безгранично делимым. Для отрезка [10, 10] его характеристическая функция равна () = sin 10/10. Для 3-х пар случайно выбранных точек = {0.1249 + 0.9142, 0.1696 + 0.6263, 0.5606 + 0.8953}, = {0.6432, 0.7062, 0.0859} сумма 1/2 ( ) = 3.536 + 0.757 не является,=1 положительной при естественном выборе ветви корня. На со пряженной ветви нарушается условие непрерывности в нуле.

Упражнение 3.8. Объяснение замеченного здесь явления со стоит в том, что характеристические функции безгранично де лимых законов, в отличие от функции () = sin 10/10, не могут обращаться в нуль (см. Б. В. Гнеденко, Курс теории вероятностей, М:, Наука, 1988, стр. 265–266). Докажите этот факт самостоятельно. Докажите, что безгранично делимые законы не являются идеалом6 относительно свертки в алгебре всех вероятностных распределений.

левым Напомним, что (правым) идеалом алгебры называется под,, множество элементы которого обладают свойством ).

(соответственно Глава 3. Теорема Бохнера–Хинчина и ЦПТ Пример 3.6. Функция () = ( 1) является характе ристической для пуассоновского распределения ( = ) = !. Нетрудно видеть, что функции 1 ( 1) () = (())1/ = также являются характеристическими функциями пуассонов ских распределений (/ ) /.

!

() Функция () = 2 + является характеристической функцией нормального распределения с плотностью () () = (2 2 )1/2, 2 а функциям () () = (())1/ = +/ (0 / ) соответствуют распределения (/2 2 )1/2.

2 Их произведение () () = () () = (), (|,, ) = ( 1) +, а также все функции вида () () =, () = (|,, )(,, ) с положительными конечными мерами являются характери стическими функциями безгранично делимых распределений.

Это наблюдение обобщается теоремой де Финетти–Леви–Хин чина, которую мы приводим без доказательства.

Теорема 3.8. Случайная величина является безгранично де лимой тогда и только тогда, когда существуют постоянные 2 R+, R и конечная положительная мера, ({0}) = 0, такие, что () = (), где функция () имеет вид 3.5. Безгранично делимые и устойчивые законы ()2 1 + ( ) (3.12) () = + ().

1 + 2 2 R Как необходимое условие (т.е. как утверждение о том, что других безгранично делимых законов не существует), теорема 3.8 является неожиданным и не очевидным утверждением7.

Как достаточное условие, эта теорема не описывает прин ципиально новых компонент по сравнению с рассмотренны ми выше примерами, более того, в приведенной формулировке (см. [4], гл. III, § 5) эта теорема не гарантирует единственность параметров,,. Разлагая в ряд Тейлора по степеням ле вую и правую части (3.12), получим def () () = = ()2 2 0 ( ) = + + 1 + 2 2 ( ) 2 + · · · + () + +2 ()+2 +..., ( ) 2 где 0, – моменты порядка меры. Отсюда следу ет, что представление (3.12) допускает класс “калибровочных” преобразований параметров, 0, не меняющих характеристи ческую функцию. В терминах моментов меры такое преоб разование определяется условиями 1 = 1, 0 + 2 = 2 2,..., + +2 = +2,..., где 1, – постоянные, определяющие характеристиче скую функцию. Единственность представления (3.12) можно обеспечить выбирая представление, в котором 2 = 0 (см. [5]).

Доказательство можно найти в книге В.Б. Гнеденко и А.Н. Колмого рова “Предельные распределения сумм независимых случайных величин” (Гос. издательство технико–теоретической литературы. М.–Л., 1949).

Глава 3. Теорема Бохнера–Хинчина и ЦПТ Важный класс образуют устойчивые законы распределения случайных величин. Случайная величина имеет устойчивый закон распределения, если для ее независимых реализаций { } и любых вещественных { } существуют и, такие что ( ).

= В терминах характеристических функций условие устойчиво сти имеет вид ( ) = ( )).

= Эмпирические данные с такими распределениями встреча ются в статистиках физического и экономического происхож дения и в общем случае имеют характеристическую функцию, зависящую от нескольких параметров, описываемую представ лением Леви–Хинчина (см. [5], гл. VII, §34).

Теорема 3.9. Действительная случайная величина имеет устойчивое распределение тогда и только тогда, когда ее ха рактеристическая функция имеет вид,,, () = exp{ || (1 sign )}, (3.13) где = {tan при (0, 2), = 1;

ln || при = 1}, 2 [1, 1], R, 0;

= 0 при = 2.

В общем случае явный вид плотности устойчивых распреде лений не выражается в элементарных функциях, но при боль ших || и (0, 2) известна его асимптотика (1 + ) sin(/2)(1 + ) (3.14) () =,,, () | /|1+ и представление в виде ряда )+ () ( 1,,, () = Re ( + 1), / !

= 3.6. ЦПТ для распределений с тяжелыми хвостами где = (1). Параметры и / задают масштаб и сдвиги распределения по оси, [1, 1] – характеризует асиммет рию распределения. Для симметричных распределений = 0.

Для значений 2 такие распределения называются распре делениями с тяжелыми хвостами.

3.6. Предельные теоремы для распределений с тяжелыми хвостами Если – независимые выборочные значения фиксированной случайной величины, причем существуют 0 и R та кие, что 1 ( ) (сходимость по распределению), то говорят, что принадлежит области притяжения случайной величины. Область притяжения () состоит из всех слу чайных величин, удовлетворяющих этому условию. Следую щая теорема (см. [7], §3.1.2) описывает множество случайных величин с устойчивыми законами распределения как область притяжения распределений с тяжелыми хвостами.

Теорема 3.10. Пусть { } – последовательность независи мых одинаково распределенных действительных случайных ве личин с полиномиально убывающими хвостами, таких, что (1 ) +, (1 ), (0, 2), ± при. Тогда существуют такие { } 0, { } R, + = + + и = + +, что 1 ( ),,0,, где,,0, – случайная величина, имеющая устойчивое распре деление с характеристической функцией (3.13).

В частности, известны следующие варианты правильного вы бора центрирующих и масштабирующих коэффициентов Эмпирические данные с такими распределениями встречаются в статистиках, имеющих физическое и экономическое проис хождение.

Глава 3. Теорема Бохнера–Хинчина и ЦПТ Т а б л и ц a 3. dom )1/ ( (1, 2) 2() sin(/2) {1} log )1/ ( (0, 1) 2() sin(/2) Рассмотрим пример. Распределение Хольцмарка является модельным распределением, описывающим флуктуации грави тационного поля во Вселенной. Пусть звездная материя рас пределена случайным образом: случайными являются коор динаты и массы звезд, а также их плотность во Вселенной.

Сформулируем предположения Хольцмарка более точно.

1) Флуктуации числа звезд в объеме имеют пуассонов ское распределение:

( = ) = ( !, где – средняя плотность ) звездной материи.

2) Сила притяжения, действующая на единичную массу в точке R3 со стороны звезды массы, находящейся в точке, описывается законом Ньютона: = ||3.

3) Масса звезд является случайной величиной, имеющей ко нечный момент порядка = 3 : 0 3/2 () = 3/2.

Как мы увидим, именно этот момент входит в распреде ление случайной силы.

4) Случайные величины,, независимы;

точка рав номерно распределена в любом содержащем ее объеме:

( 3 | ) = 1 3.

Вычислим характеристическую функцию случайной силы, создаваемой звездами в объеме, на единичную массу, ко торую, не уменьшая общности, поместим в начало координат.

3.6. ЦПТ для распределений с тяжелыми хвостами Поскольку предполагается, что число звезд в объеме име ет пуассоновское распределение, то характеристическая функ ция вклада объема в случайную силу равна (, ) (, ) = E | | = = ( ) (, ) E | |3 = = !

= = ) ( ) ( (,) E = = || !

= { ( ) } (,) 1 3, = exp E || где последнее математическое ожидание вычисляется по рас пределению массы. Ниже мы увидим, что при интегрировании по сферическим областям, функция, стоящая под знаком инте грала, убывает как (2 ), поэтому существует предел таких интегралов при.

( (,) Вычислим интеграл () = R3 ||3 1 3. Переходя ) к полярным координатам, запишем его в следующем виде:

( ) || cos 1 = = 2 sin 0 ( 2 ) || 1 2 = = 4 sin || 3 ( sin 2 1 2 = ) = 4(||) 4 = (2||) 2.

Упражнение 3.9. Убедитесь, что 2 sin 12 1 2 = 0(2 ) ( ) при больших. С помощью аналитических вычислений про ( верьте равенство 0 2 sin 12 1 2 = 2 15.

) Глава 3. Теорема Бохнера–Хинчина и ЦПТ Вычисляя математическое ожидание E () по распределе нию массы, находим характеристическую функцию случайной силы, а с помощью асимптотической формулы (3.14) получаем асимптотику вероятности значений гравитационной силы:

43/2 () = (2||) (| | ) =,0,0, ( ),, 1+ ( 43/2 )2/ где = 3, = 2.

2 Упражнение 3.10. Докажите, что характеристическая функ ция трансляционно-инвариантной случайной суперпозиции сфе рически симметричных полей (| |) имеет корректно опре деленный предел при, если |()| ( 2 (1+) ), при. В этом случае характеристическая функция слу чайных флуктуаций равна ( ) sin(||()) 4 0 1 ||() () =.

В частности, если () = ( ), то () = (|| ).

Таким свойством обладают сила парного взаимодействия частиц в газе Ван-дер-Ваальса:

)12 )6 ) (( ( ( ) = 4 | | | | ( = 7), распределение напряжений в кристаллах, вызванные случайными дислокациями в кристаллической решетке ( = 3), распределение магнитного поля в магнетиках ( = 2) и неко торые другие случайные неограниченные ансамбли [14].

4.1. Свойство аналитичности характеристических функций Глава 4. Проблема моментов и теорема Бернштейна Условия аналитичности характеристической функции. Полиномы Берн штейна. Теорема о реконструкции вероятностного распределения по мо ментам. Условие Карлемана. Контрпримеры. Кривые Пирсона. Рас пределение Вигнера.

4.1. Свойство аналитичности характеристических функций Проблема идентификации случайных величин и их распреде лений играет важную роль как в теоретических исследовани ях, так и в приложениях. Помимо характеристической функ ции в ряде случаев (но, к сожалению, не всегда) вероятностное распределение может быть однозначно охарактеризовано на бором моментов. Покажем, что характеристические функции случайных величин, имеющих конечные абсолютные моменты = E|| любого порядка такие, что = lim 1 1/, (4.1) являются аналитическими и определяются набором моментов = E, = {1, 2,... }.

Для разложения в ряд Тейлора функции (+) в окрест ности точки существует доказываемая по индукции оценка (см. [2], т. 2, гл. XV, дополнение к §4):

1 () || ( ).

! !

= Аналогичное утверждение доказано ранее (гл. 3, лемма 3.5).

Отсюда и из неравенства |E ()| E| ()| следует равно мерная по R оценка разложения в точке в ряд Тейлора характеристической функции ( + ) = E(+) случайной Глава 4. Проблема моментов и теорема Бернштейна величины :

1 () ) ( () () = E ( + ) ! !

=0 = 1 () ( ) E || = ||, (4.2) E ! ! !

= показывающая, что в -окрестности вещественной оси ряд Тей лора равномерно сходится к ( + ). Действительно, с учетом формулы Стирлинга и оценки (4.1) имеем () !() / 2 !(3) / 2, так что при условии || 3, то есть в полосе 1 } { = + : Re 0, |Im |, ряд () сходится абсолютно, а остаточный член разложе !

ния (4.2) при этом же условии оценивается сверху величиной || (3||) 0 : 3|| !

при и любом R. Поскольку в этом случае множе ство моментов является коэффициентами тейлоровского раз ложения, мы установили следующий факт.

Теорема 4.1. Набор моментов комплексной случайной вели чины, удовлетворяющих условию (4.1), однозначно определя ет ее характеристическую функцию и распределение вероят ностей.

Замечание 4.1. Известно более сильное достаточное условие Карлемана (см. [2], т. 2, гл. XV, дополнение к §4):

(E||2 )1/2 =, (4.3) 4.1. Свойство аналитичности характеристических функций которое также является достаточным.

В то же время следует иметь в виду, что даже очень “хоро шие” случайные величины имеют быстро растущие абсолют ные моменты. Например, нормальное распределение имеет мо менты 2 = ( + 1 )2 2 / 2, так что условие (4.1) выпол нено с небольшим запасом:

1 ) 1/ 1 ( + 2 )2 2 ( 2.

С другой стороны, существуют примеры вероятностных рас пределений в R+, имеющих общий набор моментов.

Пример 4.1. Функция () = 1 1/ является нормирован ным вероятностным распределением в R+, а функция sin 1/ ортогональна с весом () всем полиномам:

1 2 8+ () sin(1/4 ) = sign sin 0= (4.4) = 0, 1,... Поэтому, во-первых, () = ()(1 sin 1/4 ) – вероятностное распределение при любом [0, 1], и, во-вторых, все моменты распределений с плотностями () совпадают.

Объяснение этого факта подсказывает правая часть равен ства (4.4). Хорошо известно, что полная в 2 (R) ортонорми рованная система полиномов Эрмита () порождается ли нейной оболочкой функций, = 0, 1,... Заметим, что умножение функций на sign не нарушает условие ортонор мированности и полноты, а также не выводит из 2 (R), так что линейная оболочка функций sign также порожда ет полную ортонормированную систему ()sign.

Теперь ясно, что среди условий ортогональности (4.4) от сутствуют все, кроме тех, которые содержат полиномы вида 8 +7, то есть пропущено бесконечно много условий ор тогональности. В частности, отсутствуют необходимые усло вия, которые выражаются в терминах моментов отрицатель Глава 4. Проблема моментов и теорема Бернштейна ных дробных порядков { } 76 () sin(1/4 ) = 0, =,,...

=, 8 88 соответствующих моментам порядка 8+7 {0,..., 6} в пере менных в правой части (4.4). Однако полный набор моментов функции sin 2 содержит моменты, отличные от нуля. Напри мер, 3/4 = 12.

4.2. Теорема Бернштейна Для ограниченных действительных случайных величин суще ствует нетривиальное характеристическое свойство их момен тов. Для его изучения нам понадобится несколько вспомога тельных фактов и конструкций.

Как мы увидим в этом разделе, распределения действитель ных случайных величин с финитной областью значений одно значно определяются набором моментов. Начнем с леммы о слабой сходимости распределений к дельта-функции.

Лемма 4.1. Пусть,, = 1, 2,... – семейство вероят ностных распределений случайных величин со средним и дисперсиями,, такими, что, 0 при. Тогда 2 для любой непрерывной ограниченной функции () E, ( ) ().

Доказательство. Пусть | |. Рассмотрим разность | E, () ()| | () ()|, ().

Поскольку – непрерывная функция, то для любого суще ствует -окрестность точки, в которой | () ()|.

Поэтому, используя неравенство Чебышева и учитывая, что 4.2. Теорема Бернштейна, 0, получаем следующую оценку:

( ) | () ()|, () = | () ()|, () + R 2, | |2, () + + 2.

2 R для всех достаточно больших,. Отсюда следует, что E, ( ) ().

Утверждение этой леммы можно усилить, распространив его на множество всех кусочно-непрерывных функций: сходи мость имеет место во всех точках непрерывности функции.

В качестве следствия этой леммы нетрудно получить обос нование сходимости полиномиальной аппроксимации. С целью упрощения обозначений будем рассматривать моменты случай ных величин, принимающих значения на отрезке [0, 1]. Та кое преобразование не уменьшает класс рассматриваемых слу чайных величин. Действительно, если – моменты случай ной величины [, ], то моменты случайной величины = ( )/( ) [0, 1] выражаются через моменты :

(), = ( ) = а () и () связаны формулой () = (( )/( )).

Теорема 4.2. Пусть { }=1 – семейство случайных вели чин, имеющих биномиальные распределения (, ).

Глава 4. Проблема моментов и теорема Бернштейна Тогда для любой кусочно-непрерывной ограниченной функ ции : [0, 1] R def E, ( ) = () (1 ) (), () = = (4.5) где = 1/, во всех точках непрерывности функции.

Доказательство. Пусть – независимые одинаково распреде ленные случайные величины, принимающие значение 1 с веро ятностью и 0 с вероятностью 1. В качестве примем (1 ) 1 = ( 1 ).

E =, =,, = = Тогда выполнены условия леммы 4.1. Следовательно, имеет место сходимость (4.5).

Полиномы () вида (4.5) имеют степень и называются полиномами Бернштейна. Как будет показано ниже, условие, необходимое и достаточное для однозначного соответствия мо ментов и вероятностного распределения, формулируется в тер минах операторов конечной разности:

: = +1 = ( ), ( + ) () : () = = (), где : = +1 и : () = ( + ) – соответству ющие операторы сдвига, а – тождественный оператор. Из определения операторов и следуют два тождества:

() = (1) ( + ), = (1) +.

= = 4.2. Теорема Бернштейна Лемма 4.2. Пусть и – определенные выше разностные операторы и = (0,1] (). Тогда для любого [0, 1] выполнены следующие соотношения:

def (4.6) () (0), (1 ) () = () = =0 = 1 () () def (4.7) = ().

=, = () В частности, =0 = 0 = 1.

Доказательство. Равенство (4.6) позволяет выразить полино мы Бернштейна через конечно-разностные операторы и факти чески дает формулу обращения оператора. Равенство (4.7) будет использовано для проверки сохранения полной вероятно сти при построении приближенных выражений вероятностного распределения через его моменты. Оба равенства доказывают ся с помощью известного комбинаторного тождества.

=, В первом случае, используя первую формулу (4.6) и меняя порядок суммирования, имеем () (0) = (1) () = =0 =0 = () () = () () = = =0 = =0 = () (1 ) = (), () () = = =0 =0 = где использовано тождество () = (1 ).

= Глава 4. Проблема моментов и теорема Бернштейна Во втором случае, используя второе определение (4.2.) и комбинаторное тождество, получим () () = = () = = = = () = ( ) =.

= = Утверждение доказано.

Из определения моментов и разностной производной имеем (1 ) () 0.

= +1 + = Докажем по индукции, что (1 ) () = (). (4.8) При = 1 это равенство только что было доказано. Теперь из предположения индукции (4.8) следует:

()+1 = () +1 + () = (+1 (1 ) + (1 ) () = = (1 )+1 () = E (1 )+1 0.

= Поэтому условия () 0, (4.9) 0 = 1, являются необходимыми для того, чтобы набор { } мог быть набором моментов случайной величины со значениями в [0, 1], а из теоремы 4.2 и тождества (4.8) получаем формулу, выражаю щую среднее значение функции () через конечные разности моментов:

4.2. Теорема Бернштейна 1 () (1 ) = () () = () 0 0 = (4.10) () ().

= = В частности, если () 1, то из (4.10) следует ().

(1 ) 1= () = 0 =0 = Поэтому величины () = (), 0 имеют смысл дискретного вероятностного распределения при любом фиксированном. Покажем, что при суммы () по [ ] дискретных распределений, соответствующие плотностям распределения вероятности () 1 [0, 1] некото рой случайной величины, сходятся к кумулятивному распре делению ( ).

Теорема 4.3. (Формула реконструкции) Если { } – момен ты распределения () 1 (0, 1), то [0,] (/ ) () = ( ).

(4.11) lim = Доказательство. Пусть () = [0,] (). Из (4.10) следует ( ) () = = ( ) (1 ) = (), 0 = Глава 4. Проблема моментов и теорема Бернштейна def где, () = (1 ) – ограниченная по ( ) = следовательность интегрируемых функций:, () 1.

Поскольку функция () – кусочно-непрерывна, то в силу теоремы 4.2 lim, () [0,] () в точках непрерывности функции [0,] (). Следовательно, по теореме Лебега о предель ном переходе 1 [0,] ()() = P[0, ].

, ()() lim 0 Упражнение 4.1. Показать, что из существования абсолют ного момента порядка следует существование всех абсолют ных моментов более низших порядков.

Указание. Воспользоваться неравенством Иенсена для выпук лых вниз функций E () (E ) для действительных случай ных величин.

Упражнение 4.2. Проверить необходимые условия (4.9) и, используя формулу (4.11), найти вероятностные распреде ления, соответствующие моментам (a) = +1, (b) = 2/( + 2), (c) =, (0, 1).

Указание. Проверить, что в случаях (a) () = (++1)! ;

!!

(+1)!!

(b) () = 2 (++2)! ;

(c) () = (1 ), далее вос пользоваться теоремой 4.2.

Упражнение 4.3. Используя необходимое условие (4.9), ко торому удовлетворяют моменты случайных величин на [0, 1], получить необходимое условие для моментов случайной вели чины, принимающей значения на произвольном отрезке [, ].

Рассмотреть частный случай [1, 1].

Упражнение 4.4. Вывести формулу реконструкции распре деления случайной величины, принимающей значения на про извольном отрезке [, ], по ее моментам { }. Рассмотреть частный случай [1, 1].

4.3. Кривые Пирсона 4.3. Кривые Пирсона Форму многих непрерывных распределений можно достаточ но полно охарактеризовать первыми четырьмя моментами, вы числение которых по доступным эмпирическим данным не пред ставляет трудностей, если эти моменты существуют. Гисто грамма наблюдений аппроксимируется распределением, имею щим то же среднее, дисперсию, асимметрию и эксцесс, выража емые через первые четыре момента так, что общая форма по лученной кривой будет достаточно хорошо соответствовать на блюдаемому распределению. Кривые Пирсона () определя ются как решения линейного дифференциального уравнения:

() = (4.12) (min, max ) =.

(), 0 + 1 + 2 Обозначим через интервал (min, max ) и предположим, что на нем существует решение этого уравнения, причем () max 0 +1 +2.

= Независимо от значений (вещественных) коэффициентов урав нения (4.12) его решение () max 1 0 +1 +2 () = неотрицательно. Это обеспечивает возможность аппроксима ции вероятностных распределений. Решения уравнения (4.12) образуют несколько типичных семейств распределений, зави сящих не более чем от четырех параметров и имеющих извест ные моменты. Точки min, max должны быть заданы заранее;

они могут принимать конечные и бесконечные значения.

К. Пирсон нашел связь между коэффициентами уравнения (4.12) и первыми четырьмя моментами центрированного рас Глава 4. Проблема моментов и теорема Бернштейна 1.2 - 1. - 1. 1. - 1. 0. - 0.6 - 7. 0.4 - - 0.2 2. 0.0 -1 -0.5 0 0. 1.0 0.5 0.0 0.5 1. Рис. 4.1. Слева – распределение () = 0 /(1 + /2 + 22 )2.6, точ но восстанавливаемое по четырем моментам на (, ). Справа – график погрешности пределения:

= E, 2 = ( )2 (), = 2(54 62 9), 1 (32 44 ), (4.13) ( ) (), 0 = = 3 (3 + 4 ), 2 = (6 + 32 24 ).

1 = Если – решение уравнения (4.12), то при таком выборе коэф фициентов уравнения первые четыре момента плотности веро ятности () = ( ) принимают заданные значения.

В прикладных науках этот факт используется для аппрок симации широкого класса распределений, включающего экспо ненциальное, бета- и гамма-распределения, распределения Па рето, Стьюдента, Фишера и хи-квадрат, нормальное распре деление1. Для построения таких аппроксимаций следует вы числить выборочные значения моментов, определить по фор мулам (4.13) коэффициенты и, задать интервал, решить уравнение и нормировать вероятностное распределение.

Многочисленные примеры достаточно точной аппроксимации эмпи рических распределений можно найти в статье D.G. Ashworth et al.

Representation of ion implantation profiles by Pearson frequency distribution curves. J.Phys.D: Appl.Phys. 23, 1990, 870–876.

4.4. Теорема Бернштейна и распределение Вигнера Упражнение 4.5. Выписать общее решение уравнения Пир сона (4.12), предполагая известными значения корней полино ма 0 + 1 + 2 2.

4.4. Теорема Бернштейна и распределение Вигнера Интерес к распределению Вигнера (E.P. Wigner) связан с тем, что оно возникает как операторный аналог центральной пре дельной теоремы и этот факт может быть установлен с помо щью теоремы 4.2 Бернштейна о характеризации распределения набором его моментов. Вигнер также заметил, что распреде ление уровней энергии тяжелых ядер похоже на распределение собственных значений случайной эрмитовой матрицы.

Нетрудно видеть, что момент порядка случайной вели чины вычисляется почти так же, как и в обычной теории вероятностей:

= Tr =, =, = Tr, где { } – семейство ортогональных проекторов на собствен ные подпространства наблюдаемой, отвечающих собствен ным значениям. Поэтому, зная моменты { }, можно вос становить вероятностное распределение ( ) = ограниченной наблюдаемой.

Рассмотрим последовательность наблюдаемых – эрмитовых ( )-матриц с независимыми одинаково распределенны ми элементами2 c нулевым средним, дисперсией 2 и момента ми любого порядка равномерно ограниченными по. В рас сматриваемом случае = C, а состояние – диагональная матрица с элементами 1.

Спектральный радиус таких матриц растет как ( ), по этому ниже рассматриваются оценки доли [, ) собствен 1 ных значений матрицы, попадающих в интервал [ 2, 2 ), 2 (+1) Число независимых элементов эрмитовой матрицы равно.

Глава 4. Проблема моментов и теорема Бернштейна то есть числа точек спектра на отрезке [, ), деленное на. Эта вероятностная мера может быть записана в виде [, ) = Tr 2 1 ( ) = (, ) 1 1 ( ()).

[, ) [, ) 2 2 Нетрудно видеть, что E = 0 при нечетных. Как будет показано ниже, мера [, )может быть определена с помо щью набора моментов = E () = Tr E, где математическое ожидание вычисляется по множеству случай ных эрмитовых матриц.

Теорема 4.4. При математическое ожидание доли собственных значений случайной матрицы { }, лежащих на отрезках [1/2, 1/2 ), сходится к распределению Вигнера на отрезке [, ) [2, 2]:

1 E lim [, ) = 4 2 2.

2 2 [,)[2,2] Доказательство. Рассмотрим в общих чертах схему доказатель ства этого нетривиального утверждения (см. [8], гл. 3, §3.1), выделяя принципиальную связь с теоремой Бернштейна.

Wigner distribution 0. 0. 0. 0. 0. 0. 0. 2 1 0 1 Рис. 4.2. Гистограмма объединения спектров 256 эрмитовых матриц размера (128 128) с независимыми коэффициентами из (0, 1) 4.4. Теорема Бернштейна и распределение Вигнера Громоздкая часть доказательства, которую мы опустим, со стоит в доказательстве того, что при главная часть def = () = Tr E удовлетворяет рекуррентным соот ношениям (4.14) +1 = 2, 0 = Tr = 1.

= Аналогичному рекуррентному соотношению удовлетворяют чис ла Каталана (E. Catalan numbers):

+1 =, 0 = 1, =, + = так что четные моменты матриц (4.14) связаны с числами Ка талана соотношением = 2. Следовательно, можно вы числить моменты спектральной плотности случайных матриц:

2 = Tr E = (4.15), 2+1 = 0.

+ Для завершения доказательства убедимся, что распределение 1 4 2, [2, 2] () = 2 имеет набор моментов (4.15). Эту несложную задачу мы остав ляем читателю для аналитической или численной проверки.

Глава 5. Обработка экспериментальных данных Глава 5. Статистическая обработка экспериментальных данных Обработка экспериментальных данных и задачи математической стати стики. Выборочное среднее и выборочная дисперсия. Несмещенные и состоятельные оценки параметров. Критерий Стьюдента. Оценка дове рительного интервала. Применение распределения Стьюдента для про верки гипотезы о равенстве средних значений. Сравнение выборочных дисперсий с помощью распределения Фишера. Переход к пределу бес конечного числа степеней свободы.

5.1. Задачи математической статистики В рамках теории вероятностей предполагается, что вероятност ные распределения случайных величин известны либо могут быть определены с любой степенью точности с помощью ана лиза неограниченных массивов выборочных значений. Колмо горовская аксиоматика выражает эту точку зрения наиболее радикальным образом – она предполагает, что задано вероят ностное пространство (,, ). В предшествовавшей ей теории фон Мизеса предполагалось существование предельных частот появления тех или иных исходов, интерпретируемых как ве роятности этих исходов. В более ранний период Лаплас ха рактеризовал теорию вероятностей как науку об исчислении вероятностей событий, состоящих из подмножеств множества равновероятно распределенных элементарных исходов.

В отличие от теории вероятностей, задачи статистики состо ят в получении количественной (средние значения, дисперсии, законы распределения и их параметры) и качественной (неза висимость, наличие причинно-следственных связей) информа ции о случайных величинах по выборкам конечного размера.

Поскольку такие оценки и выводы не могут быть достоверны ми, к числу задач статистики также относится вероятностная оценка надежности полученных результатов1.

Альберту Эйнштейну принадлежит следующее высказывание, адресо ванное теоретикам и экспериментаторам и имеющее прямое отношение к является безжалост результатам статистического анализа: "Эксперимент ным судьей работы теоретиков. Этот судья никогда не говорит о теории ДА, в лучшем случае он говорит МОЖЕТ БЫТЬ."

5.1. Задачи математической статистики Результаты такого рода представляют значительный инте рес в экспериментальных науках, поскольку методы матема тической статистики позволяют оценить достоверность гипо тез о соответствии экспериментальных данных теоретическим моделям. Как мы увидим в дальнейшем, существенной осо бенностью статистических оценок является наличие обратной зависимости между их точностью и надежностью: с увеличе нием надежности точность снижается. Выбор соотношения между точностью и надежностью выходит за рамки математи ческой статистики. Если модель выбрана адекватным образом, то возможным решением задачи достижения заданной точно сти при сохранении достаточного уровня надежности является увеличение числа наблюдений. В случае, если модель выбра на неверно и оценки точности или надежности не улучшаются, аппарат математической статистики позволяет сделать вывод о несостоятельности модели.

Рассмотрим пример, иллюстрирующий возможности стати стического анализа и проблемы, связанные с разнообразием возможных подходов. Известно, что число распадов единицы массы радиоактивного материала за время является случай ной величиной, имеющей пуассоновское распределение:

() () E = () =, =.

! !

Постоянная является физической характеристикой процесса распада — за время происходит в среднем E = распадов, дисперсия этой случайной величины также равна. Предпо ложим, что с целью идентификации вещества требуется опре делить. Для этого единичная масса материала помещается в счетчик альфа-частиц и вычисляется выборочное среднее чис ла распадов по выборке из измерений за время. Используя центральную предельную теорему, имеем = (0, 1) / Глава 5. Обработка экспериментальных данных при. Это позволяет оценить и погрешность :

1 def (5.1) = =,.

= Оценка неслучайного параметра называется несмещенной, если ее математическое ожидание совпадает со значением па раметра. Поскольку E =, то E = и E = 0;

таким образом, (5.1) – несмещенная оценка.

Рассмотрим еще одну оценку параметра, используя сред нее значение и дисперсию случайной величины ( + 1)1 :

1 () def 1 ( 1, E( + 1) ) = = 1 () = + 1 ! = def =E( + 1)2 1 () = 2 () 1 (), 2 def 2 () =.

0 Нетрудно видеть, что при, в силу закона больших чисел или ЦПТ, выборочные средние сходятся к математиче скому ожиданию:

1 def ( + 1) (), = + = где () = 1 : R+ (0, 1] – убывающая выпуклая вниз функция, имеющая обратную функцию : (()) =, так что в силу ЦПТ утверждение о сходимости можно уточнить:

( ) 1 1 def = (0, 1).

2 + = Таким образом, в линейном приближении по малой случайной 5.1. Задачи математической статистики def величине = имеет место альтернативная оценка :

( ) (() ) def 1 1 = = + 1 (5.2) = (()) = = (()) + ( ),.

() 1. 0.3 ’ g(x) 0.4 1. 0.5 1. 0.6 0. x ’ x2 g(1/x) (1/x) 0.7 0. 0.8 0.4 2(x) /x 0.9 0. 1.0 0. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1. Рис. 5.1. Асимптотические разложения показывают, что () = 2 + () при 0 и () = 2 + ( 3 ) при 1, а дисперсия 1 1 () = 4 + () при 0 и () = 3 + ( 4 ) при 1, = 1 2 Учитывая, что члены разложения в ряд Тейлора имеют раз личный порядок по 1/2 и E 0, мы заключаем, что оцен ка (5.2) не является несмещенной, но, как будет показано ниже, при по вероятности, то есть (| | ) 0.

Такие оценки называются состоятельными. Следующая лем ма дает конструктивный критерий состоятельности.

Лемма 5.1. Если неслучайные величины – смещение = = E и дисперсия = E( E )2 – сходятся к нулю при, то (| | ) 0), то есть оценка состоятельна.

Доказательство. Из неравенства Чебышева следует, что (| | ) 2 E( )2 (5.3) Глава 5. Обработка экспериментальных данных для любого 0. Покажем, что из условия леммы следует, что E( )2 0 при. Действительно, E( )2 E(( E ) + )2 = + 2 при. Следовательно, отношение (5.3) не превосходит + и стремится к нулю при любом фиксированном.

Далее в этой главе рассматриваются наиболее употребитель ные конструкции несмещенных оценок среднего значения и дис персии нормально распределенных случайных величин.

5.2. Распределение Стьюдента Пусть – действительная случайная величина и { } – серия из ее независимых выборочных значений. Если ее среднее E и дисперсия 2 = E( E)2 неизвестны, то естественно использовать их несмещенные оценки и :

1 ( )2, =, = являющиеся случайными величинами2. С помощью рассмат риваемого ниже -распределения (распределения Стьюдента) проверяется гипотеза о том, что среднее значение нормально распределенной случайной величины равно.

С этой целью рассматривается случайная величина def (5.4) = =, где = ( )/, а =. Пусть { } случайных величин зависимы, поскольку они удовле ) = 0.

( творяют условию 5.2. Распределение Стьюдента, 12,... 11 21, 22,....

............

1, 2,... Если { } – независимые нормально распределенные слу чайные величины из (0, 1), то характеристическая функция выборочной оценки дисперсии (, ( )) и нормиро ванного выборочного среднего ( ) = (, ) равна (см. (3.6)):

(, ) = E ( ) + = 1 ||2 +(,( ))+(,) = = R (2) 1 1 ||2 (12) 1 | |2 + = 2 1 = R (2) R 1 (2) = (1 2).

2 Отсюда следуют независимость выборочного среднего и дис персии и вид их распределений:

( ) ( ) (0, 1),,2.

Аналогичное утверждение было доказано ранее (см. таблицу 5.2 и следствие 3.1). Сумма ( )2 имеет распределе ние 2 с 1 степенью свободы.

Итак, ( 1) в (5.4) ведет себя как случайная величина 2 с 1 степенями свободы:

1 ( )2 1 = 1, = = 1 1 =1 = Глава 5. Обработка экспериментальных данных где =1 = 0, (0, 1). Поэтому случайная величина = 1 = ( 1) имеет распределение, равное произведению распределения нор мального по = и гамма-распределения по = ( 1):

/2 2 / def (, ) =.

2 2 2( 1)/ ( 1 ) Поэтому плотность распределения случайной величины может быть вычислена по формуле, накладывающей необхо димую нам связь между, и с помощью дельта-функции:

( / ) (, ) = ( ) = R R+ 2 (1+ ) / 1/2 (, ) = ( 1 ) = = R+ R+ (5.5) / ( 1 ) = = 2 )/ (1 + R+ ( ) (2 1 ).

= (1 + 2 )/2 Рассмотрим распределение случайной величины 1 : 1 = 1. Для нее из (5.5) следует, что ( ) ( ) = = 1 ( ) = ( ( 1 ).

( 1) )/ 1+ Таким образом, доказано следующее утверждение.

5.3. Интервальные оценки Теорема 5.1. Пусть – независимые нормально распреде ленные случайные величины с неизвестными средним и дис персией. Если среднее значение равно, то случайная величи на 1 = ( ) имеет распределение Стьюдента с плотностью ( ) ( 1 ). (5.6) 1 () = (, = ( 1) 2 )/ 1 + Упражнение 5.1. Нетрудно убедиться, что ( ) () = 1 (1 ).

R Как выглядит такая формула в R, если () = в =1 ( ) многомерном случае = {1,..., }?

Упражнение 5.2. С помощью формулы Стирлинга вычис лить предел lim () для распределения Стьюдента (5.6).

Пример 5.1. Может ли массив данных = {160, 162, 167, 170, 173, 176, 178, 175, 181, 189} состоять из выборочных значений нормально распределенной случайной величины со средним = 174?

Для ответа на этот вопрос вычисляем выборочное среднее = 173.1 и дисперсию = 76.99. Поэтому 1 = ( ) =.

2. Для распределения Стьюдента с 9-ю степенями свободы нахо дим, что отклонение больше, чем на = 0.703 в любую сторону, имеет вероятность меньше 0.5. Поэтому максимальное откло нение от выборочного среднего с вероятностью 0.5 не должно превышать = 1.95. Отклонению | | = 0.9 соответ ствует = 0.9/2.77 = 0.32. Вероятность того, что отклонение могло иметь большее значение, равна 0.756.

Глава 5. Обработка экспериментальных данных 5.3. Интервальные оценки Распределения 2 и Стьюдента удобны для оценок дисперсии при неизвестном среднем и среднего значения при неизвест ной дисперсии для независимых случайных величин, имеющих нормальное распределение.

Теорема 5.2. Пусть и – выборочные оценки сред него и дисперсии нормально распределенной случайной вели чины (, ) с неизвестными и 2. Тогда для любых 0 1 2, 1 } { 1 + + = 1 (), (5.7) } 1 2 { ( 1) ( 1) = 2 1 (), 2 1 где 2 (), 1 () – распределения 2 и Стьюдента с степенями свободы соответственно.

Доказательство. По определению и, имеем ( )2, ( 1) = = где, как было показано выше, силу линейной зависимости в ( ) = 0, сумма =1 ( ) имеет такое = же распределение, как сумма квадратов 1 независимых нормальных случайных величин 1 2, (0, 1). По = этому сумма 1 = ( 1) = 5.4. Статистическая значимость ошибок имеет распределение 2 1. Следовательно, согласно опреде лению 2 1, выполнено равенство 2 { } 2 () = 1 ( 1) 2 2 = 2 2 } { = ( 1) ( 1).

2 Первая часть теоремы доказана.

Как показывает теорема 5.1, плотность распределения Стьюдента симметрична. Поэтому из определения 1 сле дует второе утверждение теоремы:

1 () = 1 () = ( ) 1 = + +.

Оценки, полученные в теореме 5.2, называются интерваль ными (interval estimates), множества значений неизвестных па раметров, определенные неравенствами (5.7), – доверительны ми интервалами (confidence intervals или CI ), а соответствую щие значения вероятности – доверительными вероятностями:

чем выше доверительная вероятность, тем бльшим должен о выбираться доверительный интервал.

5.4. Статистическая значимость и ошибки первого и второго рода Статистическая значимость, или -уровень результата, ха рактеризует возможность объяснения различий между эмпи рическими наблюдениями и ожидаемым результатом исклю чительно за счет действия случайных (статистических) фак торов. Слишком большие различия (вероятность случайного появления которых мала, скажем, меньше 0.05) рассматрива ются как статистически значимые.

Глава 5. Обработка экспериментальных данных В примере 5.1 выборочное и гипотетическое среднее равны 173.1 и 174, причем за счет предполагаемых независимости и нормальности ошибок измерения эта разность могла бы иметь меньшие значения с вероятностью 1 0.756 = 0.244 и бльшие о значения с вероятностью 0.756.

В качестве упражнения читатель может проверить, что если бы абсолютная величина разности превышала 6.266 либо бы ла бы меньше, чем 0.179, то вероятность таких событий была бы меньше 0.05. Большие значения разности можно объяснить несовпадением ожидаемого и эмпирического средних, а слиш ком малые – неслучайностью данных или нарушением гипоте зы о независимости и нормальности. Таким образом, разброс оценок в интервале (174 6.266, 174 + 6.266) можно считать статистически незначимым на 0.05-уровне, а больший разброс – статистически значимым для принятия гипотезы о среднем.

Разброс в интервале (174 0.179, 174 + 0.179) статистически значим на 0.05-уровне для принятия гипотезы о независимо сти и нормальности. Больший разброс позволяет принять эту гипотезу. Во многих случаях -уровень 0.05 рассматривается как приемлемая граница уровня ошибки.

Предположим, что требуется оценить достоверность некото рой гипотезы 0 в зависимости от выборочных значений слу чайного параметра, распределение которого зависит от того, верна или не верна гипотеза 0. Если распределение параметра не зависит от истинности гипотезы 0, то такой параметр невозможно использовать для верификации гипотез.

Пусть 0 и 1 0 – две несовместные гипотезы и пусть 0 () = (|0 ) и 1 () = (|1 0 ) – соответ ствующие распределения. Не уменьшая общности, будем счи тать, что решающее правило состоит в том, что выбирается некоторое множество, такое, что гипотеза 0 принимается, если, и отклоняется в противном случае. Тогда вероят ность отвергнуть гипотезу 0 при условии, что она верна, рав на 0 ( ) – это ошибка первого рода, а вероятность принять 5.5. Гипотеза о средних значениях ее при условии, что она не верна, равна 1 () – это ошибка второго рода. Очевидно, что, уменьшая вероятность одной из этих ошибок, мы увеличиваем вероятность другой.

Вопрос о балансе между этими ошибками в общем случае выходит за рамки теории вероятностей.

5.5. Гипотеза о средних значениях Рассмотрим критерий, используемый для проверки гипотезы о равенстве средних значений выборок нормально распреде ленных случайных величин с одинаковыми, но неизвестными дисперсиями. Для этой цели используются две случайные ве личины: и + { } 1 2 2 ( ) + ( ) = + = + =+ = 1 2 (5.8) (( 1) + ( 1), = + где (, ) и (, ) – выборочные оценки среднего и 2 дисперсии, построенные по двум независимым непересекаю щимся частям выборки { }+. = Нетрудно видеть, что (5.8) – несмещенная выборочная оцен ка дисперсии:

def 2 2 E+ = (( 1)E + ( 1)E ) = + (( 1) 2 + ( 1) 2 ) = 2, = + поскольку несмещенность оценок и была установлена 2 ранее. Кроме того, очевидным следствием независимости слу чайных величин, принадлежащих двум различным компонен там выборки, является независимость от пары (, ) и от пары (, ). Независимость от и 2 Глава 5. Обработка экспериментальных данных от для нормальных случайных величин была также доказа на выше. Итак, числитель и знаменатель случайной величины (5.9) (, ) = ( 1 ) + + независимы, причем (числитель имеет нормальное распределе ние с дисперсией 2 +, равной сумме дисперсий выбо 1 ) рочных средних, а + распределена как + 2 + 2.

Рассмотрим случайную величину (, ) 1 def = = = ( ) + 2 2 1+ + ( + 2) с числителем (0, 1) и знаменателем, где = + 2.

Теперь, используя известные формулы для плотностей нор мального и гамма-распределений, плотность распределения слу чайной величины = R можно вычислить по формуле + 1 / ) ( ) = + + ( 0 ( ) = 2 R 1 + 1 2 1 /2(1+ ) + 1 ( + 2 ) = = 0 22 ( 1 ) =(1 + 2 ) 2 (2 2 ), где = + – объем выборки, а () – дельта-функция Дирака. Поэтому плотность распределения случайной величи ны = (, ) : = 2, = 2, характеризующей разность выборочных оценок среднего, нормированную на вы 5.6. Гипотеза о дисперсиях борочную дисперсию (распределение Стьюдента), равна ) ( 1 ) ( 2 () = 1 + ( 2 ) = 2 ) 2 ( 1 ) ( = 1+, ( ) 2 2 где = +. Число 2 равно числу степеней свободы этого распределения. Итак, доказано следующее утверждение.

Теорема 5.3. Разность, выборочных оценок неизвест ного среднего нормально распределенной случайной величины, (5.9) по двум компонентам выборки размера и, нор мированная на выборочную оценку дисперсии, имеет распреде ление Стьюдента с + 2 степенями свободы. Вероят ность того, что разность выборочных средних принадлежит множеству R при условии, что верна гипотеза о равен стве средних значений случайных величин, равна, (, ) =, ().

5.6. Гипотеза о дисперсиях Рассмотрим оценку правдоподобия гипотезы о равенстве дис персий двух нормальных величин с неизвестным средним.

Теорема 5.4. Пусть и – независимые выборочные 2 оценки дисперсии нормально распределенной случайной вели чины с и степенями свободы3. Отношение, = имеет распределение Фишера:

, 2 (5.10), () =, + ( + ) Обращаем внимание читателя на то, что в стандартной ситуации число степеней свободы на единицу меньше объема выборки, то есть = ( + 1) + ( + 1). В этом состоит отличие от обозначений, ис + =.

пользованных в предыдущих теоремах, где Глава 5. Обработка экспериментальных данных ( ) + где, = ( ) 2( ) – нормировочная постоянная.

2 2 Вероятность события, при условии, что верна гипотеза о равенстве дисперсий, равна, (, ) =, (), (R+ ).

Доказательство. Воспользуемся соотношением между выбороч ной оценкой дисперсии и распределением 2 :


= 2 2 /, = 2 2 /, где 2 – неизвестная дисперсия, предполагаемая одинаковой для обеих выборок.

Отношение выборочных дисперсий выражается через отно шение независимых случайных величин с распределениями 2 :

2 (5.11) =, = 2 =, а плотность вероятности этой величины можно выразить через произведение гамма-функций и дельта-функции Дирака:

1 2 1 ( ) 2 ( ), ( ) = = 2 2 2 2 ( ) R2 2 + ) 1 2 2 1 ( = ( ) ( ) = + 2 2 R+ 2 ( ) 2 ( ) + 2 1 2 1+ = = + 2 2 R+ ( ) ( ) 2 ( ) ( + ) 1 2 2 2 = ( =, +, ) + ( ) ( ) ( + ) 1 + где, – нормировочная постоянная (5.10). Такой же прием был использован в предыдущем разделе для вычисления функ ции распределения отношения нормальной случайной величи ны и случайной величины, имеющей гамма-распределение.

5.7. Гипотеза об однородности 5.7. Гипотеза об однородности В этом разделе мы рассмотрим задачу о критерии однород ности выборок, то есть о принадлежности отдельных выборок общей однородной выборке, называемой генеральной совокуп ностью, разбиваемой на группы по нескольким критериям или признакам.

Предположим, что полная выборка состоит из групп, име ющих конечные размеры : =, и пусть выбо = рочных групп описываются нормально распределенными неза висимыми случайными числами с неизвестными и, быть может, неоднородними значениями среднего и дисперсии:

11, 12,... 21, 22,....

............

1, 2,...

Обозначим через = { } R, и пусть = = – среднее по группам, = =1 =1 – глобальное среднее.

Нетрудно видеть, что вектор = {,..., } R явля ется проекцией вектора = {1,1,..., 1,1,...,,1,...,, } R на направление =..., 1} R, а векторы {1, 1 = {0,..., 0,...,,...,,..., 0,..., 0} являются проекциями вектора на направления 1 = {0,..., 0,..., 1,..., 1,..., 0,..., 0}.

Глава 5. Обработка экспериментальных данных Кроме того, вектор линейно зависит от {E }: =.

Пусть выборка { } однородна, то есть = +, при чем ошибки (0, ) независимы. Тогда E = R.

Вычислим три случайные величины – глобальное квадра тичное отклонение, сумму 1 квадратов групповых отклоне ний от глобального среднего и сумму 2 квадратов групповых отклонений:

( )2, ( )2, = 1 = =1 =1 = ( )2.

2 = =1 = Лемма 5.2. Случайные величины 1 и 2 независимы, име ют 1 и степеней свободы соответственно и, кроме того, = 1 + 2. Средние значения случайных величин и 2 равны 1 = ( 1) 2 и 2 = ( ) 2 для выборок из 2 однородной генеральной совокупности.

Доказательство. Докажем равенство = 1 + 2. Для этого просуммируем тождества ( )2 = ( + )2 = = ( )2 + ( )2 + 2( )( ) по и :

2 ( ) ( ) = ( ) + =1 =1 =1 =1 = ( ) ( ) = 1 + 2, + = = где =1 ( ) = 0 по определению внутригруппового среднего. Этот факт является следствием того, что – гипотенуза, а 1,2 – катеты прямоугольного треугольника.

5.7. Гипотеза об однородности x Q Q Range A = RK e x x Q Рис. 5.2. Вектор и его проекции и Заметим, что из случайных величин линейно неза висимы только 1, так как в силу введенного выше опреде ления глобального среднего они удовлетворяют линейному условию ( ) = 0.

С другой стороны, в силу определения внутригруппового среднего из случайных величин линейно независи мы только, поскольку они удовлетворяют линейным условиям ( ) = 0.

= Независимость 1 = (, ) и 2 = (, ), являющих ся квадратичными формами случайных векторов, является следствием ортогональности множества значений эрмитовых ( )-матриц и, имеющих ранги 1 и соот ветственно, и доказывается с помощью вычисления характери стической функции.

Глава 5. Обработка экспериментальных данных Ортогональность неотрицательно определенных матриц и состоит в том, что = = 0. Доказательство этого факта, целиком относящегося к линейной алгебре, следует из явного вида матриц и, соответствующих квадратичным формам 1 и 2 :

1 0... def 0 2... =, =, =,............

0 0...,, = = где – алгебра ( )-матриц, – единичная ( ) матрица, а R и R – векторы, все компоненты которых равны единице, так что – проектор на вектор :

= =. Ортогональность и следует из тождеств 2 =, = =. Действительно, = ( )( ) = 2 + = = + = 0.

Более того, матрицы и сами являются проекторами:

2 = 2 + 2 = =, 2 = + 2 2 = =, и поэтому их спектр состоит из нулей и единиц.

Из равенства = = 0 следует коммутативность ор тогональных проекторов и : [, ] = = 0. В си лу известной теоремы о спектральном разложении эрмитовых операторов и имеют общую ортонормированную систему 5.7. Гипотеза об однородности собственных векторов { }, причем = | |, | |, = = | | = 0, = где, {0, 1}, то есть в совместном базисе коммутирующих проекторов операторов и их матрицы диагональны, за полнены нулями и единицами и для любого выполнено ра венство = 0. Это значит, что существует ортогональное преобразование перехода от исходного базиса к совместному, такое, что матрицы = *, = * имеют блочно диагональный вид, ненулевые блоки которых 1 и имеют размер, равный их рангу и расположены на непересека ющихся подмножествах диагонали:

00 00 1 = 0 0 0, = 0 0 0, 0 00 0 1 0 + =.

0 0 0 1 Спектр этой матрицы имеет вид {,...,, 0,,..., }. Поэто му после преобразования координат = квадратичная форма (, ) + (, ) не зависит от переменной и инте грал по этой переменной равен единице: характеристическая функция суммы распадается на произведение характеристиче Глава 5. Обработка экспериментальных данных ских функций гамма-распределения:

1 1 22 || || E 1 +2 = (2 2 ) R 12 ||2 || (2 2 ) 2 2 = R = 1 () () = (1 2 2 ) (1 2 2 ).

2 В силу леммы 3.3 случайные величины 1 / 2 и 2 / 2 неза висимы и имеют распределения 2 с 1 и степенями свободы соответственно. Средние значения случайных вели чин 1 и 2 берутся из таблицы 5.2. Лемма доказана.

Из нее, как следствие, мы получаем следующее утверждение.

Теорема 5.5. Пусть 1 = 2 = 2. Для выборок из ге 1, неральной совокупности, удовлетворяющих условию однород ности E( ) = 0, случайная величина = 1 /2 имеет распределение Фишера с ( 1, ) степенями свободы:

(5.12) ( ) = 1, ( ).

Доказательство. Действительно, поскольку случайные величи ны 1 / 2 и 2 / 2 независимы и имеют распределения 1 и, то в силу определения 5.11 (см. теорему 5.4) отношение = 1 /2 имеет распределения Фишера (5.12).

Важно иметь в виду, что если условие однородности не вы полнено, то есть = +, =, то с уменьшением дисперсии ошибок знаменатель дроби = 1 /2 уменьша ется, тогда как числитель имеет конечный предел:

1 = |( )|2 = | |2 +||2, 2 = |( )|2 = ||2.

Поэтому большие значения этого критерия указывают на высо кую вероятность неоднородности, и, наоборот, малые или уме ренные значения дроби = 1 /2 указывают на высокую веро ятность однородности выборки.

5.7. Гипотеза об однородности Ниже мы рассмотрим примеры решения задачи о проверке однородности описанным выше методом с помощью програм мы для анализа дисперсий (Analisys of Variance = ANOVA) в системе Mathematica. В качестве аббревиатур названий квад ратичных отклонений, 1 и 2 используются SST, SSA и SSE соответственно (SS = Sum of Squares: Total, Average, Error).

Пример 5.2. Рассмотрим с помощью критерия Фишера сле дующий пример. Результаты измерений прозрачности воды на различных глубинах в (a) Саргассовом и (b) Карибском морях, а также (c) в районе Галапагосских островов, (d) острова Тон га и (e) в Индийском океане (см. [9], с. 1171) представлены в таблице 5.1 и на графике 5.2. Насколько убедительна гипотеза об однородности распределения?

Т а б л и ц a 5. (m) 390 0.041 0.05 0.067 0.058 0. 410 0.034 0.06 0.062 0.037 0. 430 0.025 0.034 0.044 0.023 0. 450 0.016 0.023 0.034 0.012 0. 470 0.014 0.016 0.025 0.009 0. 490 0.018 0.014 0.014 0.009 0. 510 0.023 0.014 0.014 0.016 0. 530 0.039 0.023 0.028 0.025 0. 550 0.05 0.032 0.032 0.032 0. 570 0.067 0.055 0.058 0.055 0. Предполагая независимость и нормальность флуктуаций ре зультатов измерений около средних значений, можно ответить на вопрос о том, является ли наблюдаемое распределение од Глава 5. Обработка экспериментальных данных 1. 0. 0. 0. 0.05 0. 0. 0. 0. 0. 0. 0. 0. 400 450 500 550 0 1 2 3 4 Рис. 5.3. Зависимость прозрачности воды от глубины в пяти удален ных друг от друга точках мирового океана указывает на интересный факт: наиболее прозрачный слой воды находится на глубине около 500 метров. На втором графике показаны плотность распределе ния и функция распределения Фишера с (4, 45) степенями свободы.

Найденное нами значение критерия Фишера 4, 45 = 0.4348 мало от личается от наиболее вероятного нородным. В этом случае = 5, = 10, = 50, 1 0.00053, 2 0.0138, а вероятность значений критерия Фишера меньших, чем 1, = 2 · 1 0.434, равна 0. 4,45 () 0.217.

(4,45 0.434) = Такое значение критерия является достаточным основанием для принятия гипотезы об однородности. В качестве аббре виатур, 1 и 2 в системе Mathematica используются SST, SSA и SSE (SS = Sum of Squares: Total, Average, Error).

Упражнение 5.3. Показать, что среднее и дисперсия распре делений хи-квадрат, Стьюдента и Фишера (2,,, ) при нимают следующие значения:

6.1. Теорема Пирсона Т а б л и ц a 5. E E( E) Распределение 2 0, 2 0 22 (+2), 4 (2)2 (4) Глава 6. Критерий Пирсона Теорема Пирсона. Применение критерия 2 для проверки гипотезы о независимости и однородности. Примеры: контроль качества датчиков псевдослучайных чисел и проверка независимости признаков.

6.1. Теорема Пирсона В предыдущей главе были рассмотрены статистические кри терии проверки гипотез для выборок произвольного объема, основанные на предположении о нормальном распределении ошибок. Метод Пирсона позволяет отказаться от гипотезы о виде распределения, но вместо этого необходимо предполо жить, что объем выборки достаточно велик. При этом появля ется возможность воспользоваться асимптотической нормаль ностью вводимых ниже случайных величин.

Рассмотрим случайную величину, значения которой могут принадлежать непересекающимся множествам { } с веро = ятностями { }, = 1. Предположим, что исход после = дующего наблюдения не зависит от предыдущих результатов.


Вероятность того, что в серии из испытаний произойдет событий, описывается биномиальным распределением:

() = (1 ) со средним = и дисперсией = (1 ), а выбо Глава 6. Критерий Пирсона рочная оценка вероятности этого события равна def () =.

Если верна гипотеза о том, что числа действительно яв ляются вероятностями событий, то E() = E =, а случайные величины (6.1) () = (1 ) имеют нулевое среднее и единичную дисперсию и в силу тео ремы Муавра–Лапласа или ЦПТ вероятность ( () ), R, при достаточно большом числе наблюдений близка к оценке, полученной по стандартному нормальному закону:

1 /2.

( () ) () = Приближенное равенство в правой части формулы (6.1) имеет место при малых. Это простое наблюдение уточняется ря дом строгих результатов, среди которых в первую очередь мы рассмотрим теорему Пирсона.

Пусть R – векторнозначная случайная величина. Если и – векторы одинаковой размерности, то через обо значается квадратная матрица ранга 1 с компонентами, называемая тензорным или внешним произведением. Нетруд но видеть, что (, ) = (, ) (, ), причем в вещественном случае скалярное произведение сим метрично: (, ) = (, ).

Напомним, что ковариационной матрицей векторнозначной случайной величины : R называется матрица = E( E) ( E) : R R 6.1. Теорема Пирсона с компонентами, = E ( E )( E ). Нетрудно видеть, что для любых векторов R имеет место неравенство (, ) = E (( E ), ) 0, = показывающее, что ковариационная матрица неотрицательно определена. В случае, если min: ||||=1 (, ) 0, ковариаци онная матрица называется невырожденной.

Упражнение 6.1. Пусть 0 и – гауссова случайная величина с нулевым средним и нормальным распределением 1 1 2 (, ). (6.2) ( ) = /2 det (2) Показать, что E(, )(, ) = (, E ) = (, ) для любых, R, то есть в (6.2) – ковариационная матрица.

Для случайных величин с невырожденными ковариацион ными матрицами имеет место многомерный аналог ЦПТ, кото рый мы приводим без доказательства.

Теорема 6.1. Пусть – векторнозначная случайная вели чина с невырожденной ковариационной матрицей и – выборочное среднее. Тогда для любого измеримого множества R существует предел ( 1 1 2 (, ).

) lim ( E ) = /2 det (2) Эта версия ЦПТ играет важную роль в рассматриваемом ниже доказательстве теоремы Пирсона.

Теорема 6.2. Пусть множество значений случайной величины разбито на непересекающихся подмножеств =, = ( ) – вероятность события, = Глава 6. Критерий Пирсона = =1 ( ) – функция выборочных значений случайной величины в серии из испытаний.

Тогда при распределение вероятностей суммы ( ) (6.3) () = = сходится к распределению 1 c 1 степенями свободы :

/21 /2.

{ () } 1 (), () = 2/2 (/2) (6.4) Доказательство. В случае = 2 это утверждение легко прове рить. Действительно, если 1 + 2 = 1 и 1 + 2 =, то (1 1 )2 (2 2 )2 (1 1 )2, = 1 (1 1 ).

(2) = + = (1 1 ) Согласно доказанной ранее теореме 2.4 Муавра–Лапласа для = ( ), = ( ), = при = 2, =1 = имеет место сходимость по распределению 1 (0, 1), 2 = 1 1.

= ( ) Следовательно, (2) = 2 2 1, 2 (см. пример 1.4).

Докажем теорему Пирсона в общем случае. Рассмотрим случайный вектор () { } R.

= () = = def Положим = { 1,..., }, || ||2 = 1 и заметим, что () (6.5) (, ()) = = = 0, =1 = 2 (/2, 2).

Распределение совпадает с гамма-распределением 6.1. Теорема Пирсона так как =1 () = () = = 1. Поэтому векторы = () ортогональны единичному вектору при любом значении и, с другой стороны, E () = 0, ибо E () =.

Множества, не пересекаются, поэтому точка может принадлежать и одновременно только в случае =.

Отсюда следует, что ковариационная матрица случайного век тора = () равна = E () () =, так как E () = и E () () =.

Нетрудно видеть, что такая матрица является проектором на линейное подпространство векторов, ортогональных. Дей ствительно, 2 =, = 0 и =, если (, ) = 0. Поэто му ее ранг равен 1, а определитель равен нулю.

Преобразуем вектор () с помощью ортогонального преоб разования так, чтобы последняя (-я) компонента образа () = () обращалась в нуль. В силу (6.5) для этой це ли можно взять любую ортогональную матрицу, последняя строка которой равна R. В самом деле, в силу ортонор мированности строк = (0, 0,..., 1) и (, ) = для любого = {1,..., } R.

Оказывается, что независимо от выбора ортогональной мат рицы с указанным свойством, ковариационная матрица случайной величины = имеет вид блочной матрицы:

1 =, 0 где 1 – единичная ( 1)( 1) матрица. Действительно, (, E ) = E (, ) (, ) = E (, ) (, ) = = E (, ) (, ) = E (, ) = = (, E ) = (, ( ) ) = = (, ) (, )(, ) = (, ) = (, ), Глава 6. Критерий Пирсона то есть ковариационная матрица первых 1 компонент век тора = равна единичной матрице.

Поскольку векторы () и () = () отличаются ор тогональным преобразованием, то для любого шара R радиуса { : () } = { : () }.

Для независимых выборочных значений = {1,..., } компоненты векторов = {(1 ),..., ( )}, = {(1 ),..., ( )} независимы и поэтому имеет место аналогичное равенство:

{ } { } 1 ( ) = ( ) = {1 ) 1 ( } ( ).

= = = Поэтому в силу теоремы 6.1 для векторов = {1,..., 1 } с единичной ковариационной матрицей при имеет ме сто слабая сходимость, то есть для любой непрерывной финит ной функции (R1 ) существует предел:

|||| () (6.6) lim E ( ) =, (2)(1)/ R где = 1 ( ). Поскольку предельная вероят = ностная мера имеет равномерно ограниченную плотность, то предельный переход распространяется на ограниченные изме римые функции. В частности, ниже мы рассмотрим такой пре дел для семейства индикаторных функций () = [0,) (||||2 ).

Предварительно заметим, что силу ортогональности матрицы 6.2. Примеры и определения вектора, 1 2 1 = || ||R1 = ( ) ( ) = =1 =1 =1 = ( ) = || ||2 =, R = где в правой части та же случайная величина, что и в теореме Пирсона (см. формулу (6.3)).

Следовательно, переходя к сферическим координатам в (6.6) и заменяя произвольную функцию на индикаторную функ цию, получаем ( ( ) ( ) = lim E [0,) || ||2 = ) lim = 1 [0,) (2 )2 2 = = (2)(1)/2 1 2 2 ) = (1 ), = 1 ( 2 / где сделана замена переменной = 2, = – площадь ( ) единичной сферы в R, а случайная величина 2 имеет рас пределение с плотностью (6.4).

6.2. Примеры Пример 6.1. Рассмотрим применение критерия 2 для ана лиза качества псевдослучайных чисел, полученных с помощью стандартного датчика равномерного распределения в системе Mathematica. В качестве массива случайных точек использует ся = 32 000 псевдослучайных чисел { }32 000, [0, 1] =.

= Область значений разбивается на = 10, = 40, = непересекающихся отрезков, 1,..., сетками с шагом Глава 6. Критерий Пирсона = 0.1, 0.025, 0.01 соответственно и строятся гистограммы распределения случайных чисел по ячейкам сеток:

10 = {3208, 3228, 3158, 3151, 3199, 3175, 3175, 3233, 3165, 3308}, 40 = {786, 800, 803, 819, 844, 811, 824, 749, 757, 774, 845, 782, 801, 793, 798, 759, 735, 823, 858, 783, 764, 820, 810, 781, 794, 783, 791, 807, 813, 823, 813, 784, 795, 842, 746, 782, 851, 824, 799, 834}.

Таблицу выборочных значений 100 мы опускаем, ее гисто грамма изображена ниже рис. 6.1.

N 32000, h 0.1 N 32000, h 0.025 N 32000, h 0. 1 0.5 0.5 0. 0 0 0.5 1 0.5 1 0.5 Рис. 6.1. Гистограммы выборочного распределения 32 000 псевдо случайных точек, полученных с помощью датчика равномерного распределения. Шаг сетки гистограмм равен = 0.1, 0.025, 0.01 со ответственно. Очевидно, что с уменьшением шага сетки флуктуации выборочного распределения усиливаются Далее для = 0.1, = 0.025, = 0.01 вычисляются выбо рочные значения нормированной суммы квадратов отклонений от среднего:

( ) () =, = (10) = 6.32, (40) = 42.39, (100) = 110.69.

Оценим вероятность бльших отклонений от равномерного о распределения, то есть вероятность ( 1 ()) попасть в правый хвост распределения 2:

(2 6.3) 0.7, (2 42.4) 0.32, (2 110.7) 0.2, 9 39 6.3. Гипотеза о независимости выборок 0.5 0.5 0. 0.4 0.4 0. 0.3 0.3 0. 0.2 0.2 0. 0. 0.1 0. 0 60 80 100 120 0 5 10 15 20 10 20 30 40 50 60 Рис. 6.2. Графики изображают min{ (2 1 ), (1 )}, = 10, = 40, = 100. Положения медиан (8.343, 38.335, 98.334) соответствуют аргументам максимума “двустороннего” распределе ния 2, а положения выборочных значений критерия () изоб ражены вертикальными линиями. Слишком большие значения вы борочного критерия указывают на то, что гипотеза о распределении вероятностей не верна, а слишком маленькие – на то, что неверна ги потеза о независимости выборочных значений M6:eps/EPS6/chi2.nb то есть качество датчика для мелких разбиений не слишком высокое: в последнем случае вероятность получить бльшее о значение суммы квадратов отклонений оказывается меньше 0.2, такой результат может быть случайным в 1 случае из 5.

6.3. Гипотеза о независимости выборок Распределение 2 может быть использовано для проверки раз личных гипотез. Рассмотрим критерий статистической неза висимости. Пусть (, ) = {(1, 1 ),..., (, )} – таблица результатов наблюдений пар признаков. Например, ниже мы рассмотрим разность между экспериментальными и теоре тическими данными о зависимости скорости разбегания галак тик от расстояния до них, вычисленными по закону Хаббла о линейной зависимости скорости от расстояния2. Возникает вопрос: можно ли считать погрешность линейной модели неза висимой от теоретических значений скорости разбегания?

В более общей постановке задача выглядит следующим об разом. Выборка, состоящая из наблюдений, разбита дву мя способами, соответствующими классификации результатов http://antwrp.gsfc.nasa.gov/diamond_jubilee/d_1996/hub_1929.

html Глава 6. Критерий Пирсона 0. N 320000, h 0. 0. 0. 0. 0. 0. 0 0.5 1 60 80 100 120 Рис. 6.3. Увеличение числа наблюдений до = 320 000 улучшает согласие с гипотезой о равномерности: нормированная сумма квад ратов отклонений от среднего 99.842 мало отличается от положения медианы 98. наблюдений по двум признакам: – число наблюдений, по павших в -ю группу по первому признаку и в -ю группу по второму признаку:

= ( ) ( ), =, =, где 1, 1.

Будем называть числами заполнения областей, образующих непересекающееся разбиение множества всех ис ходов =, (см. таблицу 6.1). Суммы и не могут принимать произвольных значений, они удовлетворяют двум условиям:

= =.

Поэтому векторы с компонентами {1,...,, 1,..., } принадлежат некоторому ( + 2)-мерному подмножеству в R+, а числа заполнения, при фиксированных, + и, удовлетворяют 1 + ( 1) + ( 1) = + 6.3. Гипотеза о независимости выборок Т а б л и ц a 6....

1 11... 1...............

1... 1... независимым условиям:

(i) =, (ii) =, (iii) =, =, = где,. Следовательно, число линейно незави симых условий равно + 1, и точки с координатами {11,..., } в R лежат в линейном подпространстве раз + мерности ( + 1) = ( 1)( 1).

Если гипотеза о независимости = {, } = { } { } = def def верна и оценки = /, = / принимаются в качестве фиксированных значений соответствующих вероятно стей, то по аналогии с теоремой Пирсона можно доказать сле дующее утверждение, позволяющее сформулировать критерий независимости признаков.

Теорема 6.3. Если верна гипотеза о независимости и, причем = /, = /, то распределение сумм ( / ) (6.7),, = /, сходится при к распределению (1)( 1).

Глава 6. Критерий Пирсона Пример 6.2. При наличии нескольких признаков теорема 6. может быть использована для анализа зависимости любой па ры признаков. Рассмотрим вопрос о независимости признаков (погрешности и теоретического прогноза) для данных о зави симости скорости разбегания 34 галактик от расстояния, изоб раженных слева на рисунке 6.4. Справа на этом рисунке изоб ражена погрешность наилучшей линейной аппроксимации как функция скорости разбегания. Проверяемая гипотеза состоит в том, что две случайные величины – погрешность и теорети ческое значение скорости разбегания – независимы.

1000 500.‘ 0 1.‘*^6 2.‘*^6 0 160.7‘ 321.4‘ 482.1‘ 642.8‘ 803.6‘ 964.3‘ Рис. 6.4. Экспериментальные данные о зависимости скорости разбе гания галактик (км/с) от расстояния (парсек) и теоретическая пря мая, а также разброс ошибок для данной теоретической модели Для этой цели области изменения расстояний и скоростей разбиты на 7 частей (всего 49 областей), для которых вычис лены числа заполнения, приведенные в таблице 6.2. Строки этой таблицы, обозначенные буквам латинского алфавита, со ответствуют семи отрезкам вдоль оси, а столбцы, прону мерованные римскими цифрами, соответствуют семи отрезкам вдоль оси на правом рис. 6.4.

В рассматриваемом примере = 34, = = 7, число сте пеней свободы равно ( 1)( 1) = 36,,, = 42.16. В этом случае медиана распределения 2 имеет значение 35. и лежит левее точки,,. Учитывая, что,, 2 () 0.778, 2 (42.16) = 36 можно сделать вывод: вероятность получить меньшие значе 6.3. Гипотеза о независимости выборок Т а б л и ц a 6. I II III IV V VI VII 0 0 2 2 0 0 0 1 0 0 2 2 0 2 1 1 1 0 0 1 1 2 0 1 2 2 0 0 0 0 0 2 1 1 1 0 0 1 1 0 1 2 ния суммы (6.7) при условии, что гипотеза о независимости верна, не превосходит 0.78, что позволяет принять гипотезу о независимости, хотя этот результат означает, что в 4 случаях из 5 значение,, должно принимать меньшие значения.

Этот пример является иллюстрацией того факта, что от крытие новых законов природы в прошлом, настоящем и бу дущем достигается на пределе чувствительности эксперимен тального оборудования.

Глава 7. Линейный метод наименьших квадратов Глава 7. Линейный метод наименьших квадратов Линейный метод наименьших квадратов. Оценки доверительных интер валов для коэффициентов линейной регрессии с помощью распределений Стьюдента. Метод Форсайта для оценки порядка регрессии с помощью распределений Фишера. Коэффициент детерминации.

7.1. Геометрическое содержание метода наименьших квадратов Оценки параметров распределений и аналитическая аппрок симация зависимостей с помощью экспериментальных данных являются актуальными задачами в прикладных исследовани ях. В данной главе мы рассмотрим метод наименьших квадра тов, его геометрическую и вероятностную интерпретацию.

Естественной причиной использования вероятностных ме тодов является необходимость учета неточности измерений, а также влияния на результаты экспериментов неконтролируе мых факторов. Студентам будет интересно узнать, что алгеб раический аппарат метода наименьших квадратов в 1795 году создал Карл Гаусс в возрасте 18 лет. В 1801 г. его метод был успешно применен в астрономии для предсказания траекторий малых космических тел и с тех пор получил большую извест ность в связи с его простотой и эффективностью1.

Естественный класс задач, решаемых методом наименьших квадратов, связан с обработкой экспериментальных данных при наличии ошибок измерений. Предположим, что изучается за висимость параметра от параметра (тока от напряжения, теплоемкости от температуры, намагниченности от внешнего поля, спроса от цены и т.п.), причем погрешность измерений = (), вообще говоря, зависит от, а проверяемая гипотеза о виде этой зависимости линейным образом зависит от конечного Этот метод остается чрезвычайно популярным в гуманитарных нау ках и экономике. В физических исследованиях чаще применяется метод наибольшего правдоподобия, который мы подробно рассмотрим в после дующих главах.

7.1. Геометрическое содержание метода набора параметров { } математической модели и фиксиро = ванного набора базисных функций { ()}, выбор которого = выходит за рамки метода:

(7.1) 1.

( ) = +, = В этих соотношениях известны все величины, кроме парамет ров модели { }, которые нужно определить, и случайных = ошибок измерений { }. Здесь – число экспериментов, а = – число параметров модели. Задачи определения числа и коэффициентов называются задачами определения порядка и параметров линейной регрессии.

Число параметров желательно минимизировать за счет вы бора базиса, так что условие является стандартным предположением, и поэтому система 1 = ( ), = переопределена и точного решения не имеет.

Столь же естественно считать, что погрешности измерений не содержат систематических ошибок и независимы, то есть E = 0 и E = 0 при =, а также имеют конечную дисперсию = E. Эти предположения достаточны 2 для обоснования основной формулы метода наименьших квад ратов. Для оценки доверительных интервалов используется предположение о нормальности распределения ошибок.

Уравнение (7.1) относительно неизвестных 1,..., удоб но записать в виде = +, где 1 1 1 (1 ),..., (1 ) 2 2 1 (2 ),..., (2 ) =, =, =.

.........

1 ( ),..., ( ) Глава 7. Линейный метод наименьших квадратов Если ошибки измерения имеют различные дисперсии, на пример, E =, то нормировка дисперсии достигается с по 2 мощью линейного преобразования системы (7.1):

(7.2) /,,, /, /, так что в дальнейшем изложении будем считать, что E = 1.

Такое преобразование сохраняет свойство независимости ком понент случайных векторов.

Существуют естественные источники ошибок, дисперсии ко торых пропорциональны измеряемым величинам. Примера ми таких погрешностей являются ошибки наблюдения вели чин, имеющих пуассоновское распределение. В частности, рас пределение числа фотонов в когерентном лазерном излучении имеет дисперсию, равную числу фотонов (см. (1.23)). В этом случае решение задачи о построении линейной регрессии зна чительно усложняется.

Относительно матрицы обычно предполагается линейная независимость ее столбцов:

rank =.

,, Это условие выполнено, например, в случае, если () = 1 :

= ( ) = 1 +.

= При изменении вектора R вектор пробегает ли нейное подпространство, порождаемое линейными комбинаци ями векторов-столбцов матрицы, то есть множество значе ний матрицы является некоторым -мерным подпростран ством R R. Поскольку в общем случае вектор лежит в более широком пространстве R, разность не может иметь евклидову норму меньшую, чем норма разности между вектором и его проекцией в R.

Проекция в R может быть определена как = *, где * – аргумент минимума функции || ||2 :

* = argmin || ||2 * : (, ) = 0.

или 7.1. Геометрическое содержание метода Из последнего уравнения, являющегося необходимым условием минимума, находим (, ) = 2 + 2 = 0, * = ( )1, поэтому справедлива первая часть следующего утверждения о свойствах псевдорешения уравнения (7.1).

Теорема 7.1. Если матрица имеет ранг, то псевдоре шение уравнения (7.1) имеет вид * = argmin || ||2 = ( )1. (7.3) Оценка * = ( )1 параметров является несме щенной, то есть E(* ) = 0. Ковариационная матрица погрешности решения равна E( * ) ( * ) = ( )1.

Доказательство. Для доказательства второго утверждения за метим, что ( )1 =, поэтому * = ( )1 = ( )1 ( ) = ( )1.

Отсюда и из E = 0 следует несмещенность оценки параметров:

E( * ) = E( )1 = ( )1 E = 0. (7.4) Обозначим = ( )1. Используя определение опера ции транспонирования и учитывая, что E =, получаем следующее равенство:

E( * )( * ) = E = = = = = ( )1 ( )1 = ( )1.

( ) Что и требовалось доказать.

В частности, в дальнейшем нам понадобится следующая формула для дисперсии оценок параметров модели:

def E( * )2 =, где = ( )1. (7.5) Глава 7. Линейный метод наименьших квадратов Упражнение 7.1. Пусть E =,, – диагональная 2 def матрица с элементами = 1 и =. Докажите, что в случае переменной дисперсии ошибок ковариационная матрица и формула (7.5) имеют вид E( * ) ( * ) =, E( * )2 = ( ), (7.6) def E| * |2 = Tr, = ( )1.

7.2. Псевдорешения и проекторы Правая часть уравнения, которому удовлетворяет псевдореше ние, равна * = * = ( )1 ( + ) = (7.7) = ( )1 ( ) = + ( )1 = = + ( ( )1 ).



Pages:     | 1 || 3 | 4 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.