авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 |

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Ухтинский государственный технический университет ...»

-- [ Страница 2 ] --

D{ } 1 n 1 n D{ } = D k = 1 k = 2 D{ k } = D{ } = k n. (2.7) = n n n n Дисперсия D{ } характеризует погрешность, разброс одного изме рения. Она, по определению выборки, равна для всех k. Дисперсия же среднеарифметического D{ }, как следует из формулы (2.7), обратно про порциональна объему выборки n, и при n, стремящемся к бесконечности, стремится к нулю. Из этого обстоятельства следуют два важных вывода.

1. Арифметическое среднее является состоятельной оценкой мате матического ожидания, т.к. при неограниченно увеличивающемся объеме выборки n ее отклонение от оцениваемого параметра M { }, характеризуе мое дисперсией (2.7), неограниченно уменьшается, что соответствует оп ределению состоятельной оценки (2.3). (Напомним, что нулевая дисперсия соответствует отсутствию разброса, т.е. неслучайной величине, константе).

2. Арифметическое среднее является эффективной оценкой, т.к. пу тем надлежащего выбора объема выборки n можно сделать дисперсию этой оценки сколь угодно малой.

Для оценки дисперсии наиболее часто используется выборочная дисперсия S2:

( ) D{ } = S 2 = k n €. (2.8) n 1 k = В.А.Пантелеев - 50 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Пользуясь теми же методами, которые использовались для исследо вания свойств арифметического среднего как оценки математического ожидания, можно показать, что выборочная дисперсия является несме щенной и состоятельной оценкой дисперсии. К сожалению, это доказа тельство несколько громоздко, и мы его опустим.

Формулу (2.8) можно преобразовать к следующему виду:

) ( 1n 1 k = 1 k2 n n S2 =. (2.9) n1 k =1 k С аналитической точки зрения формулы (2.8) и (2.9) тождественны, но, принимая во внимание неизбежные ошибки округления при практиче ских расчетах, рекомендуется формулу (2.9) использовать при небольших объемах выборок n, т.к. она более удобна с вычислительной точки зрения, а при больших n (более сотни) использовать формулу (2.8).

Наряду с выборочной дисперсией S2 иногда используют другую оценку дисперсии:

n 1n k = 1 ( k ) = n S S 12 = (2.10) n Эта оценка смещенная, т.к. при любом конечном объеме выборки n ее математическое ожидание не равно оцениваемому параметру – диспер сии D{ }. Однако эта оценка состоятельная, т.к., как легко видеть из фор мулы (2.9), при n, стремящемся к бесконечности, она стремится к несме щенной оценке S2. А т.к. S2 является несмещенной и состоятельной оцен кой дисперсии, то и оценка (2.10) стремится к истинному значению дис персии. Реально оценку (2.10) применяют при очень больших объемах вы борок.

Для оценки начальных моментов используется статистика r :

{} 1n ar = M r = r = k =1 r, € € (2.11) n а для оценки центральных моментов – статистика µ r :

{ } ( ) 1n m r = M ( M { }) = µ r = k = 1 k r € €. (2.12) n В.А.Пантелеев - 51 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Следует отметить, что оценки начальных моментов r состоятель ные и несмещенные, в то время как оценки центральных моментов µ r хотя и состоятельны, но смещены. Поэтому при малых выборках, а также при повышенных требованиях к точности оценивания используют следующие несмещенные состоятельные оценки наиболее часто используемых цен тральных моментов:

n µ2 = µ2 ;

(2.13) n n µ ;

µ3 = (2.14) (n 1)(n 2 ) ( ) n n 2 2 n + 3 µ 4 3 n(2 n 3 )(µ 2 ) µ4 =. (2.15) (n 1)(n 2 )(n 3 ) Для оценки медианы числа из выборки располагают в вариацион ный ряд, т.е. переставляют их таким образом, чтобы они располагались в порядке возрастания:

1 2 L n. (2.16) Далее, если объем выборки n является числом нечётным, то в каче стве оценки медианы используется средний элемент выборки, т.е. элемент с номером (n 1) 2 + 1 :

^ Me = n 1. (2.17) + Например, если объем выборки равен 7, то оценкой медианы будет число номер 4 из вариационного ряда, построенного по этой выборке.

Если же объем выборки – число чётное, то в качестве оценки медиа ны берется среднее арифметическое от двух средних элементов вариаци онного ряда:

В.А.Пантелеев - 52 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ 1 ^ n + n.

Me = (2.18) 2 2 + Например, если объем выборки равен 8, то оценкой медианы будет среднее арифметическое четвертого и пятого чисел из вариационного ряда.

Для оценки ковариации используется формула:

( )( ) ^ Cov{, } = k =1 k k.

n (2.19) n Как и в случае с оценкой дисперсии (2.8), наряду с формулой (2.19) можно использовать аналитически тождественную ей формулу:

)( ) ( 1n ^ Cov{, } = k = 1 k k n n n. (2.20) n1 k =1 k k =1 k 2.3 ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ Точечные оценки получили свое название потому, что они представ ляют собой одно число, одну точку. Наряду с точечными широко исполь зуются интервальные оценки, которые представляют собой некоторый интервал [a, b], который содержит в себе истинное значение оцениваемого параметра с заданной вероятностью. Этот интервал иначе называется до верительным интервалом.

Таким образом, когда говорят, что с вероятностью 0,95 истинное значение оцениваемой величины лежит в таких-то границах, то пользуют ся интервальным оцениванием этой величины, определяют для нее довери тельный интервал. Следовательно, определить доверительный интервал – это значит, во-первых, определить его границы, а во-вторых – указать до верительную вероятность, т.е. вероятность, с которой данный интервал со держит оцениваемый параметр.

Доверительная вероятность и границы интервала однозначно связа ны между собой, поэтому одна из этих величин (как правило – довери тельная вероятность) задается исследователем, а в зависимости от ее зна чения определяется все остальное.

В.А.Пантелеев - 53 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Для математического описания этих взаимосвязей нам потребуется понятие квантиля.

F Рис. 2.1. Иллюстрация понятия «квантиль»

Квантилем некоторого распределения называется такое число F, для которого площадь под графиком этого распределения слева от точки F равна (см. рис. 2.1).

Если ( x ) – функция плотности данного распределения, то очевид но, что имеет место следующее соотношение:

F ( x )dx =. (2.21) Рассмотрим нахождение интервальных оценок для параметров слу чайных величин, распределенных по нормальному закону.

Пусть случайная величина распределена по нормальному закону с математическим ожиданием µ и дисперсией 2, т.е. ~ N (µ, 2 ). Опреде лим интервальную оценку для ее математического ожидания.

Доверительные интервалы для математического ожидания Случай 1. Дисперсия известна заранее. Такие ситуации встречают ся довольно часто, например, при проведении измерений калиброванным прибором. Погрешность прибора (однозначно связанная с дисперсией) из вестна, а результат измерения, разумеется – нет.

В.А.Пантелеев - 54 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Пусть произведено n независимых измерений. Тогда имеющийся экспериментальный материал можно символически обозначить как 1, 2, K, n ~ N (µ ?, 2 ).

Это означает, что имеется выборка из n случайных величин, распре деленных по нормальному закону с неизвестным математическим ожида нием (знак вопроса после µ) и известной дисперсией. Таким образом, в та ких записях знак вопроса после параметра символизирует, что этот пара метр неизвестен, а отсутствие этого знака указывает на то, что данный па раметр известен.

Точечной оценкой матожидания, как уже указывалось, будет ариф метическое среднее = k = 1 k. В соответствии с формулой (2.7) диспер n сия среднего будет в n раз меньше дисперсии единичного измерения. По этому можно записать, что ~ N (µ, 2 n ).

µ Рассмотрим искусственную случайную величину =. Она n очевидно распределена по нормальному закону. Найдем ее математическое ожидание и дисперсию, воспользовавшись свойствами матожидания и дисперсии и учитывая, что µ,, и n являются неслучайными величинами, константами:

µ ( {} ) n M { } = M M µ = 0;

= n µ n ( {} ) n D{ } = D = 2 D + D{µ } = 2 = 1.

n n Таким образом, мы доказали, что случайная величина распределена по нормальному закону с математическим ожиданием 0 и дисперсией 1, т.е. ~ N (0, 1). Такая случайная величина называется стандартной нор мально распределенной случайной величиной.

Обозначим через U квантиль стандартного нормального распреде ления (эта величина табулирована и её значения приводятся в таблицах математической статистики).

Зададимся приемлемым для нас уровнем достоверности результатов, который характеризуется доверительной вероятностью 1. Величина, равная вероятности ошибки, называется уровнем значимости. Уровень значимости, тем самым, определяет вероятность того, что истинное значе В.А.Пантелеев - 55 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ ние оцениваемого параметра (в данном случае – матожидания) не находит ся внутри доверительного интервала. Для большинства технических при ложений уровень значимости принимается равным 0,05.

Отрежем от кривой плотности стандартного нормального распреде ления «хвосты» площадью /2 (см. рис. 2.2).

1 /2 / U1-/ U/2 Рис. 2. Так как общая площадь под кривой плотности всегда равна единице, то очевидно, что площадь незаштрихованного участка будет равна 1.

А это означает, что случайная величина с вероятностью 1 находится в интервале U, U :

2 1 µ P U = 1.

U (2.22) n 2 Так как кривая плотности стандартного нормального распределения обладает зеркальной симметрией, то легко видеть, что U = U. Если с 2 учётом этого обстоятельства переписать каждое неравенство из (2.22), то получим:

P U = 1.

µ +U (2.23) n n 1 2 В.А.Пантелеев - 56 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Выражение (2.23), как легко видеть, определяет границы довери тельного интервала для математического ожидания.

Таким образом, определив из экспериментальных данных величину арифметического среднего и найдя по статистическим таблицам значение квантиля, можно легко рассчитать границы интервала U 1, +U, который с заданной вероятностью 1 со n n 2 держит истинное значение величины математического ожидания µ (см.

рис. 2.3).

х U +U n n 2 Рис. 2.3.

Случай 2. Дисперсия неизвестна. Во многих практических случаях величина дисперсии не известна заранее, и поэтому ее приходится оцени вать по выборке с использованием формулы (2.8). В этой ситуации вместо стандартного нормального распределения надо использовать распределе ние Стьюдента (псевдоним Уильяма Госсета (William Gosset)). Для этого случая выражение, определяющее границы доверительного интервала для математического ожидания, запишется следующим образом:

1S 1S P µ t n = 1.

;

+ t n (2.24) n n 1 2 Здесь t n – квантиль распределения Стьюдента с n-1 степенями свободы (как часто говорят – число Стьюдента).

Говоря о распределении Стьюдента, следует в первую очередь отме тить, что это не одно распределение, а семейство распределений, отли чающихся друг от друга величинами степеней свободы. Таким образом, степень свободы является параметром распределения Стьюдента. Само понятие степени свободы является важнейшей характеристикой статисти В.А.Пантелеев - 57 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ ки (точечной оценки) и определяет степень доверия к этой статистике. По определению, число степеней свободы равно объёму выборки минус ко личество статистик, которые были предварительно рассчитаны по данной выборке для расчета данной статистики. Например, статистика S = S 2, которая входит в выражение (2.24), рассчитывается с использованием формулы (2.8), а в этой формуле участвует величина статистики, рас считанная по той же выборке. Поэтому число степеней свободы для стати стики S будет равно n-1 (объем выборки n минус одна статистика, исполь зованная при расчете данной статистики).

Распределение Стьюдента очень похоже на нормальное, оно также симметрично, но при любых конечных степенях свободы оно «толще»

нормального, что отражает тот факт, что с уменьшением имеющейся у нас информации (использование оценки дисперсии вместо ее точного значе ния) уменьшается точность интервальной оценки (увеличивается довери тельный интервал). В пределе, при числе степеней свободы, стремящемся к бесконечности, распределение Стьюдента совпадает со стандартным нор мальным распределением.

Рассмотрим пример. Пусть имеется выборка, состоящая из трех из мерений: 39, 41, 40, а также известно, что дисперсия равна единице. Опре делим доверительный интервал для матожидания с уровнем значимости 0,05:

(39 + 41 + 40 ) = 40.

= = U 0,975 = 1,96. Найдем половину длины По таблице находим U = 1, 1,1316. Прибавляя и от доверительного интервала: U n нимая эту величину от арифметического среднего, получим:

P (µ [38,8684 ;

41,1316 ]) = 0,95.

Теперь допустим, что дисперсия нам не известна. Определим оценку ее величины по выборке:

[ ] (39 40 )2 + (41 40 )2 + (40 40 )2 = 1.

S2 = В.А.Пантелеев - 58 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ (Автор специально в целях наглядности подобрал пример таким об разом, чтобы оценка дисперсии совпала точным значением).

По таблице Стьюдента находим t n = t 02,975 = 4,3027. Половина до S верительного интервала t n = 4,3027 2,4842. Доверительный n интервал в этом случае будет:

P (µ [37,5158 ;

42,4842 ]) = 0,95.

Легко видеть, что отсутствие информации о дисперсии существенно увеличило величину доверительного интервала, т.е. увеличило погреш ность оценки.

Доверительные интервалы для дисперсии В теории вероятностей доказывается, что если случайные величины 1, 2, K, n подчиняются нормальному закону и имеют одни и те же ма тожидания и дисперсии (т.е. взяты из одной и той же генеральной сово S (n 1) подчиняется 2 купности), то случайная величина распределению Пирсона (Karl Pearson) с n-1 степенью свободы, где 2 ис тинное значение дисперсии генеральной совокупности.

2 12 Рис. 2. Примерный вид распределения Пирсона представлен на рис. 2.4.

В.А.Пантелеев - 59 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Если указанная случайная величина подчиняется распределению Пирсона, то для нее можно записать:

2 S 2 (n 1) P = 1. (2.25), n 1 1, n 2 Преобразовав формулу (2.25), легко получить выражение для границ доверительного интервала дисперсии:

2 S (n 1) (n 1) = 1.

S P 2 (2.26) 1, n 1, n 2 Следует отметить, что, т.к. распределение Пирсона не симметрично, то при расчете границ доверительного интервала, в отличие от нормально го распределения, приходится использовать два квантиля.

2.4 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ Статистической гипотезой называется любое предположение о свой ствах генеральной совокупности. Можно, например, предположить, что генеральная совокупность распределена по нормальному закону, или, что её математическое ожидание равняется трём и т.д. Однако статистические гипотезы, в отличие от безответственных деклараций, являются научными предположениями, и поэтому как только возникает гипотеза, утверждаю щая, что, например, матожидание генеральной совокупности равно трём, так тут же появляется альтернативная гипотеза, утверждающая, что мато жидание генеральной совокупности равно чему угодно, но только не трём.

Таким образом, статистические гипотезы бывают двух типов:

1) исходная или нулевая гипотеза (обозначается Н0);

2) конкурирующая или альтернативная гипотеза (обозначается Н1).

Как уже отмечалось, альтернативная гипотеза строится таким образом, что она начисто отрицает содержание нулевой гипотезы.

Решение задачи проверки статистических гипотез состоит в том, чтобы на основании анализа экспериментальных данных (т.е. выборки) от дать предпочтение одной из выдвинутых гипотез (Н0 или Н1).

В.А.Пантелеев - 60 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Совершенно очевидно, что для принятия обоснованного решения не обходимо иметь некоторый критерий, алгоритм, позволяющий в зависимо сти от значений случайных величин в выборке принять то или иное реше ние. Такой алгоритм состоит в том, что для каждого типа статистической гипотезы предлагается определенная функция выборки (решающая стати стика), и всё множество значений этой статистики разбивается на два не пересекающихся подмножества. При попадании значения решающей ста тистики в одно подмножество отдается предпочтение одной гипотезе, а при попадании в другое – другой. Задача, таким образом, формализуется и, тем самым, допускает математическое описание.

Разумеется, что данная процедура принятия решений (как, впрочем, и всякая другая) не может обойтись без принятия неверных решений, без ошибок. Однако, в отличие от «процедуры» принятия интуитивных реше ний, в математической статистике имеется возможность оценки вероятно стей таких ошибок.

Рассмотрим в качестве примера крайне редко встречающуюся на практике, но достаточно понятную ситуацию. Пусть выборка может при надлежать двум и только двум генеральным совокупностям, имеющим плотности распределения соответственно 1(х) и 2(х) (см. рис. 2.5).

1 (х) 2 (х) xкр Рис. 2. Определим гипотезу Н0 как принадлежность выборки первой гене ральной совокупности с плотностью 1(х), а гипотезу Н1 – как принадлеж ность второй генеральной совокупности (третьего, по определению, не да но):

В.А.Пантелеев - 61 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Н 0 : выборка принадлежит генсовокупности с плотностью 1 ( х );

Н 1 : выборка принадлежит генсовокупности с плотностью 2 ( х ).

Пусть выборка имеет объём 1 (т.е. состоит из одного измерения), и именно величина этого измерения будет решающей статистикой. Разобьём всю числовую ось на два подмножества: от минус бесконечности до xкр и от xкр до плюс бесконечности (см. рис. 2.5). Алгоритм решения выберем таким образом: при попадании значения решающей статистики в первое подмножество отдается предпочтение гипотезе Н0, а при попадании во второе – Н1.

Очевидно, что такая формализация принятия решений (как и всякая другая) не свободна от возможности ошибки. При этом ошибки могут быть двоякого характера: можно отвергнуть гипотезу Н0, когда она на самом де ле верна (такая ошибка называется ошибкой первого рода), и можно при нять гипотезу Н0, когда она на самом деле неверна (ошибка второго рода).

Все возможные ситуации с принятием решений представлены в следую щей таблице.

ИСТИННОЕ ПОЛОЖЕНИЕ Н0 Н Правильное решение. Ошибка второго рода.

Его вероятность: Её вероятность:

Н0 xk xk 1 ( x )dx 2 ( x )dx 1 = = РЕШЕНИЕ Ошибка первого рода. Правильное решение.

Её вероятность: Его вероятность:

Н1 1 ( x )dx 2 ( x )dx = 1 = x x k k Вероятность ошибки первого рода называется уровнем значимо сти и выбирается до начала эксперимента, исходя из различных эмпири ческих соображений, главным из которых является степень опасности по следствий ошибки. В технике уровень значимости как правило равен 0,05, а в медицине часто бывает и 0,001.

В.А.Пантелеев - 62 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Выбранная величина уровня значимости совместно с видом функции критерия (решающей статистикой) определяет величину вероятности ошибки второго рода. Величина вероятности правильного предпочтения гипотезы Н1, т.е. 1, называется мощностью критерия. Та статистика, которая при заданной величине уровня значимости обеспечивает макси мальную величину мощности критерия, называется наиболее мощным критерием.

Важно отметить, что величина хорошо оценивается лишь в про стейших случаях, подобных рассмотренному. В громадном же большинст ве практических задач альтернативная гипотеза не задается явно, а строит ся по принципу отрицания исходной гипотезы, что само по себе подразу мевает неопределенное (как правило – бесконечное) множество альтерна тивных решений. В этой ситуации оценка величины практически невоз можна. В таких случаях статистически (и по сути дела) неграмотно гово рить: «мы принимаем гипотезу Н0» (что означало бы необходимость ука зать вероятность возможной ошибки такого решения). Правильной явля ется более осторожная формулировка: «имеющиеся экспериментальные данные не дают оснований отбросить гипотезу Н0».

Что же касается гипотезы Н1, то формулировка «мы принимаем ги потезу Н1» не является безответственной и вполне корректна, т.к. в данном случае вероятность возможного неверного решения известна, и лицо, принимающее решение, имеет все основания сознавать последствия своего решения.

Таким образом, процесс принятия решений не симметричен относи тельно исходной и альтернативной гипотез, что отражает реальные зако номерности процесса познания.

2.5 СРАВНЕНИЕ ДВУХ МАТОЖИДАНИЙ Задача сравнения двух математических ожиданий очень распростра нена в производственной, технологической и другой деятельности. Такая задача возникает всякий раз, когда нужно дать ответ на вопрос: «привело ли внедрение новой технологии к увеличению качества (или количества) продукции?», «различаются ли характеристики разных партий одной и той же продукции?» и т.д.

Математически такая задача формулируется следующим образом.

Имеются две выборки из двух разных нормально распределенных гене ральных совокупностей 1, 2, K, n и 1, 2, K, k. Реально это может В.А.Пантелеев - 63 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ соответствовать замерам характеристик продукции до и после внедрения новой технологии, замерам характеристик разных партий продукции и т.д.

Нулевая гипотеза состоит в предположении, что математическое ожидание первой генеральной совокупности равно математическому ожи данию второй, а альтернативная гипотеза – в том, что они не равны:

Н 0 : µ1 = µ 2 ;

(2.27) Н 1 : µ1 µ 2.

Как уже отмечалось, обе генеральные совокупности подразумевают ся распределенными нормально.

Алгоритм решения задачи существенно зависит от того, известны или неизвестны дисперсии генеральных совокупностей.

Случай 1. Дисперсии известны. В данной ситуации имеющийся экспериментальный материал можно представить так:

( ) 1, 2,K, n ~ N µ 1 ?, 1 ;

~ N (µ ).

1, 2,K, k ?, Напомним, что знак вопроса после символа указывает на то, что дан ный параметр неизвестен, а отсутствие знака вопроса – на то, что он извес тен.

Рассмотрим искусственную случайную величину µ1 + µ =. (2.28) 12 + n k Определим ее дисперсию и математическое ожидание:

{} {} M M µ1 + µ 2 µ1 µ 2 µ1 + µ M { } = = = 0;

2 2 2 + + 1 2 1 n k n k 2 {} {} + 1 D + D +0+ D{ } = = n2 k = 1.

1 2 2 + + 1 n k n k В.А.Пантелеев - 64 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Таким образом, случайная величина распределена по нормальному закону с математическим ожиданием 0 и дисперсией 1, т.е. является стан дартной нормально распределенной величиной ( ~ N (0, 1) ).

Для такой величины справедливо выражение:

P U U = 1 (2.29) 1 2 Пусть справедлива гипотеза Н0, т.е. действительно µ 1 = µ 2. Тогда матожидания в формуле (2.28) сокращаются, и выражение (2.29) можно переписать:

U 1 + 2 = 1.

P (2.30) k n Выражение (2.30) содержит в себе алгоритм принятия решения. В качестве решающей статистики берется модуль разности арифметических средних двух выборок. Все множество значений, которые может принимать решающая статистика (от нуля до бесконечности), разбивается 12 на два непересекающихся подмножества: от нуля до x кр = U + n k и от хкр до бесконечности.

Попадание решающей статистики в каждое из этих подмножеств влечет принятие соответствующего решения, состоящего в отдании пред почтения гипотезе Н0 или Н1 (см. рис. 2.6).

Н Н 0 12 + U n k Рис. 2. В.А.Пантелеев - 65 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ При этом, как следует из формулы (2.30), вероятность правильного предпочтения гипотезы Н0 равна 1, вероятность неправильного приня тия гипотезы Н1 равна, а вероятности остальных решений – неизвестны.

Случай 2. Дисперсии неизвестны. Экспериментальный материал в этой ситуации может быть представлен следующим образом:

( ) 1, 2,K, n ~ N µ 1 ?, 1 ? ;

(2.31) ~ N (µ ? ).

1, 2,K, k ?, 2 Проверка системы гипотез (2.27) о равенстве матожиданий в этом случае требует предварительного решения вопроса о равенстве дисперсий.

Это означает, что перед проверкой системы гипотез (2.27) необходимо проверить гипотезу о равенстве дисперсий Н0 : 1 = 2 ;

2 (2.32) Н1 : 1 2.

2 (Механизм проверки этой системы гипотез мы рассмотрим в сле дующем параграфе.) В случае, когда при проверке системы гипотез (2.32) принимается гипотеза Н1, т.е. признается, что 12 2, исследователь оказывается в ту пике, т.к. в рамках параметрической математической статистики при этом условии принципиально не существует метода проверки системы гипотез (2.27). Этот теоретический тупик носит специальное название – проблема Беренса-Фишера. Параметрической называется статистика, которая ис пользует предположение о законе распределения (в данном случае – нор мальном). В рамках непараметрической статистики, не требующей пред положений о законе распределения, система гипотез (2.27) может быть решена. Однако рассмотрение методов непараметрической статистики вы ходит за пределы данной книги.

Итак, вопрос о проверке системы гипотез (2.27) в случае, когда дис персии неизвестны, может быть решён только при условии, что в системе гипотез (2.32) нет оснований отвергнуть гипотезу Н0. Рассмотрим решение при этом условии.

Рассчитаем точечные оценки дисперсии каждой выборки:

( ) i n 1 = S1 = €2 ;

(2.33) n 1 i = В.А.Пантелеев - 66 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ ( ) 1 k 2 = S2 = i.

€2 (2.34) k 1 i = Числа степеней свободы для этих статистик равны соответственно 1 = n 1 и 2 = k 1.

Так как в системе гипотез (2.32) предпочтение отдано гипотезе Н0, то статистики (2.33) и (2.34) можно считать оценками одной и той же величи ны. Поэтому их следует усреднить, однако процедура усреднения должна учитывать «вес» каждой статистики, который пропорционален числу ее степеней свободы:

[ ( i )2 + k= 1 ( i )2 ] 1 S 12 + 2 S 22 1 n S= = (2.35) 1 + 2 n+ k 2 i =1 i В системе гипотез (2.27) гипотеза Н1 о статистически значимом раз личии математических ожиданий принимается тогда, когда выполняется неравенство:

S 2 (n + k ) t n+ k, (2.36) nk где t n + 2 – квантиль распределения Стьюдента с n+k-2 степенями свобо k ды.

2.6 ГИПОТЕЗЫ О РАВЕНСТВЕ ДИСПЕРСИЙ Сравнение дисперсий двух выборок. В данном случае эксперимен тальный материал представляет собой две выборки произвольного объема из нормальных генеральных совокупностей (2.31), и производится провер ка системы статистических гипотез (2.32).

Для проверки этой системы гипотез вначале рассчитываются стати стики (2.23) и (2.24), а затем строится решающая статистика Фишера (Ro nald Fisher), которая представляет собой отношение большей из статистик к меньшей:

В.А.Пантелеев - 67 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ S max F=, (2.37) S min где S max = max (S 12, S 2 ), а S min = min (S 12, S 2 ).

2 2 2 Значение решающей статистики (2.37) сравнивается с табличным значением критерия Фишера со степенями свободы max (число степеней свободы большей статистики) и min (число степеней свободы меньшей статистики). Гипотеза Н1 о статистически значимом различии дисперсий принимается тогда, когда значение решающей статистики больше таблич ного:

S max F = 2 F ( max, min ) H 1. (2.38) S min Множественное сравнение дисперсий В случае, когда имеются выборки из более чем двух генеральных со вокупностей, часто бывает нужно проверить статистическую гипотезу о равенстве дисперсий всех этих генеральных совокупностей. Альтернати вой этой гипотезы будет утверждение, что найдутся хотя бы две генераль ные совокупности с неравными дисперсиями:

Н0 : 1 = 2 = L = k ;

2 2 (2.39) H 1 : i, j, i j.

2 2 2 Рассмотрим решение этой задачи вначале для случая выборок оди накового объема:

( ) 11, 2,K, n ~ N µ 1 ?, 1 ? ;

1 1 ~ N (µ ? );

12, 22,K, n ?, 2 LLLLLLLLLLLL ( ).

1k, 2,K, n ~ N µ k ?, k ?

k k Таким образом, имеется k выборок объёма n, распределенных по нормальному закону с неизвестными (знак вопроса) параметрами.

Для решения этой задачи используется решающая статистика Кохре на (William Cochran):

В.А.Пантелеев - 68 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ 2 S max S max G= =. (2.40) i =1 S S 12 + S 2 + L + S k 2 k i В случае, если эта величина меньше табличного значения критерия Кохрена с уровнем значимости и числами степеней свободы n-1 и k, то у нас нет оснований отвергнуть гипотезу Н0:

G G (n 1, k ) H 0. (2.41) Если выборки разного объёма, то экспериментальный материал бу дет выглядеть как ( ) 11, 2,K, n1 ~ N µ 1 ?, 1 ? ;

1 1 ~ N (µ ? );

12, 22,K, n2 ?, 2 LLLLLLLLLLLL ( ).

1k, 2,K, nk ~ N µ k ?, k ?

k k Для проверки системы гипотез (2.39) в этом случае используется ре шающая статистика Бартлета (Maurice Bartlett):

[ ] n ln S 2 i = 1 (ni 1) ln S i2, k B= (2.42) C где:

n = i = 1 (ni 1);

k 1k ;

C = 1+ 3(k 1) i = 1 ni 1 n ( ) 1 ni ji i ;

S i2 = ni 1 j = 1k i = 1 (ni 1)S i2.

S2 = k В.А.Пантелеев - 69 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Бартлет показал, что в случае справедливости гипотезы Н0, величина В распределена по закону Пирсона с k-1 степенями свободы. Поэтому в случае справедливости гипотезы Н0 справедливо выражение 2 P = 1, B 2 (2.43),k 1 1,k 2 что означает, что гипотеза Н1, отрицающая равенство всех дисперсий, 2 должна приниматься только в том случае, когда B ;

2.

2,k 1 1 2,k 2.7 ПРОВЕРКА ГИПОТЕЗ О ВИДЕ РАСПРЕДЕЛЕНИЯ В предыдущих параграфах предполагалось, что выборки сделаны из генеральных совокупностей с нормальным законом распределения. При проведении корректных статистических исследований это предположение также должно проверяться. Кроме того, генеральная совокупность может, разумеется, описываться произвольным законом распределения, и для про ведения содержательных исследований необходимо его идентифициро вать. Таким образом, в инженерной и исследовательской практике часто возникает задача определения вида распределения определенной генераль ной совокупности. Решение этой задачи состоит из двух этапов:

1) выдвижение гипотезы о виде распределения;

2) проверка её.

Для реализации первого этапа пользуются, как правило, гистограм мой, которая представляет собой состоятельную оценку функции плотно сти распределения.

Гистограмма строится следующим образом. Из выборки достаточно большого объёма n выбираются наибольшее max и наименьшее min зна чения. Интервал [ min ;

max ] разбивается на k интервалов. Вообще говоря, длины этих интервалов могут быть как одинаковыми, так и разными. В случае, когда длины этих интервалов одинаковы (что бывает наиболее час то), количество интервалов рекомендуется выбирать в соответствии с эм пирической формулой:

k = 1 + 3,2 lg n.

В.А.Пантелеев - 70 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Затем производится подсчет количества попаданий ri случайных ве личин из выборки в каждый i-й интервал (i меняется от единицы до k).

Очевидно, что отношение числа попаданий в i-й интервал к объёму выбор ки ri pi = € (2.44) n будет представлять собой оценку вероятности pi попадания в i-й интервал.

Гистограмма строится следующим образом (см. рис. 2.7). Над каж дым из интервалов строится прямоугольник площадью (2.44), одна сторона которого равна длине интервала x i = x i x i 1, а вторая (высота), очевид но ^ p r hi = i = i. (2.45) x i x i n hi max = x k xi 1 xi min = x Рис. 2.7.

Ступенчатая линия, огибающая все построенные прямоугольники, и будет гистограммой.

Можно показать, что гистограмма является хотя и смещенной, но со стоятельной оценкой функции плотности распределения, т.е. при объеме выборки n, стремящемся к бесконечности (и, разумеется, при одновремен ном k ), ступенчатая линия стремится к кривой плотности.

В.А.Пантелеев - 71 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Визуально сравнивая вид полученной гистограммы с известными формами кривых плотности различных распределений, делают предполо жение (выдвигается гипотеза) о виде распределения, после чего наступает второй этап – проверка выдвинутой гипотезы.

Для проверки статистических гипотез о виде распределения исполь зуются разные критерии. Два наиболее популярных из них – критерий Пирсона и критерий Крамера-Мизеса мы рассмотрим.

Критерий Пирсона используется при объёме выборки, не меньшем двухсот ( n 200 ). Система гипотез выглядит следующим образом:

Н 0 : функция плотности распределения генсовокупности ( х );

Н 1 : функция плотности распределения генсовокупности не ( х ).

При этом следует отметить, функция (х), указанная в нулевой гипо тезе – это вполне конкретная, аналитически заданная функция.

Для проверки этой гипотезы осуществляются те же действия, что и при построении гистограммы: интервал [ min ;

max ] разбивается на k интер валов и подсчитывается число попаданий ri в каждый интервал. Одновре менно с использованием заявленной в нулевой гипотезе функции плотно сти определяются вероятности рi попадания случайной величины в i-й ин тервал при условии справедливости гипотезы Н0:

xi ( x )dx.

pi = (2.46) x i Следует отметить, что вероятность, рассчитанная при помощи выра жения (2.46), является истинной при условии справедливости нулевой ги потезы, поэтому она записывается без «крышечки».

Часто в статистических таблицах приводятся значения функций рас пределения для распространенных законов распределения. В этом случае соответствующие вероятности найти намного проще:

pi = F ( x i ) F ( x i 1 ). (2.47) В случае справедливости нулевой гипотезы факт попадания случай ной величины в i-й интервал может рассматриваться как успех в схеме Бернулли с n независимыми испытаниями и постоянной вероятностью ус пеха, равной рi. Число попаданий в i-й интервал ri будет представлять со В.А.Пантелеев - 72 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ бой биномиальную случайную величину (число успехов в схеме Бернул ли). Запишем ее математическое ожидание и дисперсию (1.43) и (1.58):

M {ri } = np i ;

(2.48) D{ri } = np i (1 p i ) np i. (2.49) (Приближение в формуле (2.49) возможно потому, что величина pi очень мала по сравнению с единицей).

Известно, что любая центрированная случайная величина, деленная на корень из своей дисперсии (среднеквадратическое отклонение), будет иметь нулевое математическое ожидание и единичную дисперсию. Поэто му случайная величина ri npi i = (2.50) npi в случае справедливости нулевой гипотезы также будет иметь нулевое ма тожидание и единичную дисперсию.

Построим статистику (ri npi ) = i =1 = i = k k. (2.51) i npi По определению сумма квадратов нормально распределенных слу чайных величин с нулевым математическим ожиданием и единичной дис персией имеет 2 распределение Пирсона. Пирсон показал, что статистика (2.51) при большом объёме выборки (при n 200 ) асимптотически имеет 2 -распределение. Теорема Пирсона утверждает, что в случае справедли вости нулевой гипотезы и при np i 5 для любого i статистика П имеет распределение 2 с k-1-m степенями свободы, где m – количество пара метров плотности распределения ( х ), оцениваемых по той же выборке.

Из формулировки теоремы Пирсона вытекает способ проверки ста тистической гипотезы. Для условий, сформулированных в теореме, в слу чае справедливости нулевой гипотезы можно записать:

k (ri np i ) 2 i = P = 2 (2.52),k 1 m 1,k 1 m npi 2 В.А.Пантелеев - 73 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ Отсюда следует, что гипотеза Н1 принимается только тогда, когда статистика (2.51) не принадлежит указанному в выражении (2.52) интерва лу.

Пример. Произведено 3000 замеров некоторой случайной величины.

В сгруппированном виде результаты замеров представлены в таблице.

(ri npi ) i хi-1 xi ri zi-1 zi pi npi npi 1 72,7 85,7 7 -3,57 -2,97 0,0013 4, 1, 2 85,7 98,8 15 -2,97 -2,36 0,0078 23, 3 98,8 111,9 92 -2,36 -1,75 0,0303 93,79 0, 4 111,9 125,0 278 -1,75 -1,13 0,0878 263,39 0, 5 125,0 138,1 519 -1,13 -0,52 0,1718 515,32 0, 6 138,1 151,2 691 -0,52 0,09 0,2342 702,63 0, 7 151,2 164,3 646 0,09 0,70 0,2226 667,74 0, 8 164,3 177,4 454 0,70 1,31 0,1474 442,28 0, 9 177,4 190,5 223 1,31 1,92 0,0680 204,15 1, 10 190,5 203,5 64 1,92 2,52 0,0219 65,64 0, 11 203,5 216,6 10 2,52 3,14 0,0049 14, 2, 12 216,6 229,7 1 3,14 3,75 0,0008 2, Арифметическое среднее выборки оказалось равным 149,34, а оценка дисперсии – 460,01. Проверяем статистическую гипотезу о том, что вы борка распределена по нормальному закону с математическим ожиданием 149,34 и дисперсией 460,01.

В нашем случае количество интервалов k = 12. В таблице приведены левые xi-1 и правые xi границы каждого интервала, а также количество по паданий ri в каждый интервал. Значения вероятностей pi рассчитываются либо при помощи численного интегрирования по формуле (2.46), либо при помощи статистических таблиц. В статистических таблицах приводятся значения стандартной нормальной функции распределения, соответст вующей случайной величине, распределенной по нормальному закону с математическим ожиданием 0 и дисперсией 1, поэтому для их использова ния необходимо каждую координату х исходной случайной величины пе ресчитать в координату z стандартной случайной величины по формуле:

xµ z= (2.52) (Соответствующие величины zi-1 и zi представлены в таблице).

В.А.Пантелеев - 74 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ После умножения полученных вероятностей на объём выборки заме чаем, что в первом и последнем интервалах np i 5, поэтому первый ин тервал объединяется со вторым, а двенадцатый – с одиннадцатым.

Статистика Пирсона, получаемая путем суммирования чисел в по следнем столбце, равна 6,9952. Число степеней свободы этой статистики равно = k 1 m = 10 1 2 = (окончательное число интервалов после объединения – 10), и соответст вующие значения квантилей распределения Пирсона равны 02,025 ;

7 = 1,6899 ;

02,975 ;

7 = 16,0128.

Видно, что экспериментальное значение статистики Пирсона лежит между этими величинами, и, следовательно, можно сделать вывод, что экспериментальные данные не дают оснований отбросить гипотезу Н0 о нормальности выборки.

Критерий Крамера-Мизеса работает при n 40. Система стати стических гипотез формулируется так же, как и при использовании крите рия Пирсона, с той лишь разницей, что здесь вместо функции плотности распределения (x) используется функция распределения F(x):

H 0 : функция распределениявыборки F ( x );

H 1 : функция распределения выборки не F ( x ).

Для проверки этой гипотезы из исходной выборки 1, 2,K, n со ставляется вариационный ряд, т.е. числа переставляются в порядке их возрастания:

(1 ) ( 2 ) L ( n ), где номер в скобках соответствует номеру числа после перестановки.

Затем с использованием функции F(x) и полученного вариационного ряда составляется статистика Крамера-Мизеса, или, как ее иначе называют, – статистика «эн-омега-квадрат»:

В.А.Пантелеев - 75 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ 2i + i = 1 F ( ( i ) ) n n =. (2.53) 2n 12 n Следует отметить, что в силу сложившихся традиций обозначения величина n 2 в данном случае должна восприниматься как одна буква, обозначающая статистику, и не подлежит разложению на сомножители.

Использование этой статистики определяется теоремой Крамера Мизеса, которая утверждает, что если справедлива нулевая гипотеза, то при n 40 распределение статистики n 2 асимптотически не зависит от вида распределения F(x).

Крамер и Мизес рассчитали квантили Z1- этого распределения:

P (0 n 2 Z 1 ) 1. (2.54) Численные значения этих квантилей приведены в таблице:

0,1 0,05 0,03 0,02 0,01 0, Z 1 0,3473 0,4614 0,5489 0,6198 0,7435 1, Таким образом, если система неравенств в выражении (2.54) выпол няется, то нет оснований отбросить гипотезу Н0.

При сравнении критериев Пирсона и Крамера-Мизеса бросается в глаза то обстоятельство, что минимальный объём выборки, при котором работает критерий, для критерия Крамера-Мизеса в пять (!) раз меньше, чем для критерия Пирсона. Это, безусловно, связано с тем, что при по строении статистики Пирсона теряется часть информации: точное значе ние элемента выборки размывается принадлежностью к определенному интервалу, и поэтому точность будет определяться шириной интервалов разбиения. Критерий же Крамера-Мизеса использует точные значения элементов выборки, что делает этот критерий более мощным, чем крите рий Пирсона. Это обстоятельство позволяет сделать вывод о предпочти тельности использования критерия Крамера-Мизеса, что особенно акту ально для малых выборок.

Из сказанного, однако, не следует, что критерий Пирсона не должен применяться. Он весьма удобен при обработке больших выборок и совер шенно незаменим в случае, когда элементы выборки изначально не выра жаются одним числом, а производится подсчет элементов, попадающих в ту или иную категорию (интервал).

Критерии Пирсона и Крамера-Мизеса могут использоваться для про верки статистических гипотез о любых законах распределения. Проверку В.А.Пантелеев - 76 - ЭЛЕМЕНТЫ МАТСТАТИСТИКИ же нормальности выборки можно проводить ещё с использованием мето да моментов по малым выборкам (при n 10 ). Так как асимметрия и экс цесс нормального распределения равны нулю, то суть метода моментов со стоит в расчете оценок этих величин по выборке с последующим сравне нием полученных значений с нулем (т.е. в проверке статистической гипо тезы о равенстве нулю асимметрии и эксцесса).

Вначале по формулам (2.12) или (2.13) – (2.15) определяются оценки € € € центральных моментов m 2, m 3 и m 4. Затем рассчитываются оценки асимметрии и эксцесса:

€ m g1 = € ;

( ) €2 m (2.55) € m g2 = 3.

€ (m 2 ) € И если не выполняется хотя бы одно из неравенств 6 (n 2 ) g1 €, (2.56) (n + 1)(n + 3 ) или 24 n(n 2 )(n 3 ) g2 + €, (2.57) (n + 1)2 (n + 3 )(n + 5 ) n+ то принимается гипотеза Н1. Если же оба неравенства выполняются, то нет оснований отбросить гипотезу Н0.

Следует отметить, что этот критерий не обладает точным статисти ческим обоснованием, т.к. для него не построена функция распределения.

Однако по эмпирическим оценкам он приблизительно соответствует уров ню значимости 0,05.

Глава РЕГРЕССИОННЫЙ АНАЛИЗ 3.1 ОПИСАНИЕ ЗАВИСИМОСТЕЙ Любой реальный технологический процесс характеризуется множе ством различных параметров. Некоторые из этих параметров можно в оп ределенных пределах изменять, а другие – можно только измерять. Однако несомненно, что все эти параметры связаны между собой. Зная характер этих связей, можно целесообразно влиять на технологический процесс, улучшая его в соответствии с некоторыми выбранными критериями. В свя зи с этим одной из важнейших задач инженерной деятельности является идентификация промышленных объектов, т.е. умение составлять их со держательное описание, пригодное для дальнейшей работы. Таким описа нием является математическая модель объекта, которая отражает реальную связь, имеющуюся между различными технологическими параметрами, которыми характеризуется состояние объекта.

Связи между технологическими параметрами условно можно разде лить на функциональные и стохастические.

Функциональной называется такая связь между параметрами, кото рая может быть выражена в виде функциональной зависимости. Одним из примеров такой связи может служить закон Ома, связывающий силу тока, напряжение и электрическое сопротивление. Таким образом, функцио нальная связь преимущественно выражает зависимость между детермини рованными, неслучайными величинами, однако она может также сущест вовать и между величинами случайными, если значение одной случайной величины есть функция другой.

Стохастическая (или, что то же самое, – вероятностная) связь проявляется в том случае, когда какой-нибудь параметр (или параметры) влияет на случайную величину таким образом, что в результате этого влияния меняется закон распределения этой случайной величины. Типич ным примером может служить связь между ростом и весом человека. Если мы выберем, например, множество людей с ростом 160 см, то их вес мож но описать случайной величиной с определенными математическим ожи данием и дисперсией, а если взять множество людей с ростом 190 см, – то, очевидно, что случайная величина, описывающая их вес, будет иметь дру В.А.Пантелеев - 78 - РЕГРЕССИОННЫЙ АНАЛИЗ гое математическое ожидание и, может быть, другую дисперсию.

Таким образом, если для описания функциональной связи использу ется сама функциональная зависимость, то точное описание стохастиче ской связи может быть достигнуто при помощи условной функции распре деления (или условной функции плотности). Однако на практике весьма трудно использовать (и находить) условную функцию распределения це ликом, поэтому вместо нее используют зависимости некоторых ее число вых характеристик (как правило – математического ожидания, реже — дисперсии) от влияющих параметров.

Зависимость математического ожидания случайной величины от значения других (случайных или неслучайных) параметров называется регрессией или уравнением регрессии. Зависимая случайная величина на зывается откликом, а параметры, от которых отклик зависит — независи мыми переменными или факторами.

Обозначим отклик буквой y, а вектор факторов (т.к. факторов может быть много) x x x =.

M xq Тогда математически уравнение регрессии можно представить в виде условного математического ожидания:

M {y x} = ( x, B ), (3.1) b b где B = 2 — вектор коэффициентов уравнения регрессии.

M bk Необходимо отметить, что условность разделения связей на функ циональные и стохастические состоит в том, что в точном и строгом смыс ле все связи являются стохастическими, т.к. даже самые фундаментальные физические законы являются обобщением опытных данных, неизбежно связанных с ошибкой измерения. При этом если погрешность предсказа ния при помощи данной зависимости в интересующем экспериментатора диапазоне не превышает погрешности имеющихся у него средств измере В.А.Пантелеев - 79 - РЕГРЕССИОННЫЙ АНАЛИЗ ния, то мы считаем такую зависимость функциональной. Однако, как только в нашем распоряжении появляются средства измерения более вы сокой точности или мы переходим в другой диапазон измерения, то сразу может проявиться стохастическая, регрессионная сущность функциональ ных закономерностей. Один из американских физиков прокомментировал этот факт таким образом: «если теория высовывает голову, то ей её непре менно отрубят». Хорошей иллюстрацией этому может служить эволюция классической физики. Пока человечество имело дело с невысокими скоро стями, механика Ньютона казалась абсолютным законом природы. С пере ходом к скоростям, сравнимым со скоростью света, уже потребовалось от механики Ньютона перейти к механике Эйнштейна. При этом в области низких скоростей модель Ньютона с очень высокой точностью соответст вует модели Эйнштейна. Дальнейшее развитие экспериментальных иссле дований с неизбежностью должно привести к дальнейшему уточнению модели.

Целью и сущностью идентификации промышленных объектов явля ется построение их математических моделей, т.е. нахождение приближен ных оценок уравнения регрессии (3.1). При осуществлении идентификации с использованием экспериментальных данных возможны две ситуации.

Первая состоит в том, что вид функции ( х, B ) известен, и по экспери ментальным данным нужно определить оценки вектора коэффициентов В.

Вторая ситуация предполагает, что неизвестен как вид функции, так и входящие в нее коэффициенты.

В начале нашего изложения мы будем предполагать первую ситуа цию, а затем (при рассмотрении адекватности модели) обсудим действия в случае второй. Итак, предполагаем, что вид уравнения регрессии известен, и по экспериментальным данным нужно найти вектор оценок коэффициен € тов регрессии = B. Например, известно, что некоторая величина y зави сит от другой величины x по линейному закону y = b1 + b2 x, но конкрет ные значения коэффициентов b1 и b2 неизвестны, и требуется найти такие € € их оценки = b и = b, которые наилучшим образом соответствуют 1 1 2 экспериментальным данным. Наука, которая разрабатывает методы нахо ждения таких оценок и определение их статистических характеристик, на зывается регрессионным анализом.

Структура экспериментальных данных для проведения регрессион ного анализа выглядит следующим образом. Проведено N экспериментов при различных значениях вектора факторов x 1, x 2,..., x N и измерено N со ответствующих значений отклика y 1, y 2,..., y N.

Для нахождения оценок необходимо также, чтобы выполнялись сле В.А.Пантелеев - 80 - РЕГРЕССИОННЫЙ АНАЛИЗ дующие условия, которые называются предпосылками регрессионного анализа:

1) отклики y 1, y 2,..., y N представляют собой независимые, нор мально распределенные случайные величины;

2) дисперсии всех значений откликов равны, т.е. проверена стати стическая гипотеза о равенстве этих дисперсий;

[ ] T 3) независимые переменные (факторы) x = x 1 x 2 L x q из меряются с ошибкой, пренебрежимо малой по сравнению с ошибкой откликов, что позволяет считать их неслучайными величинами.

Доказано, что в случае, если выполняются эти предпосылки, то наи лучшие оценки * (дающие наилучшее согласование с экспериментом) определяются из условия минимума функции невязки Ф( ) = i = 1 [ y i ( х i, )].

N (3.2) Функция Ф( ) представляет собой сумму квадратов отклонений предсказанного моделью отклика ( х i, ) от его экспериментального зна чения y i. Поэтому очевидно, что те значения, которые обеспечивают минимум Ф( ), минимизируют расхождение между моделью и экспери ментом. Следует отметить, что, т.к. в процессе обработки данных резуль таты эксперимента y i, х i не меняются, то функция Ф( ) фактически за висит только от неизвестного вектора параметров, который определяет ся, как уже указывалось, из условия минимума этой функции. Таким обра зом, задача нахождения оценок коэффициентов регрессии сводится к ми нимизации функции (3.2) в пространстве параметров.

Общего решения этой задачи не существует, однако имеется очень важный частный случай, для которого можно указать универсальный ме тод решения. Этот случай носит название линейного регрессионного ана лиза.

3.2 ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ Как известно из математического анализа, в точке минимума функ ции многих переменных все её частные производные должны обращаться в В.А.Пантелеев - 81 - РЕГРЕССИОННЫЙ АНАЛИЗ нуль (необходимое условие). Поэтому для решения задачи минимизации функции невязки Ф( ) необходимо найти такой вектор *, который об ращает в нуль все производные Ф i.


Рассмотрим это на примере. Пусть у нас есть основания предпола гать, что две величины связаны между собой по линейному закону:

y = b1 x + b2. Пусть также проведено N экспериментов, по результатам ко € € торых нужно определить оценки = b и = b.1 1 2 Построим функцию невязки:

Ф( 1, 2 ) = i = 1 ( y i 1 x i 2 ).

N (3.3) В точке минимума производные от этой функции должны равняться нулю. Поэтому продифференцируем функцию (3.3) и результаты прирав няем к нулю:

Ф 1 = 2 i = 1 x i ( y i 1 x i 2 ) = 0 ;

N (3.4) Ф 2 = 2 i = 1 ( y i 1 x i 2 ) = 0.

N Преобразуем полученную систему уравнений:

1 i =1 xi + 2 i =1 xi = i =1 xi yi ;

N N N (3.5) 1 i = 1 x i + 2 i = 1 1 = i = 1 y i.

N N N i =1 1 = N, запишем решение системы (3.5), восполь N Учитывая, что зовавшись, например, широко известным в линейной алгебре правилом Крамера:

N i =1 xi yi i =1 xi i =1 yi N N N 1 = ) ( ;

N N N x2 xi i =1 i i = (3.6) i = 1 x i2 i = 1 yi i = 1 x i i = 1 x i yi.

N N N N 2 = N i = 1 x i2 ( i = 1 x i ) N N В.А.Пантелеев - 82 - РЕГРЕССИОННЫЙ АНАЛИЗ Таким образом, используя необходимое условие экстремума функ ции многих переменных, мы определили метод расчета оценок коэффици ентов уравнения регрессии при линейной зависимости двух параметров.

Специально проведенным анализом было установлено, что оценки, полу ченные таким способом, удовлетворяют достаточным условиям минимума функции невязок (3.3).

Теперь будем решать задачу в общей постановке.

Линейным регрессионным анализом называется процедура нахож дения оценок коэффициентов регрессии и статистического анализа резуль татов в случае, если математическая модель (3.1) линейна по параметрам, т.е. имеет следующий вид:

( х, ) = 1 f 1 ( х ) + 2 f 2 ( х ) + L + k f k ( х ) = j = 1 j f j ( x ), k (3.7) где f i ( х ) – произвольные функции от вектора факторов х. В этом случае функция невязки запишется:

i = 1 [y i j = 1 j f j ( х i )] Ф ( ) = N k. (3.8) Найдем производную от функции (3.8) по m-му параметру (m может принимать любое значение от единицы до k):

[ ] Ф m = 2 i = 1 f m ( х i ) y i j = 1 j f j ( х i ) = 0.

N k (3.9) Рассматривая выражение (3.9) как уравнение и слегка преобразуя его, получим:

i = 1 f m ( х i ) j = 1 j f j ( х i ) = i = 1 f m ( х i ) y i.

N k N (3.10) Поменяв местами в левой части уравнения (3.10) символы суммиро вания, окончательно получим:

j =1 j i =1 f m ( х i ) f j ( х i ) = i =1 f m ( хi ) yi.

k N N (3.11) В.А.Пантелеев - 83 - РЕГРЕССИОННЫЙ АНАЛИЗ Уравнение (3.11) записано для произвольного (m-го) коэффициента.

Выпишем подробно всю систему из k уравнений (k – число коэффициентов уравнения регрессии):

1 i =1 f 1 ( х i ) f 1 ( х i ) + L + k i =1 f 1 ( х i ) f k ( х i ) = i =1 f 1 ( х i ) yi ;

N N N 1 i = 1 f 2 ( х i ) f 1 ( х i ) + L + k i =1 f 2 ( х i ) f k ( х i ) = i = 1 f 2 ( х i ) yi ;

N N N (3.12) LLLLLLLLLLLLLLLLLLLLLLLLL 1 i =1 f k ( х i ) f 1 ( х i ) + L + k i =1 f k ( х i ) f k ( х i ) = i =1 f k ( х i ) yi.

N N N Система (3.12) представляет собой систему из k линейных алгебраи ческих уравнений с k неизвестными 1, 2,..., k. Она носит название сис темы нормальных уравнений. Для получения общего решения системы нормальных уравнений удобно воспользоваться матричным методом.

Определим прямоугольную матрицу размера [N k ]:

f1 (х1 ) f2 (х1 ) fk (х1 ) L f (х ) fk (х 2 ) f2 (х 2 ) L X=.

(3.13) L L L L f1 (х N ) f2 (х N ) f k ( х N ) L Произведение матриц X T X = A определит матрицу А размером [k k ], элементы которой будут равны:

a mj = i = 1 f m ( х i ) f j ( х i ).

N (3.14) Матрица X T X – квадратная и, как видно из соотношения (3.14), симметричная (не меняется при замене строк столбцами). Эта матрица но сит название информационной матрицы Фишера.

Определим матрицу Y размера [ N 1] :

y y Y =.

(3.15) M yN В.А.Пантелеев - 84 - РЕГРЕССИОННЫЙ АНАЛИЗ Тогда можно записать:

f1 (х1 ) f1 (х 2 ) L f 1 ( х N ) y 1 i = 1 f 1 ( х i ) yi N f (х ) f 2 ( х N ) y 2 N f2 (х 2 ) L f 2 ( х i ) yi X Y = = T. (3.16) i = M M M M M M fk (х1 ) fk (х 2 ) L f k ( х N ) y N N f k ( х i ) yi i =1 Сравнивая уравнения (3.14) и (3.16) с (3.12), легко видеть, что в мат ричном виде система нормальных уравнений (3.12) может быть записана следующим образом:

X T X = X T Y, (3.17) где = 2 – вектор неизвестных параметров.

M k При решении матричных уравнений необходимо учитывать особен ности матричной алгебры, в частности отсутствие в ней операции деления.

Матрица X T X квадратная. Предполагаем, что она невырождена (т.е.

ее определитель не равен нулю). В этом случае она имеет обратную мат ( ) рицу X T X. Умножим обе части уравнения (3.17) слева на матрицу (X X ) T (напомним, что в матричной алгебре умножение справа и умно жение слева – это разные операции):

(X X ) ( ) 1 X T X = X T X T X TY. (3.18) По определению результат умножения всякой квадратной матрицы на обратную ей (справа или слева) представляет собой единичную матри цу:

В.А.Пантелеев - 85 - РЕГРЕССИОННЫЙ АНАЛИЗ 1 0 L 0 1 L (X X ) X X = E = L L L L, T T 0 0 L поэтому выражение (3.18) можно записать:

( ) = XT X X TY. (3.19) Выражение (3.19) представляет собой общую формулу для вычисле ния оценок коэффициентов линейного по параметрам уравнения регрессии (3.7).

Рассмотрим использование формулы (3.19) на примере, приведенном в начале данного параграфа. Уравнение регрессии y = 1 x + 2 можно за писать как y = 1 f 1 ( x ) + 2 f 2 ( x ), где f 1 ( x ) = x, а f 2 ( x ) 1.

В этом случае матрица X (которая здесь будет иметь размер [N 2 ] ) запишется:

x1 x X=.

M M xN Определим матрицу X T X :

x1 L x N x2 1 i = 1 x i2 i =1 xi.

N N x x2 = XT X = 1 M M xi N 1 1 L 1 N i =1 xN Известно, что если определитель матрицы A равен, то произволь ный элемент a 1 обратной матрицы A 1 равен:

jm ( 1) j + m = a M mj, (3.20) jm В.А.Пантелеев - 86 - РЕГРЕССИОННЫЙ АНАЛИЗ где M mj – минор, т.е. определитель матрицы, полученной из матрицы A вычеркиванием m-ой строки и j-гo столбца. Воспользовавшись формулой (3.20), найдем:

1 ( 1) N ( 1)3 iN= 1 x i (X X ) =, T ( 1)3 iN 1 x i ( 1)4 iN= 1 x i = ( ) где = N i = 1 x i2 i = 1 x i – определитель матрицы X T X.

N N Рассчитаем произведение y L x N y 2 i = 1 x i yi N x x2 X TY = 1 M =.

i = 1 yi N 1 1 L yN Теперь определим вектор оценок коэффициентов уравнения регрес сии:

N xi yi xi yi N x i2 ( x i ) x i x i y i 1 N.

= 1 = = x xi yi i xi yi xi yi 2 x i N x i2 ( x i ) Видно, что этот результат полностью совпадает с результатом (3.6), полученным ранее.

Ввиду важности формулы (3.19) рассмотрим ее использование еще на одном примере.

Пусть уравнение регрессии имеет вид y = 1 + 2 ( x 1 + x 2 ), а таблица экспериментальных данных:

Номер х1 х2 y эксперимента 1 1 1 2 1 2 В.А.Пантелеев - 87 - РЕГРЕССИОННЫЙ АНАЛИЗ 3 2 1 4 2 2 Из уравнения регрессии легко видеть, что f 1 ( x ) = f 1 ( x1, x 2 ) 1, а f 2 ( x ) = f 2 ( x 1, x 2 ) = x 1 + x 2, поэтому матрица X запишется:

f1 (x1 ) f 2 ( x 1 ) 1 f (x ) f 2 ( x 2 ) 1 X= =.

f1 (x 3 ) f 2 ( x 3 ) 1 f1 (x 4 ) f 2 ( x 4 ) 1 Произведем расчеты:

1 3 4 1 1 1 1 1 = T X X = ;

5 16 2 3 5 6 1 1 ( ) = det X T X = 4 74 16 16 = 40 ;

1 ( 1)2 74 ( 1)3 16 = 1.85 0. (X X ) T = ;

( 1)4 4 0.4 0. 40 ( 1)3 16 1 1 1 1 7 T X Y = = ;

2 3 5 6 11 1.85 0.4 36 = 1 = =.

2 0.4 0.1 164 Таким образом, мы нашли, что математическая модель может быть ( ) записана как €( x 1, x 2 ) = 1 + 2 x 1 + x y В.А.Пантелеев - 88 - РЕГРЕССИОННЫЙ АНАЛИЗ 3.3 СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЦЕНОК КОЭФФИЦИЕНТОВ ЛИНЕЙНОЙ РЕГРЕССИИ Оценки коэффициентов линейной регрессии, полученные по форму ле (3.19), являются точечными оценками. Поэтому важно оценить их ста тистическое качество.

Вначале покажем несмещенность этих оценок, т.е. равенство мате матического ожидания оценок оцениваемому параметру.

Пусть при справедливости линейной модели истинные коэффициен b b ты регрессии составляют вектор B = 2, что соответствует выражению M bk M {Y } = XB. (3.21) Для проверки несмещенности, как уже отмечалось, необходимо най ти математическое ожидание оценок:

{ } M { } = M (X T X ) X T Y.

(3.22) В соответствии с третьей предпосылкой регрессионного анализа факторы являются неслучайными величинами. Поэтому произведение ( ) матриц X T X X T можно вынести из-под знака математического ожида ния:

( ) M{ } = X T X X T M {Y }.

(3.23) С учетом соотношения (3.21) выражение (3.23) перепишется:

( ) M{ } = X T X X T XB = B. (3.24) Из формулы (3.24) следует, что математическое ожидание оценок, В.А.Пантелеев - 89 - РЕГРЕССИОННЫЙ АНАЛИЗ определяемых по формуле (3.19), равно оцениваемому параметру В, т.е.

оценки являются несмещенными.

Найдем дисперсию полученных оценок. Дисперсия случайного век тора представляет собой не число, а матрицу, которая называется матри цей дисперсий-ковариаций или дисперсионной матрицей. Она определя ется по формуле (1.100):

o o T { } D{ } = M = M ( B )( B ).

T (3.25) В соответствии с формулой (3.23) можно записать:

( ) ( ) X T M {Y } = 1 B = XT X X TY X T X (3.26) ( ) (Y M {Y }).

T T =XX X Введем стандартное обозначение для вектора центрированных от кликов:

y 1 M {y 1 } y M {y } o Y = Y M {Y } =.

M y N M {y N } Тогда, с учетом соотношения (3.26), выражение (3.25) запишется:


T 1 T o T 1 T o T D{ } = M ( X X ) X Y ( X X ) X Y.

(3.27) Известно, что при транспонировании произведения матриц меняется порядок их умножения, т.е.

( ABC )T = C T B T AT.

Учитывая это обстоятельство, а также симметричность матрицы (X X ) T, в силу которой она не меняется при транспонировании, соотно В.А.Пантелеев - 90 - РЕГРЕССИОННЫЙ АНАЛИЗ шение (3.27) можно переписать следующим образом:

T 1 T o o T D{ } = M ( X X ) X Y Y X ( X T X ).

(3.28) В соответствии с третьей предпосылкой регрессионного анализа факторы являются неслучайными величинами, поэтому они могут быть вынесены за знак математического ожидания. Запишем математическое ожидание от случайных компонент выражения (3.28):

o o o o o o y1 y1 y1 y 2 y1 y N L o o y y L y2 y N.

o o o o o o T y2 y M Y Y = M 2 1 (3.29) L L L L o o o o o o y N y1 y N y2 L yN yN По определению каждый элемент этой матрицы после применения к нему оператора математического ожидания становится ковариацией соот ветствующих компонент т.е.:

M y i y j = Cov{ y i, y j }.

o o (3.30) В соответствии с первой предпосылкой регрессионного анализа от клики в разных экспериментах являются независимыми случайными вели чинами, поэтому их ковариации должны быть равны нулю:

Cov { y i, y j } = 0, i j.

По определению, ковариация случайной величины с собой – это дисперсия:

Cov { y i, y i } = D{ y i }.

В соответствии со второй предпосылкой регрессионного анализа все дисперсии откликов равны. Если эту общую дисперсию отклика обозна чить через y, то окончательно соотношение (3.30) можно записать сле дующим образом:

В.А.Пантелеев - 91 - РЕГРЕССИОННЫЙ АНАЛИЗ o o M y i y j = y ij, (3.31) 1, при i = j где ij = – символ Кронекера.

0, при i j С учетом соотношения (3.31) выражение (3.29) можно переписать:

y 0 L o o T 0 y L = yE M Y Y = (3.32) L L L L L y 0 где E – единичная матрица.

Учитывая соотношение (3.32), можно переписать соотношение (3.28):

D{ } = y ( X T X ) X T X ( X T X ) = y (X T X ).

1 1 2 (3.33) Статистические свойства любого случайного вектора, компоненты которого имеют нормальное распределение, полностью определяются структурой дисперсионной матрицы этого вектора. Поэтому, исходя из структуры формулы (3.33), легко видеть, что статистические характери стики оценок коэффициентов линейного уравнения регрессии не зависят от значений откликов (вектора Y). Они определяются только условиями проведения эксперимента (матрица X) и его погрешностью 2. Отсюда y можно сделать принципиально важный вывод, что, выбрав соответст вующим образом условия проведения эксперимента, можно добиться желательных статистических свойств оценок коэффициентов. Како вы же эти желательные свойства, и каким образом выбираются условия для их достижения, изучает наука, которая называется планирование экс перимента.

В.А.Пантелеев - 92 - РЕГРЕССИОННЫЙ АНАЛИЗ 3.4 СТАТИСТИЧЕСКИЙ АНАЛИЗ УРАВНЕНИЯ РЕГРЕССИИ При нахождении и интерпретации регрессионных зависимостей ка ждый этап расчета должен сопровождаться статистическим анализом, не обходимым как для проверки предпосылок регрессионного анализа, так и для получения содержательных выводов по его результатам. Рассмотрим основные этапы этого анализа.

Вначале констатируется размерность задачи. Пусть всего было про изведено N опытов при различных значениях вектора факторов, и при этом каждый из опытов дублировался n раз. (Таким образом, общее число экс периментов составило nN).

Произведем первичную обработку имеющихся экспериментальных данных. Обозначим значение отклика, полученное в j-ой повторности i-го опыта через y ij. Тогда можно вычислить среднее значение отклика в i-ом эксперименте:

1n yij, (i = 1, N ), yi = (3.34) n j= а также оценку дисперсии в том же i-ом эксперименте:

( ), (i = 1, N ).

j = 1 y ij y i n s i2 = (3.35) n Проверка воспроизводимости является первым этапом статистиче ского анализа и состоит в проверке второй предпосылки регрессионного анализа, состоящей в требовании равенства всех дисперсий откликов, т.е. в проверке статистической гипотезы о равенстве дисперсий в разных точках эксперимента.

Для проверки этой гипотезы используется критерий Кохрена. Из по лученных выборочных дисперсий (3.35) выбирается максимальная smax и составляется статистика Кохрена (2.40):

smax G= 2, (3.36) s1 + s 2 + L + s N 2 В.А.Пантелеев - 93 - РЕГРЕССИОННЫЙ АНАЛИЗ которая сравнивается с табличным значением G ( 1, 2 ), где соответст вующие степени свободы равны:

1 = n 1, 2 = N. (3.37) В случае если экспериментальное значение статистики G меньше табличного, у нас нет оснований отвергнуть гипотезу о равенстве диспер сий откликов. Если же это не так, то принимается гипотеза о различии дисперсий откликов. В этом случае нельзя использовать формулу (3.19) для поиска оценок коэффициентов регрессии (т.к. такие оценки будут смещенными), и следует переходить к использованию аппарата так назы ваемого взвешенного метода наименьших квадратов (который мы в этой книге не рассматриваем).

В случае же справедливости гипотезы о равенстве дисперсий, все N дисперсий (3.35) могут рассматриваться как оценки одной и той же вели чины 2, и поэтому их следует усреднить. Результат такого усреднения y носит название дисперсии воспроизводимости:

i = 1 si2.

N sв2 = (3.38) N Так как оценки дисперсий (3.35) получены по выборкам одинакового объема n, то с каждой из них связано n 1 степеней свободы. С дисперси ей же воспроизводимости связано число степеней свободы, в N раз боль шее:

в = N (n 1) (3.39) Напомним, что по определению число степеней свободы любой ста тистики равно объёму выборки минус количество параметров в данной статистике, рассчитанных по той же выборке. В данном случае это Nn (объём выборки) минус N (средние по каждому опыту).

По своему смыслу дисперсия воспроизводимости характеризует раз брос единичного измерения y ij, т.е.:

{} € sв = D y ij, i = 1 N, j = 1 n.

Оценка же дисперсии усредненного по n повторностям значения y i будет в n раз меньше:

В.А.Пантелеев - 94 - РЕГРЕССИОННЫЙ АНАЛИЗ €{y } = s 2 = sв, i = 1 N.

Di (3.40) y n Число степеней свободы выборочной дисперсии s 2 совпадает с чис y лом степеней свободы дисперсии воспроизводимости (3.39).

После проверки второй предпосылки регрессионного анализа (гипо тезы об однородности дисперсий в разных точках эксперимента) можно приступить к следующему этапу расчета, которым является определение оценок коэффициентов регрессии по формуле (3.19), а также оценки их дисперсионной матрицы:

( ) D{ } = C = s 2 X T X €. (3.41) y Матрица C такова, что ее диагональные элементы служат оценками дисперсий соответствующих коэффициентов регрессии ^ с ii = D{ i }, а внедиагональные – оценками соответствующих ковариаций:

c ij = Cov{ i, j }.

^ Следующим этапом после расчета коэффициентов уравнения регрес сии является проверка адекватности модели (уравнения регрессии).

Проверка адекватности уравнения регрессии – это эксперимен тальное исследование методом проверки статистических гипотез соответ ствия формы, вида уравнения регрессии исследуемому объекту. Адекват ный – это равный, вполне соответствующий, тождественный. Дословно с латинского – приравненный. По определению модель называется адекват ной объекту, если ее расхождение с объектом (экспериментальными дан ными) может быть объяснено погрешностью эксперимента.

Суть этой проверки состоит в следующем. После нахождения оценок коэффициентов регрессии по формуле (3.19) полученные оценки могут быть подставлены в уравнение регрессии (3.7), которое тем самым пре вращается в функцию от вектора факторов х. Подставляя в эту функцию значения вектора факторов, соответствующие условиям i-го эксперимента В.А.Пантелеев - 95 - РЕГРЕССИОННЫЙ АНАЛИЗ х i, можно найти значение отклика €i, предсказанное моделью (3.7), т.е.

y оценку отклика по модели:

€i = 1 f 1 ( x i ) + 2 f 2 ( x i ) + L + k f k ( x i ). (3.42) y Отличие этого значения от экспериментального (усредненного по повторностям) y i может быть объяснено двумя причинами:

1) погрешностью эксперимента;

2) несоответствием (неадекватностью) модели и объекта.

Составим статистику, которая называется дисперсией адекватно сти:

i = 1 ( yi €i )2.

N sад = y (3.43) N k Очевидно, что эта статистика, имеющая число степеней свободы v ад = N k, будет характеризовать расхождение между моделью и экспе риментом, обусловленное обеими вышеназванными причинами. В том случае, если вторая причина (т.е. неадекватность модели) отсутствует, дисперсия адекватности обуславливается только погрешностью экспери мента, и поэтому она будет оценкой дисперсии усредненного отклика sад = D{y}.

€ Поэтому при условии адекватности модели как sад, так и s 2 являют y ся оценками одной и той же величины D{y}, что позволяет проверку адек ватности модели свести к проверке статистической гипотезы о равенстве двух дисперсий. Такая гипотеза, как известно, проверяется с помощью ста тистики Фишера s ад F= 2, (3.44) sy экспериментальное значение которой (3.44) сравнивается с табличным значением F-критерия F (v ад, v в ).

В случае, если экспериментальное значение меньше табличного, у В.А.Пантелеев - 96 - РЕГРЕССИОННЫЙ АНАЛИЗ нас нет оснований отвергнуть гипотезу о равенстве дисперсий (и, следова тельно, об адекватности модели). Если же экспериментальное значение больше табличного, то модель признается неадекватной объекту, и необ ходимо искать новую форму зависимости (3.7). (Как правило, это делается путем введения дополнительных членов в уравнение регрессии).

Если уравнение регрессии (модель) адекватно объекту, то оно может быть использовано для технологических расчетов (моделирования), т.е.

вычисления значений отклика при произвольном (не обязательно встре чавшемся в эксперименте) значении вектора факторов.

Построение коридора ошибок Вычисленное по модели значение €, предсказывающее значение от y клика в произвольной точке факторного пространства, как уже указыва лось, является оценкой отклика, т.е. случайной величиной, и поэтому сразу же возникает вопрос о точности такого предсказания. Эта точность может характеризоваться соответствующей дисперсией.

В теории вероятностей доказывается, что если случайная величина является линейной комбинацией компонент некоторого случайного векто 1 a 2 с постоянным коэффициентами A = a 2, т.е.:

ра = M M k a k = A T = a 1 1 + a 2 2 + L + a k k, то дисперсия случайной величины равна:

D{ } = AT DA, (3.45) где D = D{ } – дисперсионная матрица случайного вектора.

Уравнение регрессии (3.42) можно также рассматривать как линей ную комбинацию компонент случайного вектора с неслучайными функ циональными коэффициентами f i ( х ). А т.к. матрица (3.41) является оцен кой дисперсионной матрицы вектора, то для оценки дисперсии € можно y записать:

( ) D{€} = F T CF = s 2 F T X T X €y F, (3.46) y В.А.Пантелеев - 97 - РЕГРЕССИОННЫЙ АНАЛИЗ f 1 ( x ) f ( x ) где F = 2 – функциональный вектор-столбец, составленный из M f k ( x ) функций от вектора факторов x, входящих в уравнение (3.42).

Статистика (3.46) носит название дисперсии предсказания. С ней связано в число степеней свободы (3.39).

Зная дисперсию случайной величины, можно вычислить ее интер вальную оценку (доверительный интервал):

( ) € ( x ) = t в D{€} = tв s 2 F T X T X €y €y v F, (3.47) y где t – число Стьюдента.

Очень важно отметить, что рассчитанный доверительный интервал (3.47) не является постоянной величиной, т.к. функциональный вектор F зависит от вектора факторов. Поэтому при построении графика модели сверху и снизу от линии отклика следует откладывать значение погрешно сти отклика. В результате сверху и снизу линии регрессии (модели) поя вятся линии, определяющие верхнюю и нижнюю границы погрешности отклика:

y верх ( x ) = €( x ) + € ( x );

€y y (3.48) y нижн ( x ) = €( x ) € ( x ).

€y y Пространство, ограниченное этими линиями, называется коридором ошибок. Коридор ошибок представляет собой интервальную оценку линии регрессии в отличие от графика функции €( x ) = 1 f 1 ( x ) + 2 f 2 ( x ) + L + k f k ( x ), y который представляет собой точечную оценку регрессии.

Важно отметить, что коридор ошибок, как правило, наиболее узок в области проведения эксперимента и неуклонно расширяется при удалении от неё. Это является математическим выражением того факта, что точность прогноза существенно снижается по мере удаления от области экспери ментирования. Очевидно, что в той области, где погрешность отклика ста В.А.Пантелеев - 98 - РЕГРЕССИОННЫЙ АНАЛИЗ новится сравнимой с самим значением отклика, предсказание теряет смысл. Расчёт области, в которой погрешность модели (прогноза, экстра поляции) не превышает приемлемой для исследователя величины, позво ляет вычислять естественные границы применимости любой модели.

Построение доверительного эллипсоида. Доверительные интерва лы одномерных случайных величин – это такие интервалы, которые со держат внутри себя истинное значение оцениваемого параметра с заданной вероятностью. С геометрической точки зрения они представляют собой отрезок прямой. Многомерным обобщением доверительного интервала яв ляется доверительная область. По определению доверительной называ ется такая область k-мерного пространства, которая с заданной вероятно стью содержит в себе истинное значение оцениваемого k-мерного вектора.

Применительно к вектору оценок коэффициентов уравнения регрессии до верительная область – это такая часть k-мерного пространства коэффици ентов регрессии, которая с заданной вероятностью содержит в себе вектор истинных значений этих коэффициентов.

Специальными исследованиями показано, что для случая линейной регрессии доверительная область представляет собой k-мерный эллипсоид, границы которого определяются уравнением:

( 0 )T X T X ( 0 ) = ks 2 F (k, v в ), (3.49) y где k – число коэффициентов уравнения регрессии, 0 = ( X T X ) X T Y – вектор оценок коэффициентов регрессии, полученный по формуле (3.19), F (k, v в ) – табличное значение критерия Фишера с уровнем значимости и степенями свободы k и v в.

Вектор в формуле (3.49) – переменный и связь между его компо нентами, задаваемая формулой (3.45), представляет собой уравнение эл липсоида.

В общем случае этот эллипсоид ориентирован своими главными осями произвольно по отношению к осям координат ( 1, 2,K, k ) и имеет центр в точке 0. Из алгебры известно, что всякую квадратичную форму можно привести к каноническому виду при помощи переноса начала коор динат и поворота координатных осей. В таких новых (канонизирующих) координатах, которые мы обозначим (z 1, z 2,K, z k ), уравнение (3.49) запи шется:

1 z 1 + 2 z 2 + L + k z k = ks 2 F (k, v в ) 2 2 (3.50) y В.А.Пантелеев - 99 - РЕГРЕССИОННЫЙ АНАЛИЗ где i – собственные числа матрицы Фишера X T X (они все положитель ны в силу положительной определенности матрицы X T X ).

Связь между новыми и старыми координатами задается формулой ортонормированного преобразования:

z z Z = = U ( 0 ), (3.51) M zk где U – матрица ортонормированного преобразования, состоящая из нор мированных собственных векторов матрицы X T X. Длины главных полу осей эллипсоида задаются формулой:

ks 2 F (k, v в ).

z i0 = (3.52) y i Определение собственных чисел и компонент матрицы ортонорми рованного преобразования производится методами линейной алгебры.

Подробно на примере эта процедура будет рассмотрена в следующем пара графе.

3.5 ПРИМЕР СТАТИСТИЧЕСКОГО АНАЛИЗА УРАВНЕНИЯ РЕГРЕССИИ Рассмотрим на примере те операции, которые были приведены в пре дыдущем параграфе. Пусть таблица экспериментальных данных имеет следующий вид.

Таблица Номер xi yi1 yi2 yi опыта 1 1,00 2,90 3,48 4, В.А.Пантелеев - 100 - РЕГРЕССИОННЫЙ АНАЛИЗ 2 1,02 2,93 5,05 5, 3 1,13 5,07 5,31 2, 4 1,47 5,04 5,60 4, 5 1,69 5,40 5,11 5, 6 1,71 4,91 5,23 5, 7 1,81 5,29 4,29 6, 8 1,90 6,15 4,53 5, 9 2,00 6,29 7,39 6, Как видно, таблица содержит в себе результаты девяти эксперимен тов, проведенных при условиях (т.е. при значениях факторов) x 1, x 2 K, x 9.

Каждый из экспериментов дублировался трижды, и, соответственно, полу чено три значения отклика для каждого эксперимента: y i 1, y i 2, y i 3, где i – номер эксперимента. Таким образом, проведено 27 опытов, из которых только 9 – при разных значениях факторов.

Пусть предполагается, что математическая модель (уравнение рег рессии) имеет вид:

y = a + bx 2, где a и b – подлежащие оценке коэффициенты уравнения регрессии.

Определим размерность задачи:

• число опытов N = 9;

• число повторностей каждого опыта n = 3;

• число коэффициентов уравнения регрессии k = 2.

Вначале рассчитаем средние значения откликов по формуле (3.34).

Например, для первого опыта можно записать:

(2,9 + 3,48 + 4,75 ) = 3,71.

y1 = Проделав эту операцию для всех девяти опытов, запишем результаты в таблицу 2.

Следующим шагом является расчет выборочных дисперсий (т.е.

оценок дисперсий) для каждого из девяти опытов по формуле (3.35). На пример, для первого опыта получим:

[ ] (2,9 3,71)2 + (3,48 3,71)2 + (4,75 3,71)2 = 0,8953001.

s1 = В.А.Пантелеев - 101 - РЕГРЕССИОННЫЙ АНАЛИЗ Рассчитав таким образом все 9 выборочных дисперсий, запишем их также в таблицу 2.

Таблица €i = €( x i ) ( yi €i ) s i xi yi y y y 1,00 3,710000 0,8953001 4,011688 0, 1,02 4,356667 1,5269300 4,040112 0, 1,13 4,320000 2,2851020 4,206507 0, 1,47 4,936666 0,5192347 4,828467 0, 1,69 5,400000 0,0840964 5,317592 0, 1,71 5,096666 0,0277372 5,365435 0, 1,81 5,360000 1,2247000 5,613093 0, 1,90 5,433333 0,6822352 5,848016 0, 2,00 6,740000 0,3324916 6,122411 0, Следующий этап состоит в проверке второй предпосылки регресси онного анализа, т.е. в проверке статистической гипотезы об однородности (равенстве) дисперсий во всех опытах, по-другому называемой проверкой воспроизводимости. Для этого по формуле (2.40) или (3.36) рассчитываем статистику Кохрена, поделив максимальную из выборочных дисперсий от кликов на их сумму:

2, G= = 0,3016, si i = и сравниваем ее с табличным значением G0.05 (2 ;

9 ) = 0,4775.

Видно, что экспериментальное значение меньше табличного, следо вательно, вторая предпосылка регрессионного анализа выполняется. А это означает, что можно воспользоваться формулами (3.38) и (3.40) для расчё та дисперсии воспроизводимости и дисперсии среднего значения отклика:

si = 0,8419808 ;

sв = 9 i = sв 0, s2 = = = 0,2806602.

y n В.А.Пантелеев - 102 - РЕГРЕССИОННЫЙ АНАЛИЗ Отметим, что число степеней свободы обеих этих дисперсий равно (3.39):

в = N (n 1) = 9 (3 1) = 18.

После проверки выполнения второй предпосылки регрессионного анализа можно приступить к расчету оценок коэффициентов уравнения регрессии. С этой целью запишем матрицу Х.

Так как в нашей модели f 1 ( x ) 1, а f 2 ( x ) = x 2, то матрица Х запи шется:

1 1, 1 1, 1 1, 1 2, X = 1 2,8561.

1 2, 1 3, 1 3, 1 4, Произведем матричные расчеты:

9,00000 22, XT X = ;

22,14450 64, 0, (X X ) 0, T = ;

0, 0,237306 45, X TY = ;

118, ( ) 3, = 1 = XT X X TY =.

2 0, В.А.Пантелеев - 103 - РЕГРЕССИОННЫЙ АНАЛИЗ € Мы получили, что a = 1 = 3,308113, а b = 2 = 0,7035743. Следова € тельно, уравнение регрессии можно записать как €( x ) = 3,308113 + 0,7035743 x 2. (3.53) y Проверим адекватность полученного уравнения. Вначале рассчитаем предсказанные моделью значения отклика в точках эксперимента. Напри мер, для первого эксперимента €1 = €( x1 ) = 3,308113 + 0,7035743(1,00 )2 = 4,011688.



Pages:     | 1 || 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.