авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 ||

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ТИХООКЕАНСКИЙ ГОСУДАРСТВЕННЫЙ ...»

-- [ Страница 3 ] --

Подобным образом можно получать реплики различной дробности для сокращения числа опытов полных факторных экспериментов типа 2k за ис ключением ТОЛЬКО ПФЭ–22. Отдельно отметим, что для ПФЭ–23 возможно получение ТОЛЬКО полуреплики, реплики большей дробности можно полу чить для экспериментов 2k, где k 3.

4 Введение в факторные планы Для обозначения дробных реплик предусмотрено специальное обозна чение:

2k – p, (*) где k – число факторов полного факторного эксперимента, для которого строится дробная реплика;

p – число взаимодействий, которыми пренебрегаем при построении дробной реплики.

Для нашего примера: число факторов в ПФЭ, для которого строится реплика равно 3, число взаимодействий, которыми пренебрегли равно 1. То гда обозначение нашей полуреплики имеет вид 23–1.

Обозначение полуреплик имеет под собой несколько смыслов, один из которых мы только что привели. Есть и другие скрытые «резервы» у этого обозначения. Если уметь его правильно читать, можно выяснить и уровень дробности реплики, и на основе какого плана меньшей размерности будет строиться дробная реплика ПФЭ более высокой размерности. Покажем эти моменты.

Уровень дробности реплики можно в общем случае записать формулой 1/2p. Если в показателе степени у формулы (*) произвести вычитание k–p, то полученный показатель степени укажет, какой ПФЭ–план низшей размерно сти берется за основу при построении 1/2p – реплики ПФЭ большей размер ности.

Поясним данные моменты на нашем примере. Нами, как установлено выше была получена полуреплика ПФЭ–23, которая обозначается как 23–1. В данном обозначении k=3, p=1. Дробность реплики, как сказано в предыду щем абзаце устанавливается формулой 1/2p. Применяя к нашему примеру, получим, что 23–1 есть 1/21–реплика, т.е. полуреплика. Построение этой полу реплики производится на основе плана ПФЭ 23-1=22, что и было проделано нами ранее.

123 Планирование и организация эксперимента Таким образом, можно сказать, что обозначение дробных реплик (*) предоставляет экспериментатору максимально возможную информацию о способе образования и разрядности дробной реплики.

4.4.2 Определяющий контраст, генерирующее соотношение.

Планы с разрешающей способностью III Можно заметить, что образование нашей полуреплики велось с исполь зованием для нового фактора х3 простого математического уравнения: х3 = х1х2. Нетрудно видеть, что, если к этой матрице ниже дописать такую же по луреплику, но с использованием уравнения х3 = – х1х2, то получим матрицу ПФЭ–23. Таким образом, в зависимости от того, какое из двух упомянутых уравнений будем использовать для образования вектор–столбца нового фак тора, получим различные части матрицы полного факторного эксперимента.

Эти два уравнения можно переписать иначе, домножив обе части каждого из уравнений на «новый» фактор х3:

х3 = х1х2 х1х2х3 = + х3 = – х1х2 х1х2х3 = – Символическое обозначение произведения столбцов, равное +1 или –1, называется определяющим контрастом. Помимо того, чтобы указывать на ту часть матрицы ПФЭ, которая представлена в дробной реплике, опреде ляющий контраст помогает определять какие эффекты будут смешаны между собой. Для этого необходимо умножить обе части определяющего контраста на столбец, соответствующий данному эффекту.

В нашем примере используется первый определяющий контраст. Ис пользуя его, определим, каким образом смешиваются эффекты в нашей ма тематической модели. Для этого соответствующий определяющий контраст 4 Введение в факторные планы будем последовательно умножать на эффекты х1, х2, х3. Напротив каждого полученного уравнения запишем, оценками каких эффектов являются коэф фициенты нашей математической модели. При этом латинскими буквами bi будем обозначать коэффициенты математической модели, а греческими бук вами i – истинные значения вкладов каждого эффекта в изменчивость пара метра оптимизации.

х1 = х2х3 b1 1 + х2 = х1х3 b2 2 + х3 = х1х2 b3 3 + Соотношение, показывающее, с каким из эффектов смешан данный эффект, называется генерирующим соотношением. Т.е. выражения пред ставляют собой генерирующие соотношения.

Что означают подобные соотношения? Фактически, эта запись показы вает, что наша математическая модель проводит следующую замену:

y = 0 + 1x1 + 2x2 + 3x3+ 23x2x3 + 13x1x3 + 12x1x b1x b3x b2x в результате чего на свет появляется уравнение y = 0 + b1x1 + b2x2 + b3x3.

«Чистым» в такой модели остается только свободный коэффициент. Однако, если помимо простого взаимодействия в математической модели наблюда 125 Планирование и организация эксперимента ются и квадратичные коэффициенты, то свободный коэффициент будет сме шиваться с ним.

С практической точки зрения подобные замены могут означать только одно: построенная таким образом математическая модель будет нечувстви тельна к оценке, какое именно взаимодействие дало тот или иной вклад в из менение параметра оптимизации – главный эффект (т.е. сам фактор) или же взаимодействие эффектов друг с другом. В том случае, когда взаимодействие эффектов носит незначительный характер, ничего фатального не произойдет.

Однако, если хотя бы один из эффектов взаимодействия играет существен ную роль, математическая модель, определенная таким образом, будет выда вать ошибку в прогнозировании результатов. Подобные ошибки могут быть как не заслуживающими внимание, так и фатальными. Поэтому очень важно знать, где именно модель будет наиболее уязвима в плане достоверности.

Вернемся к нашему примеру и построенной полуреплике. Из генери рующих соотношений видно, что при построении полуреплики 23-1 происхо дит смешивание основных эффектов с эффектами взаимодействия первого порядка. Подобные планы называются планами с разрешающей способно стью III. В общем случае разрешающая способность плана определяется по наибольшему числу факторов в определяющем контрасте. Обозначение на шей полуреплики в таком случае будет иметь вид 2 31 – полуреплика ПФЭ– III 23 с разрешающей способностью III.

Еще раз отметим особенность планов с разрешающей способностью III.

Не смешанным остается только свободный коэффициент, главные эффекты смешиваются с эффектами взаимодействия первого порядка.

4 Введение в факторные планы 4.43 Планы с разрешающей способностью IV, V Попробуем произвести построение полуреплик для ПФЭ–24. При этом в качестве основы для построения полуреплик выбирается ПФЭ–23. Запишем математическую модель для ПФЭ–23, учитывая парные и тройные взаимо действия:

y = b0 + b1x1 + b2x2 + b3x3 + b12x1x2 + b13x1x3 + b23x2x3 + b123x1x2x3.

Для образования полуреплики необходимо пренебречь одним из эф фектов взаимодействия. Очевидно, что, учитывая определяющий контраст, получим 8 вариантов:

контраст контраст Разрешающая способность +1 – плана х4 = х1х2 х4 = – х1х х4 = х1х3 х4 = – х1х3 III х4 = х2х3 х4 = – х2х х4 = х1х2х3 х4 = – х1х2х3 IV Нетрудно заметить, что две последних реплики имеют максимальную разрешающую способность и называются главными.

При отсутствии априорной информации об эффектах взаимодействия экспериментатор стремится выбрать реплику с наибольшей разрешающей способностью, т.к., как правило, чем выше степень взаимодействия, тем ме нее оно важно.

Определим систему смешивания для одной из главных полуреплик.

Выберем определяющий контраст х1х2х3х4 = +1. Получим 127 Планирование и организация эксперимента х1 = х2х3х4 b1 1 + х2 = х1х3х4 b2 2 + х3 = х1х2х4 b3 3 + х1х2 = х3х4 b12 12 + х1х3 = х2х4 b13 13 + х1х4 = х2х3 b14 14 + Таким образом, можно заметить, что:

1) ни один из главных эффектов не смешан с другим главным эффектом или парным взаимодействием;

2) все парные взаимодействия смешаны друг с другом.

Два перечисленных момента представляют собой особенности и, одно временно, определение планов с разрешающей способностью IV.

Построим полуреплику, заданную определяющим контрастом х1х2х3х4 = +1. При этом вспомним правила буквенных обозначений строк матрицы и введем его. Тогда получим:

№ x1 x2 x3 x4 Буквенное (a) (b) (c) (d) обозначение 1 + + + + abcd 2 – + + – bc 3 + – + – ac 4 – – + + cd 5 + + – – ab 6 – + – + bd 7 + – – + ad 8 – – – – (1) 4 Введение в факторные планы т.е. все комбинации являются четными. Нетрудно убедиться, что при по строении полуреплики, задаваемой определяющим контрастом х1х2х3х4 = –1, получим матрицу, задаваемую нечетными комбинациями: a, b, c, d, abc, abd, acd, bcd. Такие полуреплики называют главными полурепликами, отчасти потому, что они обладают максимальной разрешающей способностью.

Рассмотрим построение полуреплики 25-1. В нашем распоряжении бу дет множество вариантов, достаточно вспомнить уравнение ПФЭ– y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + b12x1x2 + b13x1x3 + + b14x1x4 + b23x2x3 + b24x2x4 + b34x3x4 + b123x1x2x3 + + b134x1x3x4 + b234x2x3x4 + b124x1x2x4 + b1234x1x2x3x4.

Тогда можно получить следующие варианты:

контраст контраст Разрешающая способность +1 – плана х5 = х1х2 х5 = – х1х х5 = х1х3 х5 = – х1х х5 = х1х4 х5 = – х1х III х5 = х2х3 х5 = – х2х х5 = х2х4 х5 = – х2х х5 = х3х4 х5 = – х3х х5 = х1х2х3 х5 = – х1х2х х5 = х1х2х4 х5 = – х1х2х IV х5 = х1х3х4 х5 = – х1х3х х5 = х2х3х4 х5 = – х2х3х х5 = х1х2х3х4 х5 = – х1х2х3х4 V 129 Планирование и организация эксперимента Главными полурепликами здесь будут являться две последних, по скольку обладают наибольшей разрешающей способностью. Возьмем полу реплику, определяющуюся контрастом +1 = х1х2х3х4х5 и определим для нее систему смешивания х1 = х2х3х4х5 b1 1 + х2 = х1х3х4х5 b2 2 + х3 = х1х2х4х5 b3 3 + х4 = х1х2х3х5 b4 4 + х5 = х1х2х3х4 b5 5 + х1х2 = х3х4х5 b12 12 + х1х3 = х2х4х5 b13 13 + х1х4 = х2х3 х5 b14 14 + х1х5 = х2х4х5 b15 15 + х2х3 = х1х4 х5 b23 23 + х2х4 = х1х3 х5 b24 24 + х2х5 = х1х3 х4 b25 25 + х3х4 = х1х2х5 b34 34 + х3х5 = х1х2х4 b35 35 + х4х5 = х2х3 х5 b45 45 + Как хорошо видно из системы смешивания, главные эффекты здесь смешаны со взаимодействиями третьего порядка, а взаимодействия первого порядка – со взаимодействиями второго порядка. Такая система смешивания является одновременно особенностью и определением планов с разрешаю щей способностью V.

4 Введение в факторные планы Как правило, на полурепликах 25-1 работа с репликами данной дробно сти заканчивается, поскольку использование полуреплик 26-1 и т.д. не выгод но: число опытов большое, а система смешивания слишком сложная.

4.5 Выбор 1/4-реплик в ДФЭ-2k. Обобщающий определяющий контраст Ранее уже отмечалось, что с увеличением дробности реплики уменьша ется число опытов. А вместе с этим осложняется и система смешивания.

При исследовании влияния, например, пяти факторов можно поставить не 16 опытов, а только 8, т.е. воспользоваться репликой 25-2. Подобный под ход возможен в том случае, если переименовывать не один из столбцов взаи модействий, а два. При этом взаимодействия должны быть разного порядка.

Учитывая данные требования, возможно 12 решений для создания четверть– реплики:

x4 = x1x2, x5 = x1x2x x4 = x1x2, x5 = – x1x2x x4 = – x1x2, x5 = x1x2x x4 = – x1x2, x5 = – x1x2x x4 = x1x3, x5 = x1x2x x4 = x1x3, x5 = – x1x2x x4 = – x1x3, x5 = x1x2x x4 = – x1x3, x5 = – x1x2x x4 = x2x3, x5 = x1x2x x4 = x2x3, x5 = – x1x2x x4 = – x2x3, x5 = x1x2x x4 = – x2x3, x5 = – x1x2x 131 Планирование и организация эксперимента Допустим, для создания дробной реплики был выбран вариант x4 = x1x3, x5 = x1x2x3.

Тогда определяющими контрастами являются +1 = x1x3x4, +1 = x1x2x3x5.

Если перемножить эти определяющие контрасты, получится третье соотно шение, задающее элементы столбца +1 = x2x4x5. Чтобы полностью охаракте ризовать разрешающую способность реплики, необходимо записать обоб щающий определяющий контраст +1 = x1x3x4 =x2x4x5 = x1x2x3x5. В этом случае система смешивания определяется умножением обобщающего опре деляющего контраста последовательно на главные эффекты. В результате система смешивания получается довольно сложной.

х1 = х3х4 = х2х3х5 = х1х2х4х5 b1 1 + 34 + 235 + х2 = х1х2х3х4 = х4х5 = х1х3х5 b2 2 + 45 + 135 + х3 = х1х4 = х2х3х4х5 = х1х2х5 b3 3 + 14 + 125 + х4 = х1х3 = х2х5 = x1x2x3х4x5 b4 4 + 13 + 25 + х5 = х1х3х4х5 = х2х4 = х1х2х3 b5 5 + 24 + 123 + х1х2 = х2х3х4 = х1х4х5 = х3х5 b12 12 + 35 + 145 + х1х5 = х3х4х5 = х1х2х4= х2х3 b13 15 + 23 + 124 + x1x3x4 =x2x4x5 = x1x2x3x5 b134 134 + 245 + Как можно заметить из системы смешивания, практически все эффекты перемешиваются между собой, за исключением свободного члена. Таким об разом, модель теряет чувствительность к тому, какой именно эффект и какой степени дает вклад в изменчивость параметра оптимизации. Однако, если все 4 Введение в факторные планы эффекты, кроме главных, особого значения не имеют, можно и воспользо ваться данной моделью. В противном случае необходимо достроить чет верть-реплику до полуреплики или полного факторного эксперимента, чтобы освободить необходимые эффекты взаимодействия и повысить чувствитель ность построенной модели.

Дополнительно отметим тот факт, что построение реплик большей дробности ведется подобно описанному здесь принципу четверть-реплик, т.е.

строится обобщающий определяющий контраст, определяется система сме шивания, затем – строится матрица планирования и т.д. Единственное, что будет отличаться – при увеличении степени дробности система смешивания будет все сложнее, а полученная модель – все менее чувствительна.

На этой оптимистичной ноте позвольте нам остановить Ваше знакомст во с факторными планами. Конечно, это лишь самые азы. Однако, «перекор мив» Вас информацией, мы получим обратный рефлекс: вместо усвоения ма териала и готовности продолжать, мы лишь внушим ужас.

Поэтому, дав лишь понятия о факторных планах и основных приемах работы с ними, мы адресуем Вас ко второй части учебного пособия и пред ставленной ниже литературе, как только Вы будете готовы их осилить.

133 Планирование и организация эксперимента Послесловие Итак, мы закончили рассматривать общие вопросы «Планирования и организации эксперимента», затронув при этом лишь верхушку айсберга. Это хорошо становится понятно при изучении факторных планов (раздел 4).

Составляя данное пособие, мы постарались максимально понятно представить всю имеющуюся в литературе информацию, мягко и постепенно вводя читателей в терминологию. Надеемся, нам это удалось. А еще мы на деемся, что данный труд поможет студентам в усвоении представленной дисциплины.

В дальнейшем, как и говорилось в начале, предлагается освоение вто рой части учебного пособия, где расположены материалы уже на порядок сложнее: нелинейная регрессия, квадратичные планы, метод крутого восхож дения и т.д. Если же Вам показалось недостаточно представленной в обеих частях информации, в списке литературы даны те источники, на которые мы опиралась при создании данного издания и которые Вы можете прочитать самостоятельно.

А в «подарок» всем, читающим данное пособие, в Приложении В мы предлагаем краткий обзор статистического инструментария MS Excel, знание которого может облегчить статистическую обработку данных.

Самым терпеливым, дошедшим до конца, мы желаем благополучного усвоения прочитанного, и до новых встреч.

Список литературы Список литературы используемой и рекомендуемой *) I. Планирование и организация эксперимента 1. Адлер, Ю.П. Введение в планирование эксперимента / Ю.П. Адлер – М.:

Металлургия, 1969. – 320 с.

2. Адлер, Ю.П. Планирование эксперимента при поиске оптимальных ус ловий / Ю.П. Адлер, Е.В. Маркова, Ю.В. Грановский – М.: Наука, 1976.

– 290 с.

3. Монтгомери, Д.К. Планирование эксперимента и анализ данных / Д.К. Монтгомери – Л.: Судостроение, 1980. – 384 с.

4. Дэниел, К. Применение статистики в промышленном эксперименте / К. Дэниел – М.: Мир, 1979. – 300 с.

5. Хартман, К. Планирование эксперимента в исследовании технологиче ских процессов / К. Хартман [и др.] – М.: Мир, 1977. – 556 с.

6. Джонсон, Н. Статистика и планирование эксперимента в технике и нау ке. Ч. 1. Методы обработки данных / Н. Джонсон, Ф. Лион – М.: Мир, 1980. – 612 с.

7. Джонсон, Н. Статистика и планирование эксперимента в технике и нау ке. Ч. 2. Планирование эксперимента / Н. Джонсон, Ф. Лион – М.: Мир, 1981. – 520 с.

8. Дрейпер, Н. Прикладной регрессионный анализ / Н. Дрейпер, Г. Смит – М.: Диалектика-Вильямс, 2007. – 912 с.

9. Шеффе, Г. Дисперсионный анализ / Г. Шеффе – М.: Наука, 1980. – 511 с.

II. Статистика. Прикладная статистика 10. Леман, Э. Проверка статистических гипотез / Э. Леман – М.: Наука, 1979.408 с.

*) Данный список литературы лишь приблизителен. При желании Вы можете самостоятельно про читать и другую литературу из рассматриваемых областей.

135 Планирование и организация эксперимента 11. Айвазян, С.А. Прикладная статистика: Основы моделирования и пер вичная обработка данных / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин – М.: Финансы и статистика, 1983. – 471 с.

12. Вентцель, Е.С. Теория вероятностей и ее инженерные приложения :

учеб. пособие для втузов / Е.С. Вентцель, Л.А. Овчаров – М.: Высшая школа, 2000. – 480 с.

13. Кремер, Н.Ш. Теория вероятностей и математическая статистика : учеб ник для вузов / Н.Ш. Кремер – М.: Юнити-Дана, 2002. – 543 с.

14. Митропольский, А.К. Техника статистических вычислений / А.К. Митропольский – М. Наука, 1971. – 576 с.

15. Гмурман, В.Е. Теория вероятности и математическая статистика : учеб.

пособие для вузов / В.Е. Гмурман – М.: Высшая школа, 2002. – 479 с.

16. Гмурман, В.Е. Руководство к решению задач по теории вероятностей и математической статистике : учеб. пособие для студентов вузов / В.Е. Гмурман – М.: Высшая школа, 2002. – 400 с.

17. Козлов, А.Ю. Пакет анализа MS Excel в экономико-статистических рас четах : учеб. пособие для вузов / А.Ю. Козлов, В.Ф. Шишов / под ред.

В.С. Мхитаряна. – М.: ЮНИТИ-ДАНА, 2003. – 139 с.

Приложение А.

О функциях случайных величин и их параметрах Приложение А.

О функциях случайных величин и их параметрах В данном Приложении мы лишь кратко напомним основные положе ния, постаравшись облегчить изучение статистических разделов пособия.

А.1 Случайные величины и функции распределения случайных величин Одним из важнейших, базовых, статистических понятий является поня тие случайной величины.

В общем случае под случайной величиной принято понимать перемен ную, которая в ходе предварительных исследований (испытаний, контроля и т.п.) может принимать различные значения.

Например, при измерении температуры воды значение температуры может меняться. В данном случае под случайной величиной будет понимать ся температура воды, а под множеством ее значений – те значения, которые может принимать данная температура.

Принято различать два вида случайных величин:

1. Непрерывная случайная величина – случайная величина, множество зна чений которой представляет собой некоторый интервал.

2. Дискретная случайная величина – случайная величина, множество зна чений которой представляет собой определенное, счетное, число отдель ных значений, между которыми можно определить другие значения дан ной величины.

На практике чаще всего сталкиваются с дискретными случайными ве личинами. Исходя из этого, в своих рассуждениях будем говорить исключи 137 Планирование и организация эксперимента тельно о дискретных случайных величинах, формулах и определениях для них. Заметим, что для непрерывных случайных величин в общем случае бу дут наблюдаться те же самые зависимости с той лишь разницей, что в фор мулах знак суммы будет заменен на знак интеграла с соответствующими пределами.

В статистике принято случайные величины обозначать прописными буквами X, Y, Z…, а принимаемые ими значениями – строчными буквами xi, yi, zi… Запись вида X: x1, x2, …, xm или X = {xi}, i = 1, 2, …, m принято читать как: «случайная величина Х принимает значения от x1 до xm».

Каждое значение случайная величина может принимать неоднократно, таблица А.1.

Таблица А.1 – Значения случайных величин и частота их встречи в серии опытов Значения случайной величины xi x1 x2 … xm Как часто наблюдались при про k1 k2 … km ведении эксперимента Причем 0 k i N, где N – число проведенных экспериментов. Однако поль зоваться абсолютными значениями частот встречи значений случайных ве личин неудобно: при различных объемах выборок при исследовании одной и той же случайной величины значения частот будут различны, и это затрудня ет анализ данных. Чтобы избежать этого, чаще пользуются вероятностью встречи того или иного значения случайной величины. Определить вероят ность встречи значений случайной величины достаточно просто:

ki ki pi = pi = 100 %.

или N N Приложение А.

О функциях случайных величин и их параметрах Если построить функцию вида p i = f (x i ), то получим функцию распределения случайной величины Х. Вообще гово ря, корректнее с точки зрения статистики данную функцию записать как p(X x ) = F(X ).

Но мы специально привели первый вариант записи, чтобы легче было сле дить за ходом мысли. Про функцию распределения случайной величины го ворят, что Функция распределения случайной величины Х ставит в со ответствие каждому значению случайной величины вероят ность ее встречи Определенную таким образом функцию называют интегральной функцией распределения или просто функцией распределения.

Свойства данных функций мы позволим себе опустить, но Вы сможете легко их найти в любом учебнике по математической статистике. Напомню, что мы говорим лишь об общих аспектах, позволяющих лучше понять мате риал по статистической обработке данных. В противном случае, данное При ложение выльется в отдельный том пособия.

Как отмечают в некоторых литературных источниках по прикладной статистике, у интегральной функции распределения есть один существенный недостаток: она представляет собой график накопленной функции, т.е. не убывающей. В соответствии с этим трудно на качественном уровне описать распределение случайной величины.

139 Планирование и организация эксперимента Поэтому на практике чаще пользуются несколько другой функцией, определяемой как dF(X ) f (X ) = dx и именуемой, в соответствии с приведенной формулой, дифференциальной функцией распределения. Иначе ее называют функцией плотности рас пределения или просто плотностью распределения.

В отличие от интегральной функции, плотность распределения для большинства законов распределения имеет моду (а то и несколько мод), пик распределения может смещаться в ту или иную сторону и т.п. Все это позво ляет грамотному исследователю по графическому виду сделать выводы о ха рактере распределения случайной величины и, хотя бы приблизительно, оп ределиться с порядком дальнейших действий, чего можно ожидать от данной случайной величины и т.д.

Большинство известных на сегодняшний день распределений и вновь открываемых в статистических справочниках задаются формулами инте грального и дифференциального распределений случайных величин, а также их параметрами.

А.2 Параметры распределений случайных величин К параметрам распределений случайных величин чаще всего относят математическое ожидание (или как его привыкли называть иначе, среднее) и дисперсию распределения. Однако если бы все ограничивалось только этими двумя характеристиками, думается статистика не развилась бы как довольно таки мощная часть математической науки. Итак, какие же параметры прини маются в рассмотрение при анализе распределений статистических величин?

Параметры распределений можно разделить на две группы:

Приложение А.

О функциях случайных величин и их параметрах 1. точечные оценки параметров или моменты распределения;

2. интервальные оценки параметров.

Точечные оценки (моменты) называются так, потому что представляют собой отдельные числовые характеристики. Если вспомнить о понятии чи словой прямой, то эти характеристики будут отображаться на ней в виде от дельных точек. К точечным оценкам относится большинство известных нам параметров: математическое ожидание, дисперсия, … Именно о них мы и по говорим ниже.

Интервальные оценки представляют собой характеристики распреде ления в виде интервала значений. Наиболее известный параметр – довери тельный интервал. Однако он в данном разделе рассматриваться не будет.

Фактически, моменты распределений оценивают отклонение значений случайной величины от выбранной «точки отсчета». В качестве нее может выступать произвольным образом выбранное начало – начальные моменты, или же какая-то характеристика, выбранная в качестве центра распределения – центральные моменты. В качестве «начала» обычно выбирают ноль на ко ординатной прямой. А вот с выбором центра распределения дело обстоит не сколько сложнее. Но об этом чуть попозже.

Все моменты делятся на степени, в зависимости от показателя степени при значении случайной величины xi.

Среди начальных моментов чаще всего используется первый началь ный момент, который более известен как математическое ожидание или среднее *).

Математическим ожиданием случайной величины Х, определенной на множестве значений {xi}, i = 1, 2, …, m, называется величина, определяемая выражением:

*) Данное название, как отмечается в большинстве литературных источников, не совсем коррект ное, но зато всем понятное и привычное. Поэтому так и будем именовать его в дальнейшем.

141 Планирование и организация эксперимента m xiki m M(X ) x = = x i pi.

i = N i = Иначе говоря, это сумма взвешенных значений, которые принимает случайная величина Х.

Под взвешиванием в статистике понимается учет вероятности встречи того или иного значения случайной величины (это производится путем ум ножения каждого из полученных значений на вероятность их встречи).

Остальные начальные моменты не профессиональному статистику вряд ли понадобятся.

Очень часто в учебниках по статистике можно встретить информацию следующего характера. Математическое ожидание является центром распре деления, относительно которого в дальнейшем проводится оценка отклоне ний значений случайной величины хi. На основе данной оценки затем могут вычисляться остальные параметры распределений.

Однако это утверждение не совсем корректно. Среднее значение слу чайной величины «глухо и слепо» к так называемым выбросам, т.е. одно кратно или маловероятно появляющимся максимальным или минимальным значениям случайной величины. За счет таких выбросов центр смещается в ту или иную сторону, и, следовательно, дальнейшие оценки будут слабо правдоподобны. При этом у математического ожидания есть лишь одна пре красная черта, отличающая от других вариантов центра распределения, – унифицированная формула для вычисления как дискретных, так и интер вальных рядов, а это очень удобно. Вероятнее всего именно поэтому за центр действительно чаще всего выбирается именно математическое ожидание.

Однако, непонятно, как можно определять среднее, например, на сте пенных или экспоненциальных распределениях?

Приложение А.

О функциях случайных величин и их параметрах Корректнее будет заявить, что в качестве центра распределения могут рассматриваться как математическое ожидание, так и медиана распределе ния. В более редких случаях – мода распределения.

О медиане и моде будет сказано несколько ниже. А сейчас вернемся к моментам распределений. Рассмотрим центральные моменты. При приведе нии формул центральных моментов будем рассматривать отклонение значе ний случайной величины от математического ожидания, т.е. от среднего. При этом не будем забывать, что вместо него можно использовать моду или ме диану распределения.

Первого центрального момента НЕ существует. (Фраза «он равен ну лю» не просто некорректна, она малограмотна!) Второй центральный момент характеризует степень разброса значений случайной величины относительно выбранного центра распределения. Иначе второй центральный момент назы вают дисперсией. Дисперсия определяется следующей формулой:

m (x i x ) ki 2 i = D= =.

N Величина = D называется средним квадратическим (или стан дартным) отклонением (СКО). Кстати говоря, в статистике чаще вместо вместо обозначения дисперсии как D используют ее обозначение как квадра та СКО, т.е. 2.

Чем больше значение дисперсии, тем больше разброс значений относи тельно выбранного центра распределения (в нашем случае, относительно среднего). Как же оценить, большое или маленькое значение дисперсии мы получили? Для этого служит такая характеристика, как вариабельность, оп ределяемая соотношением 143 Планирование и организация эксперимента = 100 %.

x Согласно литературным источникам, вариабельность в пределах 1030 % указывает на стабильность распределения, т.е. разброс значений достаточно мал. Все, что укладывается ниже данного интервала – высоко стабильное распределение, с почти неизменными значениями случайной ве личины. Такие распределения характеризуются острым и узким пиком на графике плотности распределения.

Если вариабельность превышает данный интервал, распределение не стабильно. На графике плотности распределения будет широкий, размытый пик. Причем, чем выше данное значение, тем более пологим будет пик рас пределения.

Оценить остроту вершинной части функции распределения можно и по-другому. Для этого в статистике существует так называемый эксцесс рас пределения или четвертый центральный момент. Эксцесс определяется сле дующей формулой:

m (x i x ) ki i = E= 3.

N За эталон остроты пика выбрана острота вершинной части нормиро ванного нормального распределения *). Если для этого распределения вычис лить только дробь, она получится равной трем. Чтобы получить нормирован ные параметры по всем моментам распределения, и было введено стоящее далее вычитание.

*) Это нормальное распределение с математическим ожиданием, равным 0, дисперсией, равной 1, и с остальными моментами распределения, равными 0. Подобные параметры достигаются специ альным нормированием. Отсюда и название распределения.

Приложение А.

О функциях случайных величин и их параметрах Если значение эксцесса меньше нуля, то вершинная часть рассматри ваемого распределения более острая, нежели у нормированного нормального распределения. И наоборот.

Третий центральный момент, пропущенный нами из-за логики повест вования, позволяет оценить смещение пика распределения вправо или влево относительно центра симметрии. Данный параметр получил название асим метрия и определяется по формуле:

m (x i x ) ki i = A=.

N Если A 0, то пик распределения смещается влево относительно цен тра симметрии. Если же A 0, то смещение пика происходит вправо.

При А = 0 наблюдается совпадение среднего, моды и медианы распре деления. В остальных случаях – этого нет.

Вообще говоря, можно рассматривать и дальше моменты распределе ний. Те, кто посвятил себя статистике как науке, это подтвердят. Но в обыч ной ситуации статистического исследования экспериментальных данных хватает и рассмотренных характеристик.

Для упрощения записи очень часто значения параметров распределе ния объединяют с обозначением самой функции распределения по принципу ( ) f X;

M(X );

2 ;

A;

E;

K.

Например, для упомянутой нами выше функции нормированного нор мального распределения получим следующее: рассмотрим функцию f (X;

0;

1;

0;

0), 145 Планирование и организация эксперимента подчиняющуюся нормальному закону распределения. Есть и другой вариант обозначения значений параметров: рассмотрим случайную величину Х, под чиняющуюся нормальному закону распределения с параметрами (0;

1;

0;

0).

Помимо рассмотренных моментов распределения можно характеризо вать так называемой модой распределения и его квантилями.

Под модой Мо распределения понимают его наиболее часто встре чающееся значение. В зависимости от того, сколько мод имеет распределе ние, различают одномодальные и многомодальные распределения. Честно говоря, все рассмотренные выше статистические инструменты наиболее кор ректны именно на одномодальных статистиках. В противном случае – иссле дователям приходится прибегать к различным хитростям и уловкам.

Квантиль распределения случайной величины Х – это функция, которая каждому значению вероятности pi ставит в соответствие значение случайной величины xi, которое встре чается с этой заданной вероятностью.

Иными словами, мы определяем не вероятность встречи заданного зна чения случайной величины, а значение случайной величины, которое встре чается с заданной вероятностью:

x i = (p i ).

Фактически, квантиль распределения является обратной функцией к функции распределения случайной величины. С точки зрения физического смысла определяемой величины, квантиль распределения показывает то зна чение случайной величины xi, слева от которого остается pi доля всего рас пределения.

Приложение А.

О функциях случайных величин и их параметрах Различают следующие специальные значения квантилей:

перцентиль (персентиль) 1 – однопроцентный квантиль распределе ния *);

дециль 10 – десятипроцентный квантиль распределения (десятый перцен тиль);

квартиль 25 – двадцатипятипроцентный квантиль распределения (два дцать пятый перцентиль);

медиана 50 (или Ме) – пятидесятипроцентный квантиль распределения (пятидесятый перцентиль).

Относительно квартиля и медианы есть особые замечания. Вообще го воря, в статистике различают нижний 25 (25-процентный), средний (50-процентный) и верхний 75 (75-процентный) квартили. При этом нижний и верхний квартили иногда еще называют левым и правым соответственно.

Из сказанного видно, что медиана – средний квартиль.

Если попробовать изобразить все эти квантили графически, получим примерно следующее, рисунок А.1. К сожалению, перцентиль не позволил нам отобразить масштаб, но, думается, на основе представленных примеров становится понятнее смысл квантилей. Кроме того, становится понятно, по чему верхний квартиль 75 иногда называют правым квартилем: потому, что справа от него остается 25 % всего распределения.

*) То есть это один процент от всего распределения случайной величины. Остальные названия трактуются таким же образом.

147 Планирование и организация эксперимента Рисунок А.1. Схема расположения квантилей для функции плотности распределения симметричного одномодального типа Следует отметить еще несколько фактов, связанных с рисунком А.1, где изображено одномодальное симметричное распределение. Если же рас пределение будет несимметричное, т.е. произойдет смещение пика в сторону, или многомодальное, то уже такого красивого пропорционального размеще ния квантилей не будет. Все будет определяться тем, какая доля распределе ния остается слева от квантиля, а не симметричностью расположенных ин тервалов.

Рассмотренные на протяжении всего учебного пособия критические значения тех или иных распределений представляют собой не что иное, как квантили соответствующих распределений. При этом, порядок квантиля можно определить как (1 – ). То есть, если уровень значимости = 0,05, то определенное по таблицам критическое значение будет являться 95 процентным квантилем данного распределения.

Приложение В.

Использование возможностей MS Excel в статистических исследованиях Приложение В.

Использование возможностей MS Excel в статистических исследованиях В настоящее время трудно найти человека, не имеющего персональный компьютер и минимально необходимый набор программ, в том числе и MS Office, т.е. Word, Excel и т.д. В данном разделе мы расскажем тем, кто еще не знает, как можно использовать возможности такой стандартной программы как Excel для работы с критериями согласия, в корреляционном, регрессион ном анализе и т.д. Кроме того, мы укажем на некоторые мелочи, не всегда отмечаемые авторами пособий по статистическим методам с использованием информационных технологий. ОБРАТИТЕ ВНИМАНИЕ: ликбеза по работе с данной программой проводиться не будет, мы лишь укажем каким инстру ментарием можно воспользоваться в тех или иных случаях.

В.1 Оценка статистических параметров распределений Для оценки статистических параметров распределений (моды, медианы и т.п.) в мастере функций, рисунок В.1, необходимо выбрать категорию «Статистические», а в ней – найти желаемую функцию, таблица В.1.

149 Планирование и организация эксперимента Рисунок В.1. Вид окна мастера функций Таблица В.1 – Статистические функции Excel для оценки параметров распределений Функция Excel Описание 1 Оценивает среднее значение по одной или нескольким выборкам. При этом будет вычислено ОДНО общее СРЗНАЧ(число1;

число2;

…) значение для всех совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Оценивает дисперсию выборки или нескольких выбо рок. При этом будет вычислено ОДНО общее значение ДИСП(число1;

число2;

…) для всех совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Оценивает максимальное значение в одной или не скольких выборках. При этом будет вычислено ОДНО МАКС(число1;

число2;

…) общее значение для всех совокупностей. Число1, чис ло2… – может быть не только отдельным числом, но и целой выборкой Оценивает минимальное значение в одной или несколь ких выборках. При этом будет вычислено ОДНО общее МИН(число1;

число2;

…) значение для всех совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Оценивает медиану одной или нескольких выборок.

МЕДИАНА(число1;

чис- При этом будет вычислено ОДНО общее значение для ло2;

…) всех совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Оценивает моду одной или нескольких выборок. При этом будет вычислено ОДНО общее значение для всех МОДА(число1;

число2;

…) совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Приложение В.

Использование возможностей MS Excel в статистических исследованиях Окончание таблицы В. 1 Оценивает стандартное отклонение по одной или не скольким выборкам. При этом будет вычислено ОДНО СТАНДОТКЛОН(число1;

общее значение для всех совокупностей. Число1, чис число2;

…) ло2… – может быть не только отдельным числом, но и целой выборкой Оценивает асимметрию одной или нескольких выборок.

При этом будет вычислено ОДНО общее значение для СКОС(число1;

число2;

…) всех совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Оценивает эксцесс по одной или нескольким выборкам.

При этом будет вычислено ОДНО общее значение для ЭКСЦЕСС(число1;

число2;

…) всех совокупностей. Число1, число2… – может быть не только отдельным числом, но и целой выборкой Оценивает квартиль экспериментальной выборки. Мас сив – выборка данных;

часть – определяет какой квар тиль вычисляется (0 – минимальное значение выборки;

КВАРТИЛЬ(массив;

часть) 1 – нижний, 25 %-ый, квартиль;

2 – средний, 50 %-ый, квартиль или медиана;

3 – верхний, 75 %-ый, квартиль;

4 – максимальное значение выборки) Оценивает квартиль экспериментальной выборки. Мас сив – выборка данных;

k – определяет порядок вычис ПЕРСЕНТИЛЬ(массив;

k) ляемого персентиля (например, при k = 25 будет вычис лен нижний квартиль) С помощью перечисленных функций можно довольно-таки быстро и точно производить статистическую обработку данных, сокращая тем самым себе 3-5 (и более) часов, в зависимости от объемов обрабатываемых данных.

В.2 Проверка статистических гипотез При проверке статистических гипотез Excel может помочь лишь с оп ределением критических значений той или иной функции распределения случайной величины. При этом в поиске значений функции Лапласа или рас пределения Коч(х)рена Excel, к сожалению, бессилен. Для поиска квантилей распределений, применяемых при проверке статистических гипотез, в масте 151 Планирование и организация эксперимента ре функций, рисунок В.1, необходимо выбрать категорию «Статистические», а в ней – найти желаемую функцию, таблица В.2.

Таблица В.2 – Статистические функции Excel, применяемые при проверке статистических гипотез Функция Excel Описание 1 Определяет значение квантиля распределения FРАСПОБР(вероятность;

Фишера (т.е. критического значения). Вероят степени_свободы1;

ность – уровень значимости, задаваемый в про степени_свободы2) центах или долях от единицы Определяет значение квантиля распределения СТЬЮДРАСПОБР(вероятность;

Стьюдента (т.е. критического значения). Вероят степени_свободы) ность – уровень значимости, задаваемый в про центах или долях от единицы Определяет значение квантиля 2-распределения ХИ2ОБР(вероятность;

Пирсона (т.е. критического значения). Вероят степени_свободы) ность – уровень значимости, задаваемый в про центах или долях от единицы Огромный плюс от наличия данных функций – критические значения того или иного критерия согласия всегда находятся «под рукой». Не надо ис кать специальные сборники таблиц со статистическими распределениями.


Кроме того, в таблицах критических значений, доступных большинству пользователей содержится обычно ограниченный набор данных. Excel же предоставляет, фактически, неограниченные возможности по поиску значе ний.

В.3 Статистические методы анализа данных и планирования эксперимента *) Статистические методы анализа и планирования данных в Excel доста точно примитивны, не в обиду создателям программы будь сказано, но на *) Более подробную информацию, нежели в представленном обзоре, можно найти в [17].

Приложение В.

Использование возможностей MS Excel в статистических исследованиях начальных этапах вполне могут выручить любого исследователя. При более профессиональных подходах необходимо использовать специальные про граммные пакеты, например, Statistica, SPSS. Тем более, что в них преду смотрены специальные модули по планированию эксперимента.

Однако считаю своим долгом предупредить, что данные программные пакеты в лицензионной версии недешевы. Так что, прежде чем их приобре тать, подумайте, насколько они Вам необходимы. Иначе, Вы можете приоб рести «белого слона».

Для статистического анализа данных и планирования эксперимента не обходимо установить в программе Excel надстройку «Анализ данных». Она представлена в установочных дисках MS Office. При установке полного ком плекта программы Excel достаточно лишь активировать данную надстройку.

Для этого необходимо проделать следующее.

I. При работе в MS Office 1.1. Войти в меню «Сервис»

1.2. Выбрать пункт «Надстройки»

1.3. В открывшемся окне выбрать пункт «Пакет анализа» и установить напротив данного пункта маркер. Нажать на кнопку «ОК». Если про грамма запросит установочный диск для установки данного пакета, введите в дисковод установочный диск, с которого устанавливался MS Office на Вашем компьютере и нажмите еще раз «ОК».

1.4. По окончании установки, зайдите в меню «Сервис» и найти в самом конце меню пункт «Анализ данных».

II. При работе в MS Office 2007.

2.1. В левом верхнем углу нажать кнопку «Office» и выбрать в правом нижнем углу открывшегося меню кнопку « Параметры Excel», рису нок В.2.

153 Планирование и организация эксперимента Рисунок В.2. Кнопка «Office» (выделена) и основное меню программы Excel 2.2. В открывшемся окне в пункте «Управление» выбрать «Надстройки Excel» и нажать на кнопку «Перейти…», рисунок В.3.

Рисунок В.3. Окно «Параметры Excel»

2.3. В окне «Надстройки» установить маркер в пункте «Пакет анализа» и нажать кнопку «ОК», рисунок В. Приложение В.

Использование возможностей MS Excel в статистических исследованиях Рисунок В.4. Окно «Надстройки» с выделенным пунктом «Пакет анализа»

2.4. После окончания установки в программе Excel на закладке «Данные»

появляется секция «Анализ» с кнопкой «Анализ данных», рису нок В.5, нажав на которую можно вызвать на экран «Пакет анализа данных».

Рисунок В.5. Закладка «Данные» на панели инструментов с выделенной секцией «Анализ»

После установки пакета «Анализ данных» при выборе соответствую щего пункта на экране появится окно «Анализа данных», рисунок В.6.

155 Планирование и организация эксперимента Рисунок В.6. Окно «Анализ данных»

Здесь находится весь необходимый для анализа данных и планирова ния эксперимента инструментарий. Рассмотрим лишь некоторые инструмен ты анализа, затронутые в данном учебном пособии. Заметим, что некоторые из этих инструментов (корреляционный анализ, критерии согласия) можно попытаться определить с помощью статистических функций, но, на мой взгляд, это несколько неудобно. Вы же можете пользоваться по своему ус мотрению или статистическими функциями, или же инструментами анализа.

В.3.1 Корреляционный анализ Для оценки корреляционного анализа можно воспользоваться мастером функций, рисунок В.1, выбрать категорию «Статистические», а в ней – найти желаемую функцию:

Функция Excel Описание Оценивает корреляцию между двумя выборками КОРРЕЛ(массив1;

массив2) данных Но можно воспользоваться инструментом анализа данных «Корреля ция». Разница в результатах применения того или иного инструмента будет состоять в следующем: в случае применения статистических функций – бу дет определено значение парного выборочного коэффициента корреляции между двумя выборками;

во втором случае – будет построена матрица пар ных выборочных коэффициентов корреляции qP (см. параграф 3.2).

Приложение В.

Использование возможностей MS Excel в статистических исследованиях У инструмента анализа «Корреляция» есть еще одно преимущество.

Статистическая функция КОРРЕЛ(массив1;

массив2) может вычислить ко эффициент корреляции лишь между двумя выборками, а инструмент анализа «Корреляция» – между неограниченным числом выборок.

Опишем пошагово использование инструмента анализа «Корреляция».

Шаг 1. В окне «Анализ данных», рисунок В.6, находим инструмент анализа «Корреляция». Выделяем его и нажимаем кнопку «ОК».

Шаг 2. В открывшемся окне «Корреляция», рисунок В.7, вносим необ ходимые данные (либо с клавиатуры, либо, выделяя мышкой) и нажимаем кнопку ОК.

Рисунок В.7. Вид окна инструмента анализа «Корреляция»

При этом:

– Входной интервал – диапазон на листе Excel, где расположены срав ниваемые выборки данных. Все выборки выделяются одновременно.

– Группирование – определяем характер расположения данных в вы борках: построчно или по столбцам.

– Метки в первой строке (столбце) – если выборки данных были подписаны каким-либо образом (номер выборки, название выборки и т.п.), то в данном пункте необходимо поставить маркер. Если же выделялись только числовые данные, данный пункт оставляем нетронутым.

– Параметры вывода – определяем, где хотим видеть результаты про веденного анализа:

157 Планирование и организация эксперимента а) выходной интервал – выделяем пустую ячейку. Главное условие – справа и ниже этой ячейки не должно быть никаких данных, иначе они будут уничтожены. Можно выделить ячейку на другом листе этой же книги Excel.

б) новый рабочий лист – можно просто установить маркер напро тив данного пункта. В этом случае при расчетах программа создаст новый лист со следующим порядковым номером (Лист 3, Лист 4…).

Если в данном пункте указать имя листа, то программа создаст лист с указанным Вами именем.

в) новая книга – установив маркер в данном пункте, можно размес тить результаты анализа в новой книге Excel. При этом имя новой книги задать сразу не удастся, только после ее сохранения, а данные анализа разместятся на Листе 1 новой книги.

Если что-то непонятно по параметрам, можно нажать кнопку «Справ ка» и получить всю доступную Excel информацию по интересующей Вас те ме.

Общий принцип работы различных инструментов анализа схож, поэто му в дальнейшем будем указывать только те параметры окон, которые обла дают только присущей данному инструменту спецификой.

При работе с данным инструментом анализа (как, впрочем и со всеми остальными) могут появляться следующие окна – предупреждения:

1) Приложение В.

Использование возможностей MS Excel в статистических исследованиях Появление этого предупреждения означает, что Вы выделили пустую область книги, а надо выделить область с числовыми данными.

2) Такое предупреждение появляется в том случае, если Вы выделили вместе с числами текстовые данные (например, забыли поставить маркер в пункте «Метки») либо Ваша числовая информация воспринимается про граммой не как числа, а как текст.

3) Данное предупреждение появляется, если в качестве выходного интер вала Вы выбрали область с уже заполненными чем-либо ячейками. При этом заполненный интервал прописывается в окне предупреждения в самом конце предложения.

Нажав «ОК», Вы разрешите программе записать результаты анализа поверх имеющейся в заполненной области информации. КНОПКА ОТМЕНЫ ДЕЙСТВИЯ В ЭТОМ СЛУЧАЕ ВАМ НЕ ПОМОЖЕТ!

Нажав «Отмена», Вы вернетесь в окно инструмента анализа и сможете задать другой выходной интервал.

159 Планирование и организация эксперимента После успешно проведенного корреляционного анализа Вы получите результат следующего вида, рисунки В.8 и В.9.

Рисунок В.8. Данные и результат работы инструмента анализа «Корреляция»


в случае, если выделялись только числовые данные Рисунок В.9. Данные и результат работы инструмента анализа «Корреляция»

в случае, если выделялись числовые данные и заголовки столбцов («Метки») По главной диагонали, как и полагается в корреляционной матрице, располагаются единицы. На остальных позициях располагаются парные вы борочные линейные коэффициенты корреляции. Отразив из симметрично от носительно главной диагонали, получим и вторую половину матрицы.

В.3.2 Описательная статистика Инструмент анализа «Описательная статистика» позволяет за один раз вычислить практически все параметры распределения, описанные в пункте В.1, за исключением квартилей и персентилей. Окно «Описательной стати стики» имеет вид, рисунок В.10.

Приложение В.

Использование возможностей MS Excel в статистических исследованиях Рисунок В.10. Вид окна инструмента анализа «Описательная статистика»

Отмечу, что выделив несколько выборок, можно получить описатель ную статистику для всех них разом. И второй момент, за единую выборку Excel воспринимает данные, введенные в один столбец или одну строку. Со седний столбец (строка) – это уже другая выборка.

В обязательном порядке необходимо выбрать один из параметров, на ходящихся ниже диапазонов вывода, иначе получите следующее предупреж дение:

Для получения информации по параметрам распределения необходимо установить маркер в пункте «Итоговая статистика».

Если уровень надежности результатов Вы не выбираете, Excel автома тически выберет уровень надежности 95 %, в противном случае – Вам необ ходимо установить маркер в данном пункте и напротив него задать свой уро вень надежности.

161 Планирование и организация эксперимента Что касается пунктов «К-ый наименьший» и «К-ый наибольший», то мало понятно, зачем они здесь нужны, поскольку «Итоговая статистика» все равно их приводит. Разве только, чтобы рассчитать именно эти параметры и не больше… Если в этих пунктах оставить значение «1», то будут вычислены мак симум и минимум представленных выборок. В противном случае произво дится определение наименьшего или наибольшего значений признака, имеющего разность с порядком максимального или минимального значения в установленные пользователем k единиц.

В.3.3 Двухвыборочный F-тест для дисперсий Окно инструмента анализа «Двухвыборочный F-тест для дисперсий»

имеет вид, рисунок В.11.

Рисунок В.11. Окно инструмента анализа «Двухвыборочный F-тест для дисперсий»

Данный инструмент предназначен для сравнения дисперсий двух экс периментальных выборок по критерию согласия Фишера – Снедекора. Соот ветственно, окна «Интервал переменной 1» и «Интервал переменной 2»

предназначены для двух диапазонов данных, расположенных на листе Excel.

При этом под диапазоном данных одной выборки понимаются результаты, представленные в одном столбце или одной строке.

Приложение В.

Использование возможностей MS Excel в статистических исследованиях Обратите внимание, вместо надежности в данном случае будет зада ваться уровень значимости в сотых и десятых долях.

Результаты проведенного анализа будут представлены в виде таблицы, рисунок В.12.

Рисунок В.12. Вид таблицы для представления результатов анализа В данной таблице содержатся следующие сведения:

1. Наблюдения – объем выборок «Переменная 1» и «Переменная 2»;

2. df – число степеней свободы каждой из выборок. Определяется как:

объем выборки – 1;

3. F – наблюдаемое значение критерия, определяемое в соответствии с про цедурой, описанной в п. 2.3.2.

4. P (F=f) одностороннее – вероятность значимости. Чем дальше это зна чение от единицы, тем меньше доверия вызывает основная гипотеза (го воря простым языком);

5. F критическое одностороннее – значение критической точки распреде ления Фишера – Снедекора.

Следует отметить, что данный инструмент анализа проводит сравнение лишь правосторонних гипотез, т.е. основная гипотеза будет отвергаться, если 163 Планирование и организация эксперимента F F критическое одностороннее.

При желании можно провести оценку и по двустороннему критерию.

Для этого необходимо в окне инструмента анализа, рисунок В.11, установить уровень значимости Альфа в два раза меньше задаваемого по условию зада чи. Вся остальная процедура сохраниться.

А.3.4 Регрессия Инструмент анализа «Регрессия» производит расчеты для ЛИНЕЙНОГО регрессионного анализа. Окно инструмента анализа «Регрес сия» имеет вид, рисунок В.13.

Рисунок В.13. Вид окна «Регрессия»

Опишем только некоторые элементы данного окна:

1. Входной интервал Х – при введении данных в этот пункт выделяются ВСЕ столбцы, содержащие значения влияющих факторов (один, два, три… столбцов).

2. Константа-ноль – при «включении» данного пункта Excel проводит нормировку таким образом, что смоделированное уравнение регрессии пройдет через начало координат, т.е. b0.

Приложение В.

Использование возможностей MS Excel в статистических исследованиях 3. Остатки – с помощью пунктов этого раздела (Остатки, Стандартизи рованные остатки…) можно просчитать предсказанные, т.е. рассчитан ные по построенному уравнению регрессии значения Y, а также разницу между фактическими и предсказанными значениями. Отмечу, что график подбора не всегда достаточно нагляден, здесь надо полагаться на свою удачу исследователя.

Результаты проведенного анализа будут представлены в виде группы таблиц, рисунок В.14.

Рисунок В.14. Таблица для представления результатов регрессионного анализа В первой таблице, именуемой «Регрессионная статистика», проводится анализ влияния факторов на результат эксперимента. Наиболее важны для нас здесь первые два пункта:

• Множественный R – это множественный коэффициент корреляции. Если значение корреляционной связи ниже умеренного, то рассмотрение всего 165 Планирование и организация эксперимента ниже расположенного не имеет смысла. Впрочем, это подтвердиться ос тальным анализом.

• R-квадрат – это значение коэффициента детерминации, который показы вает, насколько изменчивость отклика системы зависит от рассмотренных влияющих факторов.

Во второй таблице «Дисперсионный анализ» проводится оценка зна чимости рассчитанного ниже уравнения регрессии. К большому сожалению «ленивых» статистиков в данном случае Excel не рассчитывает критического значения критерия Фишера – Снедекора. Но Вы можете рассчитать его само стоятельно, воспользовавшись статистическими функциями. При этом степени_свободы1 = df (Регрессия);

степени_свободы2 = df (Остаток).

Сравниваем F из таблицы и F критическое, рассчитанное самостоя тельно. Если F F критическое, то уравнение регрессии значимо. В противном случае, – выбранные для мо делирования значения факторов НЕ оказывают никакого влияния на резуль тат эксперимента.

В третьей таблице, без названия, приводятся значения коэффициентов регрессионной модели (в столбце Коэффициенты), оценка их значимости (столбец t-статистика) и др.

Строка таблицы Y-пересечение дает расчеты для коэффициента b0;

строки Переменная Х1 (Переменная Х2, Переменная Х3, …) – для коэффи циента b1 (b2, b3, …).

Приложение В.

Использование возможностей MS Excel в статистических исследованиях Для оценки значимости коэффициентов необходимо определить крити ческое значение распределения Стьюдента (можно с помощью статистиче ской функции СТЬЮДРАСПОБР) при числе степеней свободы число проведенных опытов – число коэффициентов в уравнении регрессии.

Затем производится сравнение вычисленного критического значения со значениями, приведенными в столбце t-статистика. При этом последние значения берутся по модулю. Если t-статистика t критическое, то исследуемый коэффициент уравнения регрессии значим. В противном случае, в окончательной записи уравнения регрессии данный коэффициент НЕ учитывается.

Следует дополнительно отметить, что все расчеты вполне соответст вуют процедуре, описанной в Разделе 3, в том числе и в параграфе 3.3. Зна чения, представленные в столбце t-статистика, в параграфе 3.3 соответст вуют рассчитываемым значениям tj – 1.

В.3.5 Однофакторный дисперсионный анализ Окно «Однофакторного дисперсионного анализа» имеет вид, рису нок В.15.

167 Планирование и организация эксперимента Рисунок В.15. Вид окна «Однофакторный дисперсионный анализ»

Результаты проведенного дисперсионного анализа имеют вид, рису нок В.16.

Рисунок В.16. Результаты проведенного однофакторного дисперсионного анализа В таблице «ИТОГИ» приведены частичные данные по описательной статистике представленных данных, а в таблице «Дисперсионный анализ» непосредственно результаты проведенного однофакторного дисперсионного анализа. Причем, программе безразлично, одинаковое ли число испытаний на уровнях фактора или нет. В данной таблице представлены следующие дан ные:

1. Источник вариации – соответствует столбцу «Группировка» из схем Дисперсионного анализа, параграф 3.1. При этом:

Приложение В.

Использование возможностей MS Excel в статистических исследованиях a. Между группами – межгрупповая (по факторам) оценка;

b. Внутри групп – остаточная оценка;

c. Итого – общая оценка.

2. SS – соответствует столбцу «Сумма квадратов» из схем Дисперсионного анализа, параграф 3.1.

3. df – число степеней свободы каждой из оцениваемых группировок, соот ветствует столбцу «Число степеней свободы» из схем Дисперсионного анализа, параграф 3.1.

4. MS – оценка межгрупповой и внутригрупповой дисперсий, соответствует столбцу «Оценка дисперсии» из схем Дисперсионного анализа, пара граф 3.1.

5. F – наблюдаемое значение критерия;

6. P-Значение – вероятность значимости критерия;

7. F критическое – критическое значение распределения Фишера – Снеде кора.

Основная гипотеза о совпадении дисперсий (и, следовательно, об от сутствии влияния фактора на эксперимент) будет отвергаться, если F F критическое.

В.3.6 Двухфакторный дисперсионный анализ без повторений Окно инструмента будет выглядеть так же, как и в предыдущем случае, рисунок В.15. А вот представленные результаты будут иметь несколько иной вид, рисунок В.17.

169 Планирование и организация эксперимента Рисунок В.17. Результаты проведенного двухфакторного дисперсионного анализа без повторений Легко заметить, что таблица «Дисперсионный анализ» несколько отли чается от предыдущего случая. Здесь рассматриваются следующие источни ки вариации:

1. Строки – группировка данных по первому фактору (например, факто ру А);

2. Столбцы – группировка данных по второму фактору (фактору В);

3. Погрешность – соответствует остаточной группировке данных;

4. Итого – соответствует общей группировке данных.

В остальном все сохраняется как и в прежнем варианте. Лишь оценка проводится для двух группировок факторов, а не для одной.

В.3.7 Двухфакторный дисперсионный анализ с повторениями Прежде, чем описывать двухфакторный дисперсионный анализ с по вторениями, необходимо сказать о представлении самих исходных данных.

При вводе данных ОБЯЗАТЕЛЬНО НЕОБХОДИМО ввести заголовки столб цов и строк. Причем для строк вводится наименование уровня фактора на Приложение В.

Использование возможностей MS Excel в статистических исследованиях против первого из повторяющихся значений, а ниже оставляются пустые строки. Например, рисунок В.18.

Рисунок В.18. Пример ввода данных для проведения двухфакторного дисперсионного анализа с повторениями При этом не следует забывать, что число повторений для каждой пары факторов должно быть одинаковым. Окно инструмента «Двухфакторный дисперсионный анализ с повторениями» имеет вид, рисунок В.19.

Рисунок В.19. Вид окна «Двухфакторный дисперсионный анализ с повторениями»

При вводе данных в окно Входной интервал следует помнить, что вы деляется весь диапазон, вместе с заголовками. В окно Число строк для вы борки вводится число повторений для пары факторов (в нашем примере оно равно 3). Результаты проведенного анализа имеют вид, рисунок В.20.

171 Планирование и организация эксперимента Рисунок В.20. Результаты двухфакторного дисперсионного анализа с повторениями Результаты описательной статистики здесь достаточно сложны и пред ставлены в первых трех таблицах. Однако, воспользовавшись параграфом 3. и данными, приведенными на рисунке В.18, Вы легко сможете самостоятель но разобраться, что есть что. Нам же при описании более интересна послед няя таблица. Здесь уже присутствуют следующие варианты группировок:

1. Выборка – соответствует группировке по фактору B в нашем примере, т.е.

фактору, чьи значения приведены по строкам.

2. Столбцы – соответствует группировке по фактору А в нашем примере, т.е. фактору, чьи значения приведены по столбцам.

3. Взаимодействие – соответствует оценке влияния взаимодействия факто ров, см. п.3.1.3.

4. Внутри – соответствует остаточной группировке.

5. Итого – соответствует общей группировке данных.

А далее – как обычно.

Приложение В.

Использование возможностей MS Excel в статистических исследованиях В.3.8 t-тесты и z-тест для средних Четыре последних инструмента анализа предназначены для сравнения средних двух экспериментальных выборок. Проведение t-тестов основано на критерии согласия Стьюдента. Проведение z-теста основано на применении функции Лапласа для определения критических значений критерия.

Перечислим эти инструменты анализа, отметив некоторые особенности каждого из них.

1) Парный двухвыборочный t-тест для средних Применяется для сравнения средних двух выборок, извлеченных из одной генеральной совокупности. Сравнение производится при условии, что объемы представленных выборок одинаковы. При этом оценивается степень скоррелированности данных, поскольку в таком случае она весь ма вероятна. Представленные результаты анализа будут содержать как односторонний (правосторонний), так и двусторонний критерий, а также наблюдаемое значение критерия.

2) Двухвыборочный t-тест с одинаковыми дисперсиями Применяется для сравнения средних двух выборок из различных ге неральных совокупностей при условии, что их дисперсии одинаковы.

Объемы выборок могут быть различными. На выходе представляется ин формация о средних, дисперсиях обеих совокупностей, обобщенном зна чении дисперсии, наблюдаемом значении критерия и критические значе ния для правостороннего и двустороннего случаев.

3) Двухвыборочный t-тест с различными дисперсиями Применяется для сравнения средних двух выборок из различных ге неральных совокупностей при условии, что их дисперсии различны. Объ емы выборок могут быть различными. На выходе представляется инфор мация о средних, дисперсиях обеих совокупностей, наблюдаемом значе 173 Планирование и организация эксперимента нии критерия и критические значения для правостороннего и двусторон него случаев.

4) Двухвыборочный z-тест для средних Применяется для сравнения средних двух выборок из различных ге неральных совокупностей при условии, что их дисперсии ИЗВЕСТНЫ.

Объемы выборок могут быть различными. На выходе представляется ин формация о средних, дисперсиях обеих совокупностей, наблюдаемом зна чении критерия и критические значения для правостороннего и двусто роннего случаев.

В первых трех случаях окно инструмента анализа имеет вид, рису нок В.21.

Рисунок В.21. Вид окон для t-тестов Для z-теста окно имеет несколько иной вид, рисунок В.22.

Приложение В.

Использование возможностей MS Excel в статистических исследованиях Рисунок В.22. Вид окна для Двухвыборочного z-теста для средних Видно, что во втором случае дополнительно потребуется ввод извест ных значений дисперсий обеих выборок.

Что же вводится в строку Гипотетическая разность? Если помните, обычно основная гипотеза состоит в совпадении двух сравниваемых значе ний, т.е. x1 = x 2 или что-то подобное. В таком случае гипотетическая, т.е.

предполагаемая разность может составлять только одно-единственное значе ние – ноль. Следовательно, при сравнении средних, независимо от исполь зуемого метода, в окне гипотетическая разность следует указывать 0.

Результаты в каждом отдельном случае будут представлены несколько по-разному, но они настолько прозрачны, что разобраться в их прочтении самостоятельно нетрудно.

175 Планирование и организация эксперимента

Pages:     | 1 | 2 ||
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.