авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 |

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ Сиротин В.П., Архипова М.Ю. ...»

-- [ Страница 2 ] --

5,52 6,11 7,04 6, 18 Республика Марий Эл 54 г. Москва 5,60 5,53 7,12 7, Рязанская 19 Курганская область 55 область 5,60 6,11 7,21 7, Калининградская Камчатская 20 область 56 область 5,61 6,75 7,23 2, Владимирская 21 Тамбовская область 57 область 5,62 6,52 7,25 7, Пермская 22 Сахалинская область 58 область 5,64 4,08 7,28 7, Нижегородская 23 Томская область 59 обл.

5,66 6,72 7,43 8, Свердловская 24 Брянская область 60 область 5,68 6,72 7,57 8, Калужская 25 Республика Бурятия 61 область 5,70 -0,76 7,62 8, Белгородская 26 Кировская область 62 область 5,73 6,31 7,68 7, 27 Пензенская область 63 Удмуртская Респ.

5,74 6,89 7,75 5, Челябинская 28 Омская область 64 область 5,85 6,03 7,78 9, Орловская 29 Оренбургская область 65 область 5,92 6,18 7,79 7, Новосибирская Республика 30 область 66 Татарстан 5,99 6,24 7,95 8, г. Санкт 31 Тюменская область 67 Петербург 6,01 9,54 8,10 7, Ярославская 32 Псковская область 68 область 6,03 5,70 8,19 8, Мурманская 33 Саратовская область 69 область 6,04 7,09 8,23 8, Новгородская 34 Алтайский край 70 область 6,09 6,18 8,42 8, Вологодская 35 Республика Карелия 71 область 6,15 4,42 8,96 9, Самарская 36 Воронежская область 72 область 6,18 6,60 9,44 8, Вид гистограммы логарифма анализируемого признака «объем отгруженной инновационной продукции, приходящийся на 1000 чел.» в 2003 году (рис. 30) согласуется с предположением о логарифмически нормальном законе распределения для отдельной группы объектов и о присутствии в выборке элементов различных однородных совокупностей.

Следовательно, можно считать анализируемую совокупность смесью однородных совокупностей, каждая из которых имеет логарифмически нормальное распределение.

частота Еще 1 2 3 4 5 6 7 lnx Рис. 30. Логарифм объема отгруженной инновационной продукции, приходящейся на 1000 чел., 2005г.

Наилучшим для аппроксимации и интерпретации результатов оказалось представление совокупности регионов в виде трех страт. При этом из анализа была исключена республика Бурятия, которая в 2003 году имела аномально низкое значение признака (lnx=-0,57).

Полученные максимально правдоподобные оценки параметров, полученные путем реализации численной процедуры оптимизации по данным за 2001 и 2005г.г., представлены в табл. 12.

Таблица Максимально правдоподобные оценки параметров смеси распределений 2001 год 2005 год i i i i i qi qi 1 2,48 0,56 0,07 3,70 0,80 0, 2 5,90 1,00 0,48 6,50 0,65 0, 3 6,98 1,07 0,45 8,40 0,70 0, Результаты моделирования плотности вероятности распределений представлены в виде графиков на рис.31 и рис.32.

2001 г.

0,4 1-я страта 2-я страта 0, 3-я страта f(lnx) 0,2 общая кривая распределения 0, 0 2 4 6 8 10 lnx Рис.31. Модель распределения регионов по уровню инновационной активности в 2003 году и ее декомпозиция общая 1 страта f(lnx) 2 страта 3 страта 1 14 27 40 53 66 79 92 lnx Рис.32. Модель распределения регионов по уровню инновационной активности в 2005 году и ее декомпозиция Границы страт при использовании байесовского критерия минимума среднего риска ошибок классификации в отсутствие дополнительной априорной информации можно определить как абсциссы точек пересечения взвешенных кривых распределения соседних страт. В 2001 г.

регионы, у которых lnx3,5, следует отнести к числу отстающих (страта 1), при 3,5lnx6,6 – к числу средних (страта 2), при больших значениях – к третьей, самой передовой страте. В 2005 г. границы страт сдвинулись вправо с 3,5 до 5,5, и с 6,6 до 7,6. Дифференциация наиболее инновационно-активных регионов усилилась, о чем можно судить по выделению в явном виде третьей составляющей в исходном и модельном распределениях.

С целью анализа динамики структурных изменений было произведено расщепление смеси распределений регионов по уровню инновационной активности в 2004 и 2005 году. Оценки параметров приведены в табл.13.

Таблица Максимально правдоподобные оценки параметров смеси распределений 2004 год 2005 год i i i i i qi qi 1 4,28 0,65 0,14 3,30 2,036 0, 2 7,06 0,82 0,70 5,69 0,398 0, 3 9,41 0,70 0,16 7,38 0,851 0, О динамике страт можно судить и по их границам, значения которых для 2004 и 2005 г.г.представлены в табл. 14.

О достаточно высоком качестве аппроксимации результатов наблюдений свидетельствует соответствие теоретических распределений эмпирическим (рис. 33).

Таблица Границы страт по уровню инновационной активности (логарифму отгруженной инновационной продукции на 1000 жителей региона) 2004 год 2005 год № нижняя верхняя нижняя верхняя 1 1,1 5,2 2,5 5, 2 5,2 8,6 5,0 6, 3 8,6 12,0 6,2 10, Коэффициент подобия каждого из распределений более 95%.

Предположение о виде теоретического распределения согласуется с имеющимися данными на уровне значимости 0,1. Отклонение теоретического от эмпирического весьма незначительно и, например, для yт yэ 2005 г. составило 0,023.

n 2001 г.

Эмпирич.

Теоретич.

lnx Рис. 33. Эмпирическое и теоретическое распределения регионов по уровню инновационной активности в 2001г.

Количественные изменения в распределении регионов по стратам иллюстрируются диаграммами, представленными на рис.34.

2001 год 2005 год 11% 17% 13% 1 страта страта 26% 2 страта страта 3 страта страта 61% 72% Рис. 34. Структура регионов России по инновационной активности За рассматриваемый период уменьшилось число инновационно отсталых регионов (с 19 в 2001 г. до 13 в 2005 г.) и увеличилось число регионов со средней степенью инновационной активности (долей инновационной продукции приходящейся на 1000 чел.). Попадание Москвы, Санкт-Петербурга во вторую страту объясняется высокой численностью населения этих регионов, а также распадом значительной части отечественной обрабатывающей промышленности, которая ранее «тянула» за собой всю промышленность страны. Так, в Санкт-Петербурге распались или практически прекратили свое существование такие ранее мощные научно-производственные объединения как «Позитрон», «Феррит», «Электрон», завод им. А.А.Кулакова, НИИ «Поиск» и многое другие.

Состав лидирующей третьей страты за ряд лет, представленный в табл. 15, свидетельствуют о достаточно высокой стабильности группы.

Небольшие изменения характеризуют инновационную деятельность в Мурманской области, переместившейся из третьей во вторую страту, и в Челябинской области. Значительно повысилась инновационная активность регионов, входящих в лидирующую страту. Так, объем отгруженной инновационной продукции, приходящийся на 1000 жителей, увеличился в Самарской обл. за период с 2003 по 2005 гг. в 6,65 раз, в респ. Татарстан – в 3,2 раза, в Свердловской области – в 2,3 раза. В наиболее выгодном положении оказались сырьевые регионы и регионы с успешно действующими технопарками. Так, в Свердловской области на базе города ядерщиков Заречный в 1994 г. был создан и успешно действует технолополис «Заречный». Опыт его работы свидетельствует о необходимости сочетания федеральный, региональных и местных источников финансирования.

Таблица Состав третьей (лидирующей) страты № п/п 2001 год 2003 год 2004 год 2005 год 1 Свердловская Свердловская Свердловская Свердловская Самарская. Самарская Самарская Самарская Мурманская 3 - Липецкая. Липецкая Липецкая Липецкая 5 Нижегородская Нижегородская Нижегородская Респ. Респ. Респ.

6 Респ.Татарстан Татарстан Татарстан Татарстан 7 Челябинская Челябинская Тюменская Тюменская Тюменская 8 Вологодская Вологодская Вологодская Вологодская Московская Новгородская Полученная региональная стратификация подтверждает сделанные ранее выводы о существенной дифференциации регионов и увеличении группы регионов со средним уровнем развития.

Разбиение регионов на группы лидирующих, средних и депрессивных подтверждает гистограмма, представленная на рис. Регионы, входящие в состав третьей страты, занимают лидирующие позиции по всем рассматриваемым показателям.

единиц 1 страта 2 страта 3 страта число поданных заявок на патенты на изобретения и заявок на патенты на промышленные образцы, свидетельства на полезные модели количество совместных проектов (единиц) число организаций, имевших готовые инновации в течение последних трех лет (единиц).

Рис. 35. Инновационная активность регионов в стратах Важнейшей задачей, стоящей перед Россией на современном этапе, является сокращение числа депрессивных регионов на основе перепрофилирования производства. Так в высокоспециализированных регионах, в которых сконцентрирована легкая и текстильная промышленность, и наблюдается значительный спад производства (Ивановская, Владимирская обл. и другие), необходимо освоение новых способов изготовления сырья с учетом прогрессивных технологий.

Повысить инновационную активность небольших по численности населения регионов, в которых происходит сокращение промышленного производства, перекачка финансовых, инвестиционных ресурсов в более крупные города, возможно только на основе развития инновационной сферы, стимулирования развития малых предприятий.

Пограничные регионы (такие как, например, Калининградская обл.) можно переориентировать на внешние близлежащие рынки. Из мировой практики известно, что при угнетенном внутреннем спросе такая переориентация на экспортные рынки становится мощным инновационным импульсом, побуждающим не только разрабатывать (или имитировать) и внедрять новые технологии, но и постоянно их совершенствовать в условиях достаточно жесткой конкуренции. В отдаленных от центра регионах (таких как сибирские) необходимо ориентироваться на свои силы и учитывать возможности, предоставляемые рынком, а не сложившейся конфигурацией политических сил.

В депрессивных регионах первой страты преодолеть существующий кризис возможно только за счет новых технологических решений по снижению затрат (при условии сохранения структуры промышленного производства) или, напротив, создания принципиально новых товаров, отказа от старых, не приносящих прибыли технологий, а также выхода и освоения новых рынков сбыта.

В лидирующих регионах третьей страты, в которых существующая структура промышленности способна давать стабильный доход и тем самым создавать условия экономической и политической стабильности “склонность к инновациям” не должна снижаться. Здесь необходимы стратегически правильные обоснованные решения, позволяющие поддерживать высокий инновационный потенциал региона за счет освоения мировых технологических достижений и выхода на новые внутренние и зарубежные рынки. Из мировой практики известно, что регионы, в которых хорошо развито производство, характеризующееся крупными капиталовложениями, материальными фондами и высоким уровнем влияния на бюджеты, в меньшей степени способны к новым инновационным стратегиям по сравнению с теми регионами, в которых такая структура не получила развития. То есть, чем мощнее была экономическая система в предшествующий реформам период, в которую вложены огромные средства, которая уже имеет освоенный крупный рынок сбыта и не потребует значительных ресурсов для технологической реструктуризации и переподготовки кадров, тем сильнее будет ее сопротивление созданию и развитию новой системы. Поэтому создание инновационной экономики следует начинать в тех регионах, где возможно появление и развитие малого и среднего инновационного бизнеса (в условиях меньшего давления прежних “национальных чемпионов”) как опоры для экономики всего региона.

Параметрическое структурное моделирование 6.2.

патентной активности Формирование патентной активности представляет собой мультипликативный процесс. На ее размер оказывает влияние различные факторы:

расходы на НИОКР, численность исследователей, уровень развития страны уникальность данного изобретения новейшие технологии и другие.

Сегодня разные страны все больше котируются в мире не по объемам производства, не по военной и даже не по политической мощи, а по способностям к научно-техническому прогрессу, умению изобретать и массово осваивать результаты интеллектуальной деятельности.

Новейшие технологии являются главным фактором экономического развития, в связи с чем экономическая конкуренция все в большей степени определяется конкуренцией научно-технической, что повышает роль интеллектуальной собственности. В передовых странах разработка и внедрение технологических инноваций - решающий фактор социального и экономического развития, залог экономической безопасности.

Общепризнано, что патентная статистика являются надежным показателем инновационной деятельности. Поэтому использование таких статистических данных для отслеживания инновационной деятельности и разработки новых технологий стало обычной мировой практикой.

Патентное право и инновации стимулируют быстрое и устойчивое технологическое развитие всех передовых стран мира. Особая ценность патента заключается в том, что он защищает права владельца на запатентованный продукт, поскольку в таком случае никто другой не имеет права на копирование этого продукта, а, следовательно, и стимулирует дальнейшее появление новых изобретений и развитие технологий.

Таким образом, анализ статистических данных о патентной активности имеет большое значение для оценки инновационного потенциала стран мира (табл. 16).

Таблица Количество патентных заявок в странах мира, 2010 г.

№ п/п Страны Х № п/п Страны Х ЛИВИЙСКАЯ АРАБСКАЯ БОЛГАРИЯ 1 1 38 ДОМИНИКА БАРБАДОС 2 2 39 КОНГО МАЛАЙЗИЯ 3 2 40 ГАНА ЕГИПЕТ 4 3 41 АЛБАНИЯ ЛИХТЕНШТЕЙН 5 4 42 БОЛИВИЯ СЛОВЕНИЯ 6 4 43 ГОНДУРАС ЮЖНАЯ АФРИКА 7 5 44 ДОМИНИКАНСКАЯ РЕСПУБЛИКА ЛЮКСЕМБУРГ 8 7 45 БОСНИЯ И ГЕРЦЕГОВИНА БРАЗИЛИЯ 9 10 46 МАРОККО ГРЕЦИЯ 10 11 47 АЗЕРБАЙДЖАН РУМЫНИЯ 11 13 48 АНДОРРА МЕКСИКА 12 17 49 КОСТА - РИКА ЧЕШСКАЯ РЕСПУБЛИКА 13 29 50 ВЕНЕСУЭЛА НОРВЕГИЯ 14 43 51 ПЕРУ НОВАЯ ЗЕЛАНДИЯ 15 47 52 КАЗАХСТАН УКРАИНА 16 56 53 КУБА СИНГАПУР 17 83 54 ЛАТВИЯ ТУРЦИЯ 18 118 55 ЛИТВА ПОЛЬША 19 118 56 АРМЕНИЯ ИНДИЯ 20 128 57 ЧИЛИ ДАНИЯ 21 136 58 ТАИЛАНД БЕЛЬГИЯ 22 140 59 МАЛЬТА АВСТРАЛИЯ 23 144 60 МОЛДОВА, РЕСПУБЛИКА ИСПАНИЯ 24 144 61 БАГАМЫ АВСТРИЯ 25 159 62 ЭСТОНИЯ ФИНЛЯНДИЯ КОРЕЯ, НАРОДНО 26 178 63 КИПР ДЕМОКРАТИЧЕСКАЯ 27 192 64 УЗБЕКИСТАН ИЗРАИЛЬ 28 239 65 АРГЕНТИНА ШВЕЦИЯ 29 240 66 ИСЛАНДИЯ ИТАЛИЯ 30 243 67 ГРУЗИЯ КАНАДА 31 261 68 БЕЛАРУСЬ НИДЕРЛАНДЫ 32 274 69 СЛОВАКИЯ ШВЕЙЦАРИЯ 33 280 70 САУДОВСКАЯ АРАВИЯ РОССИЯ 34 327 71 ХОРВАТИЯ СОЕДИНЕННОЕ КОРОЛЕВСТВО 35 339 СЕРБИЯ ФРАНЦИЯ 36 344 73 ПОРТУГАЛИЯ ГЕРМАНИЯ 37 348 74 Необходимо произвести классификацию патентной активности стран мира и охарактеризовать полученные классы (страты).

Обоснование вида теоретического распределения, описывающего описываемое явление, предполагает как теоретический анализ сущности явления, так и визуальный анализ эмпирического распределения.

Анализируемый признак – количество заявок на патенты – представляет собой результат совокупного действия множества факторов, среди которых отсутствуют явно доминирующие, а характер действия каждого фактора, как наблюдаемого, так и латентного, на результирующее значение показателя можно считать мультипликативным, можно предположить, что для однородной группы стран закон распределения признака будет логарифмически нормальным:

(ln x ) f (ln x) 2, e где и - соответственно математическое ожидание и среднее квадратическое отклонение величины логарифма патентной активности ln x.

Закон распределения будет представлять собой смесь k логарифмически-нормальных распределений.

Подтвердим теоретические предположения результатами анализа эмпирического распределения. Для построения гистограммы распределения объектов по анализируемому признаку можно использовать надстройку Excel «Гистограмма».

Так как предполагается логарифмически-нормальное распределение патентной активности, гистограмму целесообразно строить по логарифму анализируемого признака.

Выберем в качестве границ интервалов целочисленные значения логарифма количества заявок на патенты от 0 до 12. Результаты расчетов приведены в табл. 17.

Таблица Результаты расчетов эмпирической гистограммы Карман Частота 0 1 2 3 4 5 6 7 8 9 10 11 12 Еще График, построенный средствами Excel на основе данных табл. 17, приведен на рисунке 36.

Рис.36. Гистограмма распределения наблюдаемых значений признака Вид гистограммы согласуется с предположением о логарифмически нормальном распределении по уровню патентной активности каждой однородной группы стран мира и наличии нескольких таких групп в исследуемой совокупности.

Определим начальные приближения параметров смеси распределений qi, i, i на основе графического анализа гистограммы.

Рассчитаем теоретическую гистограмму для выбранных значений параметров и сравним ее с эмпирической.

По полученной гистограмме логарифма патентной активности предположим наличие трех страт с колоколообразными (рис.36) функциями распределения и визуально определим начальные приближения значений параметров (табл.18).

Среднее значения i для логарифма каждой страты определим приближенно как абсциссу точки ее предполагаемого максимума.

Стандартное отклонение логарифма признака i будет определяться расстоянием по оси абсцисс от предполагаемой точки максимума до точки перегиба плотности вероятности логарифма признака.

Таблица Начальные приближения параметров смеси распределений i i i qi 1 2 1 0, 2 6 0,9 0, 3 9 1,3 0, Теоретическую гистограмму можно построить по данным табл. 18, для выбранных ранее карманов (табл.17). Для ее расчета используем функцию Excel ЛОГНОРМРАСП(x;

среднее;

стандартное_откл), которая возвращает интегральное логнормальное распределение, где ln(x) представляет собой нормальное распределение. «Среднее» представляет собой среднее значение lnx для данного компонента смеси, то есть i, а «Стандартное отклонение» - стандартное отклонение lnx, то есть i.

Результаты расчета теоретической гистограммы приведены в табл.

19.

Таблица Результаты расчетов теоретической гистограммы (начальное приближение) Карман Частота 0 0, 1 2, 2 5, 3 5, 4 2, 5 4, 6 12, 7 13, 8 8, 9 8, 10 7, 11 4, Еще На одном графике теоретическая и эмпирическая гистограммы представлены на рис.37.

Рис.38. Гистограммы эмпирического и начального приближения теоретического распределений Существенное отличие гистограмм в первую очередь объясняется тем, что параметры, использованные для построения теоретического распределения, не являются оптимальными.

Получение наилучших значений параметров требует выбора критерия оптимальности и организации процедуры получения оценок в соответствии с алгоритмом, описанным в подразделе 4.1.

Таким образом, полученные максимально правдоподобные оценки параметров представлены в табл.20.

Таблица Максимально правдоподобные оценки параметров смеси распределений i i i qi 1 1,737 0,977 0, 2 5,549 0,922 0, 3 8,885 1,219 0, Результаты расчета теоретической гистограммы приведены в табл.21.

Построенные на основе данных табл.20 и табл.16 графические изображения теоретической и эмпирической гистограмм приведены на рис.38.

Рис.38. Гистограммы эмпирического и теоретического распределений Таблица Результаты расчетов теоретической гистограммы Карман Частота 0 0, 1 2, 2 4, 3 3, 4 2, 5 8, 6 14, 7 10, 8 6, 9 8, 10 7, 11 3, 12 0, Еще 0, Коэффициент подобия распределений Модель хорошо описывает имеющиеся данные, о чем можно судить по близости теоретической и эмпирической гистограмм.

На основе полученных оценок строится модель смеси логарифмически нормальных распределений. Для этого формируется массив значений логарифма патентной активности с одинаковыми интервалами между соседними значениями. Число значений должно обеспечить необходимое качество графика плотности вероятности. Таким образом, была выбрана сетка значений аргумента ln x с шагом 0,17.

График плотности вероятности, рассчитанный для созданного массива значений ln x, представлен на рис. 39. На нем же отображены и графики взвешенных плотностей вероятностей компонентов смеси.

Рис.39. Модель распределения по патентной активности и ее декомпозиция Анализ рис.40 позволяет сделать вывод, что в общей совокупности стран мира можно выделить три страты: страны с низкой патентной активностью, со средней патентной активностью и с высокой патентной активностью, доли которых составляют соответственно 17,6%, 48,6% и 33,8%. При строгом решающем правиле условные границы классов для отнесения произвольного наблюдения к одной из выделенных страт определим как абсциссы точек пересечения взвешенных плотностей вероятности соседних страт. Их значения составляют соответственно 3, и 7,1665. Таким образом, страны с патентной активностью, меньшей exp(3,455)=32, следует отнести к категории с низкой патентной активностью (3-я страта). Со средней патентной активностью следует признать страны с патентной активностью от 32 до 1295(2-я страта), к с высокой патентной активностью – страны, у которых более 1295 заявок на патенты (1-я страта).

В первую страту вошли 25 стран, из которых более 70 % - это страны Европы (78% - страны-члены Европейского Союза, 22% - страны, не входящие в Еврозону). Все страны, входящие в первую страту за исключением одной (Индия), относятся к группам стран с очень высоким и высоким уровнем жизни населения (отчёт ООН 2011 г.). Данные страны характеризуются высокими расходами на НИОКР и количеством учёных.

Во вторую страту входят 36 стран (самая крупная страта), из которых более 55% составляют страны Европы, 25 % страны Америки (1/3 - страны Северной Америки, а 2/3 Южной) и 20 % страны Азии и Африки. В данную страту входят страны с разным уровнем жизни, начиная с очень высокого уровня жизни и заканчивая средним уровнем жизни населения.

В третью страту (самая маленькая страта, удельный вес от общей совокупности менее 20%) вошли 13 стран, из которых лишь три страны Европы. Большая часть стран относится к странам со средним и низким уровнем жизни населения. Расходы на НИОКР в данных странах очень низкие.

Таким образом, использование алгоритма декомпозиции вероятностных распределений, позволило сгруппировать страны мира в три кластера в зависимости от интенсивности патентной активности.

Типологическая регрессионная модель инновационного 6.3.

потенциала региона на основе нечеткой классификации Инновационный потенциал региона представляется перспективным и актуальным предметом исследования. В настоящее время он приобретает все большую важность для обеспечения конкурентоспособности региональной экономики.

Для характеристики инновационного потенциала могут быть использованы различные показатели: число организаций, выполняющих исследования и разработки;

численность персонала, занятого исследованиями и разработками;

объем отгруженных инновационных товаров. Однако наличие определенного числа организаций или квалифицированного персонала не означает, что их действия направлены на развитие инновационного потенциала. Показатель отгруженной инновационной продукции отражает скорее не потенциал, а уровень развития сферы исследований и разработок.

Достаточно хорошо инновационный потенциал региональной экономики отражает показатель внутренних затрат на исследования и разработки на душу населения [руб./чел.].

При расчетах использованы данные Росстата по 83 регионам России за 2003, 2004 и 2005 гг. [56].

Задача классификации экономических объектов, направленная на выявление структуры исследуемой генеральной совокупности, занимает одно из центральных мест среди задач статистического анализа [7,19]. От качества решения данной задачи во многом зависит возможность реализации дальнейших этапов статистического исследования. Проведение структурного анализа по одному показателю обусловливает необходимость наиболее полного использования содержащейся в нем информации и возможность применения аппарата расщепления смесей вероятностных распределений, обеспечивающего возможность выделения однородных групп объектов [21]. Данный метод не только позволяет использовать традиционные жесткие решающие правила для интерпретации результатов классификации, но и предоставляет возможность реализовать гибкие подходы, основанные на применении нечетких множеств [7].

При декомпозиции смеси вероятностных распределений принципиальной задачей является выбор вида закона распределения.

Поскольку исследуемый признак формируется под действием совокупности факторов, среди которых ввиду сложности изучаемого процесса отсутствуют явно доминирующие, а характер действия каждого из них на итоговый показатель можно считать мультипликативным, следует сделать вывод, что для однородной с рассматриваемой точки зрения группы регионов закон распределения признака будет логарифмически нормальным:

(ln y ) f (ln y ) 2 e, где и – соответственно математическое ожидание и среднее квадратическое отклонение величины логарифма изучаемого признака.

При наличии k однородных групп в исследуемой совокупности закон распределения будет представлять собой смесь k логарифмически нормальных распределений:

k f (ln y ) qi f (ln y, i, i ), i где q i – доля объектов i -й группы в генеральной совокупности, k q 1, i i f (ln y, i, i ) – плотность вероятности распределения i -й группы.

Вид гистограммы логарифма изучаемого признака «Внутренние затраты на исследования и разработки на душу населения» (ln y) в 2003 г.

согласуется с предположениями о логарифмически нормальном законе распределения для отдельной группы объектов и о наличии в выборке различных однородных совокупностей (рис. 40). Для 2004 и 2005 гг. были выполнены аналогичные расчеты. Поскольку структура исследуемой совокупности достаточно стабильна, в качестве примера приводятся результаты структурного моделирования за 2003 г.

Эмпирич 1 2 3 4 5 6 7 8 lny Рис.40. Гистограмма распределения наблюдаемых значений признака (2003 г.) Наилучшим для аппроксимации и интерпретации результатов оказалось представление совокупности регионов в виде трех страт. В результате проведения численной процедуры оптимизации были получены максимально правдоподобные оценки параметров, приведенные в табл. 22.

Таблица Максимально правдоподобные оценки параметров (2003 и 2005 гг.) 2003 г. 2005 г.

i i i i qi qi i i 1 5,087 1,234 0,73 1 5,299 1,160 0, 2 6,787 0,480 0,24 2 7,142 0,481 0, 3 8,273 0,261 0,03 3 8,706 0,267 0, Графические изображения теоретической и практической гистограмм приведены на рис. 41.

эмпирич теоретич 1 2 3 4 5 6 7 8 lny Рис. 41. Гистограммы эмпирического и теоретического распределений (2003 г.) О достаточно хорошем качестве аппроксимации результатов свидетельствует согласие теоретического и эмпирического распределений.

Коэффициент подобия распределений К под ( PiT ;

Pi Э ) составил 93,2%.

min Результаты моделирования плотности вероятности смеси распределений представлены в виде графиков на рис. 42.

0, общая кривая распределения 0, 3-я страта 2-я страта 0, 1-я страта 1, 1, 2, 3, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9, lnx Рис. 42. Распределение регионов по инновационному потенциалу в 2003 г. и его декомпозиция Для определения границ страт был использован байесовский критерий минимума среднего риска ошибок классификации, определяемый при отсутствии дополнительной априорной информации как абсциссы точек пересечения взвешенных кривых распределения соседних страт [5].

В 2003 г. регионы, у которых значение ln y меньше 6,38, следует отнести к группе с низким инновационным потенциалом (3-я страта);

регионы со значением ln y в интервале от 6,38 до 7,86 – к группе с относительно высоким инновационным потенциалом (2-я страта), регионы со значением ln y выше 7,86 – к группе передовых регионов (1-я страта).

Для анализа динамики структурных изменений аналогичные расчеты были проведены по данным за 2004 и 2005 гг. В результате был сделан вывод, что структура регионов стабильна и характеризуется высоким уровнем неоднородности.

В первую группу постоянно входили 4 передовых региона (Москва, Санкт-Петербург, Московская и Нижегородская области). За период времени с 2003 по 2005 гг. средний по группе рассматриваемый показатель вырос с 3894 руб. на чел. до 5403 руб. на чел., то есть на 38,7%, что свидетельствует о значительном росте инновационной активности в этих субъектах Российской Федерации.

Во вторую группу входили от 25 до 28 регионов с относительно высоким инновационным потенциалом. Главная причина выделения данных регионов во вторую группу заключается в том, что составляющие ее основу регионы обладают значительным экономическим потенциалом и возможностью осуществлять финансирование сферы исследований и разработок на высоком уровне. В рассматриваемый период в группе постоянными членами этой группы были 23 региона, поэтому можно утверждать, что состав группы стабилен. Средний темп роста показателя по группе за период с 2003 г. по 2005 г. составил 32% (он возрос с руб. на чел. до 1369 руб. на чел.), что несколько ниже результатов лидирующей группы с точки зрения темпов роста и существенно ниже в абсолютном выражении.

В третью группу входили от 51 до 54 регионов с низкими значениями рассматриваемого показателя: от 183 руб. на чел. до 226 руб.

на чел. в 2003 и 2005 гг., что соответственно в 3 и 3,6 раза соответственно ниже среднероссийского уровня. На данном этапе экономического развития регионы, входящие в данную группу, не обладают существенным инновационным потенциалом и направляют имеющиеся ресурсы на решение других задач региональной экономики.

Результаты классификации за 2003 – 2005 гг. представлены на рис.

44, при этом как регионы с относительно высоким инновационным потенциалом на схеме отображены 23 субъекта, постоянно присутствовавшие в этой группе на протяжении всего рассматриваемого периода.

Таким образом, достаточно высокий уровень инновационного потенциала имеет около трети регионов России (рис. 43).

Передовые регионы Регионы с относительно высоким инновационным потенциалом Регионы с низким инновационным потенциалом Рис. 43. Результаты классификации регионов России по инновационному потенциалу в 2003 - 2005 гг.

Анализ структуры страт в общей совокупности (рис.44) показывает значительное преобладание регионов с низким уровнем инвестиционной привлекательности, обусловленным низкой инновационной активностью.

5,0% 31,0% 64,0% 1-я страта 2-я страта 3-я страта Рис. 44. Структура регионов России по инновационному потенциалу в 2005 г.

Необходимо отметить, что темпы увеличения инновационного потенциала соответствуют его уровню – наиболее высокий темп роста наблюдается в первых двух стратах (38,7% и 32,7% соответственно), что выше среднего значения по стране (29,9%). Темп роста в третьей страте (23,4%), в свою очередь, ниже данного показателя. Данный факт указывает на наличие дивергенции в изучаемой совокупности.

Для выявления причин, обусловливающих данное разбиение регионов России на группы по инновационному потенциалу, был проведен анализ его основных факторов:

наличие квалифицированного персонала;

уровень образования в регионе;

развитие институциональной среды.

Соответственно, для их характеристики были выбраны следующие статистические показатели, рассчитанные по данным Росстата [58]:

численность персонала, занятого исследованиями и разработками (на 1000 занятых);

численность студентов высших учебных заведений (на 10 тыс.

человек населения);

число малых предприятий (на 10 тыс. человек населения).

Полученные результаты представлены на рис. 45.

Персонал, занятый ИиР, 2003 г.

Персонал, занятый 10 ИиР, 2005 г.

1-ая страта 2-ая страта 3-я страта Студенты вузов, 2003 г.

Студенты вузов, 2005 г.

1-ая страта 2-ая страта 3-я страта Число малых 80 предприятий, 2003 г.

Число малых предприятий, 2005 г.

1-ая 2-ая 3-я страта страта страта Рис. 45. Средние значения факторов инвестиционного потенциала в 2003 и 2005 гг. в выделенных группах регионов Результаты анализа средних значений факторов по выделенным группам подтверждают, что во всех трех случаях наблюдается доминирование передовых по инвестиционному потенциалу регионов.

Несмотря на то, что показатели регионов второй группы более скромные, их значения существенно превосходят общероссийский уровень. Регионы со слабым инновационным потенциалом, в свою очередь, имеют наименьшие величины всех трех рассматриваемых факторов.

В ходе анализе структуры различных экономических систем традиционные алгоритмы, используемые в стандартных пакетах прикладных статистических программ, как правило, предусматривают однозначное отнесение каждого объекта к определенному классу.

Подобное разделение исследуемой совокупности соответствует структуре с жесткими границами. Однако в случаях, когда исследуемые объекты незначительно отличаются друг от друга по величинам, выбранным для структурного моделирования признаков, построение регрессионных моделей в однозначно определенных стратах может не отвечать требованию адекватности отражения реальных экономических явлений.

Подобная ситуация наблюдается и при изучении регионального инновационного потенциала: значительное число регионов находится в «пограничном» состоянии (рис. 46), каждый из них может обладать характерными чертами различных страт, поэтому представляется нецелесообразным однозначно относить данные объекты к одной из них.

Следовательно, в рассматриваемом случае необходимо реализовать нечеткий подход к классификации регионов, который в большей степени соответствует реальной региональной структуре.

Выделение классов с нечетко очерченными границами предполагает определение функции принадлежности каждого объекта к каждой из выделенных групп. Функцию принадлежности (membership function) i -го объекта к j -ой группе можно определить как отношение значения взвешенной плотности вероятности данной страты к общей плотности вероятности для данного объекта:

q j f j ( y i ;

j ) mf ij, k q f j ( y i ;

j ) j j где j ( j ;

j ) – вектор параметров плотности вероятности f для j ой страты, q j – удельный вес j -ой страты в общем законе распределения.

Функция принадлежности показывает, что i -й объект на mfij 100% относится к j -ой группе. Изменение значений функции принадлежности обусловливает наглядное представление о динамике перехода объекта из одной страты в другую. Объекты, принадлежащие к данной страте в максимальной степени, образуют ядро страты. «Пограничные» объекты включаются одновременно в две страты с весами, соответствующими значениям функции принадлежности к ним этих объектов, что обеспечивает адекватность модели описываемому явлению.

Данный подход был использован для моделирования инновационного потенциала регионов методом типологической регрессии.

На его основе были построены модели множественной регрессии в группах регионов с низким и относительно высоким инновационным потенциалом (3-я и 2-ая страты соответственно) по данным 2003, 2004, и 2005 гг. Проведение моделирования в группе лидирующих регионов (1-ая страта) является нецелесообразным по причине малого количества наблюдений. Для сравнения результатов моделирования, полученных с использованием нечеткого решающего правила, с результатами традиционной типологической регрессии в этих стратах также были построены регрессионные модели на основе строгой классификации.

В качестве зависимой переменной во всех случаях выступал логарифм внутренних затрат на исследования и разработки на душу населения ( y * ln y), используемый для характеристики регионального инновационного потенциала, а в качестве регрессоров – рассмотренные выше показатели, определяющие инновационный потенциал региона:

x1 – численность персонала, занятого исследованиями и разработками (на 1000 занятых);

x 2 – численность студентов высших учебных заведений (на тыс. человек населения);

x3 – число малых предприятий (на 10 тыс. человек населения).

В группе регионов с низким инновационным потенциалом по данным 2003 г. на основе строгой классификации было построено уравнение регрессии:

y * 3,0231 0,0304 x1 0,0025 x2, R 2 0,60, Fрасч 37,8.

(8, 94) ( 7, 64) ( 2, 59) В уравнении под коэффициентами приведены расчетные значения t статистик.

Модели для 2004 и 2005 гг., полученные при однозначном отнесении объекта к группе с низким инновационным потенциалом, имеют такой же состав регрессоров и идентичные качественные характеристики.

Построенное для рассматриваемой группы регионов по данным г. регрессионное уравнение, в которое все наблюдения включались с весами, соответствующими значениям их функции принадлежности к выделенным группам, имеет следующий вид:

y * 3,3293 0,0195 x1 0,0024 x2, R 2 0,53, Fрасч 44,1.

(11, 35) ( 7, 99) ( 2, 90) Коэффициент детерминации этого уравнения несколько ниже по сравнению с предыдущим. Это объясняется большей «размытостью»

исходных данных в модели, полученной на основе нечеткой классификации.

Регрессионная модель инновационного потенциала регионов рассматриваемой группы, полученная при использовании нечеткой классификации, в 2004 г. аналогична приведенной выше, а в 2005 г. в нее дополнительно включается показатель, характеризующий развитие институциональной среды. Коэффициент при переменной x3 становится статистически значимым на уровне 0,087 :

y * 3,0219 0,0222 x1 0,0027 x2 0,0089 x3, R 2 0,60, Fрасч 39,4.

( 9, 99) ( 7, 92) ( 3, 72) (1, 73) Нечеткий подход позволяет идентифицировать данное изменение в структуре модели, которое свидетельствует о возрастании роли малых предприятий в формировании инновационного потенциала региона. При этом в последней модели несколько увеличивается коэффициент детерминации, что указывает на возрастание ее прогностической силы.

В группе регионов с относительно высоким инновационным потенциалом по результатам классификации, использующей строгое решающее правило, были построены следующие модели для 2003 и гг.:

y * 6,4661 0,0039 x1, R 2 0,39, Fрасч 15,1.

( 53, 96) ( 3,89) y * 6,7078 0,0047 x1, R 2 0,42, Fрасч 15,7.

( 50, 62) ( 3, 96) В состав статистически значимых регрессоров в данных моделях включается лишь один показатель x1, что явно не обеспечивает адекватного отражения многоплановых экономических процессов, участвующих в формировании регионального инновационного потенциала. Достаточно слабая объясняющая сила этих моделей также отразилась в невысоких значениях коэффициентов детерминации.

При включении в состав рассматриваемой группы наблюдений в соответствии со значениями функции принадлежности модель для г. дополняется показателем x3 :

y * 6,2535 0,0037 x1 0,0041 x3, R 2 0,42, Fрасч 17,2.

( 47, 73) ( 4, 71) (1,87) В приведенном уравнении регрессии коэффициент при переменной x1 значим на 1-% уровне, в то время как коэффициент при регрессоре x является статистически значимым на уровне 0,067.

Модель для группы рассматриваемых регионов, получаемая при использовании нечеткого алгоритма классификации, характеризуется стабильной структурой и в 2005 г. имеет следующий вид:

y * 6,4189 0,0042 x1 0,0056 x3, R 2 0,55, Fрасч 30,5.

( 45, 2 ) ( 6, 21) ( 2, 42) В последней модели значительно увеличивается расчетная величина t-статистики коэффициента при переменной x3, в результате чего он становится статистически значимым на уровне 0,019. В модели также возрастает коэффициент детерминации, что указывает на увеличение ее прогностической силы.

Таким образом, построение модели, адекватной экономическому явлению, объективно способствует выявлению основных тенденций его развития. Неявно выраженному разделению регионов на группы по инновационному потенциалу соответствует их нечеткая классификация, обеспечивающая возможность реализации нового подхода к типологической регрессии.

Проведенный анализ показывает, что важнейшей задачей в настоящее время является повышение инновационного потенциала в регионах с его низким уровнем, поскольку инновационный потенциал является важнейшим фактором обеспечения конкурентоспособности и развития региональной экономики. Ее решение возможно, в первую очередь, за счет повышения привлекательности инновационной деятельности в данных регионах, а также внедрения новых перспективных технологий производства, разработки новых продуктов и проведения экономической политики, направленной на активацию эндогенных факторов развития.

Необходимо способствовать дальнейшему развитию инновационного потенциала лидирующих, наиболее конкурентоспособных регионов, поскольку именно в них возможно осуществлять внедрение передовых технологических достижений. Регионы этой группы в перспективе имеют возможность осуществить выход на глобальные рынки инновационных товаров и послужить опорой для развития инновационной сферы в других регионах, способствуя тем самым экономическому развитию страны в целом.

7. Заключение Выделение однородных групп объектов (классификация объектов) является одной из самых распространенных и востребованных областей многомерного прикладного статистического анализа.

Несмотря на многообразие различных методов классификации, не существует строго определенных правил, устанавливающих однозначное преимущество одних алгоритмов над другими. Каждый из методов классификации имеют свои преимущества и недостатки, а также ограничения в использовании в зависимости от располагаемой информации и характера развития объекта исследования.

В настоящее время методы классификации находятся в стадии развития, расширяясь возможностями практического применения.

Рассмотренные в монографии алгоритмы классификации на основе распределения смеси вероятностных распределений являются довольно новым алгоритмом классификации, еще недостаточно формализованным в прикладных пакетах программ, но, тем не менее, полезным. Он часто позволяет получать приемлемые результаты в тех случаях, когда стандартные алгоритмы кластерного анализа недостаточно эффективны.

Глоссарий ВЕРОЯТНОСТЬ ОШИБОЧНОЙ КЛАССИФИКАЦИИ – это характеристика качества метода классификации. Если множества, используемые в качестве обучающих выборок, близко расположены друг к другу, то возрастает вероятность ошибочной классификации новых объектов, особенно в тех случаях, когда классифицируемый объект сильно удален от центров обоих множеств. Складывается ситуация, при которой распознавание объекта затруднено.

Желательно строить такие методы классификации, которые минимизируют потери (или вероятность) неправильной классификации объектов. Введем c(j | i) – «функцию потерь», которая определяет стоимость потерь от отнесения объекта i-го класса к классу с номером j.

Если в процессе классификации мы используем ее m(j | i) раз, то потери, связанные с отнесением объектов i-го класса к классу j составят m(j | i)c(j | i). Чтобы подсчитать общие потери при такой процедуре Cn классификации, надо просуммировать величину произведения m(j | i)c(j | i) k k по всем i= 1, 2, …, k и j= 1, 2, …, k, т.е. Cn = c( j | i)m(j | i) (1). Для i 1 j того, чтобы потери не зависели от числа n классифицируемых объектов, перейдем к удельной характеристике потерь, разделив обе части на n, а k k затем перейдем к пределу по n : C = lim ( C n ) = lim c( j | I ) n n n i 1 j k k m( j | i ) ni ( n ) i c( j | i ) P( j | i ) (2). Предел в (2) понимается в смысле = ni ( n ) n i 1 j сходимости по вероятности частот m (j | i)/ni(n) и ni(n)/n соответственно к вероятностям P(j | i) – отнести объект класса i к классу j, и i – извлечения объекта класса i из общей совокупности анализируемых объектов;

величину i называют также априорной вероятностью (или удельным k весом) класса i. Величина C i c( j | i) P( j | i) определяет средние потери от j неправильной классификации объектов i-го класса. Средние удельные потери от неправильной классификации всех анализируемых объектов k будут: C i C (i ). В достаточно широком классе ситуаций полагают, что i потери c( j | i) одинаковы для любой пары i и j, т.е. c( j | i) c0 const при j i;

i, j 1,2,..., k. В этом случае стремление к минимизации средних удельных потерь C будет эквивалентно стремлению максимизации k P(i | i). Часто вероятности правильной классификации объектов, равной i i при построении процедур классификации говорят не о потерях, а о k P(i | i) ).

вероятностях неправильной классификации: ( 1 - i i ВЗВЕШЕННОЕ ЕВКЛИДОВО РАССТОЯНИЕ – способ (мера, метрика) нахождения расстояния между объектами в задачах кластерного анализа. Эти расстояния могут определяться в одномерном или многомерном пространстве. Выбор метрики (или меры близости) является узловым моментом в задачах автоматической классификации, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему. При этом решение данного вопроса зависит в основном от главных целей исследования, физической и статистической природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Взвешенное евклидово расстояние применяется в тех случаях, когда каждой компоненте xl вектора наблюдений X удается приписать некоторый «вес»

пропорциональный степени важности признака в задаче wl классификации:

m wk ( xik xjk ), dBE (Xi, Xj ) = k где dBE (Xi, Xj ) – расстояние между i-м и j-м объектами;

x x, jk ik значение k-й переменной у i-го и j-го объекта (k = 1,2,…, m;

i, j = 1,2,…, n). Обычно принимают 0 wk 1, где k=1,2,…,m. Выбор меры расстояния и весов для классифицирующих переменных – очень важный этап кластерного анализа, так как от этой процедуры зависят состав и количество формируемых кластеров, а также степень сходства объектов внутри кластеров. Вопрос о придании переменным соответствующих весов должен решаться после проведения дополнительных исследований, например опроса экспертов и обработкой их мнений. Или после проведения анализа изучаемой совокупности и социально-экономической сущности классифицирующих переменных. Веса задаются пропорционально степени важности переменных. Определение весов wl только по данным выборки может привести к ложным выводам.

ГИСТОГРАММА – это способ представления данных, измеренных в интервальной шкале (как дискретных, так и непрерывных). Часто используется в разведочном анализе данных для иллюстрации основных характеристик распределения. Гистограмма делит диапазон возможных значений множества данных на классы, или группы. Каждой группе соответствует прямоугольник, длина которого равна диапазону значений в заданной группе, а площадь пропорциональна числу наблюдений в этой группе. Это означает, что прямоугольники скорее всего будут различаться по высоте.

ДЕНДРОГРАММА древовидная диаграмма, (dendrogram) содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. См. Кластерный анализ. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров. С построением дендрограмм (от греческого dendron - "дерево"), связаны иерархические алгоритмы, которые являются результатом иерархического кластерного анализа.

Дендрограмму также называют древовидной схемой, деревом объединения кластеров, деревом иерархической структуры. Дендрограмма представляет собой вложенную группировку объектов, которая изменяется на различных уровнях иерархии. Существует много способов построения дендограмм. В дендограмме объекты могут располагаться вертикально или горизонтально. В горизонтальной дендограмме объекты располагаются вертикально слева, результаты кластеризации – справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются по горизонтальной прямой поверх дендограмм.

Рис. Горизонтальная дендограмма Приведенный рисунок соответствует случаю шести объектов (n=6) и k характеристик (признаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. Теперь имеем 4 кластера:

(А, С), (F), (D, E), (B). Далее образуются кластеры (А, С, F) и (E, D, B), соответствующие уровню близости, равному 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне 0,5. Вид дендограммы зависит от выбора меры сходства или расстояния между объектом и кластером и метода кластеризации. Наиболее важным моментом является выбор меры сходства или меры расстояния между объектом и кластером.

ДИСКРИМИНАНТНАЯ ФУНКЦИЯ – это линейная функция, используемая в дискриминантном анализе для оптимального разделения дискриминантных переменных в рассматриваемые группы. Канонической дискриминантной функцией называется линейная функция:

dkm = 0 + 1x1km + 2x2km +... + pxpkm, где: dkm - значение канонической дискриминантной функции для m-го объекта в группе k (m = 1,..., n, k xikm - значение дискриминантной переменной xi для m-го = 1,..., g);

объекта в группе k;

0,..., p - коэффициенты дискриминантной функции. С геометрической точки зрения дискриминантные функции определяют гиперповерхности в p-мерном пространстве. В частном случае при p=2 она является прямой, а при p=3 — плоскостью. Коэффициенты i первой канонической дискриминантной функции выбираются таким образом, чтобы центроиды (средние значения) различных групп как можно больше отличались друг от друга. Коэффициенты второй группы выбираются также, т.е. соответствующие средние значения должны максимально лтличаться по классам, при этом налагается дополнительное условие, чтобы значения второй функции были некоррелированы со значениями первой. Аналогично третья функция должна быть некоррелирована с первыми двумя и т.д. Отсюда следует, что любая каноническая дискриминантная функция d имеет нулевую внутригрупповую корреляцию с d1, d2,..., dg-1. Если число групп равно g, то число канонических дискриминантных функций будет на единицу меньше числа групп. Однако по многим причинам практического характера полезно иметь одну, две или же три дискриминантных функций. Тогда графическое изображениее объектов будет представлено в одно–, двух– и трехмерных пространствах.


Такое представление особенно полезно в случае, когда число дискриминантных переменных p велико по сравнению с числом групп g.

Для получения коэффициентов i канонической дискриминантной функции необходим статистический критерий различия групп.

Классификация переменных будет осуществляться тем лучше, чем меньше расстояние точек относительно центроида внутри группы и чем больше расстояние между центроидами групп. Следует отметить, что большая внутригрупповая вариация нежелательна, так как в этом случае любое заданное расстояние между двумя средними тем менее значимо в статистическом смысле, чем больше вариация распределений, соответствующих этим средним. Один из методов поиска лучшей дискриминации данных заключается в нахождении такой канонической дискриминантной функции dkm, которая бы максимизировала отношение B(d ) межгрупповой вариации к внутригрупповой: где – B, W (d ) межгрупповая и W – внутригрупповая матрицы рассеяния наблюдаемых переменных от средних.

ДИСКРИМИНАНТНАЯ ФУНКЦИЯ ЛИНЕЙНАЯ (ФИШЕРА) – осуществляет преобразование исходного множества измерений (переменных), входящих в выборку, в единственное дискриминантное число. См. дискриминантный анализ. Дискриминантный анализ для двух групп также называется линейным дискриминантным анализом Фишера (ЛДА). Работы Фишера (Fisher, 1936). ЛДА - линейный дискриминантный анализ – это метод поиска линейной комбинации переменных, наилучшим образом разделяющих два или более класса. Сам по себе он не является алгоритмом классификации, хотя и работает с информацией о принадлежности объекта к одному из классов. Однако чаще всего результат работы линейного дискриминантного анализа используется как часть линейного классификатора. Другим возможным применением является снижение размерности входных данных перед применением нелинейных алгоритмов классификации. Р.Э.Фишер предложил применять линейную комбинацию, которая максимизирует различия между классами, но минимизирует дисперсию внутри классов. Для этого необходимо определить линейную комбинацию для каждого класса называемую классифицирующей функцией. Она имеет следующий вид: dik = bk0 + bk1xi1 + …+ bkpxip +lnqk, k = 1,…, g, где dik – значение функции для класса k;

bkp – коэффициенты, которые необходимо определить;

qk – априорная вероятность того, что объект принадлежит к группе k. Объект xi = ( xi1…xip) относится к классу с наибольшим значением dik. Коэффициенты для классифицирующих функций определяются с помощью вычислений:

p ( bki = (n – g ) k = 1,…, g, где bki – коэффициент для переменной ) ij x jk, j i в выражении, соответствующем классу k, а ( 1 )ij – элемент матрицы, обратной внутригрупповой матрице сумм попарных произведений W.

1p bkj x jk, k = 1,…, g.

Константа определяется: bk0 = На практике чаще 2 j всего применяют линейный дискриминантный анализ. В этом случае дискриминантная функция представляет собой либо прямую, либо плоскость (гиперплоскость) разделяющие совокупности на классы.

Простая линейная дискриминантная функция осуществляет преобразование исходного множества измерений, входящих в выборку, в единственное дискриминантное число. Это число, или преобразованная переменная, определяет положение объекта на прямой, определенной дискриминантной функцией. Поэтому можно представлять дискриминантную функцию как способ преобразования многомерной задачи в одномерную.

ЕВКЛИДОВО РАССТОЯНИЕ – способ (мера, метрика) нахождения расстояния между объектами в задачах кластерного анализа. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается k-признаками, то он может быть представлен как точка в k-мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе используются различные меры расстояния между объектами, но наиболее используемым является евклидово расстояние:

m ( xik xjk ), где dE (Xi, Xj ) – расстояние между i-м и j dE (Xi, Xj ) = k м объектами;

- значение k-й переменной у i-го и j-го объекта (k = x,x jk ik 1,2,…, m;

i, j = 1,2,…, n). Использование этого расстояния оправдано в следующих случаях: наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида 2Ek, т.е. компоненты X взаимно независимы и имеют одну и ту же дисперсию, где Ek – единичная матрица;

компоненты вектора наблюдений X однородны по физическому смыслу и одинаково важны для классификации;

признаковое пространство совпадает с геометрическим пространством, и понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве. Естественно с геометрической точки зрения и содержательной интерпретации евклидово расстояние может оказаться бессмысленным, если его признаки имеют разные единицы измерения. Для приведения признаков к одинаковым единицам прибегают к нормировке каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы X к нормированной матрице Z с элементами:

xij x j, где xij – значение i-го признака у j-го объекта;

x j zij = j ( xij x j ) 2 среднее арифметическое значение j-го признака;

j = ni среднеквадратическое отклонение j-го признака.

ИЕРАРХИЧЕСКИЕ ПРОЦЕДУРЫ КЛАСТЕРОНОГО АНАЛИЗА – наиболее распространенные методы объединения кластеров.

Иерархические кластер - процедуры могут быть агломеративные и дивизимные. Принцип работы иерархичесих агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных друг от друга (приближенных друг к другу).

Сущность методов заключается в том, что на первом шаге каждое наблюдение Xi (i=1,2,…,n) рассматривается как отдельный кластер. На основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты (кластеры). Если матрица сходства первоначально имела размерность m x m, то полностью процесс кластеризации завершиться за m-1 шагов, в итоге все объекты будут объединены в один кластер. Важным для агломеративных иерархических процедур является нахождение расстояния между группами элементов.

При этом расстояние между классами Sl и S(m,q), являющимися объединением двух других классов Sm и Sq, можно определить по формуле:

l(m,q) = (Sl,S(m,q)) = lm + lq + mq + lm - lq, где lm = ( Sl, Sm);

lq = ( Sl, Sq );

mq = ( Sm, Sq ) – расстояния между классами Sl, Sm и Sq, а,, и - числовые коэффициенты, значение которых определяет специфику процедуры, ее алгоритм. Полагая = = - = = 0, и приходим к расстоянию, измеряемому по принципу «ближайшего соседа».

При = = = и = 0, расстояние между двумя классами определяется как расстояние между двумя самыми далекими элементами этих классов, по принципу «дальнего соседа». Алгоритм иерархической классификации предусматривает графическое представление классификации в виде дендограммы.

ИНФОРМАЦИОННЫЕ РАССТОЯНИЕ Каллбэка используется в теоретико-вероятностной схеме кластер-анализа для измерения расстояния между нормальными классами Sl и Sm и определяется формулой (a(l ) a(m)) ( 1 (l ) 1 (m))(a(l ) a(m)) + 2(Sl,Sm) = + tr ( (l ) (m))( 1 (l ) 1 (m)), где: a(l), a(m) – вектора средних значений l-о и m-о нормальных классов, а (l) и (m) – ковариационные матрицы этих классов.

В данной схеме анализируемая генеральная совокупность интерпретируется как смесь унимодальных генеральных совокупностей, каждая из которых и представляет один из искомых классов.

В статистической практике приведенная формула используется для вычисления расстояний между классами и при отклонении распределения наблюдений внутри классов от нормального с заменой теоретических характеристик a(j) и (j) их оценками a( j ) и ( j ), построенными по наблюдениям, составляющим класс с номером j (j= l,m).

КОРРЕЛЯЦИЯ – Когда говорят, что две случайные переменные коррелированны, имеют в виду, как правило, что они друг с другом как- то связаны. Стандартной мерой связи переменных является коэффициент корреляции. Следует, однако, помнить, что он измеряет лишь силу линейной связи.

КЛАСС – группа однородных в некотором смысле объектов;

множество объектов, сходных по природе и признакам;

генеральная совокупность, описываемая одномодальной функцией плотности f(X) (или одномодальным полигоном вероятностей в случае дискретных признаков X).

Для пояснения общей идеи, заложенной в основу построения всех вероятностно-статистических методов классификации, рассмотрим пример решения задачи отнесения трех наблюдений y1=5,16, y2=5,25 и y3=5,32 к одной из двух гипотетических нормальных совокупностей, т.е. к одному из классов, различающихся между собой средними значениями. Решение принимается в пользу класса со средним значением a1=5,243 потому, что в рамках этого класса данные наблюдения выглядят более правдоподобными (что определяется произведением соответствующих им ординат плотности этого закона). Этот принцип положен в основу вероятностных методов классификации: наблюдение будет относиться к тому классу (т.е. к той генеральной совокупности), в рамках которого (которой) он выглядит более правдоподобным. Этот принцип может корректироваться с учетом удельных весов классов и специфики так называемой «функции потерь» c (j|i), определяющей «стоимость» потерь от отнесения объекта i-о класса к классу с номером j. Для того чтобы этот принцип практически реализовать, необходимо располагать полным описанием гипотетических классов, т.е.


знанием функций f1(X), f2(X), …,fk(X), задающих з.р.в. соответственно для 1-о, 2-о, …, k-о классов. Последнее затруднение обходят с помощью обучающих выборок в случае классификации с обучением, и с помощью модели смеси распределений в случае классификации без обучения.

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ – меняется в пределах от -1 до 1, измеряет степень линейной связи двух случайных переменных.

Положительное значение коэффициента корреляции означает, что с ростом одной из переменных другая также растет, с убыванием одной из них убывает и другая. Отрицательное значение означает, что с ростом одной из переменных другая убывает, с убыванием одной из них другая растет.

Коэффициент корреляции, равный нулю, означает, что между переменными отсутствует линейная связь.

Даже если коэффициент корреляции равен 1 по абсолютной величине и, следовательно, переменные функционально связаны (линейно), ничего нельзя сказать о причинно-следственной связи между ними.

В статистической практике широко используются два коэффициента корреляции: для числовых переменных используется коэффициент корреляции Пирсона, для порядковых - коэффициент корреляции Спирмена.

КРИТЕРИЙ НЕПАРАМЕТРИЧЕСКИЙ – приемы обработки экспериментальных данных, которые не рассматривают анализируемое статистическое распределение как функцию, их применение не предполагает предварительного вычисления параметров распределения.

Т.о. непараметрические критерии основываются на более слабых допущениях в отношении анализируемых данных в сравнении со стандартными параметрическими процедурами.

Непараметрические методы разработаны для случаев, когда исследователь ничего не знает о параметрах исследуемой совокупности (отсюда и название методов - непараметрические). Они не основываются на оценке параметров (таких как математическое ожидание или дисперсия) при описании выборочного распределения интересующей величины.

Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

Главным достоинством применения непараметрических методов является возможность отойти от допущений, необходимых для использования параметрических процедур. Дополнительным соображением в пользу выбора непараметрических методов служит присущая некоторым таким критериям легкость применения и простота вычислений. Кроме этого, они могут быть использованы и для случайных величин, наблюдения над которыми представлены в номинальной и порядковой шкале.

Однако эти преимущества непараметрических методов реализуются за счет снижения их качественных характеристик. Слабое место непараметрических критериев состоит в их относительно низкой статистической мощности по сравнению со стандартными параметрическими процедурами. Непараметрические критерии обычно требуют больших объемов выборки, чтобы сравняться по статистической мощности с параметрическими критериями. В сравнении с параметрическими, непараметрические критерии менее точны, что зачастую приводит к ложному принятию нулевой гипотезы, так как для ее отвержения необходимо, чтобы наблюдения выборки характеризовались более значительными отклонениями. И наконец, непараметрические критерии менее информативны, например, позволяют определить направление сдвига в данных, но не указывают его величину.

КРИТЕРИЙ СОГЛАСИЯ – проверяют гипотезу о совпадении наблюдаемой эмпирической функции распределения с теоретической функцией постулируемого распределения. Критерий согласия хи-квадрат делает это путем сравнения наблюденных и ожидаемых частот. Критерий Колмогорова-Смирнова основывается на максимальной разности между эмпирической и постулируемой функциями распределения.

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ – это распространенный метод оценивания параметров. Ищутся оценки, минимизирующие сумму квадратов отклонений между смоделированными (предсказанными) и наблюденными значениями.

МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ – это общий метод вычисления оценок параметров. Ищутся такие оценки, чтобы функция правдоподобия выборки, равная произведению значений функции распределения для каждого наблюденного значения данных, была как можно большей.

Метод максимального правдоподобия лучше работает на больших выборках, где он, как правило, дает оценки с минимальной дисперсией. На маленьких выборках оценки максимального правдоподобия часто оказываются смещенными.

ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ - функция, задающая для любого значения х вероятность того, что случайная величина Х меньше или равна х;

то же в виде формулы: F(x) = Pr{X x}.

Пример. Функция распределения переменной вес дает для каждого возможного значения веса вероятность того, что он не превосходит этого значения.

МНОГОМЕРНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ Функция, задающая совместное распределение вероятностей нескольких случайных величин Х, Y,…;

для любого набора значений x, y,… она равна вероятности того, что случайная величина Х меньше или равна x и при этом случайная величина Y меньше или равна y, и т.д.

F(x,y,...) = P[X x;

Y y;

…].

МОДА - точка, где плотность вероятности непрерывной случайной величины достигает максимума. Иногда используют для характеристики дискретных распределений вероятностей.

Если мода единственна, то распределение вероятностей случайной величины называется «унимодальным»;

если имеется более, чем одна мода, оно называется «многомодальным» или «мультимодальным»

(бимодальным в случае двух мод).

Мода является робастной характеристикой центральной тенденции унимодального распределения.

МОДА ВЫБОРКИ – это значение, встречающееся чаще всего. Таких мод может быть несколько, если несколько значений встречаются одинаково часто. Однако в подобных случаях мода не является разумной оценкой центральной тенденции.

НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ Большая часть статистической теории построена для семейств распределений с пространствами параметров малой размерности. Таковыми являются экспоненциальное семейство и его частный случай – семейство нормальных распределений, задаваемое своими средним и дисперсией (быть может, многомерными).

Однако придуманы критерии и для более сложно устроенных семейств – скажем, семейства всех распределений с симметричной плотностью. Такие критерии обычно и называют непараметрическими. Их применимость, конечно, значительно шире, чем у их параметрических собратьев. Зато там, где параметрические критерии применимы, их мощность выше, чем у непараметрических.

Часто непараметрические критерии отождествляют с критериями, свободными от распределения.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ - Распределение вероятностей непрерывной случайной величины X с плотностью – стандартное – математическое ожидание, а где x, отклонение.

ГРАФИК НОРМАЛЬНОЙ ВЕРОЯТНОСТИ График с значениями выборки по оси X и довольно хитро вычисляемыми квантилями нормального распределения по оси Y. Если данные подчиняются нормальному распределению, точки графика ложатся близко к прямой линии. Синонимы: график на нормальной вероятностной бумаге, Q-Q (квантиль-квантиль) график.

ОДНОРОДНОСТЬ – Равенство дисперсий переменной, подсчитанных в пределах разных групп. Является стандартным требованием в таких, например, методах, как регрессионный и дисперсионный анализы.

Синоним: гомоскедастичность. Антоним: гетероскедастичность.

ОСТАТОК - это разность между наблюденной вероятностью события и вероятностью события, предсказанной моделью. Остаток, деленный на оценку своего стандартного отклонения, называется нормированным. В нашем случае он равен остаток Z pi (1 pi ) Для каждого наблюдения нормированный остаток можно также рассматривать, как компоненту статистики согласия хи-квадрат. Если выборка большая, нормированные остатки распределены приблизительно нормально с нулевым средним и единичным стандартным отклонением.

ПРАВДОПОДОБИЕМ ОЦЕНОК (likelihood) называют вероятность получить наблюденные результаты при заданных оценках параметров. Как правило, в качестве меры качества модели вместо самой вероятности пользуются логарифмом правдоподобия (LL, а на самом деле, - чуть более сложным выражением:

-2LL), поскольку эта оценка распределена асимптотически как хи-квадрат. Для хорошей модели правдоподобие велико и, соответственно значение -2LL мало. Когда модель идеальна, т.е.

предсказываемые моделью (модельные) значения в точности равны наблюденным, величина -2LL равна нулю.

ПРОПУЩЕННОЕ ЗНАЧЕНИЕ - Если значение переменной по какой-либо причине неизвестно для данного объекта, мы называем это значение пропущенным. Важно учитывать, что значение может оказаться пропущенным по разным причинам: потеряно (из-за ошибок кодировки), неприменимо (количество беременностей у мужчины), недоступно (респондент отказался отвечать) и т.д. Часто необходимо различать эти ситуации и тогда для них вводят специальные коды.

В современных статистических пакетах имеется возможность объявить некоторое количество градаций переменной кодами пропущенных значений. Имеется два основных способа исключения пропущенных значений из анализа: исключение объекта целиком (exclude cases listwise), если значение хотя бы одной переменной оказалось пропущенным, и попарное исключение переменных (exclude cases pairwise), когда исключаются только те объекты, у которых оказалось пропущенным значение хотя бы одной из переменных, участвующих в текущем вычислении. Например, попарное исключение часто применяют при вычислении матрицы ковариаций, хотя известно, что это может привести к вырожденной матрице и, чтобы избежать этого, лучше пользоваться исключением целиком.

Некоторые методы анализа требуют отсутствия пропущенных значений. В подобных ситуациях применяют те или способы восстановления пропущенных значений: например, заменяют их средними.

СМЕСЬ РАСПРЕДЕЛЕНИЙ (ДЕКОМПОЗИЦИЯ) – это распределение, в котором каждое наблюдение подчиняется одному из нескольких распределений. Например, когда мы проводим измерения артериального давления в некоторой популяции, наблюдения для мужчин могут представлять нормальное распределение, для женщин тоже нормальное, но с другим средним и дисперсией, и вместе они не будут нормально распределены. Синоним: смешанное распределение.

СРЕДНЕЕ ОТКЛОНЕНИЕ - Мера разброса: среднее абсолютных величин отклонений от некоторого фиксированного значения, взятых по модулю.

Обычно в качестве такого фиксированного значения выбирают среднее арифметическое выборки, хотя среднее отклонение минимально, когда в качестве такого значения берут медиану. Итак, как правило, под "средним отклонением" понимают среднее отклонение от среднего значения.

Эта мера практически не используется из-за трудностей анализа ее выборочных свойств.

СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ – отсутствие связи между переменными. Независимость двух непрерывных переменных часто ошибочно отождествляют с равенством нулю их корреляции (ковариации), однако, это верно только если они подчиняются двумерному нормальному распределению.

СТАТИСТИЧЕСКИЙ КРИТЕРИЙ В ПРОВЕРКЕ ГИПОТЕЗ – Статистический критерий состоит из следующих компонент: пара гипотез – нулевая и альтернативная, статистика критерия и уровень значимости;

по ним находится критическая область.

Проверка гипотезы начинается с вычисления статистики. Если значение попадает в критическую область, мы отвергаем нулевую гипотезу и считаем истинной ее альтернативу. В противном случае у нас нет оснований отвергнуть нулевую гипотезу.

СТАТИСТИКА – это функция элементов выборки. Дает информацию о неизвестных значениях параметров генеральной совокупности. Например, среднее выборки является, как правило, оценкой среднего совокупности, из которой была взята выборка.

Из генеральной совокупности можно сделать много разных выборок, причем значение статистики в общем случае будет меняться от выборки к выборке;

другими словами, выборка является случайной, а значит, случайной величиной является и статистика. Например, выборочные средние для разных выборок из одной и той же совокупности могут различаться между собой.

Статистики обычно обозначают латинскими буквами, а оцениваемые ими параметры – греческими.

СТАТИСТИКА СОГЛАСИЯ (Goodness of Fit), которая сравнивает наблюдаемые вероятности с предсказанными моделью. Статистика согласия определяется, как i Z pi (1 pi ) СТАТИСТИКА ХИ-КВАДРАТ используется для проверки нулевой гипотезы о равенстве нулю (всех сразу) коэффициентов модели. Его аналогом в обычной регрессии является F-критерий. Его значение равно разности между логарифмами правдоподобия "пустой" и полной" моделей.

Количество степеней свободы равно разности между количеством параметров в "пустой" модели (один параметр - константа) и в "полной".

СТРУКТУРНАЯ ГРУППИРОВКА разбиение качественно однородного исходного множества объектов на классы, которые характеризуют общее строение исходного множества объектов.

ТИПОЛОГИЧЕСКАЯ ГРУППИРОВКА - разбиение исходного множества объектов на классы определенного качества.

ФУНКЦИЯ ПРАВДОПОДОБИЯ – функция вида L(X*,), выражающая совместную вероятность (или плотность вероятности) появления набора значений Х*= x1*, x2,..., xn при извлечении из генеральной * * совокупности выборки объема Значение ф.п. определяется n.

соотношением вида:

n n n P I X i xi* P X i xi* P X i xi*,, если Х дискретна i i 1 i L( X *, ) n n f x1, x2,..., xn f X i xi* f X i xi*,, если Х непрерывна.

** * X1, X 2,...,X n i 1 i.

Из соотношения следует, что чем вероятнее (правдоподобнее) набор x1, x2,..., xn при заданном, тем больше значение L(X*,). Т.о. функция L ** * при фиксированном служит мерой правдоподобия набора X*. Часто для целей упрощения расчетов вместо L используют функцию log L, в этом случае ф.п. называется логарифмической функцией правдоподобия. Ф.п.

лежит в основе метода максимального правдоподобия. Понятие «ф.п.»

было введено Р.Фишером.

ЦЕНТР РАССЕИВАНИЯ – точка, относительно которой наблюдается разброс элементов выборочной совокупности. Это точка c на прямой, относительно которой находится мера разброса выборки Х1, …., n Хn, равная Qn= ( i c) 2. В одномерном случае Ц.р. могут выступать i выборочные средняя, медиана или мода, построенные по исходной выборке Х=(Х1, …,Хn), подчиняющаяся нормальному закону распределения. Самым распространенным видом Ц.р. является выборочная средняя, или математическое ожиданием эмпирического распределения вероятностей, построенного по выборке Х1, …., Хn. Рассеивание выборки минимально, если оно вычислено относительно выборочного среднего.

ЭМПИРИЧЕСКАЯ (ВЫБОРОЧНАЯ) ФУНКЦИЯ РАСПРЕДЕЛНИЯ – статистическая оценка теоретической функции распределения F(x), выражающая зависимость между значениями количественного признака и накопленной частотой. Значение э.ф.р. F n x для каждого наблюдения в выборке x1, x2,..., xn соответствует накопленной относительной частоте события xi x, т.е. равно относительному числу наблюдений в выборке, не превосходящих х. Э.ф.р. задается соотношением 0, x x r F n x, xr x xr 1,1 k n 1, где x1 x2 xn - вариационный n 1, xn x ряд.

Э.ф.р. является несмещенной, асимптотически нормальной оценкой теоретической функции распределения и обладает всеми ее свойствами.

График э.ф.р. представляет собой ломаную линию, в промежутках между соседними членами вариационного ряда F n x сохраняет постоянное значение. При переходе через точки оси x, равные членам выборки, F n x F n x 0, 0, 0, 0, х Рис. Эмпирическая функция распределения претерпевает разрыв, возрастая на величину 1/n, а при совпадении l наблюдений – на l/n.

Э.ф.р. при неограниченном увеличении объема выборки n равномерно сходится к теоретической функции распределения, т.е.

Plim sup F x x F x 0 1. Этот факт известен как теорема Гливенко.

n x Для проверки согласия э.ф.р. с полностью известной теоретической функцией распределения могут использоваться непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат.

ЭМПИРИЧЕСКАЯ (ВЫБОРОЧНАЯ) ФУНКЦИЯ ПЛОТНОСТИ – статистическая оценка теоретической функции плотности непрерывной случайной величины, характеризующая плотность частости попадания выборочных значений x1, x2,..., xn в интервал х, х х. Э.ф.п. f n x является первой производной эмпирической функции распределения F n x F n x f n x F n ' x. Условием ее существования является x непрерывность и дифференцируемость теоретической функции распределения. В этом случае на основе имеющейся выборки x1, x2,..., xn можно построить э.ф.п.: вариационный ряд x1 x2 xn, содержащий выборку x1, x2,..., xn, разбивают на k промежутков и подсчитывают частоты k x попадания выборочных значений xi в промежутки k x. Тогда э.ф.п.

определяется по формуле f n x k x, где k x – частость попадания n k x n наблюдаемых значений непрерывной случайной величины в интервал группирования. Э.ф.п. f n x 0 – неотрицательная функция, принимает нулевое значение при x х1 и x хn. При увеличении числа наблюдении n и уменьшении длины интервала э.ф.п. стремится к теоретической функции плотности, а ее графическое представление – гистограмма – приближается к кривой распределения.

ЭФФЕКТИВНЫЙ КРИТЕРИЙ – критерий, имеющий наибольшую вероятность попадания в критическую область (см. мощность критерия) среди всех статистических критериев с заданной вероятностью ошибки первого рода, предназначенных для проверки простой гипотезы Н против простой конкурирующей гипотезы Н1. Э.к. так же определяется, как статистический критерий, имеющий наименьшую вероятность ошибки второго рода при проверке простой гипотезы Н0 против простой альтернативы Н1 с заданной вероятностью ошибки первого рода.

Иными словами Э.к. с наибольшей вероятностью отвергает проверяемую гипотезу Н, если она ошибочна, и с наименьшей вероятностью отвергает проверяемую гипотезу Н, если она верна. Наиболее Э.к. является критерий Пирсона (см. 2 (хи-квадрат)), который используется при малых объемах выборки. Вопросами выбора Э.к. занимались такие ученые, как Нейман, Е.

Пирсон.

ЭФФЕКТИВНОСТЬ ОЦЕНКИ – свойство оптимальности несмещенных оценок, которая характеризует разброс случайных значений оценки около истинного значения оцениваемого параметра. Среди всех несмещенных оценок более предпочтительной является та, значения которой теснее сконцентрированы около значения параметра. Пусть - произвольная несмещенная оценка параметра, величина x1, x2,..., xn I() – количество информации о параметре, содержащееся в одном наблюдении, nI() – количество информации о, содержащееся в n независимых наблюдениях x1, x2,..., xn. При некоторых условиях регулярности имеет место неравенство Крамера – Рао D* *, nI () которое дает нижнюю границу для дисперсии несмещенной оценки. Тогда Э.о. определяется отношением нижней границы для дисперсии оценки к eff * фактической дисперсии оценки и удовлетворяет nI () D * неравенствам 0 eff * 1. Если Э.о. стремится к 1 при неограниченном увеличении числа наблюдений n, т.е. eff * lim, то имеет место nI () D * n асимптотическая эффективность оценок. Для эффективной оценки eff 1.

Э.о. является решающим правилом качества оценок неизвестного параметра. В случае несовместности требований несмещенности и эффективности предпочтительным является соблюдение условия Э.о. На практике не всегда удается получить в явном виде эффективные оценки, поэтому приходится использовать оценки, обладающие эффективностью менее 1. Понятие «Э.о.» введено Р.Фишером.



Pages:     | 1 || 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.