авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 | 2 || 4 | 5 |

«Министерство образования и науки Российской Федерации Московский государственный университет экономики, статистики и информатики (МЭСИ) Е.В. ...»

-- [ Страница 3 ] --

3.3.1. Метод «фокус–групп» и возможности его использования В последние годы метод «фокус–групп» [27,44,100,116, 142,184] все более широко применяется в экономических и соци альных исследованиях, маркетинге потребительских рынков. Суть этого метода, по существу, сводится к тому, что несколько специа листов на основе подробного расспроса по заданной тематике 6- человек, составляющих фокус-группу, делают глубокие выводы по сложным аспектам изучаемой проблемы.

Принципиальный вопрос, который вызывает недоверие к мето ду фокус-групп, состоит в следующем. Допустим, что социологи, психологи, психиатры, экстрасенсы и другие специалисты «вытя нули» из сознания и даже подсознания респондентов фокус-группы всю информацию «до донышка». Но, даже если проводится не сколько фокус-групп общей численностью 40-60 человек, возника ет вопрос: а какое отношение имеет мнение этой «горсточки» лю дей (фокус-группы) к общественному мнению населения региона или его социально-демографических категорий?

Ответ очевиден: практически, никакого. Причем этот непри ятный вывод касается и количественной, и качественной стороны исследуемой проблематики. И никакие рассуждения о соотношении качественных и количественных методов в социологии [184] и о «типичности представителей» (что это? как ее измерить?) тут по мочь в принципе не могут.

Что значит эта «типичность»? Для примера, вспомните любую группу студентов, в которой Вы учились или которой что-то пре подавали. Как-то в личной беседе один из профессоров РГСУ ска зал автору: наш типичный студент – девушка, москвичка из непол ной семьи. Таких девушек в группе, скажем десяток. Выберем двух из них. И окажется, что первая мечтает работать в банке, вторая - в ВУЗе, первая ценит деньги, вторая – семью и детей, первая прочла за жизнь 20 книг, вторая – 2000, первая сочувствует В. Чубайсу с И. Хакамадой, вторая – Г. Явлинскому, первая любит посещать ночные клубы, вторая – филармонию, первая «болеет» за «ЦСКА», вторая футболом не интересуется. Так кто из них «типичен»?

Мы имеем здесь дело с той самой проблемой «малой выборки», которая так хорошо известна в прикладной статистике: по малому выборочному ансамблю наблюдений очень сложно сделать сколь либо надежные прямые выводы о генеральной совокупности. В ма тематической статистике эта проблема послужила (см. п. 1.1) причи ной для создания целого ряда абсолютно новых направлений стати стического анализа: непараметрических и робастных процедур оце нивания, методов анализа данных в рамках концепции Дж. У. Тьюки, статистических методов «с интенсивным применением ЭВМ».

В начале 1996 года автор по просьбе А.И. Лебедя, тогда канди дата в Президенты РФ, провел проверку выводов, которые были сделаны группой российских социологов по заказу аппарата Кон гресса США. Исследовалось мнение россиян по важным социаль но–экономическим и политическим проблемам. Исполнители рабо ты провели (не сомневаюсь, добросовестно и квалифицированно) фокус–групп численностью по 8 человек каждая, по две в Москве, С. - Петербурге, Самаре и Екатеринбурге. Полученные результаты в отчете интерпретировались как доминанты общественного мне ния россиян.

Проверка всех наиболее важных выводов силами Института си стемных исследований и социологии (ИСИС), который в 90-е годы прошлого века возглавлял автор, проводилась следующим образом.

Каждый вывод типа «Это является белым» «инвертировался» в во прос анкеты «А является ли это белым?». Далее был проведен мас совый опрос населения в тех же регионах, где проводились фокус группы.

Опрос носил случайный характер с обеспечением представи тельности всех основных социально-демографических категорий населения. Полученные результаты были компьютерно обработаны по выше изложенной методике. Погрешность полученных резуль татов (было опрошено около 2 000 респондентов) не превышала 1.0% для населения в целом и 4.0% для его социально– демографических категорий.

Вывод, который следовал из данных проведенной проверки, был таков: большинство мнений, которые в отчете по фокус группам трактовались как доминанты общественного мнения, раз деляло от 30 до 70% населения регионов. По категориям населения результаты были аналогичны, но с несколько большим диапазоном разброса: 20 - 70%.

Автор не утверждает, что метод фокус-–групп бесполезен. По видимому, он может быть эффективен при использовании в каче стве экспресс-процедуры для обоснования принятия решения в условиях дефицита времени и денег на серьезное исследование.

То есть в тех ситуациях, когда важно быстро и, по возможно сти, относительно объективно сориентироваться в главном, типа:

«делаем поворот направо или налево».

Но нужно констатировать: 30-40 и даже 90–100 человек, ото бранных «с любой тщательностью», в принципе не могут каче ственно представлять генеральную совокупность.

3.3.2. Технология группового анкетирования на «малых выборках»

Методика группового анкетирования на «малых выборках» (ее подробное описание приведено в статьях [4,5,7,8] и монографиях [236, 239, 249, 264]), как информационно-аналитическая техноло гия, предназначена для оценки мнения населения по логически сложным темам. Такими проблемами являются вопросы, аспекты которых невозможно достоверно замерить с помощью массового опроса населения вследствие трудной воспринимаемости населением вопроса, для понимания которого требуются разъяснения, демонстрации;

из-за неизвестности широким слоям населения важных аспек тов проблемы или ее многоаспектности и неоднозначности;

в силу отсутствия у большинства населения выраженного от ношения к проблеме, актуальной для заказчика исследования;

вследствие необходимости моделирования ситуаций для выяв ления возможного отношения населения (после проведения ре кламных мероприятий) к изучаемой проблеме;

из-за необходимости знать «тонкие» аспекты проблематики.

Разработанный подход основан на двух типах данных, полу ченных в результате опросов населения.

Первый тип данных – результат массового социологического опроса населения по вопросам проблематики, отражающим общие, понятные неподготовленному человеку, стороны изучаемой тема тики. Опрашивается 1.5 - 2.0 тыс. человек, отобранных случайным образом, но представляющих основные социально-демографиче ские категории населения. В данной части работы исследуются об щие, «крупные» вопросы изучаемой ситуации.

Второй тип данных - результат опроса нескольких малых групп населения (по 30-40 человек каждая) по «тонким» аспектам про блематики. В анкете содержатся вопросы, детализирующие и рас шифровывающие общие положения, измеренные при массовом со циологическом опросе. Отбор респондентов в малые выборки слу чаен, но соблюдается принцип представительности основных соци ально–демографических категорий.

В процессе беседы участникам малой группы объясняется смысл «тонких» аспектов обсуждаемых проблем, проводятся необ ходимые разъяснения, доводится новая информация. Здесь воз можно выявить причины тех или иных ответов на вопросы массо вого социологического обследования, оценить влияние новой ин формации на формирование (изменение) отношения к проблеме в целом и ее аспектам.

Репрезентативность всему населению и его основным социаль но-демографическим группам обеспечивается на этапе компьютер ной обработки двух массивов анкет (по методике, изложенной в настоящей диссертации) с использованием данных Росстата о структуре населения.

3.3.3. Этапы работы при групповом анкетировании на «малых выборках»

Работа строится последовательно, поэтапно. Процесс исследо вания проиллюстрирован схемой, приведенной на рис. 3.1. Упро щенно этапы выглядят таким образом.

0-й этап (подготовительный).

Проводится неформальное описание изучаемой системы, со ставляются анкеты и планы мероприятий для этапов работы.

1-й этап (массовый опрос населения).

По интересующей нас тематике на простом (доступном непод готовленному человеку) уровне проводится опрос населения. Тех нически он проводится по технологии, описанной выше, и охваты вает 1,5-2 тыс. человек, которые отбираются случайным образом.

В итоге получаем данные, которые соответствуют на схеме об ласти CHFQ, где CQ соответствует количеству вопросов анкеты, а CH – числу респондентов. Например, GQ = 300, а CH = 1800. В ан кете «большого» социологического опроса задействуются неслож ные вопросы по интересующей нас тематике, которые не требуют от среднего человека дополнительных знаний. В итоге мы «снима ем» лишь общие настроения по интересующей нас тематике, необ ходимые для проведения малых выборок.

A E J B G F Q I R Н D C Рис.3.1. Схема исследований по технологии «малых выборок»

2-й этап (работа с малыми выборками населения).

В зале собирается небольшое количество респондентов (30- человек), представляющих интересующее нас население. На схеме это соответствует длине HD=GF. Работа с ними представляет собой нечто среднее между проведением традиционных «фокус-групп» и обычным школьным уроком.

До проведения малой выборки (до «начала урока») респонден там предлагают заполнить уже знакомую нам с предыдущего этапа «простую» тематическую анкету. На схеме это соответствует обла сти GFHD. Этот шаг нам нужен для того, чтобы связать данные массового опроса (область GQCD) с результатами «тонкой» работы с малой выборкой (AEFG).

«Урок» разделен на логически законченные части. Изложив слушателям заданную версию данной части мероприятия, социо лог-модератор, исполняющий роль «учителя», задает респондентам контрольные вопросы. Не столько для обсуждения изложенного, как это практикуется на «фокус-группах», сколько для контроля то го, как слушатели поняли суть доводимой до них точки зрения.

После контрольных вопросов «учеников» просят заполнить со ответствующую часть «тонкой» анкеты. Эта анкета посвящена уже сложным аспектам исследуемой проблематики. Затем «учитель»

переходит к следующей части тематики. В итоге, за 2-3 часа вся «тонкая» анкета заполнена каждым из участников малой выборки.

Эти данные соответствуют области AEFG на нашей схеме, где AE - число участников «урока», а AG = EF - число вопросов «тон кой» анкеты. Фактически, «урок» моделирует один из вариантов информационной, пропагандистской, рекламной или рекламно политической кампании.

3-й этап (оценка элементов матрицы «большого опроса»).

По стохастическим связям между столбцами и строками матри цы данных можно быстро и с малыми затратами оценивать характе ристики объектов самой разной природы и назначения. Разработан ный алгоритм корректно ориентирован на социологические и по добные приложения, где работают с признаками, измеренными в слабых шкалах.

Осталась незаполненной область BEFQ. Для ее заполнения раз работан соответствующий алгоритм, который позволяет оценить значение любого элемента из области BEFQ. И не только оценить значение, но и вычислить погрешность каждой оценки. В итоге вы числений мы получаем полностью заполненную матрицу данных ABCD, которая отражает результаты математического моделирова ния социологического «опроса» группы населения по большой и весьма «тонкой» анкете.

4-й этап (аппроксимация на генеральную совокупность).

Проводится по методике, которая будет математически обосно вана в пунктах 3.3.3-4. В результате получается количественная оценка для всего населения и его социально-демографических кате горий.

Фактически, мы получили не что иное, как оценку конечного результата основного мероприятия при заданной тактике реклам ной кампании. И задали мы эту тактику в процессе проведения «урока» на малой выборке. Теперь заменим избранную тактику ре кламы (проведения «урока») на некоторый ее альтернативный вари ант. В итоге получим иные конечные результаты, отражающие вто рой вариант рекламной кампании.

Испробовав на малых выборках несколько вариантов доведения нашей точки зрения до населения, мы можем отобрать лучшие, наиболее эффективные из аспектов и составляющих каждой такти ки. Теперь проведем последний «урок» на малой выборке по плану, который сформирован из лучших элементов различных тактик.

Сделав затем соответствующие вычисления и аппроксимации, мы вычислим количественные оценки для результатов, которые бу дут получены при наилучшей из выявленных тактик доведения ин формации до населения, наиболее эффективной агитации.

5-й этап (выработка рекомендаций и планов). Проводится на основе аналитической обработки и обобщения итоговых результа тов проведенной работы. Цель этапа – аналитическое обоснование и выработка рекомендаций по приведению информационно-реклам ных мероприятий.

3.3.4. Область применения технологии группового опроса методом «малых выборок»

Областью приложения описанной методики может быть широ кий спектр задач анализа многоаспектных экономических, соци ально–экономических и политических проблем, сравнения качеств новых малоизвестных товаров, анализ эффективности рекламных мероприятий и избирательных стратегий.

Решение этих задач - социология нового уровня требований к получаемым результатам, инновационный подход в социально экономических исследованиях, анализе общественного мнения, по литических ожиданий и потребительских предпочтений Испробовав на малых выборках несколько вариантов доведения нашей точки зрения до населения, мы можем отобрать наиболее эффективные из аспектов и составляющих каждой тактики. Эти ас пекты, в наиболее «выигрышном» для нас варианте, должны войти в обобщенный план информационных, агитационных и рекламных мероприятий.

Количественно предсказать и сопоставить будущий эффект от различных вариантов действий – новая постановка задачи, в принципе неразрешимая в рамках методов традиционной социоло гии.

Метод группового анкетирования на малых выборках позволя ет:

выявить «тонкие» аспекты общественного мнения населения, (потребителей, избирателей) в сложных проблемах исследуемой тематики;

оптимально расставить акценты в рекламных кампаниях;

оптимально оценить мотивы и контр–мотивы при принятии управляющих решений в части населения (потребителей, избирате лей), максимально использовав полученные на «малых выборках»

знания в рекламных и агитационных мероприятиях;

целенаправленно спланировать контрпропаганду против наибо лее сильных позиций конкурентов (на выборах, потребительских рынках);

эффективно спланировать динамику кампании (во времени);

оптимально спланировать расходование финансовых средств на проведение рекламной или агитационной кампании;

объективно выявить «костяк» избирателей (покупателей), зара нее ориентированных на нашего кандидата (нашу продукцию);

предсказать количественные результаты, которые достижи мы «на финише» рекламной или агитационной кампании при раз личных вариантах ее содержания и стратегии проведения.

3.3.5. Статистические оценки частот встречаемости по населению в целом при групповом анкетировании на малых выборках Пусть изучается население региона, численность которого рав на N. Для социологического опроса составлена анкета из некоторо го числа содержательных вопросов, общее число вариантов ответов на которые равно р. Паспорт анкеты содержит s номинальных шкал, в качестве которых могут рассматриваться те шкалы наиме нований, статистическими данными о которых мы априори распо лагаем (из данных Росстата).

По этой анкете согласно описанной методике, был проведен социологический опрос, в результате которого достаточно точно определены значения N k (k 1, p), т.е. количество наблюдений (человек), обладающих каждым из изучаемых бинарных признаков.

Далее, среди n (n N) случайных респондентов было прове дено анкетирование методом малой выборки, в результате которого респонденты ответили как на вопросы анкеты «большого» соцо проса, так и на q вопросов «тонкой» анкеты, касающейся сложных, малоизвестных и неоднозначных аспектов заданной тематики «ма лой группы».

В результате было выяснено, что n k (k 1, p), n l (l p 1, p q) и n kl (k 1, p, l p 1, p q) респондентов обладают соответственно k–м, l-м и одновременно обоими этими признаками.

Еще раз отметим, что в «большом» социологическом опросе использовалась анкета с р бинарными вариантами ответов на со держательные вопросы, а в анкете «малой выборки» q булевых ва риантов ответов. Введем частоты вида k N k / N ;

l N l / N ;

kl N kl / N ;

k 1, p, l p 1, p q, (3.3.5.1) где и - число жителей изучаемого региона, обладающих Nk Nl k–м и l-м дихотомическими признаками, соответственно, а N kl число жителей, обладающих двумя указанными дихотомическими признаками одновременно. Общее число жителей этого региона равно N.

Значения частот k (k 1, p ) известны по результатам ком пьютерной обработки данных «большого» социологического опро са. А значения частот l (l p 1, p q) нужно оценить на основе группового анкетирования по методу «малой выборки».

Пусть результаты анкетирования на малой выборке представ ляют собой вектор вида n (n1,...,n p, n p 1,...,n p q ). Число наблюдений в малой выборке, обладающих парами изучаемых би нарных признаков, образуют матрицу вида { n kl } ;

k 1, p, l p 1, p q.

Правомерно записать:

Pr{n kl |n k } hy{n kl | N kl, N k ;

n k }. (3.3.5.2) Pr{n |n } hy{n | N, N ;

n } kl l kl kl l l Из (3.3.5.2) следует, что для математического ожидания n kl правомерно записать следующие уравнения:

N kl nl N kl n k. (3.3.5.3) kl n Nk l N Но тогда естественный вид оценки частоты встречаемости l–го дихо томического признака (из анкетирования на «малой выборке») по k му признаку (из анкеты «большого» социологического опроса) имеет вид kl l l N n ;

k 1, p, l p 1, p q, (3.3.5.4) N (k ) N k nk k n l, (3.3.5.5) откуда получаем: (k ) l k n где оценка k находится из массового социологического опроса.

Таким образом, нам удалось получить вторичную статистику (3.3.5.5), предназначенную для получения итоговой оценки l N l / N. (3.3.5.6) Возможны различные пути решения этой задачи [236,239,249,264]. Наиболее простой, надежный и точный из них, как показала практика, связан с методом неравноточных измерений [125,135,163].

Дисперсия оценки (3.3.5.5) может быть оценена в виде nl k D k ;

k 1, p, l p 1, p q. (3.3.5.7) D (lk ) n Что позволяет представить оценку (3.3.5.5) в виде (см. п. 3.3.1) s (lk ) s ( D (lk ) ) 1. (3.3.5.8) l k D (k ) l k Ее дисперсия имеет вид s D D (lk ) l. (3.3.5.9) k 3.3.6. Статистические оценки частот встречаемости по категориям населения при групповом анкетировании на малых выборках Для определения оценок частот встречаемости булевых при знаков по социально-демографическим категориям населения на основе анкетирования методом малых выборок вспомним, что Pr{nij |nl } hy(nij | Nij, N l ;

nl ). (3.3.6.1) l l l Для математического ожидания распределения (3.3.6.1) спра ведливо выражение N ij nl, l l p 1, p q ;

i 1, s, j 1, ri. (3.3.6.2) l nij l N ll Откуда следует, что N l N nij. (3.3.6.3) ij l n Отсюда следует, что оценка частоты встречаемости l-го бинар ного признака среди представителей j–й категории i–й номиналь ной шкалы социологического паспорта, основанная на использова нии метода анкетирования на «малой выборке», запишется в виде l N l nij ij l, (3.3.6.4) l N ij n или в более удобной форме:

nij l l ij l, l p 1, p q ;

i 1, s, j 1, ri. (3.3.6.5) ij l n Оценка (3.3.6.5) является асимптотически несмещенной:

l Pr ri ri l l ij ij l l nij (3.3.6.6) l n j j и состоятельной:

Pr Nl l l N ij N ij ij N l ij. (3.3.6.7) l l N ij N N N ij Дисперсия оценки частоты встречаемости (3.3.6.5) имеет вид nij l D ij D l. (3.3.6.8) l ij n l Таким образом, количественные представления о значении ча стоты встречаемости булевого признака на основе метода анкети рования по малым выборкам, привели к соотношению:

l nij ( l 3 D l ). (3.3.6.9) l ij nl ij Основываясь на правиле «трех сигм», можно считать, что дове рительная вероятность выражения (3.3.6.9) не ниже 0.9.

Изменения позиции населения после проведения сеанса группового анкетирования методом «малой выборки».

В упоминавшейся работе по изучению казачества Юга России широко использовалось групповое анкетирование на малых выбор ках, которое зачастую давало весьма показательные результаты.

Например, обсуждался вопрос о возможности переселения се мей казаков в порубежные районы для несения пограничной и иной государственной службы (табл. 3.3).

Полученные результаты по разработанной методике были пере считаны на все казачество Юга России.

Таблица 3. Изменение мнения казаков Юга России по вопросам государственной службы казачества I - распределение результатов массового социологического опроса II - распределение результатов, полученных после проведения группового анкетирования Согласилась бы лично Ваша семья при фи- В % от всех казаков нансовой и юридической поддержке госу I II дарства сменить место жительства с целью обустройства и защиты рубежей России и освоения малообжитых земель?

Скорее да, чем нет 25 Скорее нет, чем да Затрудняюсь ответить 10 Из данных табл. 3.3 видно, что число казаков, согласных (при комплексной поддержке государства) на столь радикальные пере мены в жизни своей семьи, значительно возросло по сравнению с результатами ранее проведенного опроса.

Практика использования метода группового анкетирования на малых выборках в реальных проектах маркетингового, социо логического и политологического характера в 1991 – 2009 гг. пока зала, что, при числе участников малой группы порядка 40- 50 ре спондентов, типичная погрешность оценок частот по социально демографическим категориям населения составляет, в зависимости от численности категории, порядка 5-12%.

3.4. Полиграммные оценки и их использование при анализе непрерывных распределений экономических показателей В прикладных работах, связанных с распределениями стоха стических непрерывных показателей, точные и стабильные резуль таты, как правило, дают непараметрические процедуры полиграм много типа.

Как непараметрическая оценка непрерывной функции плотно сти вероятностей (ФПВ), полиграмма была предложена известным сибирским математиком Ф.П. Тарасенко [301].

Пусть непрерывная случайная величина (НСВ) Х, обладающая ФПВ f(X), представлена вариационным рядом вида x (1) x (2)... x ( N).

Полиграмма К–го порядка, как непараметрическая оценка ФПВ не прерывной случайной величины (НСВ) Х, может быть записана в виде ( x) K I ( x, j ), (3.4.1) M fK N 1 j 1 j где M ( N 1) / K ;

j x( jK ) - выборочные квантили ( x(r ) r–я по рядковая статистика);

j ( j 1) ( j), I ( x, j ) – индикатор при надлежности х интервалу j ( j 1, M ).

Было доказано, что при весьма общих предположениях [173, с.149-153] полиграмма является состоятельной оценкой ФПВ f(X).

Ниже приведены результаты для полиграммных процедур ста тистического оценивания первых моментов и моды эмпирических распределений [157,174,175,217,243]. Этот материал базируется на работе коллектива авторов под руководством проф. Ф.П. Тарасенко по общей теории полиграммных непараметрических оценок инте гральных функционалов, зависящих от непрерывной ФПВ [172].

Пусть требуется оценить функционал J ( x) f ( x) dx, где f - аналитически неизвестная ФПВ непрерывной случайной ве личины Х. Функция (x) - известная и непрерывная функция дей ствительной случайной величины (НСВ) х.

Рассмотрим вначале простейший случай, когда никаких осо бенностей нет, т.е. x [, ], (x) – положительно определенная и строго монотонная на [, ] функция.

Лемма. Пусть:

а) НСВ Х на конечном или бесконечном интервале [, ] имеет ФПВ f(Х), ограниченную вместе со своей первой производной;

б) (x) на [, ] - строго монотонна и положительно определена;

x в) существует отображение вида y( x) dt / (t ) ;

г) существует конечный интеграл 2 (t ) f (t ) dt ;

д) полиграммная оценка вычисляется по выборке независимых наблюдений j M J ( g ( y( x))) N ;

(3.4.2) JN M j 1 y( J 1 ) y( j ) е) порядок К оценки (3.4.2) связан с объемом выборки N и числом выборочных квантилей M уровня 1 / М в виде K N ;

0 0.5.

Тогда полиграммная оценка (3.4.2) распределена асимптотиче ски (по N) нормально с математическим ожиданием J и асимптоти ческой дисперсией удовлетворяющей неравенству DJ N, DJ N 2 N, iK ( N jK ), и ковариационной матрицей Cov(, ) f ( i ) f ( j ) N i j где 1 i j M. В работе [174], используя асимптотические свой ства выборочных квантилей [59] и теорему Мостеллера [173, с.256 260], дано доказательство леммы.

Полиграммная оценка производящей функции моментов.

Используя лемму, рассмотрим функционал вида exp (x) f ( x) dx ;

.

L x e t dt e x, В этом случае y( x) а оценка (3.4.2) запишется в виде j 1 j K M j LN e.

( j 1 j ) N 1 j 1 1 e Согласно лемме эта оценка является состоятельной и асимпто тически нормальной оценкой производящей функции моментов.

Теорема. Пусть:

а) НСВ Х определена на всей действительной оси и б) имеет на ней ФПВ f(Х), ограниченную вместе со своей первой производной;

в) отображение z (X ) имеет на не более чем счетное число точек { j } таких, что j: ( ( j ) 0 ) ( ( j ) 0 ) ;

x г) НСВ z (X ) имеет два первых конечных момента;

д) набор функций yi (x) определен в виде x yi ( x) dt / (t ) ;

i x i 1, i 1, 2, 3,... ;

i е) знаковая функция имеет вид 1, если i (i, i 1 ) ;

sign( i ) 0, если i (i, i 1) ж) полиграммные оценки J i (i 1, 2,... ), вычисляемые по выборке независимых наблюдений, определены в виде ( j 1 j ) sign( i ) Mi K, (3.4.3) Ji y( j 1 ) y( j ) N 1 j где суммирование ведется по наблюдениям из (i, i 1 ) ;

з) порядок К оценки (3.4.3) связан с объемом выборки N и числом выборочных квантилей M уровня 1 / М в виде K N ;

0 0.5 ;

M ( N 1) / K.

Тогда полиграммная оценка вида J N J i, (3.4.4) i распределена асимптотически нормально с математическим ожида нием J и асимптотической дисперсией DJ N которая удовлетворяет неравенству DJ 1 2 ( x) f ( x) dx.

N N Следовательно, J - состоятельная оценка функционала J.

N В [174] дано доказательство теоремы, имеющей ряд следствий:

1). Полиграммное выражение вида K M ( j 1 j ) sign( j 1 j ) N (3.4.5) N 1 ln [( j 1 j ) ] j является состоятельной и асимптотически нормальной оценкой ма тематического ожидания x f ( x) dx, если НСВ Х, с непре рывной ФПВ f(Х), имеет конечную дисперсию.

K j | j j1 | N (3.4.5) N M 2 2). Величина N является состоятельной и асимптотически нормальной оценкой ( x ) 2 f ( x) dx, дисперсии НСВ Х если Х имеет конечные моменты до 4-го порядка включительно.

Замечание. Условия теоремы удается обобщить [174] на случай нелинейных (по ФПВ) интегральных функционалов.

Полиграммная оценка энтропии.

В частности, для функционала энтропии E f log f ( x) dx по M лиграммная оценка E 1 log [ M ( ) ] является состоя j N j Mj тельной и асимптотически нормальной.

В ряде приложений в качестве параметра положения целесооб разно использовать не математическое ожидание или медиану рас пределения, а его моду. Это касается ситуаций, когда требуется знать именно наиболее вероятное значение изучаемой случайной величины. Таково положение дел в банковском деле, страховом бизнесе [66,224,230], при обосновании крупных лотерейных проек тов [225,229] и т.п.

Например, что значит расхожая фраза: «средняя заработная плата москвичей равна 30 000 рублей»? Практически это заявление не несет полезной информации, обозначая «среднюю температуру по больнице». Для оценки уровня доходов москвичей нужно наибо лее типичное значение их зарплаты, а не усредненная (от консьер жек до топ-менеджеров «Лукойла») зарплата человеко-единицы.

Заметим, что методы оценки моды мало разработаны. Кроме полувековой давности работы [288] Г. Чернова, для оценки моды вспоминается разве что (довольно грубое) приближение Холдейна (см. [83]), которое является следствием разложения ФПВ в ряд Эджворта [10 8,83,102] и правомерно для не слишком асимметрич В 1-й книге трехтомного справочника по прикладной статистике [10] С.А. Айвазяна с соавторами дано приближение Эджворта в виде 3-х, а не 4-х, как в классических трудах [83,100], членов. Это описка, М. Кендалл и ных распределений [83]. Но насколько «не слишком асимметрич но» любое эмпирическое распределение априори сказать весьма за труднительно.

Ниже изложен полиграммный подход к оцениванию моды не прерывной случайной величины, предложенный автором в работе [217]. Определим величину ( x) 1 f ( x).

Тогда для унимодальных («колоколообразных») распределений по иск максимума f (x) эквивалентен поиску минимума функции (x). Полиграммную оценку для (x) естественно построить в виде ( ) N 1 ( ) ;

( ). (3.4.6) ~ j 1 j K j j j j K Утверждение:

~ В условиях леммы K имеет распределение вида ~ ~ ~ ~ p(K ) f KK f exp{ (K 2) [(K f ) 0.5 (K f ) 0.5 )]2} и является состоятельной и асимптотически несмещенной оценкой (x). Доказательство утверждения приведено в [217].

~ Далее, пусть - мода непрерывного (и аналитически неизвест ~ ~ 2~ ного) распределения. Заметив, что х ( ) f х( ) ( ), можно утверждать, что поиск максимума f(x) эквивалентен поиску минимума (x). Это позволяет построить несложную (в алгорит мическом смысле) процедуру оценивания наиболее вероятного зна чения ФПВ НСВ Х в том случае, если ФПВ унимодальна. Предпо сылка об унимодальности («колоколообразности») ФПВ f(x) для прикладных эконометрических и социально-экономических работ обычно правомерна.

А. Стюарт показали [83], что 3-й и 4-й члены разложения ФПВ в ряд Эджворта имеют одинаковый порядок величины.

Анализ распределения доходов москвичей в 2009 г.

В качестве иллюстративной апробации метода полиграммного оценивания характеристик эмпирического распределения проведем анализ доходов москвичей. Для анализа доходов москвичей в апре ле 2009 г. были опрошены студенты Академии менеджмента инно ваций о заработной плате их родителей. На его основе был сформи рован выборочный ансамбль объемом 100 человек (56 женщин и мужчины).

В результате машинной обработки данных были получены ре зультаты, отраженные в таблице 3.4. Использовались классические, полиграммные и Ходжеса – Лемана (см. п.1.1) оценки параметров полученного эмпирического распределения.

Таблица 3.4.

Доходы москвичей (тыс. руб) на одного работающего (апрель 2009 г.) Полиграммная оценка Выбо- Выбо- математи- Оценка моды рочное рочная ческого дисперсии Медиана Ходжеса распределения среднее дисперсия ожидания Лемана 18.42 14.41 17.49 10.82 14.40 16.53 15. По официальным данным мэрии Москвы на момент проведения эксперимента средняя заработная плата москвичей составляла 17500 рублей. Из таблицы видно, что полиграммная оценка мате матического ожидания очень хорошо согласуется с этой цифрой.

Показательно, что мода распределения составляет 14,4 тыс.

рублей. Содержательно это понятно: изучаемое распределение об ладает «тяжелым правым хвостом» (в Москве немало лиц, месяч ный заработок которых чрезвычайно высок), в связи с чем мода распределения (наиболее типичное значение зарплаты) оказывается существенно ниже среднего значения.

Оценка Ходжеса – Лемана дает не вполне удовлетворительные результаты, причиной чего, очевидно, служит существенная асим метрия изучаемого эмпирического распределения.

Полученные результаты хорошо согласуются с приближением Холдейна (которое является следствием разложения ФПВ в рад Эджворта):

| математическое ожидание – медиана | 0,5 | медиана – мода |.

В нашем случае: 17,5-16,5 = 1,0 0,5 (16,5-14,4) = 1,05.

Выводы по главе 3.

В рамках результатов главы 3 следует отметить:

1. Разработаны и исследованы статистические оценки частот встречаемости булевых признаков по населению в целом и его со циально-демографическим категориям, получаемые по случай-ной выборке из неоднородной совокупности, основанные на использо вании обобщений гипергеометрического распределения (ГГР) ве роятностей. Показаны несмещенность и состоятельность разрабо танных выборочных оценок.

2. Разработаны и исследованы статистические оценки частот встречаемости дихотомических признаков по населению в целом и его социально-демографическим категориям, получаемые по слу чайному выборочному ансамблю из большой неоднородной сово купности, которые основаны на использовании обобщений поли номиального распределения. Показаны несмещенность и состоя тельность разработанных выборочных оценок.

3. Разработана и обоснована методика группового анкети рования на малых выборках, которая позволяет исследовать неод нозначные и «тонкие» аспекты изучаемых проблем. Методика син тезирует возможности метода «фокус-групп» с количествен-ными методами изучения населения и его категорий.

4. Разработана и исследована выборочная стохастическая методи ка для несчетных множеств, элементы которых описаны случайны ми векторами непрерывных показателей. Получены распределения, адекватно выражающие процесс формирования выборок в таких случаях. Найдены характеристики этих распределений (моменты, ковариации, моды).

5. Разработаны и обоснованы непараметрические процедуры по лиграммного оценивания интегральных функционалов, зависящих от непрерывной функции плотности вероятностей. Полученная оценка является состоятельной, несмещенной и асимптотически нормальной оценкой соответствующего функционала.

6. На основе общей теории полиграммного оценивания инте гральных функционалов, зависящих от непрерывного распределе ния, получены состоятельные и асимптотически нормальные поли граммные оценки моментов (аналитически неизвестного) непре рывного распределения.

7. Разработана и обоснована процедура непараметрического по лиграммного оценивания моды (наиболее вероятного значения) для случайных величин, подчиненных непрерывному (но аналитически неизвестному) распределению. Эта оценка, являясь состоятельной и асимптотически несмещенной, особенно интересна в тех случаях, когда распределение обладает существенной асимметрией.

ГЛАВА 4. СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЫБОРОЧНОГО ОЦЕНИВАНИЯ В ЗАДАЧАХ ПРИКЛАДНЫХ ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ Материал четвертой главы монографии фрагментарно отражен в работах [1, 4-7, 67, 78, 127, 131-133, 156, 158-161, 209-214, 216, 218-220, 223-225, 229-231, 236, 239, 244, 246, 249, 253, 256, 258, 262, 264, 272].

В наше время многомерные обобщения ГГР и ПР могут быть широко использованы для корректного описания многих задач в эконометрических [10, 13, 40, 48, 52, 53, 87, 109, 140, 158, 197], по лито- логических и социологических исследованиях [4, 5, 7, 68, 69, 81,82, 103, 131-133, 138, 158, 162, 167, 178, 181, 184, 197, 208, 223, 226, 231, 232, 235-237, 239, 240, 245-252, 254, 260-262, 275-277], маркетинге потребительских рынков [24, 44, 100, 116, 142, 168, 236, 239, 241, 242, 246, 249, 264, 265], прогнозировании и планировании экономической динамики [13, 26, 33, 36, 41, 47, 48, 52, 56, 57, 66, 67, 85, 111-113, 211, 212, 218, 219, 239, 264, 265, 272, 278], в техни ко-экономических [21, 123, 126, 159-161, 171, 175, 209, 210, 214, 216, 220, 239, 244, 246, 253, 256, 258, 264, 265], в задачах классифи кации [9, 12, 13, 79, 12, 144, 154, 176, 199, 213, 239, 246, 255, 258, 265], для обоснования крупных проектов в лотерейном бизнесе [225, 229] и при актуарных расчетах в страховом деле [22, 66, 98, 224, 230].

Приведем простейшие примеры.

Пример 1. Пусть среди населения города с численностью N страховой компанией было застраховано n жителей. Стохастически устойчивая вероятность наступления страхового случая за задан ный период времени равна M N, (0 1).

Какова вероятность того события, что за это время страховой компании придется выплатить деньги по ровно m страховкам? От вет дается соотношением (2.1.1.1).

Пример 2. Пусть тираж «моментальной» лотереи равен N. В городе распространено n лотерейных билетов. Вероятность выиг рыша равна M N, (0 1).

Какова вероятность того события, что в городе куплено ровно m выигрышных билетов? И здесь, очевидно, точный ответ дается ГГР вероятностей, определенным соотношением (2.1.1.1).

4.1. Анализ полноты и достоверности данных в эмпирических таблицах значений экономических показателей 4.1.1. Описание алгоритма анализа данных в эмпирических таблицах Рассмотрим таблицу m на n. Таблица содержит некоторые не точные значения (дезинформацию, ошибки вода данных в базу ЭВМ, случайные неточности публикаций и т.п.) и ряд пропусков значений показателей. Пусть в исследуемой таблице имеется m строк, соответствующих числовым показателям изучаемой области, и n столбцов, соответствующих наблюдениями этой области. Таким образом, мы располагаем исходной матрицей данных { x k ;

j 1,m ;

k 1,n}.

j 1, если x j k известно ;

j j 1,m ;

k 1,n. (4.1.1) k 0, в противном случае ;

Обнулим неизвестные значения матрицы данных:

j k 0 xk 0 (4.1.2) j n Обозначим n k число наблюдений, у которых известны j j k значения j–го показателя. Из известных значений показателей об разуем вариационные ряды вида (n ) x (j1) x (j2)... x (jk )... x j j ;

j 1, m, k 1, n j. (4.1.3) По всем показателям перейдем к ранговым шкалам:

k (4.1.3) j 1 x j k x j (l ) r j k l ( 1 l n j ) (4.1.4) j1, m ;

k1, n :.

j 0 rj k k Обозначим выборочные среднее Mr j и дисперсию Drj. Сделаем преобразование r j R j так, чтобы первые моменты переменных R j равнялись: MR j 0, DRj 1.

Теперь зафиксируем некоторое конкретное наблюдение xik ( i 1, m, k 1, n ). Представим вспомогательную оценку I рода в виде m ij R k, (4.1.5) Rik k j j i где элементы тензора ij определяются (по известным значе k ниям R j ) из условия минимизации дисперсии вида m D(Ri ij R j ) min( ik ) ;

i 1,m, k 1,n. (4.1.6) k j i Дисперсия оценки (4.1.5) приближенно оценивается в виде m m ( ij ij il C jl ) ;

i 1,m, k 1,n, (4.1.7) DRik j i l i, j где C jl cov(R j, Rl ) - ковариация переменных R j и Rl ( j l ).

k Тогда оценка I рода для ранга ri запишется в виде ri k Mri Rik Dri. (4.1.8) Ее дисперсия по правилу «трех сигм» оценивается в виде Dri k Dri DRik Кроме корреляций показателей, можно использовать меры линейной схожести наблюдений. Преобразуем показатели, как мы это делали для строк, по столбцам:

~ R jk jk rjk Mr k Dr k ;

j 1, m ;

k 1, n. (4.1.9) где Mr k и Dr k - значение выборочного среднего и дисперсии для рангов (4.4) по k-му столбцу соответственно. Вспомогательные оценки II рода строим в виде n ~ k kl R l ;

i,m, k,n.

Ri 1 i i l k Элементы тензора ikl определяются аналогично методу ~ оценивания значений ij. Моменты переменных Ri оцени l k k ваются по аналогии с моментами R j.

Оценка II рода для ранга ri k ( i 1, m, k 1, n ) имеет вид ~ k Mr k R k Dr k. (4.1.10) ri i k ~k Ее дисперсия оценивается в виде Dri Dr DRi.

k Теперь остается «свести» оценки (4.1.8) и (4.1.10) к одной, наиболее точной оценке. Используем тот факт, что эти оценки яв ляются неравноточными измерениями [125,135,163] одной и той же величины rik (i 1,m, k 1,n). Представим итоговую оценку в ви де rik ik ~ k (1 ik )ri k. (4.1.11) ri Из условия минимизации дисперсии оценки (4.1.11), в предпо ложении независимости оценок ~ k и ri k, получаем итоговую ri оценку rik значения ранга rik в виде ~ k / D~ k r k / Dr k r ri ri i ~ k 1 ;

i1, m, k1, n. (4.1.12) k i i k ( Dri ) (Dri ) Дисперсия оценки (4.11) имеет вид Drik [ (D~ k )1 (Dri k )1]1;

i1,m, k1,n. (4.1.13) ri Легко заметить, что дисперсия (4.1.13) априори меньше мини D~ k и Dri k, поскольку является их средним ri мальной из дисперсий гармоническим. На практике, зачастую она меньше минимальной из них почти на порядок.

Проделав циклы вычислений по всем элементам матрицы дан ных, получаем полностью заполненную матрицу оценок ранговых показателей { r j ;

j 1,m;

k 1,n}.

k Критерий корректировки ранговых данных rik ( j 1,m ;

k 1,n ), используя непараметрическое «правило трех сигм», можно запи сать в виде jk 0 rjk rjk ;

k ( j 1) ( rj [ rj 3 Drj, rj 3 Drj ] ) rj rj ;

k k k k k k k k ( j 1) ( rj [ rj 3 Drj, rj 3 Drj ] ) rj rj.

k k k k k k k (4.1.14) Использование критерия (4.1.14), как следует из неравенства Чебышева, говорит о том, что для любого распределения (на уровне доверительной вероятности не менее 0.9) мы не только оценили ранговые переменные для пропущенных значений показателей в исходной таблице, но и уточнили недостоверные значения ранго вых показателей. Таким образом, получена полностью заполненная и проверенная (с позиций достоверности ее значений) матрица ран говых переменных { r jk ;

j 1,m ;

k 1,n}.

В силу того, что переход к рангам (4.4) носит биективный ха рактер, по матрице { r jk } однозначно восстанавливаются значения { x k }. При этом происходит заполнение пропущенных и замена не j достоверных значений элементов матрицы данных.

Более высокая точность предложенного алгоритма по сравне нию с аналогичными методами обеспечивается за счет использова ния ранговых статистик, что позволяет исключить влияние «выбро сов» в значениях данных. Кроме того, алгоритм «по отдельности»

оценивает каждый элемент изучаемой таблицы данных, позволяя для каждой оценки вычислить свою дисперсию, которая зависит от того, какие значения пропущены в фиксированных строке и столб це таблицы.

4.1.2. Апробация алгоритма на данных по Приволжскому ФО.

Предложенный метод был апробирован на данных по При волжскому ФО, объединяющему 13 регионов, каждый из которых характеризовался 8 показателями за 2009 г. (см. таблицу 4.1.1). Та ким образом, заполненная изучаемая таблица содержала 104 значе ния. На основе разработанного метода вначале была проверена до стоверность данных таблицы. Неточных по критерию (4.1.14) зна чений выявлено не было.

Затем было проведено 100 опытов, в каждом из которых «пор тились» по 7 значений показателей. В каждом испытании 4 показа теля изымались (как условно неизвестные) и в расчетах не участво вали. Кроме того, 3 показателя изменялись в различных пределах.

Пример такой «испорченной» матрицы данных таблице 4.1.2. В таблице 4.1.3 приведен соответствующий пример результатов ана лиза матрицы данных, отображенной в таблице 4.1.2. Суммарно из 300 «испорченных» значений было выявлено и исправлено 287.

Точность оценки прогнозов показателей составила в среднем (по 100 проведенным опытам) составила 4,4 %. Этот результат поз воляет рекомендовать изложенный метод к использованию в при кладных эконометрических, социально- и технико-экономических работах. Но нужно иметь в виду, что погрешность результатов бу дет своя в каждом конкретном исследовании, поскольку она опре делена, прежде всего, теснотой связи между показателями и наблюдениями изучаемой области.

4.1.3. Восстановление недостающей информации в таблице социально-экономических показателей федеральных округов РФ (данные 2008 г.) В таблице 4.1.4 пять наблюдений были помечены как отсут ствующие, в результате анализа получены следующие оценки (в скобках указано истинное значение и относительная погрешность оценивания).

Таблица 4.1.4.

Показатели социально-экономического положения федеральных округов РФ Даль Цент- Севе- При Сибир- невос Юж- Ураль раль- ро-за- волж точ ный ский ский ный падн. ский ный Инвестиции в осн. ка – 74.0 39.5 48.1 114.4 42.2 74. питал, млн. руб./чел.

Иностранные инве стиции, тыс. дол. – 1490.9 1073.9 140.1 255.0 512.7 1145. США/чел.

Строит. жилых домов, 0.513 0.482 0.427 0.448 0.482 0.333 0. тыс. кв. м./чел.

Стоим. фикс. набора потреб. товар. и усл. в 7502.1 7455.9 6415.3 6254.5 7170.6 6563.0 9043. дек., руб.

Стоим. мин. набора продуктов питания в – – 2099.5 1989.5 1904.7 2278.0 2942. дек., руб Среднемес. начислен ная з/п одного работн., 20459 19113 11783 13181 21707 15395 руб.

Просроч. задолж. по з/п на 1.01, млн. 0.030 0.017 0.029 0.024 0.017 0.058 0. руб./чел.

Общая численность – 0.020 0.029 0.050 0.029 0.040 0. безработных, %/ В результате анализа получены следующие оценки (в скобках указано исходное значение и относительная погрешность оценива ния): инвестиции в основной капитал, Центральный Федеральный Округ (ФО) – 93.929 (90.932, 3.30 %);

иностранные инвестиции, Сибирский ФО – 363.271 (364.972, 0.47%);

стоимость минимально го набора продуктов питания в декабре, Северо-западный ФО – 2195.452 (2119.8, 3.57%), Сибирский ФО – 2062.149 (2128.8, 3.13%);

общая численность безработных, Приволжский ФО – 0. (0.033, 12.12%).

4.1.4. Анализ недельных курсов валют по отношению к рублю (2007 г.) Табл. 4.1.5 содержит две ошибки: одно значение в десять раз больше истинного, другое – в десять раз меньше (одна из характер ных ошибок в таблицах данных при вводе информации – непра вильное положение десятичного разделителя);

ошибочные значе ния выделены.

Таблица 4.1. Недельные курсы валют 1 2 3 4 5 6 7 8 Доллар США 25.69 25.58 25.44 25.43 25.57 25.45 25.63 25.77 25. Евро 34.93 35.05 35.10 35.04 34.97 35.03 34.65 35. 348. Австралийский 22.00 22.03 22.40 21.83 21.78 21.02 20.83 21. 2. доллар Японская иена 20.92 20.86 20.85 21.17 21.56 21.46 22.02 22.37 22. В результате применения изложенного метода получены сле дующие результаты (форма представления та же, что и в предыду щем примере): курс евро (8-й столбец) – 35.031 (34.837, 0.56%);

курс австралийского доллара (3-й столбец) – 21.814 (22.308, 2.21%).

4.1.5. Восстановление пропущенных значений данных о валовом внутреннем продукте и валовой добавленной стоимости России В табл. 4.1.6 приведены данные о валовом внутреннем про дукте и валовой добавленной стоимости в РФ по видам экономиче ской деятельности (в ценах 2011 г., млрд. рублей).

Таблица 4.1. Валовой внутренний продукт и валовая добавленная стоимость 2002 2003 2004 2005 2006 2007 2008 2009 1 10819 13208 17027 21609 26917 33247 41276 38786 2 9570 11619 14858 18517 22977 28484 35182 33804 3 573 667 773 864 981 1194 1486 1502 4 29.0 59.4 61.7 55.5 58.1 61.6 62.7 80.6 81. 5 638 769 1411 2064 2509 2865 3284 3007 – 6 1634 1897 2590 3388 4116 5025 6163 7 349 414 548 608 727 855 1034 1368 8 513 703 847 989 1202 1633 2225 2104 9 2192 2572 3012 3610 4673 5745 7137 6129 10 88.0 93.9 139.9 167.8 206.7 286.3 358.0 343.9 369. 11 978 1244 1642 1897 2247 2750 3258 3246 12 280 388 474 701 977 1253 1537 1723 13 1019 1246 1408 1828 2287 3108 3959 4098 14 488 651 802 959 1189 1466 1884 2207 – 15 280 319 400 493 619 970 1134 16 321 379 476 567 765 950 1198 1359 17 182.0 218.2 273.8 324.7 417.1 522.1 621.5 589.2 607. 18 1415 1775 2352 3248 4090 4977 6323 5202 – – 19 169 186 187 156 152 214 20 1249 1588 2168 3092 3939 4763 6094 4982 Были использованы следующие экономические показатели:

Валовой внутренний продукт в рыночных ценах;

1.

Валовая добавленная стоимость в основных ценах;

2.

Сельское хозяйство, охота и лесное хозяйство;

3.

Рыболовство, рыбоводство;

4.

Добыча полезных ископаемых;

5.

Обрабатывающие производства;

6.

Производство и распределение электроэнергии, газа и воды;

7.

Строительство;

8.

Оптовая и розничная торговля, ремонт автотранспорта;

9.

Гостиницы и рестораны;

10.

Транспорт и связь;

11.

Финансовая деятельность;

12.

Операции с недвижимостью, аренда и предоставление услуг;

13.

Государственное управление и обеспечение безопасности;

14.

Образование;

15.

Здравоохранение и предоставление социальных услуг;

16.

Предоставление прочих коммунальных, соц. и персон. услуг;

17.

Налоги на продукты;

18.

Субсидии на продукты;

19.

Чистые налоги на продукты 20.

Результаты применения методики выявления недостающей ин формации с применением ранговых статистик (форма представле ния результатов аналогична ранее использованной): 6, 2009 г. – 4797.149 (4913.9, 2.47%);

15, 2007 г. – 766.413 (769.9, 0.45%);

19, 2008 г. – 222.281 (229.7, 3.22%);

19, 2010 г.– 229.163 (234.9, 2.47%).

4.2. Непараметрическое прогнозирование и статистическое планирование экономической динамики 4.2.1. Непараметрическое экстраполирование количественных последовательностей в терминах конечных разностей В этом пункте развит подход к непараметрическому прогнози рованию и статистическому планированию экономической динами ки, основанному на представлении тренда «взвешенной» суммой ретроспективных наблюдений.

Идея метода, которая впервые была предложена в работе [210] и развита в работах [67,167,211,212,218,219, 239,249,264,272], со стоит в том, чтобы использовать в сумме ряда Маклорена, вместо производных конечные разности соответствующих порядков.

Зачастую в реальных задачах прогнозирования имеется корот кий ретроспективный ряд (менее 10 наблюдений). В такой ситуа ции безнадежно искать аналитический вид тренда, сглаживая ма лую выборку «наилучшей» функцией.

В связи с чем, несомненно, практически важной выглядит раз работка методов непараметрического прогнозирования коротких последовательностей (на один «шаг» по 5-10 точкам).

В одномерном случае задача формализуется следующим обра зом. Пусть имеется ряд вида (0), (1),..., (n),... ;

где (0) - наблюдение в текущий момент времени, (k ) - в «k–м предыдущем» периоде (день, неделя, месяц, год) времени. Нужно оценить значение показателя (t ) в t –й (t = 1,2,…) момент времени.

Конечную разность [46] r-го порядка в точке (0) правомерно за писать в виде r (k ) r (0) (1) (r ) k, (4.2.1.1) k k где r. Используя разложение непрерывной функции в r!


k! (r k )!

k ряд Тейлора - Маклорена и заменяя r–ю производную по времени на соответствующую конечную разность, получаем:

(1) k (k ) r ;

t 1,2,.... (4.2.1.2) (t ) tr k 0 Г (k 1) Г (r k 1) r Меняя порядок суммирования, получаем выражение вида (1) k ( к ) t k r ( t ) k ( к ) e (t ) t Г (k 1). (4.2.1.3) Г (k 1) r 0 Г (r 1) k 0 k Соотношение (4.2.1.3), являющееся прямым аналогом ряда Ма клорена для дискретного случая, служит основой для построения процедур экстраполирования одномерных временных последова тельностей. Причем, при можно считать, что n k : t k 1 t k dt, в силу чего соотношение (4.2.1.3) перейдет в ряд Тейлора - Маклорена.

На практике, когда исследователь располагает лишь конечным числом замеров переменной во времени, величина (4.2.1.3) требует оценки. Пусть { x (k ) ;

k 1,n } - выборка ретроспективных данных, где x (n) - последний по времени замер изучаемой переменной.

Вначале используем выражение типа (4.2.1.3), которое перепи шем в виде (1) k 1 x (n k 1). (4.2.1.4) n r (n t ) t r x k 1 Г (k 1) Г (r k 1) r Путем несложных преобразований (1.4) приводится к виду (t ) k Г (n k, t ) (n k ) n (n t ) e t ;

t = 1,2, …, x x k 0 Г (k 1) Г (n k ) (4.2.1.5) где Г (n k, t ) - неполная дополнительная гамма-функция [284, п.V.С] (для действительных неотрицательных чисел):

Г ( x) t x 1 e t dt, x 0.

x Для вычисления Г (n 1, ) удобно воспользоваться выражени ем [150, п.4.1.6.10] вида k n,. (4.2.1.6) Г (n 1, ) e Г (n 1) Г (k 1) k Причем точки ретроспективных наблюдений, подобно тому, как это делается в широко используемом методе «экспоненциаль ного сглаживания» Р. Брауна (см., например, [279]), «провешива ются» по экспоненте. Но метод Р. Брауна носит эвристический ха рактер, а в нашем случае приведено формальное обоснование про цедуры непараметрического экстраполирования, результатом чего явилось провешивание ретроспективных данных по экспоненте. Из (4.2.1.7) видно, что при прогнозирования «на t шагов», происходит «присвоение весов» ретроспективным наблюдениям в виде:

et (t ) n k Г (k, t ) t ;

k 1,n, t 1,2,.... (4.2.1.7) (k ) Г (n k 1) Г (k ) Использовав соотношение [150, п.4.2.1.3], находим (1) k n n,0, (4.2.1.8) k 0 k ! (n k ) ! n!

где n,0 - символ Кронекера. Для суммы весов ретроспективных наблюдений получаем выражение вида et (t ) n k Г (k, t ) n n t (k ) k 1 Г (n k 1) Г (k ) k (4.2.1.9) n 1 t k k n 1 k k t (1) j j k 0 Г (k 1) 1.

k, k 0 k ! j 4.2.2. Процедура выявления многомерных последовательностей с некоррелированными компонентами случайного вектора Для практических прогнозных задач, как правило, наиболее значим случай прогнозирования многомерных стохастических по следовательностей (многомерного случайного процесса с дискрет ным временем).

Пусть имеется ретроспективный ряд из n наблюдений, каждое из которых задано m–мерным вектором показателей. Иначе говоря, мы располагаем ретроспективными данными вида { x (jk ) ;

j 1, m;

k 1, n}. При этом текущее (последнее) наблюдение имеет номер «n».

Поскольку часто приходится сопоставлять динамику показате лей, измеренных в разных шкалах, следует перейти к безразмерным величинам, например в виде yi( k ) xi( k ) / xi( n ) (i 1, m, k 1, n ). (4.2.2.1) Сложность непосредственного использования оценок типа (4.2.1.5), которым можно придать вид (1) n k Г (k, 1) (k ) n ~ (n 1) et yi ;

i 1, m, (4.2.2.2) yi Г (n k 1) Г (k ) k обусловлена тем, что экономические показатели динамической си стемы взаимозависимы и изменение каждого из них влечет косвен ное, но заметное изменение других показателей. Большие экономи ческие системы изменяются во времени «как целое», их количе ственные показатели «нежестко» (стохастически) взаимосвязаны.

Динамические ряды стохастически взаимозависимых экономиче ских показателей, характеризующих систему, являются лишь про явлением динамики системы как таковой, системы «в целом».

Сделаем преобразование данных вида z (jk ) y (jk 1) y (jk ) ;

j 1, m;

k 1, n 1. (4.2.2.3) Построим матрицу скалярных произведений С вида n zi, z j Сij zi( k ) z (jk ) (i, j 1, m). (4.2.2.4) k Матрица (4.2.2.4) является симметрической и положительно опре деленной. Следовательно [45], существует ортогональный оператор, приводящий С к каноническому виду diag ( j 2 ;

j 1, m), (4.2.2.5) C - транспонированная по отношению к матрица.

где Причем для оператора, в силу его ортогональности, об 1 ратная и транспонированная матрицы совпадают:.

Это условие в координатах запишется в виде n n ik jk ij j ki kj ;

i, j 1, m, (4.2.2.6) k 1 k где ij - символ Кронекера. Уравнения (4.2.2.5), приводящие к С каноническому виду, в координатах запишутся:

m ki lj Ckl j ij (i, j 1, m ). (4.2.2.7) k,l Собственные значения j матрицы С определяются из уравне ний:

det { C j I } 0 ;

j 1, m, (4.2.2.8) где I - единичная матрица размерности m на m.

На практике элементы матрицы, приводящей к кано С ническому виду, обычно находят «методом многомерных враще ний» (см., например, [45,79,80]).

Ортогональный оператор порождает изометрическое преобразование переменных (многомерный поворот базиса, при ко тором все расстояния между точками и углы между векторами со храняются).

Новые (обобщенные) показатели выражаются в виде m j ij zi ( j 1, m ). (4.2.2.9) i 4.2.3 Экстраполирование многомерных последовательностей с учетом стохастических взаимосвязей показателей В факторном анализе [9,12,29,79,80] полученные признаки j ( j 1, m ) называются «главными компонентами», которые обра зуют ортогональную систему векторов:

i, j ij j (i, j 1, m ). (4.2.3.1) В выражении (3.1) j - собственные значения матрицы.С С учетом ортогональности оператора, это позволяет записать вы ражения вида m z j jii ( j 1, m ). (4.2.3.2) i Заметим, что при изометрических преобразованиях линей-ных про странств след матрицы С сохраняется [45,80]:

m m C jj j. (4.2.3.3) Sp C j 1 j Иначе говоря, сохраняется суммарная статистическая изменчи вость (дисперсия) показателей. Будем считать (что соответствует просто выбору нумерации факторов, который произволен), что 1 2... s... m. (4.2.3.4) Но тогда некоторое (как правило, небольшое) число s первых компонент обладают «львиной» долей суммарной статистической изменчивости системы:

s m j C jj ;

s m. (4.2.3.5) j 1 j Из этого следует, что последние m-s показателей обладают ма лыми значениями дисперсий, т.е. последние m-s выражений вида (2.9) являются соотношениями, определяющими эмпирические уравнения взаимосвязей между изучаемыми показателями. В наиболее высокой степени это относится к последней компоненте, что позволяет записать выражение:

m m im zi 3 m 0, (4.2.3.6) i где оценка гарантированной погрешности взята по правилу «трех сигм». Но тогда можно записать соотношение вида m z im zin 3 m jm1 ;

j 1, m. (4.2.3.7) 1 n j jm i j Использовав вид преобразования (4.2.2.3), искомую прогноз ную оценку, используя соотношение (4.2.3.7), запишем в виде m im ( ~in1 yin ) 3 m jm1 ;

j 1, m.

y n1 1 n y y j j jm i j (4.2.3.8) И, вспомнив вид преобразования (2.1), мы можем записать про гнозные значения для исходного набора показателей:

m x n1 x n [ y n jm1 im ( ~in1 yin )] 3m x n jm1 ;

j 1, m.

j y j j j i j (4.2.3.9) 4.2.4. Понятие о «статистическом планировании»

Рассмотрим более общую постановку задачи. К ранее рассмот ренным условиям задачи непараметрического прогнозирования, добавляется дополнительное условие. Требуется предсказать изме нения вектора показателей, при условии, что m-s из них должны иметь определенные значения. Не снижая общности изложения, будем считать, что значения последних (по нумерации) m-s показа ( n 1) телей y j известны (j = s 1, m ). Т.е., динамика этих показателей либо априори такова, либо нам нужно обеспечить эту динамику.

Таким образом, задача сводится к оцениванию значений s показа ( n 1) телей – откликов (управляемых показателей) y j (j = 1, s ) с уче том m-s показателей – регрессоров (управляющих показателей) ( n 1) (l = s 1, m ), значения которых заданы. Такая задача выходит за yl рамки традиционного понимания «прогнозирования», поэтому назовем ее статистическим планированием.

Пусть имеется матрица наблюдений во времени, каждое из ко торых задано m–мерным вектором показателей, вида { xik, i 1, s, k 1, n ;

x lj, j s 1, m;

l 1, n 1}. (4.2.4.1) Вместо (2.1) сделаем преобразование вида yi( k ) xi( k ) / xi( n ) ;

i 1, s, k 1, n ;

(l ) y j x j / x j ;

j s 1, m, l 1, n 1., (4.2.4.2) (l ) (n) т.е. мы по-прежнему нормируем все показатели к их n-му значе нию. Введем вспомогательные показатели в виде zi( k ) yi( k 1) yi( k ) ;

i 1, s, k 1, n 1 ;

(k ) ( k 1) z j y j y j ;

j s 1, m, l 1, n.. (4.2.4.3) (k ) Далее, как и при прогнозировании, используем выражение (3.6), записав его для статистического планирования в виде s m z ( z im zin ) 3 m jm1. (4.2.4.4) 1 n n j jm im i i j s Используя вид преобразования (4.2.2.3) и соотношения (4.2.4.4), искомую прогнозную оценку запишем в виде s m [ im ( ~in1 yin ) im ( yin1 yin )] 3 m jm1.

y n 1 1 n y y j j jm i j s (4.2.4.5) И, использовав преобразование (4.2.2.1), вновь получаем итоговые значения для исходного набора показателей в виде x n1 x n y n1 3m x n jm1 ;

j 1, m. (4.2.4.6) j j j j Апробация процедур непараметрического прогнозирования и на динамике курсов основных валют Была проведена апробация предложенных алгоритмов экстра полирования на искусственных и реальных экономических данных.

На искусственных данных (табл. 4.2.1), при ретроспективе из 9 то чек прогнозные значения обладали в среднем погрешностью от 0.1 6.0 %.

При прогнозировании динамики ежедневных курсов основных валют (при ретроспективе в 8 наблюдений) метод обеспечивает (см.

таблицу 4.2.2) точность предсказания с погрешностью 0.2-1.0%.

Было изучено, как изменение курса одной валюты может вли ять на курсы других валют. Бралась еженедельная ретроспектива по 8 наблюдений, по которой и делался прогноз.


Использовались данные за первую половину 2010 г. Были рас смотрены варианты расчетов по алгоритму «статистического пла нирования»: при увеличении (на примерно 20%) и при снижении (примерно на 25%) реального курса евро.

Это, в частности, вызывало соответственно снижение и увели чение курса доллара примерно на 15 %.

4.3. Типологическое пространство, функция сходства и анализ уровня экономических объектов 4.3.1. Функция сходства многомерных объектов (наблюдений).

Под объектом мы будем понимать наблюдение, выраженное вектором признаков, измеряемых в числовых шкалах (в том числе – дихотомической). Пусть множество Х, состоит из элементов x X.

Любая классификация, в том числе и социально-экономическая, всегда основана на анализе какой-либо меры близости [154] много мерных объектов. Функцию S( х,у ), заданную на декартовом произ ведении Х * Х, вида S : X * X ( 0,1 ] называют мерой близости эле ментов множества Х в том случае, если выполнены аксиомы:

(а) условие нормировки: x X : S ( x, x) 1 (4.3.1.1) (мера близости S любого элемента х «к самому себе» равна 1);

(б) условие симметричности: x, y X : S ( x, y) S ( y, x). (4.3.1.2) Для того чтобы мера близости (сходства, подобия), определен ная на основе аксиом (1.1-2), стала «рабочей», нужно договориться о том, как измеряется расстояние между парами элементов Х, т.е.

определить на Х некоторое метрическое пространство [97, гл. 3,4].

Заметим в этой связи, что в монографии Г.Г. Татаровой [176], по священной вопросам социальной типологизации, сразу же после определения меры S( х,у ) приведены некоторые часто используе мые величины такого рода (с.213). Но очевидно, что все они опре делены не просто для множества наблюдений Х, а на нормирован ных пространствах [97, гл. 3], построенных на Х. Метрика, опре деленная на множестве Х, представляет собой отображение вида : X * X, где - множество неотрицательных чисел, при условии выполнения аксиом:

x X : ( x, x) 0, (4.3.1.3.а) x, y X : ( x, y) ( y, x), (4.3.1.3.b) x, y, z X : ( x, y) ( x, z) ( z, y). (4.3.1.3.с) Легко понять, что аксиомы (1.3.а-b), являясь аналогами аксиом меры подобия (1.1-2), описывают «сходство» наблюдений «с проти воположной позиции». Условие (1.3.с) («аксиома треугольника») обобщение той «школьной истины», что «прямая есть кратчайшее расстояние между двумя точками».

Определим функцию сходства наблюдений. Причем сделать это наиболее удобно в стохастическом смысле. Пусть нормированное пространство N определено на множестве наблюдений Х. Произво дится опыт, состоящий в том, что из множества X случайным обра зом выбирается его элемент x. Оказывается, что норма [97, п.3.3] x равна r (x). В результате серии из n таких опытов образуется стати стика вида { r1, r2,..., rn }. Величина r в описанной серии опытов (по схеме Бернулли) ведет себя как стохастическая переменная и, сле довательно, имеет некоторое распределение (r ).

Функцией распределения нормы (ф.р.н.) (r ) элементов множе ства X, на котором определено нормированное пространство N, назовем вероятность того события, что норма наугад выбранного элемента x N окажется меньше r :

r0 : (r0 ) Pr { r ( x) r0 }, (4.3.1.4) где r (x) - норма случайно выбранного наблюдения x N, а Pr {…} –вероятность события { … }. Приведенное определение ф.р.н. явля ется строгим, но опирается не на описание вероятности по А.Н.

Колмогорову [92-95], а на описание вероятности по Мизесу – Смирнову – Виллю – Постникову [120, 149,165,196,198,299].

Пусть на множестве Х определено нормированное пространство N = ( Х, r ). Функцией сходства назовем отображение (х,у) такое, что 1) : N * N ( 0,1 ] ;

(4.3.1.5) 2) ! N, x N : (, x) 1 ( r ( x) ) ;

(4.3.1.6) 3) x, y N : ( x, y) 1 ( r ( x y) ), (4.3.1.7) где - начало координат, а величина r ( x y) - расстоянием между x и y в метрике, порождаемой нормой [97, гл.3].

Пример. Пусть дано множество наблюдений X { x j ;

j 1, n }, каж дое из которых определено случайным вектором показателей вида x j ( x1j, x 2,..., x m ) m ;

j 1,n. Будем считать, что все компоненты j j этого вектора имеют стандартизованное гауссово распределение g(0,1). В сферической евклидовой метрике расстояние между эле ментами x i и x j из Х имеет вид m ij ( xi, x j ) ( xik x k ) 2.

j k Из теории распределений известно [38, п. 7.10], что случайная величина ij имеет функцию плотности вероятностей вида 2 1 m/ 2 m ( ) exp ( 2 / 2 ). (4.3.1.8) ( m/2 ) Тогда функция сходства пары наблюдений ( xi, x j ) имеет вид 2 1 m/2 ij ij ( xi, x j ) 1 m exp ( t 2 / 2) dt. (4.3.1.9) t ( m/2 ) Предложенная функция сходства наблюдений ij является не просто мерой подобия элементов изучаемого множества, она изме ряет сходство наблюдений с учетом вероятности всех расстояний между элементами изучаемого множества.

Отметим, что на прямой (m = 1) функция сходства (1.9), с уче том того, что (0.5) [284, гл.V], имеет вид ij1) 1 erf ( ij / 2 ), ( где erf (х) – интеграл вероятности ошибок [284, гл.VII]:

2x 0 exp (t ) dt ;

x 0.

erf ( x) Для евклидовой плоскости (m = 2) получаем:

ij2) exp( ij / 2).

( В трехмерном евклидовом пространстве (m = 3), воспользовав шись результатом [150, п.1.3.3.8], и учтя, что Г(1.5) = 0.5 Г(0.5), по лучаем:

ij3) 1 erf ( ij / 2 ) ij exp( ij / 2).

( Замечание. Функция сходства (4.3.1.9) приведена здесь в иллю стративных целях. Она имеет практическое значение для классифи кации только в естественнонаучных областях (где действительно наблюдается нормальное распределение). В эконометрических и социальных [200] исследованиях многомер-ное гауссово распреде ление - исключительная редкость.

4.3.2. Понятие «типологического пространства»

Типологическим пространством назовем пару Т = (N, ), где N – нормированное пространство на множестве Х, а - функция сход ства наблюдений из N. Впервые идея типологического простран ства была предложена в работе [246], затем развита в работах [253,258,264]. Возникает естественный вопрос: а нужны ли все эти достаточно нетривиальные математические построения, нельзя ли ограничиться метрическим пространством, на котором задана лю бая мера близости наблюдений S, подчиненная аксиомам (1.1-2)?

Можно все, что не запрещено. Скажем, ничто не запрещает нам в качестве меры близости наблюдений в метрическом пространстве М = ( X, ) использовать выпуклую «вниз» функцию S exp( ( x, y)), или функцию S exp ( 2 ( x, y)), имеющую точку перегиба. Но выбранный способ определения меры подобия S в вы сокой степени предопределит результаты итоговой классификации.

В этой связи становится непонятно, что же мы реально изучали:

близость пар наблюдений или собственные домыслы о виде меры их сходства.

Привлекательность функции сходства состоит в том, что ти пологическое пространство объективно описывает подобие наблю дений всего изучаемого ансамбля. Пусть расстояние между данной парой элементов из метрического пространства М равно конкрет ному числу. Много это или мало? Неизвестно, нет ориентиров для ответа на этот вопрос. А в случае типологического простран ства Т = (N, ) всегда существует некоторая ф.р.н. (r ), совершенно неважно, является она эмпирической или задана теоретически. Но важно, что всегда ( x, y) 1 ( ( x, y) ), а это задает «геометрию»

группировки всех наблюдений. И становится понятно, что же в дей ствительности означает тот факт, что расстояние между фиксиро ванной парой наблюдений равно конкретному числу.

Замечание. Топологическим пространством, заданным на аб страктном множестве Х, называется пара ( X, ), где топология система аксиом [14,97], задающих «правила» принадлежности гра ниц всевозможных подмножеств Х. Итак, типологическое про странство является частным случаем нормированного пространства, нормированное - метрического, а метрическое - частным случаем топологического пространства.

Вопрос состоит в том, как практически задать функцию сход ства, учитывая, что в реальности практически всегда отсутствует какая-либо априорная информация об аналитическом виде (r ).

Применение методов параметрической статистики в социально экономических прикладных исследованиях часто крайне затрудне но высокой неоднородностью данных и малыми объемами выбо рочных ансамблей.

Можно использовать методы непараметрической или робаст ной статистики. Применение оценочных процедур непарамет рической статистики целесообразно (а иногда и единственно воз можно), в тех многочисленных эконометрических исследованиях, где неизвестна функция распределениях изучаемых показателей.

Рассмотрим множество n наблюдений X { x j ;

j 1, n }, каждое из которых определено случайным вектором x j ( x1j, x 2,..., x m ) m ;

j 1,n.

j j Вычислив расстояния между всеми парами точек наблюдений из X { x j }, получим вторичную статистику вида ij r ( xi x j ) ;

i 1, n 1, j i 1, n. Построим из ij вариационный ряд вида (1) ( 2)... ( k )... ( N ) ;

k 1, N, (4.3.2.1) элементы которого (k ) называют порядковыми статистиками, а для значения N тривиально подсчитывается, что N = n (n - 1) / 2.

Номер измерения ij (i 1, n 1, j i, n) в вариационном ряду (2.1), называется рангом Rg (i, j ) [43,86] этого измерения:

i, j 1, n : ij ( k ), Rg (i, j ) k, k 1, N. (4.3.2.2) Зададим эмпирическую функцию распределения (ФР) в виде [173] Rg (i, j ) 2 Rg (i, j ) ij ( ( xi, x j )) i 1, n 1, j i, n. (4.3.2.3) n (n 1) 2 ;

N ФР (4.3.2.3) примечательна тем, что она асимптотически схо дится к (аналитически неизвестной) истинной функции распреде ления. Этот факт, верный для широчайшего класса распределений, базируется на фундаментальном свойстве сходимости по вероятно сти выборочных квантилей к соответствую-щему истинному значе нию вероятности (см. [173, п.3.5]).

В работе изложенная методика была апробирована на данных по 14 регионам Приволжского ФО (таблица 4.3.1), Таблица 4.3. Регионы Приволжского Федерального Округа РФ Башкирия Кировская область 1. 8.

Марий Эл Нижегородская область 2. 9.

Мордовия Оренбургская область 3. 10.

Татарстан Пензенская область 4. 11.

Удмуртия Самарская область 5. 12.

Чувашия Саратовская область 6. 13.

Пермский край Ульяновская область 7. 14.

которые описывались 8-ю показателями (табл. 4.3.2):

Таблица 4.3. Экономические показатели регионов Поволжья Инвестиции в основной капитал, млн. руб. / чел.

1.

Иностранные инвестиции, тыс. долл. / чел.

2.

Строительство жилых домов, тыс. кв. м. / чел.

3.

Стоимость фиксированного набора потребительских товаров 4.

и услуг, руб.

Стоимость минимального набора продуктов питания, руб.

5.

Среднемесячная зарплата одного работника, руб.

6.

Просроченная задолженность по зарплате на 1 января, 7.

млн. руб. / чел.

Общая численность безработных, 100% 8.

4.3.4. Отношение Парето как основа анализа уровня объектов Наряду с традиционными методами классификации (Q-техника факторного анализа [29,54,58,79], кластерный [78], дискриминант ный [30,49], таксонный анализ и эвристическая типологизация [176]), в приложениях большую роль играют задачи систематиза ции многомерных объектов по их уровню. Могут анализироваться, например, (a) предприятия по эффективности их работы, (b) техни ческие объекты по их качеству, (с) экономические регионы по уровню их развития, (d) группа лиц по уровням их физической под готовки и т.п. Такие задачи относятся к многокритериальной оп тимизации.

В указанных случаях корректное сопоставление многомер-ных объектов требует использования многокритериального выбора, ко торый математически не тривиален. Часто используется какой-либо из методов квалиметрии (основанной на экспертно-эвристическом составлении «весовой», как правило, линейной, функции). Но этот подход очень ненадежен в силу высокой чувствительности резуль тата оценивания к (даже малым) вариациям «весовых коэффициен тов» модели.

В работе развит подход к анализу уровня многомерных объек тов, первоначально предложенный в статье [1] и развитый в публи кациях [160,256]. Изложенный метод анализа уровня объектов ос нован на использовании многокритериального выбора по отноше нию В. Парето [1,32,233], компонентном анализе и непараметриче ских (ранговых) методов статистики.

1). Множество мажорант по отношению Парето В социально- и технико-экономических исследованиях пока от носительно редко используется многокритериальный отбор, осно ванный на отношении В. Парето. Поэтому нелишне привести опре деление связанных с ним понятий. Пусть X - конечное множество m–мерных векторов:

X { x k | k 1,n } ;

x k { x1,..., xm }.

k k Будем считать, что возрастание значения любого показателя x j ( j 1, m) ведет к возрастанию «уровня» (качества) объекта.

1) Будем считать, что объект x k лучше ( « » ) объекта x l, если j 1,m : x k xlj и i 1,m : xik xil. (4.3.4.1) j Иначе говоря, x k xl, если все координаты вектора xk не меньше координат вектора x l, причем существует хотя бы одна координата, по которой вектор x k строго превосходит x l.

2) Будем считать, что объект x k несравним ( « » ) с объектом x l из Х, если j 1,m : x kj xlj и i 1,m : xik xil. (4.3.4.2) Если на множестве m-мерных объектов X { x k | k 1,n } опреде лены правила (3.4.1) и (3.4.2), то на множестве Х задано отношение Парето.

Множеством мажорант Парето элементов множества Х называют подмножество его элементов ( X ) X таких, что:

x j, x k ( X ) : x k x j (4.3.4.3.a) и x j X ) x k ( X ) : x k x j. (4.3.4.3.b) ( Отношение Парето является отношением эквивалентности [97] и разбивает множество Х на непересекающиеся классы мажо рант. Пусть 1-й класс образуют мажоранты: X ( X ) X. Выде лим во второй класс мажоранты Парето для подмножества X 1 X \ ( X ) X, т.е. X 2 ( X 1) X.

Далее получим: X 3 X \ ( X1 X 2 ) ] X.

[ Продолжая аналогичные действия, на некотором шаге (в силу конечной мощности Х) процесс исчерпает себя. Мы получим разби ение Х на некоторое число непересекающихся подмножеств, при чем внутри каждого из этих подмножеств все объекты будут по парно несравнимы.

Изложенное выделение классов мажорант позволяет в много мерном смысле разбить изучаемое множество (в частности, эконо мических, технических, социальных и технико-экономических) объектов по их «уровню», который задается m его оценочными чис ловыми показателями.

2). Компонентный анализ ранговых показателей Для радикального повышения стабильности анализа уровня объектов по отношению Парето используем аппарат ранговых ста тистик. Упорядочим значения показателей x j в вариационные ряды, для простоты изложения – без связок (о их роли см. [173, с.65-66]), вида x j x j... x j ;

j 1, m.

(1) ( 2) ( n) Номер объекта x k ( j 1, m, k 1, n) в вариационном ряду, называе j мый рангом этого объекта, обозначим r j. Формально - математи k чески переход к рангам определен в виде x k x (jl ) rjk l ;

j 1, m ;

k, l 1, n. (4.3.4.4) j Замечание. Переход к ранговым статистикам является одним из самых «сильнодействующих» средств стабилизации результатов.

Но он важен и потому, что выравнивает показатели разной природы по масштабу, делая их безразмерными. Введем операцию скалярно го произведения в пространстве показателей rj :

n Cij ri, r j r j r l ;

i, j 1, m.

k j k Матрица [ С ] - симметрическая и положительно определенная.

Следовательно, существует ортогональный линейный оператор [ ], приводящий матрицу [ C ] к каноническому виду n ik jl Cij kl k (k, l 1, m ), (4.3.4.5) i, j где k - собственные значения матрицы [ C ].

Для оператора в силу его ортогональности, его обратная и [ ], транспонированная матрицы совпадают: [ ] = [ ]. Это усло вие в координатах можно записать в виде m m jk jl kl kj lj ;

k, l 1, m, (4.3.4.6) j j где kl - символ Кронекера. Ортогональный линейный оператор [ ] порождает изометрическое (когда все расстояния между точ ками и все углы между векторами сохраняются) преобразование пространства, в результате чего возникает m новых «обобщенных»

показателей вида n Fk lk rl ;

k 1, m.

l Полученные показатели Fj ( j 1, m ), образуют ортогональ-ную систему векторов, называются главными компонентами [29,54,79]:

Fi, Fj ij j (i, j 1, m ).

Для краткости будем называть векторы Fj ( j 1, m ) факторами.

Подчеркнем, что линейный оператор [ ] определен с точностью до [45,54,55,58,79,80]: (1) перестановок любых строк его матрицы и (2) умножения любой строки этой матрицы на «-1».

Эти обстоятельство приводит к произвольной нумерации Fj ( j 1, m ). Что, не снижая общности изложения, позволяет счи тать: 1 2... m 0.

2 2 Кроме того, можно выбрать направление каждого фактора так, чтобы его рост увеличивал уровень (качество) объекта.

3). Выявление мажорант Парето в факторном пространстве Нормируем векторы факторов:

m 1 f j j Fj j r.

ij i i Векторы f j ( j 1, m ) образуют базис в пространстве факторов:

m n 1 f k, f l k jk rj, l il ri j i ( 4.5 ) m 1 1 l k jk il Ckl l k kl kl ;

k, l 1, m i, j В соотношении (3.4) учтено (см. (2.9 и (3.3)), что некоторое сравни тельно небольшое число р векторов Fj ( j 1, m, p m) содержит «львиную» долю суммарной статистической изменчивости:

k 2 0 (k p).

Координаты вектора r (l 1, n) в базисе { f k } имеют вид l m F jk rjl ;

k 1, m, l 1, n.

l k j При этом след матрицы симметрического оператора сохраняет ся: Sp[C ] k Ckk m m Const k k В силу ортогональности оператора [ ] верно соотношение ви m да ij 1 ij 1 ;

i, j 1, m.

i Это значит, что каждый из Fj ( j 1, m, p m) существенно зависит не от всех показателей r j, а лишь от небольшого их числа:

mj F ik j rik ;

m j m ;

j 1, m;

l 1, n. (4.3.4.7) l l j k причем ik : 0 | ik j | 1. Соотношение (4.3.4.7) «дает ключ» к содержательной интерпретации полученного набора факторных показателей. Вычислим, используя координаты F jl (4.7), ( j 1, p, p m ;

l 1, n ) объектов в «усеченном» факторном про странстве { F j ;

j 1, p }. Сделаем сдвиг начала координат, перево дящий переменные в неотрицательную область:

R lj F jl min ( F jk ), R lj ;

j 1, p, p m ;

l 1, n. (4.3.4.8) k 1, n Поскольку все произведенные преобразования xk rkl Fkl Rk (k 1, m, l 1, n) l l биективны [32, 233], то результаты анализа уровня объектов { F k } правомерно рассматривать как анализ уровня объектов { x k }. Про ведем разбиение множества объектов { x k ;

k 1, n } на классы мажо рант Парето в пространстве { Rk ;

k 1, p } так, как это описано выше.

Пусть было выявлено s классов мажорант X1, X 2,..., X s ;

s n. По скольку каждый объект попадет только в один класс мажорант, по лученные результаты можно характеризовать индикатором принад лежности вида 1, если x l X k, ;

(k 1, s, l 1, n). (4.3.4.9) k l 0 в противном случае Мы получили разбиение изучаемого множества объектов на s непересекающихся классов по их уровню. Мощность каждого клас n са X k равна nk k, k 1, s.

l l Причем, совокупность классов мажорант Парето действительно образует разбиение исходного множества на непересекающиеся подмножества сходных объектов:

k nk n.

s Ранжирование регионов Приволжского ФО.

Апробация методики многокритериального ранжирования про водилась на 14-ти регионах Приволжского ФО, каждый из которых характеризовался 8-ю экономическими показателями (табл. 4.3.1 и 4.3.2).

В результате были выделены 6 групп мажорантам по отноше нию Парето в пространстве ранговых главных компонент.



Pages:     | 1 | 2 || 4 | 5 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.