авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 |
-- [ Страница 1 ] --

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ,

СТАТИСТИКИ И ИНФОРМАТИКИ

Сиротин В.П., Архипова М.Ю.

ДЕКОМПОЗИЦИЯ РАСПРЕДЕЛЕНИЙ

В МОДЕЛИРОВАНИИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ

ПРОЦЕССОВ

Москва, 2011

Моск

2

УДК 519.86

ББК 65.050

С-404

Рецензенты Нижегородцев Р.М.

Доктор экономических наук, профессор Гамбаров Г.М.

Кандидат экономических наук, доцент Сиротин В.П., Архипова М.Ю. Декомпозиция распределений в моделировании социально-экономических процессов. Монография. / Московский государственный университет экономики, статистики и информатики. М., 2011. – 146 с.

Монография посвящена проблеме классификации объектов в моделировании социально-экономических процессов и явлений, являющейся одной из самых распространенных и востребованных областей многомерного прикладного статистического анализа.

Рассмотренные в монографии алгоритмы декомпозиции вероятностных распределений являются трудно формализуемыми и поэтому пока не представлены в статистических пакетах прикладных программ. Тем не менее, при выполнении предпосылок для их использования, они обеспечивают большую эффективность классификации по сравнению с широко применяемыми на практике методами кластерного анализа.

© Сиротин В.П., ISBN 978-5-7764-0693- © Архипова М.Ю., ОГЛАВЛЕНИЕ ОГЛАВЛЕНИЕ................................................................................................................. Введение.............................................................................................................. 1.

2 История развития и обзор современных методов классификации.......................... Общая постановка задачи декомпозиции распределений и алгоритмы ее 3.

реализации …………………………………………………………………………………. Модель смеси вероятностных распределений в исследовании 4.

дифференциации по доходам и заработной плате............................................................. Моделирование распределения профессорско-преподавательского 4.1.

состава вуза по заработной плате.................................................................................. 4.2. Декомпозиция двумерного распределения по реальному и требуемому доходам населения.............................................................................................................. Моделирование рынка жилья в Москве с использованием методов 5.

параметрической классификации без обучения.................................................................. Моделирование структур по уровню инновационной и патентной 6.

активности ………………………………………………………………………………… Параметрическое моделирование региональной структуры России по 6.1.

уровню инновационной активности..................................................................................... Параметрическое структурное моделирование патентной активности 6.2.

Глоссарий...................................................................................................................... Словарь английский терминов.................................................................................... СПИСОК ЛИТЕРАТУРЫ............................................................................................ 1. Введение Классификация социально-экономических объектов занимает одно из центральных мест среди задач статистического анализа. Она призвана выявить структуру исследуемой генеральной совокупности. От качества ее решения во многом зависит возможность реализации других этапов статистического исследования.

Исходная статистическая информация имеет форму значений количественных или качественных признаков. Предпочтение, отдаваемое количественным признакам в статистических исследованиях, обусловлено большим объемом содержащейся в них информации. Но для ее полного использования требуется применение адекватных статистических методов.

Наиболее распространенным методом классификации по значениям статистических показателей является аналитическая группировка. Однако она требует привлечение экспертной информации для принятия решения о граничных значениях признаков для каждой из групп.

Если число информативных показателей, характеризующих социально-экономическое явление, невелико, и вид распределения для однородной группы объектов известен, наиболее предпочтительной для классификации является модель смеси вероятностных распределений. Она, как правило, обеспечивает возможность получения важной информации о структуре совокупности даже для существенно перекрывающихся в признаковом пространстве групп объектов. Это позволяет использовать для интерпретации результатов классификации традиционные жесткие решающие правила, а также реализовать гибкие подходы, основанные на привлечении аппарата нечетких множеств.

2 История развития и обзор современных методов классификации В анализе социально- экономических процессов и явлений, сложность внутренней структуры объектов определяет их существенную неоднородность. Выделение однородных по определенным свойствам групп и их описание представляет из себя одну из самых распространенных задач многомерного статистического исследования.

Не удивительно, что методы классификации получили развитие еще в глубокой древности, когда люди, обращая внимания на звездное небо, пытались выделить близко лежащие друг к другу звезды, группируя их в своеобразные кластеры, которым давали названия животных, которых они им напоминали своими очертаниями.

Существенное развитие методов классификации произошло в конце XVIII века, когда в 1757 г. французским ботаником М.Адансоном была выполнена иерархическая классификация растений и видов животных1.

Дальнейшее развитие методы классификации получили в работах Менделеева Д.И. при создании им в 1869 году Периодической системы элементов. Во второй половине XIX века. Периодическая классификация элементов имела огромное значение для развития неорганической химии. Ее значение в настоящее время трудно переоценить, сама эта система в результате изучения проблем строения вещества постепенно приобрела ту степень рациональности, которой невозможно было достичь, зная только атомные веса. Переход от эмпирической закономерности к закону составляет Растения, имеющие сходные признаки, объединяют в группы, называемые видами. Если у вида нет близких сородичей, он образует самостоятельный, так называемый монотипный род.

Систематика растений представляет собой иерархическую систему из групп различного ранга, то есть из семейств составляются порядки, а из порядков - классы. Независимо от ранга каждая такая группа называется таксоном. Принципами выделения и классификации таксонов занимается особая научная дисциплина - таксономия.

конечную цель всякой научной теории.

В связи с многоплановостью и сложностью изучаемых объектов и процессов данные о них носят многомерный, разнотипный характер и до анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели.

Перечень прикладных областей, где применяется классификация, весьма широк. Это комплексные исследования сложных социально-экономических, технических, медицинских и других процессов: образа и уровня жизни населения, совершенствования организационных систем, региональной дифференциации социально-экономического развития, планирование и прогнозирование экономических систем, а также сегментация изображений, маркетинг, борьба с мошенничеством, прогнозирование, анализ текстов, социологические исследования и многие другие. На современном этапе классификация часто выступает первым шагом в анализе данных. На сегодняшний момент число методов разбиения групп объектов на однородные группы довольно велико – несколько десятков алгоритмов и еще больше их модификаций.

В 60-х годах XX века внутри прикладной статистики сформировалась область, посвященная методам классификации.

В зависимости от используемых методов и вида априорной информации о классах различают следующие разновидности классификации:

распознавание образов, таксономия, группировка, дискриминантный анализ, кластерный анализ, расщепление смесей вероятностных распределений, экспертный метод.

Рассмотрим некоторые из этих методов.

При проведении статистической группировки из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Если требуется провести классификацию по нескольким признакам, ранжированным по степени важности, то сначала производится классификация по первому признаку, затем каждый из полученных классов разбивается на подклассы по второму признаку и т.д.

Подобным образом строится большинство комбинационных статистических группировок.

Пример: группировка квартир. Сначала производится группировка жилья на элитное, престижное, стандартное, муниципальное и так далее.

Затем каждый из полученных классов разбивается на подклассы по второму признаку, например, «число комнат в квартире».

После этого может осуществляться более детальная группировка с привлечением таких признаков, как «наличие балкона», «материал стен дома», «удаленность от метро», и так далее.

В тех случаях, когда не представляется возможным упорядочить классификационные признаки, применяется метод многомерной группировки - создание интегрального показателя (индекса), функционально зависящего от исходных признаков, с последующей классификацией по этому показателю.

Развитием этого подхода является вариант классификации по нескольким обобщающим показателям (главным компонентам), полученным с помощью методов факторного или компонентного анализа.

Таким образом, задачи выделения классов целесообразно разбивать на два типа:

с четко разделенными кластерами;

с условными границами, непрерывно переходящими друг в друга классами.

В самом общем виде под многомерной классификацией будем понимать Разделение рассматриваемой совокупности объектов или явлений на однородные, в определенном смысле, группы без априорной информации о принадлежности объектов к классам (классификация без обучения) Отнесение каждого из заданного множества объектов к одному из заранее известных классов (классификация с обучением).

Классификация с обучением, или дискриминантный анализ, представляет собой группу методов многомерной статистики, предназначенных для описания различий между классами, заданными плотностями вероятностей или обучающими выборками, а также для классификации объектов, не входивших в первоначальную обучающую выборку.

Для решения первой задачи, описания различий между классами, строится пространство канонических дискриминантных функций, которые позволяют с максимальной эффективностью «разделить» классы. Отметим, что для того, чтобы выделить р классов, требуется не более (р-1) канонических дискриминантных функций. Канонические дискриминантные функции можно рассматривать как аналог регрессии, построенной для целей классификации.

Для решения первой задачи - классификации объектов, не входивших в первоначальную обучающую выборку, - вычисляются расстояния от каждого нового объекта (подлежащего классификации) до геометрического центра (центра тяжести) каждого класса. При этом могут учитываться как априорные вероятности принадлежности к классам, так и цена ошибок классификации.

Задача, как правило, заключается в том, чтобы вновь поступающий объект отнести к одному из имеющихся классов.

Кластерный анализ представляет собой группу методов автоматической классификации без обучения. Задача состоит в выяснении по эмпирическим данным, насколько элементы "группируются" или распадаются на изолированные "скопления", "кластеры" (от cluster (англ.) - гроздь, скопление).

Целесообразность и эффективность применения тех или иных методов классификации обусловлены конкретизацией математической постановки задачи. Определяющим является ответ на вопрос, на какой априорной информации строится модель:

- на априорных сведениях об исследуемых классах;

- на выборочных данных.

Априорные сведения обычно относятся к виду закона распределения, общим свойствам закона распределения исследуемого случайного вектора X в соответствующем пространстве, либо получаются из теоретических или предметно-профессиональных соображений о природе исследуемого объекта.

Получение априорной выборочной информации, как правило, связано с организацией системы экспертных оценок, с проведением специального предварительного этапа, посвященного решению задачи простой типологизации в пространстве результирующих показателей.

Таким образом, при решении задач классификации необходимо различать следующие задачи:

1. Обычную задачу разбиения статистически обследованного (к-мерного) диапазона изменения значений анализируемых признаков на интервалы (гиперобласти) группирования, в результате решения которой исследуемая совокупность объектов разбивается на некоторое число групп так, что объекты одной группы находятся друг от друга на сравнительно небольшом расстоянии (многомерный аналог задачи построения интервалов группирования при обработке одномерных наблюдений).

2. Определение естественного расслоения исходных наблюдений на четко выраженные кластеры (сгустки), лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удачные части.

Если в вероятностной интерпретации классифицируемые наблюдения X1,X2,….Xn – это выборка из некоторой генеральной совокупности, описываемой функцией плотности или полигоном распределения f(X), которые, как правило, не известны исследователю, то вторая задача может быть сформулирована как задача выявления областей повышенной плотности наблюдений, т.е. таких областей возможных значений многомерного признака Х, которые соответствуют локальным максимумам функции плотности f(X).

Если первая задача – построение областей группирования – всегда имеет решение, то при решении второй задачи может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры (например, образует один общий кластер).

Одной из основных особенностей задачи классификации является наличие как качественных, так и количественных признаков в описании объектов исходного множества, в силу чего при выделении однородных групп различают такие виды группировки исходных данных, как структурная и типологическая. Методы выделения однородных групп объектов условно разделяют на вероятностный и вариативный.

Вероятностный подход основан на предположении о том, что объекты, принадлежащие одному из выделяемых классов, описываются одинаково распределенными случайными векторами, а для различных классов характерны различные распределения вероятностей. В специальной литературе этот подход традиционно именуется расщеплением смеси распределений, где каждый класс понимается как некоторая параметрически заданная одномодальная совокупность, а наблюдения над объектами, подлежащими классификации, трактуются как выборка из смеси таких совокупностей, так что задача заключается в разделении этих совокупностей, исходя из значений параметра, определяющего совокупность, и некоторых предположений, к примеру, о числе классов.

Вместе с тем, анализируя соотношение вероятностного и структурного подходов, в первую очередь необходимо отметить то обстоятельство, что многие зарубежные исследователи, такие как Дж.

Хартиган [41], К. Фукунага [28], М. Вонг [55], рассматривают кластер анализ чрезмерно широко, включая в него и задачи расщепления смеси распределений, то есть задачи классификации в условиях отсутствия обучающих выборок, когда исходные данные об исследуемых объектах имеют вероятностную природу, и каждый класс интерпретируется как одномодальная генеральная совокупность при неизвестном значении определяющего ее параметра, а классифицируемые объекты рассматриваются как выборки из смеси таких генеральных совокупностей.

Как способ представления исходных данных понятие смеси распределений использует также известный польский исследователь Я.В. Овсиньски [46] при рассмотрении общей постановки задачи кластер анализа. В отечественной литературе подобное рассмотрение автоматической классификации прослеживается в работах М.И.Шлезингера [30] и А.В. Миленького [18]. Е.Е. Жук и Ю.С. Харин [16] также указывают на существование в кластер-анализе вероятностного и геометрического подходов, отдавая предпочтение первому.

Необходимо указать, что применимость методов расщепления смесей вероятностных распределений к решению задач классификации зависит от обоснованности предположений о вероятностной природе исходных данных и корректности выдвигаемой гипотезы о распределении вероятностей, описывающих классы объектов, тогда как успешное применение геометрических методов классификации зависит только от адекватности выбранной меры близости объектов.

В многомерном статистическом анализе основные проблемы задач классификации и кластеризации рассматриваются на основе вероятностно статистического подхода. Этот подход предполагает выделение групп, каждая из которых представляет собой реализацию некоторой случайной величины. В практике исследований этот подход называется методом разделения (расщепления) смеси вероятностных распределений. Задача ставится следующим образом: предполагая, что исходная генеральная совокупность представляет собой смесей нескольких подсовокупностей, каждая из которых является, например, нормально распределенной, и которые отличаются друг от друга как минимум вектором средних, требуется, при некоторых предположениях о числе классов, о матрице ковариаций и др., выделить эти подсовокупности по выборочным данным.

Смеси вероятностных распределений играют важную роль в теории вероятностей и, прежде всего, в ее приложениях. Центральная предельная теорема позволяет приближать результат эксперимента нормальным распределением, если на его исход влияет множество независимо действующих случайных факторов, каждый из которых незначительно влияет на конечный результат.

1. Общая постановка задачи декомпозиции распределений и алгоритмы ее реализации Параметрическое моделирование социально-экономических процессов предполагает декомпозицию закона распределения f (x ). Его представляют в виде весовой суммы k законов распределений, каждый из них f j ( x;

j ) описывает распределение однородной j-й группы объектов, долю которого в общей совокупности определяет весовой коэффициент j в модели.

Плотность вероятности признака имеет вид смеси плотностей вероятности:

к f ( X ) j f j ( X ;

j ) (1) j к j 1, j j j - удельный вес, априорная вероятность j–ой компоненты смеси, f j ( X ;

j ) - плотность распределения j–ой компоненты смеси (функция правдоподобия j-й компоненты смеси). Предполагается их одномодальность.

Функции правдоподобия принадлежат параметрическому семейству распределений (x,) и отличаются только значениями параметра:

f j ( X ) ( x, j ).

Таким образом, выбрать объект со значением признака x из смеси f(x) означает выбрать его из распределения fj(x) с вероятностью j, где j = 1,..., к.

Задача разделения смеси заключается в том, чтобы, имея выборку случайных и независимых наблюдений из смеси f(x), зная число p и функцию, оценить вектор параметров ( 1, 2,..., k,1, 2,..., k ).

При одинаковом виде законов распределения каждой из однородных групп f ( x;

i ) задачу расщепления смеси вероятностных распределений можно представить в виде k f ( x) j f ( x;

j ).

j Задача идентификации состоит в оценивании неизвестных значений параметров: к, 1, 2,..., p1 и вектора j по выборке X1, X 2,..., X n.

В случае нормальности распределений вектор j будет определяться j ( j, j ). В случае, если исследователь параметрами j и j :

располагает оценками параметров априорно известных видов распределения f j ( X ;

j ), задача решается на основании параметрической схемы дискриминантного анализа.

Главное отличие схемы параметрического дискриминантного анализа от расщепления или декомпозиции смеси распределений заключается в методе оценивания неизвестных параметров, от которых зависят функции распределения, описывающие классы. В этом плане оценивание параметров в модели смеси распределений значительно сложнее, чем оценивание по обучающим выборкам.

Задача расщепления смеси распределений отличается от задачи оценивания по выборке, так как задача расщепления сохраняет смысл и применительно к генеральной совокупности.

В этом случае она состоит в восстановлении компонент f j ( X ;

j ) и весов j по заданной левой части f (X ) в выражении (1).

Конечная смесь (1) называется идентифицируемой (различимой), если из равенства к* к f ( X ) j f j ( X ;

j ) * f l ( X ;

* ( l )) (2) l j 1 l следует, что к к *, а для каждого j найдется l, так что j l* и f j ( X ;

j ) f l ( X ;

l* ) С этим свойством связано требование одномодальности.

Отметим, что смесь распределений не всегда разделима, то есть, зная функцию плотности смеси, не всегда можно восстановить ее f (X ) компоненты.

Примером неразделимой смеси распределений может служить произвольное разбиение точек, равномерно распределенных на отрезке прямой на 2 класса.

Пусть семейство компонентов смеси состоит из равномерных распределений с неизвестными параметрами (a, ) и плотностью при x a f ( x;

) f ( x;

a;

) при a x a при x a В таком случае, функция f(x) может быть представлена в виде смеси (1) и смеси (2) в следующем виде:

1 f ( x) f1 ( x) f 2 ( x) 3 Также может быть получено распределение на кластеры (1) и (2) следующим образом:

1 f1( x) f 2( x) f ( x) 2 В итоге получаем не поддающуюся декомпозиции смесь:

произвольное разбиение точек, равномерно распределенных на отрезке прямой, которую невозможно однозначно разделить на два класса.

Задача автоматической классификации, решаемая в рамках модели смеси распределений, может быть сведена к схеме дискриминантного анализа. Предварительно необходимо по выборке X 1, X 2,..., X n оценить неизвестные параметры к, 1, 2,..., p1,1, 2,... к в р-мерных совокупностях.

В дальнейшем предполагается, что анализируемая смесь идентифицируема (разделима).

В большинстве процедур вначале находят оценки j и j (j=1,2,…,к) для последовательности фиксированных значений р=2,3,…;

а затем с помощью того или иного критерия подбирают «наилучшее» значение к в качестве оценки для неизвестного истинного числа классов к.

В схеме автоматической классификации неизвестные параметры к, j и j оцениваются по наблюдениям X1, X 2,..., X n с помощью метода наибольшего правдоподобия путем максимизации логарифма функции правдоподобия к n ln( j f ( X i ;

j )) max (3) i 1 j j,j Конкретные алгоритмы, построенные по этой схеме, часто называют итерационными алгоритмами типа ЕМ, поскольку в каждом из них можно выделить два чередующихся этапа: оценивание (Estimation) и максимизация (Maximization) Этот алгоритм как инструмент для самопроизвольной классификации образов был предложен и исследован М.И.Шлезингером [30]. Через двенадцать лет он был заново открыт Dempster A. P. и представлен в работе [33] под названием ЕМ-алгоритма. Область применения данного алгоритма чрезвычайно широка: дискриминантный анализ, кластеризация, восстановление пропусков в данных, обработка сигналов и изображений [29]. В монографии мы рассматриваем его как инструмент разделения (расщепления) смеси вероятностных распределений.

Итерационный алгоритм вычисления оценок ( 1,..., к1,1,..., к ) состоит в следующем:

На этапе оценивания (Е-этап) Задается начальное приближение вектора оценок и вычисляется начальное приближение для апостериорных вероятностей g ij 0 2.

Апостериорная вероятность g ij принадлежности наблюдения Xi к j-му классу может быть вычислена по формуле:

j f ( X i ;

j ) g ij к, i 1,2,..., n;

j 1,2,..., p j f ( X i ;

j ) j Очевидно, что На этапе максимизации (М-этап) Исходя из значений g ij 0, по формуле к к к n n n ln L g ij ln j g ij ln f ( X i ;

j ) g ij ln g ij (4) j 1 i 1 j 1 i 1 j 1 i определяют из условия максимизации отдельно каждого из первых двух слагаемых правой части (4). При этом учитывается, что первое слагаемое к n g ln j зависит только от параметров j, а второе слагаемое в (4) ij j 1 i к n g ln f ( xi ;

j ) зависит только от вектора параметров j.

ij j 1 i Таким образом, решают две оптимизационные задачи к n ln L g ij ln j max (4) j 1 i к n ln L g ij ln f ( X i ;

j ) max (4) j 1 i Таким образом, шаг максимизации (М-этап) сводится к вычислению весов компонент gj как средних арифметических и оцениванию параметров компонент j путём решения k независимых оптимизационных задач (4).

Отметим, что разделение переменных оказалось возможным благодаря удачному введению скрытых переменных.

Условия сходимости алгоритма EM рассматриваются в работах [33, 43, 49].

Рассмотрим решение задачи M-шага в частном случае, когда компоненты имеют нормальные плотности. В этом случае функционал к g g ij 0, 1 для всех i 1,2,..., n ij j n ln( f ( xi ;

j ) ).

j g ij i m g является квадратичным и положительно ln ( xi, j ) max ij j i определенным, поэтому решение выписывается в явном аналитическом виде.

Стационарная точка оптимизационной задачи:

m g ij xi j m j i m g ij ( xi j ) ( xi j ) T j m j i Таким образом, M-шаг сводится к вычислению выборочного среднего и выборочной ковариационной матрицы для каждой компоненты смеси.

При этом для каждой компоненты используется своё распределение весов объектов. Вес i-го объекта для j-й компоненты равен g ij - оценке принадлежности данного объекта данной компоненте, вычисленной на Е шаге.

После этапа максимизации вновь возвращаются к оцениванию, но уже на следующей итерации и процедура повторяется.

Итерации останавливаются, когда значения функционала Q или скрытых переменных G перестают существенно изменяться. Удобнее контролировать скрытые переменные, так как они принимают значения из отрезка [0, 1]. Например, можно ввести критерий max g ij g ij i, j где g ij - значение скрытой переменной gij на предыдущей итерации, - заданный порог, например, = 103.

Процедура ЕМ-алгоритмов показала их достаточную работоспособность даже при большом числе р и высоких размерностях к.

Недостаток - сложность и трудоемкость вычислительных реализаций процедур, а также медленная сходимость алгоритмов.

Обобщённый EM-алгоритм предполагает, что не обязательно добиваться высокой точности решения оптимизационной задачи ( 4 и 4 ) на каждом шаге алгоритма. Достаточно лишь сместиться в направлении максимума, сделав одну или несколько итераций, и затем выполнить первый шаг (E-шаг). Этот алгоритм также обладает неплохой сходимостью и называется обобщённым ЕМ-алгоритмом (generalized EM-algorithm, GEM) [33].

Хотя алгоритм EM сходится при достаточно общих предположениях, скорость его сходимости существенно зависит от начального приближения. Сходимость может значительно ухудшиться, если делается попытка поместить несколько компонент в один фактический сгусток распределения, либо разместить компоненту посередине между сгустками.

Стандартная процедура заключается в том, чтобы выбрать параметры компонент случайным образом. Однако лучший результат будет достигнут в том случае, если в выборке будут найдены n объектов, максимально удалённых друг от друга, и именно в этих точках размещены компоненты. В случае невысокой размерности признакового пространства целесообразно исследовать данные визуально или прибегнуть к экспертному определению начальных приближений.

Важной проблемой является выбор числа компонент k. До сих пор предполагалось, что число кластеров к известно заранее, однако на практике, как правило, это не всегда так. Иногда число компонент удаётся оценить визуально (графически), спроецировав выборку на плоскость каким-либо способом и определив число локальных сгустков точек. С этой целью можно применить, например, метод целенаправленного проецирования (Projection Pursuit). Однако этому подходу (визуальный подход) присущи определенные недостатки:

проецирование искажает структуру выборки, обращение к эксперту исключает возможность автоматического анализа данных.

Существует ещё один приём - решить задачу несколько раз при различных значениях числа компонент к, построить график зависимости функции правдоподобия выборки Q() от к, и выбрать наименьшее к, при котором график претерпевает резкий скачок. Такой критерий получил название «критерия крутого склона». К сожалению, этому критерию также присущи недостатки.

существенно увеличиваются затраты времени.

если данные плохо описываются моделью компонент f(x;

), то «крутой склон» может не наблюдаться;

наличие крутого склона свидетельствует о том, что модель компонент была выбрана удачно.

Смеси многомерных нормальных распределений позволяют приближать любые непрерывные плотности вероятности. Они являются универсальными аппроксиматорами плотностей, подобно тому, как полиномы являются универсальными аппроксиматорами непрерывных функций.

Недостатком гауссовских смесей является необходимость обращать ковариационные матрицы операции). Кроме того, (трудоёмкость ковариационные матрицы нередко оказываются вырожденными или плохо обусловленными. Тогда возникает проблема неустойчивости выборочных оценок плотности и самого классификатора.

При иллюстрации практической применимости рассматриваемой методики мы прибегнем к алгоритму EM для оценки неизвестных параметров. В качестве функции плотности распределения используем двумерный нормальный закон:

( X M )T 1 ( X M ) ( x, x ;

M, ) ( X ;

M, ) (1) (1) e 2 | |1/ Таким образом, в алгоритме смеси вероятностных распределений для оценки к (числа кластеров) предварительно для ряда значений к=2,3,… решают оптимизационные задачи ( 4 и 4 ), то есть находят оценки параметров (к ), при которых соответствующие логарифмы функции правдоподобия ln L( (к)) достигают максимума.

После нахождения по выборке оценок к, j, j для j=1,2,…, приходят к схеме дискриминантного анализа. Для получения однозначного правила отнесения произвольного объекта к одному из выделенных классов можно использовать байесовский подход, позволяющего получать оптимальную процедуру классификации S (опт) (S1опт,....S р ) и опт использующего в качестве критерия минимум среднего риска ошибочной классификации:

к к X : m f m ( x) C (l / m) min m f m ( x) C (q / m) ( опт) S (5) l m1 m l m qm Таким образом, наблюдение x ( 1,2,..., n) будет отнесено к классу l тогда, когда средние удельные потери от его отнесения именно к этому классу окажутся минимальными по сравнению с потерями от его отнесения к любому другому классу.

Функция (решающее правило) (x) строится таким образом, чтобы подобласти S1,S2,…,Sp были взаимно не пересекающимися и охватывали все n наблюдений.

Решающее правило зависит от выбранной функции стоимости C(l/m)3. При простой функции стоимости C(l/m) – потери, связанные с ошибочным отнесением объекта m-го класса к классу l С (l / m) ij, 1, i j где ij - символ Кронекера, 0, i j Выдвинем предположение, что потери C(l/m) одинаковы для любой пары l и m, то есть C (l / m) C0 const, l m C (l / m) 0, l m Тогда минимизация средних удельных потерь С4 будет эквивалентна максимизации вероятности правильной классификации объектов p P(m / m) m m к к p p С m C( l / m ) P( l / m ) C 0 m ( P( l / m )) m 1 l 1 m 1 l l m к p C 0 m ( 1 P( m / m )) C 0 ( 1 m P( m / m )) m 1 m при этом учитывалось, что к P( l / m ) 1 для любого m.

C( m / m ) 0, l В этом случае при построении процедур классификации часто говорят не о потерях, а о вероятности неправильной классификации объектов:

p Средние удельные потери могут быть найдены С m C ( m ), где m p С ( m) C (l / m) P(l / m) l р 1 m P(m / m) m Величина j представляет собой априорную вероятность отнесения объекта к j-му классу, равную доле объектов j-го класса в общей совокупности. Ее эмпирическим аналогом является оценка весового коэффициента j.

Процесс классификации наблюдений X1, X 2,..., X n проводится так же как и в схеме параметрического дискриминантного анализа, то есть наблюдение xi относят к классу с номером j0, если j f j ( X i ;

j ) max j f j ( X i ;

j ) 0 0 1 j к При таком подходе (решающем правиле) граница между соседними группами определяется как абсцисса точки пересечения их взвешенных модельных плотностей вероятности.

Иллюстрация решающего правила для модельного распределения в виде одномерной смеси трех компонентов приведена на рис.1.

2f2(x) 3f3(x) 1f1(x) xmax x xmin S1 S2 S3 S Рис. 1. Компоненты общего закона распределения с границами страт При простой функции стоимости ошибок классификации в отсутствие априорных предпочтений границы страт определяются абсциссами точек пересечения соседних компонентов смеси. В окрестностях этих точек вероятность ошибочной классификации близка к. Такой подход в случае существенного наложения компонент может приводить к результатам, противоречащим экономическому смыслу: незначительные отличия обусловливают переход объекта из одной группы в другую.

Для устранения граничного эффекта иногда используют двойные критерии, приводящие к появлению зон неопределенности, в пределах которых принимается решение об отсутствии достаточных оснований для отнесения объектов к одному из соседних классов.

Более адекватным реальности представляется подход, учитывающий отсутствие резких границ между стратами, когда переход от принадлежности к непринадлежности объекта к данному классу постепенный, а не скачкообразный. В этом случае естественным является отражение степени близости i-го объекта к j-й страте с помощью функции принадлежности (membership function) j f j ( xi ;

j ) mfij, k j f j ( xi ;

j ) j которая показывает, что i-й объект на mfij 100% относится к j-й группе.

Изменение значений функции принадлежности во времени обусловливает наглядное представление о динамике перехода объекта из одной страты в другую. Каждая страта может быть охарактеризована по ее наиболее ярким представителям, обладающим близкими к единице значениями функции принадлежности к данной страте.

Функция принадлежности позволяет представить результаты параметрического структурного моделирования в дружественном для потребителя информации виде.

2. Модель смеси вероятностных распределений в исследовании дифференциации по доходам и заработной плате Моделирование распределения профессорско 2.1.

преподавательского состава вуза по заработной плате Формирование заработной платы представляет собой мультипликативный процесс. На ее размер оказывает влияние различные факторы:

- образование, - квалификация, - общий стаж работы, - педагогический стаж, - использование новых технологий в образовательном процессе, - количество и объем научных публикаций - интенсивность создания и освоения новых учебных курсов, - количество и объем выпущенной учебной и учебно методической литературы и другие.

Сложность и многоплановость преподавательской деятельности обусловливает примерную равноценность множества факторов по их участию в формировании заработной платы, что дает основание предполагать логарифмически нормальное распределения анализируемого признака для однородной группы объектов.

В то же время, действие некоторых факторов, имеющих малое число уровней и в значительной мере определяющих положение преподавателя в специфической профессиональной среде, может приводить к существенным отличиям в уровне оплаты труда профессорско преподавательского состава. К их числу можно отнести следующие:

должность, ученая степень, ученое звание, преподавание как основной вид или не основной вид деятельности.

Действие этих факторов обусловливает расслоение профессорско преподавательского состава на дискретные страты в соответствие с традиционными представлениями о рассматриваемой сфере деятельности.

Состав и действие различных групп факторов на заработную плату, во многом определяющую уровень жизни работников высшей школы различно и меняется со временем. Поэтому моделирование структуры по данному основополагающему показателю представляет значительный интерес как для преподавателей и руководства университета, так и для других участников образовательного процесса.

Данные о заработной плате 496 преподавателей университета за месяцев одного года в условных денежных единицах представлены в прил1 табл.1. В таблице приведены и дополнительные сведения ро следующим показателям:

д – должность 1 – внешний, 2 – преподаватель, 3 – старший преподаватель, доцент, 4 – профессор, 5 - заведующий кафедрой;

з – ученое звание 1 – доцент, 2 – профессор;

с – ученая степень 1 – кандидат наук, 2 – доктор наук.

Часть преподавателей, обозначенных как внешние, в университете выполняла разовые работы по отдельным проектам, с чем связаны небольшие суммы денег, заработанных ими за анализируемый период.

Необходимо произвести классификацию преподавателей по уровню их заработной платы и охарактеризовать полученные классы (страты), используя для этого дополнительные сведения.

Обоснование вида теоретического распределения, характеризующего исследуемое явление, предполагает как теоретическое рассмотрение его содержания, так и визуальный анализ эмпирического распределения.

Обоснование вида закона распределения отдельной однородной группы объектов необходимо для определения общего вида распределения всех объектов исследуемой совокупности.

Учитывая единый принцип формирования заработной платы преподавателей и существенные ее отличия у различных категорий профессорско-преподавательского состава, разумно предположить, что распределение всех преподавателей по уровню заработной платы будет иметь вид дискретной аддитивной смеси распределений, отличающихся друг от друга значениями параметров и весовыми коэффициентами.

Так как анализируемый признак – заработная плата x – представляет собой результат совокупного действия множества факторов, среди которых отсутствуют явно доминирующие, а характер действия каждого фактора, как наблюдаемого, так и латентного, на результирующее значение показателя можно считать мультипликативным, можно предположить, что для однородной группы регионов закон распределения признака будет логарифмически нормальным:

(ln x ) f (ln x) 2, e где и - соответственно математическое ожидание и среднее квадратическое отклонение величины логарифма заработной платы ln x.

При наличии р однородных групп сотрудников, существенно отличающихся друг от друга уровнем заработной платы и разбросом ее значений, закон распределения будет представлять собой смесь р логарифмически-нормальных распределений к f (ln x) i f (ln x;

i, i ) i i – доля объектов i– й группы в генеральной совокупности, где k q 1, i i f i (ln x;

i, i ) - плотность вероятности распределения i-й группы.

Подтвердим теоретические предположения результатами анализа эмпирического распределения. Для построения гистограммы распределения объектов по анализируемому признаку можно использовать надстройку Excel «Гистограмма» (рис.2).

В отсутствие надстройки в закладке «Данные», необходимо подключить ее, нажав пиктограмму в левом верхнем углу экрана (кнопку «Office»), этапы этого процесса отображены на рис.2-5.

Рис.2. Вызов процедуры построения гистограммы После вызова процедуры построения гистограммы «Данные» «Анализ данных»-«Гистограмма» (рис.2.) во «Входной интервал» следует ввести массив значений признака, в поле «Интервал карманов» - массив верхних границ интервалов, а в поле «Выходной интервал» можно ввести ячейку, определяющую левый верхний угол поля выводимых результатов (рис.6).

Рис.3. Первый этап подключения надстроек – кнопка «Office»

Рис.4. Второй этап подключения надстроек - выбор пакета Рис.5. Третий этап подключения надстроек - включение надстроек Выбор интервалов, которые в Excel называются «карманами», должен обеспечить наглядное отражение структуры распределения и в то же время достаточное количество объектов, попадающих в каждый из них.

На предварительном этапе можно обойтись и без указания «карманов», после чего на основе визуального анализа полученной гистограммы построить ее окончательный вариант.

Рис.6. Диалоговое окно надстройки «Гистограмма»

Так как предполагается логарифмически-нормальное распределение заработной платы, гистограмму целесообразно строить по логарифму анализируемого признака. При этом границы интервалов тоже должны представлять собой логарифмы соответствующих значений. Флажок «Метки» используется в случае использования данных с обозначением признака в верхнем элементе вводимого массива. Обозначение не рассматривается как числовое значение и используется в качестве надписи, что повышает наглядность результатов.

Выберем в качестве границ интервалов целочисленные значения логарифма заработной платы от 3 до 14. Результаты расчетов приведены в табл. 1.

Таблица Результаты расчетов эмпирической гистограммы Карман Частота 3 4 5 6 7 8 9 10 11 12 13 14 Еще График, построенный средствами Excel на основе данных табл.1.

приведен на рис.7.

80 эмпирич.

3 4 5 6 7 8 9 10 11 12 13 lnx Рис.7. Гистограмма распределения наблюдаемых значений признака Вид гистограммы согласуется с предположением о логарифмически нормальном распределении по уровню заработной платы каждой однородной группы преподавателей и наличии нескольких таких групп в исследуемой совокупности.

Определим начальные приближения параметров смеси распределений qi, i, i на основе графического анализа гистограммы.

Рассчитаем теоретическую гистограмму для выбранных значений параметров и сравним ее с эмпирической.

По полученной гистограмме логарифма заработной платы (рис.7) предположим наличие трех страт с колоколообразными функциями распределения и визуально определим начальные приближения значений параметров (табл.2).

Среднее значения i для логарифма каждой страты определим приближенно как абсциссу точки ее предполагаемого максимума.

Стандартное отклонение логарифма признака i будет определяться расстоянием по оси абсцисс от предполагаемой точки максимума до точки перегиба плотности вероятности логарифма признака.

Таблица Начальные приближения параметров смеси распределений i i i qi 1 8,0 1,5 0, 2 10,5 1,0 0, 3 12,0 0,5 0, Весовой коэффициент каждой страты qi пропорционален площади под предполагаемой взвешенной кривой ее распределения в смеси. Так как k q площадь под общей кривой распределения 1, число независимых i i весовых коэффициентов на единицу меньше числа страт. Таким образом, число независимых параметров смеси трех логарифмически нормальных распределений равно восьми.

Теоретическую гистограмму можно построить по данным табл. 2, для выбранных ранее карманов (табл.1). Для ее расчета используем функцию Excel ЛОГНОРМРАСП(x;

среднее;

стандартное_откл), которое возвращает интегральное логнормальное распределение, где ln(x) представляет собой нормальное распределение. «Среднее» представляет собой среднее значение lnx для данного компонента смеси, то есть i, а «Стандартное отклонение» - стандартное отклонение lnx, то есть i. Таким образом, для расчета теоретической частоты первого (открытого) интервала можно использовать команду (ЛОГНОРМРАСП(exp(3);

8,0;

1,5)*0,15+ЛОГНОРМРАСП(exp(3);

10,5;

1,0)* 0,4+ЛОГНОРМРАСП(exp(3);

12,0;

0,5)*0,45)* Расчет теоретических частот последующих закрытых интервалов предполагает вычисление накопленных частот для их верхних границ и вычитание из них накопленных частот для нижних границ. Так для второго интервала можно рекомендовать команду (ЛОГНОРМРАСП(exp(4);

8,0;

1,5)*0,15+ЛОГНОРМРАСП(exp(4);

10,5;

1,0)* 0,4+ЛОГНОРМРАСП(exp(4);

12,0;

0,5)*0,45)*496 (ЛОГНОРМРАСП(exp(3);

8,0;

1,5)*0,15+ЛОГНОРМРАСП(exp(3);

10,5;

1,0)* 0,4+ЛОГНОРМРАСП(exp(3);

12,0;

0,5)*0,45)* Частоту конечного открытого интервала можно произвести с помощью команды (1 (ЛОГНОРМРАСП(exp(14);

8,0;

1,5)*0,15+ЛОГНОРМРАСП(exp(14);

10,5;

1,0) *0,4+ЛОГНОРМРАСП(exp(14);

12,0;

0,5)*0,45))* Конкретные числовые значения в эти команды введены с целью наглядности. Для последующей реализации оптимизационной процедуры необходимо вместо конкретных значений параметров необходимо использовать адреса их значений (адреса ячеек) в таблице параметров (табл.1), что делает возможным их оперативное изменение в процессе оптимизации.

Результаты расчета теоретической гистограммы приведены в табл.3.

Таблица Результаты расчетов теоретической гистограммы (начальное приближение) Карман Частота 3 0, 4 0, 5 1, 6 5, 7 12, 8 19, 9 30, 10 60, 11 86, 12 155, 13 118, 14 6, Еще 0, Совмещенные на одном графике теоретическая и эмпирическая гистограммы представлены на рис.8.

100 эмпирич.

теоретич.

3 4 5 6 7 8 9 10 11 12 13 lnx Рис.8. Гистограммы эмпирического и начального приближения теоретического распределений Существенное отличие гистограмм в первую очередь объясняется тем, что параметры, использованные для построения теоретического распределения, не являются оптимальными.

Получение наилучших значений параметров требует выбора критерия оптимальности и организации процедуры получения оценок.

Будем использовать один из наиболее распространенных критериев, удовлетворяющих требованиям практики, критерий максимума правдоподобия. Он предусматривает использование в качестве оценок таких значений параметров, которые максимизируют многомерную плотность вероятности распределения признака для всей совокупности наблюдаемых значений, называемую функцией правдоподобия:

L f ( x1, x2,, xn ;

1,, k, 1,, k, q1,, qk 1 ).

Аргументами функции правдоподобия для данной выборки являются значения оцениваемых параметров. В случае независимой выборки плотность вероятности многомерного распределения эквивалентна произведению одномерных плотностей вероятности n L f ( x1, x2,, xn ;

1,, k, 1,, k, q1,, q k 1 ) f ( x j ;

1,, k, 1,, k, q1,, q k 1 ) j Значения параметров 1,, k, 1,, k, q1,, qk 1, максимизирующие функцию правдоподобия, будут максимально правдоподобными оценками этих параметров. Максимизацию функции правдоподобия n L f ( x j ;

1,, k, 1,, k, q1,, q k 1 ), j где j – номер объекта, n – общее число объектов в смеси, можно заменить максимизацией монотонно связанной с ней функции, например, логарифма отношения правдоподобия n l ln L f ( x j ;

1,, k, 1,, k, q1,, q k 1 ), j что удобнее с точки зрения реализации вычислительных процедур, так как произведение плотностей вероятности из-за их отличия от единицы при достаточно большом объеме выборки будет либо очень большим, либо очень малым.

Целесообразно обеспечить возможность изменения значений параметров с целью их подбора для решения задачи максимизации величины l. Для этого в ходе проведении расчетов с использованием Excel необходимо обеспечить использование единых значений параметров при вычислении плотности вероятности для каждого наблюдаемого значения признака (прил.1 табл.1.), что легко сделать, поставив знак $ перед указателями строк и столбцов ячеек с элементами таблицы параметров в команде расчета первой плотности вероятности, после этого можно произвести копирование формулы для всех наблюдаемых значений признака.

Произведем максимизацию логарифма отношения правдоподобия l ( x j ;

1,, k, 1,, k, q1,, qk 1 ) l ( x j ;

1,, k, 1,, k, q1,, qk 1 ) max x j ;

1,, k, 1,, k, q1,, qk путем подбора параметров для получения максимально правдоподобных оценок параметров смеси 1,, k, 1,, k, q1,, qk 1.

Для решения оптимизационной задачи удобно использовать надстройку «Поиск решения» в Excel (Рис.9).

В качестве целевой ячейки следует указать ячейку с вычисляемым логарифмом отношения правдоподобия. Изменяемыми будут ячейки с задаваемыми значениями параметров (табл.2.). Ограничения позволят k q обеспечить выполнение условия а также не допустить 1, i i чрезмерного ухода параметров от первоначальных и попадания в точку локального максимума.

Рис.9. Диалоговое окно надстройки «Поиск решения»

Полученные максимально правдоподобные оценки параметров представлены в табл.4.

Таблица Максимально правдоподобные оценки параметров смеси распределений i i i qi 1 7,444 1,287 0, 2 9,731 0,753 0, 3 11,552 0,545 0, Результаты расчета теоретической гистограммы приведены в табл.4.

Таблица Результаты расчетов теоретической гистограммы Карман Частота 3 0, 4 0, 5 1, 6 7, 7 16, 8 23, 9 47, 10 103, 11 99, 12 151, 13 45, 14 0, Еще 0, Построенные на основе данных табл.5 и табл.1. графические изображения теоретической и эмпирической гистограмм приведены на рис.10.

100 эмпирич.

теоретич.

3 4 5 6 7 8 9 10 11 12 13 lnx Рис.10. Гистограммы эмпирического и теоретического распределений Модель хорошо описывает имеющиеся данные, о чем можно судить по близости теоретической и эмпирической гистограмм.

Коэффициент подобия распределений K под min( PiT ;

Pi"Э ) 99,8%.

i На основе полученных оценок построим модель смеси логарифмически нормальных распределений. Для этого сформируем массив значений логарифма заработной платы с одинаковыми интервалами между соседними значениями. Число значений должно обеспечить необходимое качество графика плотности вероятности. Выберем сетку значений аргумента ln x на интервале (4;


13,5) с шагом 0,02. Рассчитаем значения теоретической плотности вероятности, используя команду НОРМРАСП( ln x ;

1 ;

1 ;

0)* q1 +НОРМРАСП( ln x ;

2 ;

2 ;

0)* q +НОРМРАСП( ln x ;

3 ;

3 ;

0)* q3, где в качестве значений i, i, qi целесообразно использовать ссылку на соответствующие ячейки табл.4.

График плотности вероятности, рассчитанный для созданного массива значений ln x, представлен на рис. 11. На нем же отображены и графики взвешенных плотностей вероятностей компонентов смеси слагаемых приведенной выше формулы.

0, 0, 0, f(lnx) 0, f1(lnx) 0, f2(lnx) 0,15 f3(lnx) 0, 0, 0, 4,00 6,00 8,00 10,00 12,00 14,00 16, lnx Рис.11. Модель распределения по заработной плате и ее декомпозиция В общей совокупности работников можно выделить три страты:

низкооплачиваемых, среднеоплачиваемых и высокооплачиваемых работников, доли которых составляют соответственно 13,8%, 41,5% и 44,7%. При строгом решающем правиле условные границы классов для отнесения произвольного наблюдения к одной из выделенных страт определим как абсциссы точек пересечения взвешенных плотностей вероятности соседних страт. Их значения составляют соответственно 8, и 10,72. Таким образом, преподавателей с заработной платой, меньшей exp(0,36)=4272, следует отнести к категории низкооплачиваемых.

Среднеоплачиваемыми следует признать преподавателей с заработной платой от 4273 до 45252, к высокооплачиваемым – работников, получающих более 45252 условных денежных единиц.

Для характеристики страт используем доли преподавателей в каждой из них, а также следующие важнейшие признаки: должность, ученое звание и ученую степень.

Основу первой страты составляют внешние сотрудники, для которых преподавательская деятельность в данном университете не является основным занятием (рис. 12). В нее также попадают и сотрудники в должности преподавателя и ассистента, имеющие небольшой стаж работы.

Многие из них совмещают преподавание с обучением в аспирантуре университета.

90, 80, 70, Доля сотрудников, % 60,0 Внешний Преподаватель 50, Ст. преп., доцент 40,0 Профессор Зав. кафедрой 30, 20, 10, 0, 1 2 Группы по доходам от преподавательской деятельности Рис. 12. Доли преподавателей различных должностных категорий в группах (стратах) по уровню заработной платы В сумме примерно половину, но уже почти в равных долях ( 27% и 25%), составляют указанные выше категории во второй страте. В ней значительную часть составляют старшие преподаватели, доценты и профессора. Доля заведующих кафедрами мала, она составляет около 2%.

В третьей страте доля присутствие внешних преподавателей невелико, снижается удельный вес сотрудников категории «преподаватель» с одновременным ростом представительства доцентов, старших преподавателей, профессоров и особенно заведующих кафедрами.

Различия страт по признаку наличия ученого звания во многом соответствуют различиям по должностным категориям (рис. 13) с той же тенденцией роста доли преподавателей со званиями профессора и доцента при переходе к более высокой страте.

120, 100, Доля сотрудников, % 80, Нет звания 60,0 Доцент Профессор 40, 20, 0, 1 2 Группы по доходам от преподавательской деятельности Рис. 13. Доли преподавателей с различными учеными званиями в группах (стратах) по уровню заработной платы Аналогичная картина наблюдается и при анализе состава групп по признаку наличия ученой степени (рис.14). Заметны практически линейные изменения доли каждой категории при увеличении номера страты.

Доля сотрудников, % Без степени 50 Кандидат наук 40 Доктор наук 1 2 Группы по доходам от преподавательской деятельности Рис. 14. Доли преподавателей с различными учеными степенями в группах по уровню заработной платы График функции принадлежности, рассчитанной на основе декомпозиции теоретического распределения (рис.11), приведен на рис.15.

100% 90% Принадлежность к стратам 80% 70% 60% 3 страта 50% 2 страта 40% 1 страта 30% 20% 10% 0% 9, 4, 7, 8, 8, 9, 9, 9, 9, 11, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, lnx Рис. 15. Принадлежность преподавателей к каждой из выделенных страт Он позволяет определить принадлежность преподавателя с определенным уровнем дохода к каждой из выделенной страт.

Декомпозиция двумерного распределения по реальному и 4.2.

требуемому доходам населения.

В качестве исходных данных были выбрана информация по респондентам за 2001 год (RLMS – 11 волна).

В качестве параметров для классификации были использованы:

индивидуальный месячный доход;

1.

желаемый доход (доход для нормальной жизни).

2.

Предварительно перед началом анализа для определения примерного количества страт, на которые можно разбить рассматриваемую совокупность, необходимо рассмотреть гистограмму распределения наблюдаемых значений признаков (рис.16).

Рис. 16. Гистограмма распределения наблюдаемых значений признаков После удаления аномальных наблюдений, которые составили около 1,5% от общего числа наблюдений, гистограмма приняла следующий вид (рис.17).

Рис. 17. Гистограмма распределения наблюдаемых значений признаков после удаления аномальных наблюдений В группу аномальных наблюдений вошли респонденты со следующими характеристиками:

1. с очень низким среднедушевым доходом;

2. с высоким желаемым доходом, который значительно выше имеющегося.

Для построения эмпирической функции плотности вероятностей ^ (n) ( X ) на всей области ее определения (то есть для всех возможных f значений исследуемой величины) используют предварительно сгруппированные данные и полагают:

vk ( x(1), x( 2) ) ^ (n), где (X ) f n k ( x (1) ) k ( x (2) ) - порядковый номер ячейки матрицы группирования, которая (1) ( 2) k(x,x ) накрывает точку ;

(1) ( 2) (x,x ) vk ( x(1), x( 2) ) - число наблюдений, попавших в эту ячейку;

k ( x(1) ) и k ( x(2) ) - длины интервалов.

Таким образом, было выделено 13 интервалов по желаемому доходу и 12 интервалов по среднедушевому доходу (матрица 13:12). Графическое представление функции плотности вероятности представлено на рис.18.

Анализ данного рисунка позволяет выдвинуть предположение о том, что совокупность респондентов возможно разбить на две страты.

Рис. 18 Эмпирическая функция плотности вероятности Проблема расщепления смеси двумерных вероятностных распределений представляет собой задачу оптимизации, которая предполагает наличие целевой функции и определенных ограничений.

Отметим, что в такой постановке задачи ограничения отражают особенности ковариационной матрицы, специфику весовых коэффициентов страт и, безусловно, неотрицательность ряда переменных.

Для решения задач такого уровня важным моментом является начальное приближение.

Используемые параметры:

Пj – весовой коэффициент (пропорционален объему предполагаемого графика распределения каждой страты);

j – ковариационная матрица;

M – математическое ожидание (координата максимума каждой из функций на плоскости (желаемый доход;

среднедушевой доход).

Соответственно, при выделении двух страт мы приходим к необходимости оценки 14 переменных распределения, представленных в табл.6.

Таблица Начальные приближения параметров смеси распределений № ^ ^ ^ Пj M страты 8,5 0,25 0, 1 0, 7,8 0,2 0, 9,8 0,21 0, 2 0, 8,85 0,15 0, Начальные приближения, приведенные в твбл.6, получены на основе анализа эмпирической гистограммы.

Графическое отображение полученных страт при начальных приближениях представлено на рис.19.

Рис. 19. Модель начального приближения теоретического распределения На рис.20 приведены уровневые сечения функции плотности вероятности, что хорошо иллюстрирует расположение обеих страт в коэффициентах о среднедушевого и желаемого дохода и их пересечение на определенных уровнях.

Рис. 20 Уровневые сечения теоретического распределения в разрезе Решать поставленную задачу будем, используя критерий максимума правдоподобия, по формуле:

T 1 ( xi M ) Пi n xi M L, которую можно заменить связанной с e 2 i i ней функцией – логарифма отношения правдоподобия:

T 1 ( xi M ) Пi n xi M l ln L, т.к. это удобнее при реализации e 2 i i вычислительных процедур, вследствие того, что произведение плотностей вероятности при таком большом объеме выборки будет очень малым ( 0 ).

Результаты вычислений представлены в табл. 7.

Таблица Максимально правдоподобные оценки параметров смеси распределений № ^ ^ ^ Пj M страты 8,516 0,282 0, 1 0, 7,803 0,207 0, 9,674 0,353 0, 2 0, 9,007 0,001 0, Графическая интерпретация полученных максимально правдоподобных оценок параметров смеси представлена на рис. 21.

Рис. 21. Модель теоретического распределения после оптимизации Также в прил. 2, 3 приведены совмещения теоретических распределений до и после оптимизации. Можно наблюдать, что первая страта не претерпела значительных изменений, а вторая страта стала более размытой.

Далее для определения состава попавших в каждую страту объектов, вычислим функцию принадлежности каждого наблюдения к одному из классов по формулам:

q1 P1 q 2 P i1 i ;

.

q1 P1 q 2 P2 q1 P1 q 2 P Количество и процентное соотношение работников в выделенных группах отражено на рис.22.

Охарактеризуем каждый из кластеров:

В первый кластер попали респонденты с наименьшими среднедушевыми доходами (в среднем – 3739 руб.) и,соответственно, с относительно небольшим уровнем притязаний (средний желаемый доход по группе составил 11326 руб.).

Рис.22. Процентное и количественное соотношение респондентов в стратах Во второй кластер – респонденты, у которых среднедушевой доход по группе и средний уровень желаемого дохода выше на 72 и 49% соответственно.


В группу «неопределившихся» попали респонденты, для которых функция принадлежности лежит в пределах 0,4;

0,6, поэтому нельзя однозначно отнести их к одной из страт. По показателям дохода они занимают среднее положение (на 21% и 4% в среднем превосходят респондентов первой страты по этим характеристикам).

Количество и процентное соотношение мужчин и женщин в выделенных стратах представлено на рис 23.

Если в первой страте число женщин в 1,4 раза выше. чем мужчин, то во второй страте (с высоким уровнем дохода) число женщин в 1,3 раза больше, чем мужчин.

Рис. 23. Соотношение муж/жен в стратах Соотношения респондентов по типу населенного пункта в стратах приведено на рис. 24.

Рис. 24. Соотношение респондентов по типу населенного пункта в стратах Анализ рис. 24 позволяет сделать вывод, что существует связь между доходом респондентов и типом населенного пункта, в котором они проживают. Большинство обеспеченных людей (2 страта) проживают в областных центрах. Доля респондентов, составляющих первую страту, существенно больше в населенных пунктах сельского типа, чем в поселениях других видов.

5. Моделирование рынка жилья в Москве с использованием методов параметрической классификации без обучения Жилище, как среда обитания человека, определяет качество его жизни. В условиях рыночной экономики жилище выступает как товар длительного пользования. Доля расходов, связанных с его приобретением или арендой, составляет порядка трети и более всех расходов в бюджете средней семьи. Спрос на жилье влияет на спрос на товары длительного пользования и является стимулом развития многих отраслей экономики.

Как дорогой и ликвидный товар, жилье является одним из важнейших факторов стимулирования сбережений населения, формирований инвестиционных ресурсов. На данный момент рынок жилья представляет собой не только объекты недвижимости для собственного проживания, но и высокодоходное вложение средств.

На первичном рынке жилья квартиры приобретаются в основном представителями состоятельных слоев населения. Вторичный рынок осуществляет перераспределение части жилищного фонда, преимущественно от бедной к богатой части населения. Таким образом, жилищный рынок подчеркивает социальное расслоение.

Сами объекты жилой недвижимости могут классифицироваться по различным характеристикам:

по качеству квартиры (ее площади, количеству комнат, наличию балконов и лоджий, вспомогательных помещений);

по качеству дома (материалу стен, времени постройки, наличию лифта, системы охраны);

по местоположению в городе (удаленности от центра, экологии, развитости инфраструктуры района).

В соответствие с существующей дискретной структурой общества по уровню доходов и социальному статусу выделяют и соответствующие категории квартир:

элитное жилье;

квартиры бизнес-класса (повышенной комфортности);

квартиры эконом-класса (типовые, наиболее распространенные);

относительно недорогое жилье.

Эта классификация опирается на приведенные выше характеристики.

Она условна, но может служить отправным пунктом для применения статистических методов классификации при определении числа классов и интерпретации результатов разбиения анализируемой совокупности.

Представление о складывающейся структуре потребления такого важного ресурса, как жилье, можно получить на основе анализа его вторичного рынка, на котором присутствуют объекты с практически одинаковым юридическим статусом квартир, готовых к проживанию. Для корректного проведения структурного анализа требуется достаточный объем сведений в виде выборки из всей совокупности или наиболее типичной ее части, а также умеренная динамика основополагающего признака классификации, позволяющая предположить постоянство цены на анализируемом временном отрезке.

Трудности структурного анализа в последние годы обусловлены стремительным ростом цен на жилье (рис. 25). В 2007 г. можно наблюдать относительную стабилизацию при сохранении общей тенденции роста стоимости одного квадратного метра в Московских квартирах. В году, средняя цена за квадратный метр в первом квартале составила долл. США.

2000 112112171105 1000 950 890 752 710 Рис 25. Средняя цена 1 кв. м на вторичном рынке жилья в Москве в 1990-2007 гг. (на конец года) Объем рынка жилья можно оценить по годовому объему продаж. С 1994 г. на вторичном рынке жилья в Москве ежегодно обращалось от 4 до 5 млрд. долл., наблюдался рост объема продаж одновременно с ростом цен. В 2004 г. он составил около 9 млрд. долл., а в 2005 превысил 11, млрд. долл.

Существенное влияние на цену жилья оказывало и оказывает его местоположение. Социальные контрасты в расселении имеют давние корни. Центр и западные части столицы были традиционными местами проживания верхних слоев общества еще в дореволюционный период. Эта традиция была менее выражена в советское время, когда одним из важнейших направлений социальной политики было социально смешанное расселение, но, тем не менее, она сохранялась. Реально существовала советская городская география престижа: местами расселения партийно хозяйственной элиты были Арбат, Кунцево, позднее - Новые Черемушки, интеллектуальная элита и номенклатурные работники проживали преимущественно на западе и юго-западе Москвы.

В последнее время общие различия между центром и периферией, а также западом и востоком достаточно устойчивы. Однако при сохранении существенного отрыва Центра от остальных округов города в последнее время в условиях стремительного роста цен, когда быстрее всего дорожает наиболее дешевое жилье и медленнее всего – наиболее дорогое, происходит приближение цен на жилье в округах к среднегородскому уровню (табл.8).

Таблица Удельная средняя цена квадратного метра на вторичном рынке жилья по административным округам Москвы, в % к средней по городу декабрь декабрь декабрь декабрь апрель Административные 1995 1998 1999 2005 округа года года года года года Центральный 119,1 126,4 130,9 134,6 129, Северо-Западный 95,5 97,6 97,7 86,7 91, Западный 114,1 113,7 114,5 108,3 106, Юго-Западный 105,5 111,8 110,2 97,4 100, Южный 85,7 91,1 82,8 85,3 88, Юго-Восточный 72,9 80,7 75,8 79,4 83, Восточный 82,5 91,8 85,8 85,1 88, Северо-Восточный 90,2 100,4 97,4 89,8 92, Северный 86,9 90,3 84,8 92,6 94, Москва в целом 100,0 100,0 100,0 100,0 100, Ценовой отрыв районов Центрального округа связан с активно идущими в этой части города процессами реконструкции центра. На территории Центрального административного округа (ЦАО) уже не осталось пятиэтажных домов сносимых серий. Округ одним из первых в Москве завершил программу их ликвидации, а оставшееся ветхое жилье и пятиэтажки заменяются элитным жильем и жильем бизнес-уровня. В настоящее время почти половина всего элитного жилья столицы возводится на территории Центрального административного округа, причем здесь строится самое престижное жилье. Это приводит к повышению престижности районов центра и к тому, что по ценам на жилье эта часть города все значительнее отрывается от остальных территорий столицы.

В настоящее время строительство новых бизнес-центров в прилежащих к центральному округу районах, порождает строительство нового жилья, повышается престижность этих районов вследствие изменения их инфраструктуры.

Развитие рынка жилья внесло существенный вклад в формирование стратификационной структуры населения Москвы. Происходит разграничение территории города на зоны по степени социально экономического благополучия ее жителей. Достаточно однородное расселение сменяется его выраженной территориальной дифференциацией города. Формируются элитные кварталы и районы с преобладанием престижной и очень дорогостоящей застройки. В то же время некоторые районы становятся все менее привлекательными для населения.

Явно прослеживается «западная» ориентация территориальной дифференциации цен на жилье за пределами центра. Наиболее низкие цены на жилье наблюдаются в экологически неблагополучных районах Юго-Восточного, Южного и Восточного административных округов.

Для анализа структуры вторичного рынка были рассмотрены объекты жилой недвижимости, имеющиеся на вторичном рынке в марте 2008 года, которые расположены вдоль южной части Серпуховско Тимирязевской ветки метро, начиная от «Боровицкой», заканчивая «Бульваром Дмитрия Донского». Массив данных представляет собой наблюдений, представляющих собой квартиры в южном секторе города Москвы, охватывающем как престижные районы Центрального и Юго Западного, так и менее престижного Южного административных округов.

Формирование цены квадратного метра квартиры в однородной совокупности представляет собой мультипликативный процесс, так как на ее размер оказывают многочисленные факторы, характер влияние которых на результирующий показатель по своей природе является мультипликативным.

Характер предпочтений потребителей и структура жилищного фонда обусловливает целесообразность предположения о расслоении квартир на рынке предложения жилой недвижимости на дискретные страты по стоимости квадратного метра.

В пользу справедливости выдвинутых предположений свидетельствует эмпирическое распределение сформированной выборки (рис.24), характеризующееся полимодальностью и явно выраженной правосторонней асимметрией каждого компонента.

Вид гистограммы в логарифмической шкале (рис.26) согласуется с предположением о логарифмически-нормальном распределении по стоимости квадратного метра жилья всех исследуемых квартир и наличии нескольких таких групп в исследуемой совокупности. На основе графического анализа гистограммы и предположений о наличии четырех страт в исследуемой совокупности можно визуально определить начальные приближения значений параметров смеси распределений.

частота стоимость квадратного метра (у) Рис.26. Гистограмма распределения наблюдаемых значений стоимости кв. метра жилья в южном секторе Москвы в марте 2008г., долл. США.

Среднее значение i для логарифма каждой страты определяется приближенно как абсцисса точки ее предполагаемого максимума.

Стандартное отклонение логарифма признака i будет определяться расстоянием по оси абсцисс от предполагаемой точки максимума до точки перегиба плотности вероятности логарифма признака.

Весовой коэффициент каждой страты qi пропорционален площади под предполагаемой взвешенной кривой ее распределения в смеси. Так как k q площадь под общей кривой распределения 1, число независимых i i весовых коэффициентов на единицу меньше чем числа страт. Таким образом, число подлежащих оцениванию независимых параметров смеси четырех логарифмически нормальных распределений равно одиннадцати.

После максимизации функции правдоподобия были получены максимально правдоподобные оценки параметров смеси распределений (табл.9).

Рис.27. Гистограмма распределения наблюдаемых значений признака с предварительным выделением страт Таблица Максимально правдоподобные оценки параметров смеси распределений Оценки параметров № страты µ q 1 8,27 0,07 0, 2 8,64 0,12 0, 3 8,95 0,23 0, 4 9,58 0,13 0, На основе полученных оценок построена модель смеси логарифмически-нормальных распределений (рис. 28).

3, 2, плотность вероятности 2, 1, 1, 0, 0, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, Lny общее распределение 1 страта 2 страта 3 страта 4 страта Рис. 28. Модель распределения по стоимости квадратного метра жилья и ее декомпозиция Полученная модель хорошо описывает имеющиеся данные. О ее адекватности модели можно судить по близости гистограмм эмпирического и теоретического распределений (рис.29). Рассчитанный коэффициент подобия распределений К под ( PtT ;

Pt Э ) 0, t При строгом решающем правиле условные границы классов для отнесения произвольного наблюдения к одной из выделенных страт определим как абсциссы точек пересечения взвешенных плотностей вероятности соседних страт, и можно выделить граничные значения стоимости квадратного метра жилья разных классов.

8,1 8,2 8,3 8,4 8,5 8,6 8,7 8,8 8,9 9,0 9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8 9, эмпирическая теоретическая Рис. 29. Гистограммы эмпирического и теоретического распределений Основываясь на полученной модели, в общей совокупности продаваемых квартир можно выделить, как и предполагалось ранее, четыре страты:

дешевые квартиры со стоимостью квадратного метра: от 3,5 – 4,2 тыс. долл.

квартиры среднего класса (типовые) со стоимостью квадратного метра: от 4,2 - 7 тыс. долл.

квартиры повышенной комфортабельности со стоимостью квадратного метра: от 7 – 12,2 тыс. долл.

дорогие квартиры со стоимостью квадратного метра: от 12,2 – 20,5 тыс. долл.

Согласно полученным оценкам параметров смеси распределений (табл.9), можно охарактеризовать каждую из полученных страт. Наиболее информативным параметром является средняя стоимость квадратного метра в каждой полученной старте, но в таблице эти данные представлены логарифмом, поэтому для информативности параметра переведем его в денежный эквивалент, то есть произведем операцию обратного преобразования. Таким образом, получим более информативную таблицу со следующими показателями (табл.10).

Таблица Характеристики параметров страт с четкими границами Средняя стоимость Вес страты в общем Количество объектов № м2, долл. США распределении, % попавших в страту, шт.

страты µ q n 1 3 889 2 2 5 627 70 3 7 702 24 4 14 536 4 Первая страта сильно отличается от остальных по всем показателям, так как все они наименьшие: самая маленькая доля 2% (11 квартир) в общей совокупности предложений квартир, небольшие границы, и самая низкая стоимость квадратного метра.

Типовых квартир доминирующее большинство – 70%. В среднем цены по первым трем классам различаются на 2 тыс. долл. Третья страта так же имеет значительную долю – 24%. Последний класс, так же как и первый, является малочисленным (доля – 4%), по средней стоимости квадратного метра жилья он отличается от третьей страты в два раза.

В результате проведенного исследования выявлена высокая дифференциация жилья по стоимости на вторичном рынке. Распределение по цене квадратного метра имеют дискретную структуру. Выделение четырех страт соответствует общему представлению о делении жилья на дешевое, дорогое и среднее с существенным акцентом на то, что средняя категория представлена двумя классами: типового жилья и квартир бизнес класса.

Значительный интерес представляет проблема принадлежности объектов жилой недвижимости к выделенным классам. Согласно полученным результатам, четыре логарифмически-нормальных распределения наслаиваются друг на друга, причем наиболее существенно пересечение второй и третьей страт. Для определения принадлежности граничных объектов стоит воспользоваться функцией принадлежности к каждой из выделенных групп.

У самых немногочисленных классов пересечения минимальны. Как уже было отмечено ранее, первая страта характеризуется наименьшими величинами оцененных параметров. Расширение границ этого класса с включением в него объектов с малыми значениями функции принадлежности к нему и последующий анализ позволяют утверждать, что отличительными чертами данного класса являются следующие:

расположение далее, чем в пяти минутах ходьбы от ближайшего метро;

отсутствие в подъезде консьержа;

блочный, либо панельный тип дома;

низкое качество планировки;

отсутствие хорошего ремонта;

нахождение за пределами третьего транспортного кольца.

Указанные характеристики для категории наиболее дорогих квартир на вторичном рынке недвижимости существенно отличны. Однако факторы, непосредственно влияющие на стоимость дорого жилья, трудно поддаются количественной оценке.

Аналогичная ситуация складывается и с двумя средними стратами.

Причем наиболее неоднозначная картина получилась с обширным третьим классом, черты которого в различной мере присущи многим объектам из общей совокупности. При общем числе наблюдений, равном 528, ядро этой категории образуют 85 объектов, которые имеют функцию принадлежности к данному классу от 0,6 до 1,0. К наиболее ярким представителям этого класса с функцией принадлежности, практически равной 1,0, можно отнести 40 квартир, причем все они находятся в пределах третьего транспортного кольца. Размытость третьей страты можно объяснить разбросом мнений покупателей о важности выделенных показателей комфортности, современности, престижности и размеров квартир этой категории.

6. Моделирование структур по уровню инновационной и патентной активности Параметрическое моделирование региональной 6.1.

структуры России по уровню инновационной активности Так как регионы страны отличаются неравномерным присутствием на их территориях различных производств и характеризуются отличиями в экономической, социально-политической и других сферах, при исследовании пространственной структуры инновационной деятельности основное внимание уделим основному текущему эффекту этой деятельности – объему отгруженных инновационных товаров, работ, услуг, отражающему в синтезированной форме различные аспекты инновационной деятельности того или иного территориального образования. Этот показатель, нормированный относительно масштаба региона, определяемого численностью его населения, x [руб. / 1000 чел.] может служить адекватной характеристикой инновационной активности региона.

С целью максимального использования информации, содержащейся в значениях этого признака, прибегнем к параметрическим методам классификации, которые основаны на построении теоретического закона распределения генеральной совокупности, выборкой из которой являются наблюдения величины значения выбранного признака для каждого региона. Основной проблемой при этом является выбор вида закона распределения. Анализируемый признак представляет собой результат совокупного действия множества факторов, среди которых в силу достаточного разнообразия элементов экономики каждого региона отсутствуют явно доминирующие, а характер действия каждого фактора, как наблюдаемого, так и латентного, на результирующее значение показателя можно считать мультипликативным. Поэтому разумно предположить, что для однородной в этом смысле группы регионов закон распределения признака будет логарифмически нормальным.

Задача определения стратификационной структуры регионов России при таком подходе сводится к декомпозиции распределений. Для ее решения использованы данные по 75 регионам России (регионы, имеющие нулевые значения по исследуемому показателю были исключены из анализа) за 2001-2005 гг.

Сведения об анализируемом признаке y=lnx, упорядоченные по возрастанию его значений в 2001 и 2005 г.г., приведены в табл.11.

Таблица Логарифм относительного объема выпуска инновационной продукции (lnx) в регионах России № Название региона 2001г № Название региона 2001г 2003г 2003г Ленинградская 1 Магаданская область 37 область 1,00 4,19 6,34 5, Респ. Сев. Осетия - Ивановская 2 Алания 38 область 1,56 2,21 6,35 5, Хабаровский 3 Краснодарский край 39 край 2,25 3,71 6,36 6, Волгоградская 4 Республика Дагестан 40 область 2,60 3,88 6,38 6, 5 Еврейская автон. обл. 41 Респ. Чувашия 2,91 3,51 6,39 6, Республика Саха Архангельская 6 (Якутия) 42 область 3,87 5,92 6,43 8, 7 Карачаево-Черк. Респ. 43 Тульская область 4,01 4,50 6,46 6, 8 Ставропольский край 44 Курская область 4,12 6,19 6,56 6, Кабард.-Балкарская Ульяновская 9 Респ. 45 область 4,43 5,49 6,61 7, Респ.

10 Приморский край 46 Башкортостан 4,49 4,39 6,67 6, Липецкая 11 Амурская область 47 область 4,60 3,25 6,81 8, Костромская 12 Иркутская область 48 область 4,97 8,35 6,85 6, Республика 13 Астраханская область 49 Мордовия 5,02 3,52 6,90 7, Московская 14 Красноярский край 50 область 5,46 6,49 6,99 7, Кемеровская 15 Смоленская область 51 область 5,48 6,17 7,00 7, Продолжение таблицы 16 Читинская область 52 Тверская область 5,49 5,29 7,01 7, 17 Ростовская область 53 Удмуртская Респ.



Pages:   || 2 | 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.