авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 || 3 | 4 |   ...   | 7 |

«ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ КАЗЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ВОРОНЕЖСКИЙ ИНСТИТУТ МВД РОССИИ ...»

-- [ Страница 2 ] --

В-третьих, многочисленные численные расчеты показывают, что ис пользование рангов 7-9 приводит к чрезмерно заниженным весовым коэффи циентам для менее предпочтительных признаков. Поэтому оценки МАИ не обходимо корректировать на основе интуитивных представлений или с уче том результатов прямого ранжирования.

1.4. Методы экспертных систем в экономике Рассмотрим несколько важных задач из разных сфер экономики, при решении которых целесообразно использование методов экспертных оценок.

Фактически эти методы давно уже используются на практике без упоминания характеристики «экспертные». Причиной этого является отсутствие надеж ных математических моделей для ряда серьезных экономических процессов, либо отсутствие точной информации о параметрах этих процессов.

Применению методов теории экспертных систем в экономике посвя щен ряд публикаций. Так, планированию управленческих решений в эконо мике посвящены работы А.В. Андрейчикова [5], И.О. Темкина [154], В.Г.

Чернова [171], группы EcoSyn.Ru [122, 138, 166] и др.

Большая часть попыток математизации экономических задач связана со стремлением использования вероятностно-статистических моделей. К числу известных публикаций в этой области можно отнести работы А.М. Дуброва, В.С. Мхитаряна [49], М. Жамбю [55], К. Эсбенсена [192], П.К. Фишберна [163], Т.Дж. Уотшема [161], К. Фукунаги [165].

Однако, иногда такие попытки оказываются малоэффективными, по скольку в реальных условиях отсутствует выполнение необходимых посту латов теории вероятностей и статистики. Например, в большинстве случаев не удается сформировать генеральную совокупность, нарушаются принципы случайного выбора, предположение о нормальности распределения многих случайных величин оказывается неоправданным и т.д. В этих условиях, по жалуй, единственным надежным средством учета неопределенностей как не статистического, так и статистического характера является использование теории нечетких множеств. В общем случае можно утверждать, что как ста тистические методы, так и теория нечетких множеств должны применяться в едином комплексе.

Целью данного раздела является рассмотрение нескольких серьезных экономических проблем и выявление тех понятий и методов экспертных сис тем, которые оказываются наиболее эффективными средствами преодоления неопределенности.

Анализ риска инвестиций. Инвестиционный проект предполагает планирование во времени трех основных денежных потоков: потока инве стиций, потока текущих (операционных) платежей и потока поступлений [76, 106, 171].

Способ оценки риска инвестиций прямо связан со способом описания информационной неопределенности в части исходных данных проекта. Если исходные параметры имеют вероятностное описание, то показатели эффек тивности инвестиций также имеют вид случайных величин со своим вероят ностным распределением. Однако чем в меньшей степени статистически обусловлены те или иные параметры, чем меньше информативность данных о состоянии рыночной среды и чем ниже уровень интуиции экспертов, тем менее может быть обосновано применение любых типов вероятностей в ин вестиционном анализе.

Инструментом, который позволяет более реалистично оценивать воз можности (ожидания) инвестиционного проекта, является теория нечетких множеств. Математической основой анализа эффективности инвестиций в нечеткой постановке является известная формула чистой современной цен ности инвестиций (NPV - Net Present Value) [106]. Если все параметры в этой формуле обладают “размытостью”, т.е. их точное планируемое значение не известно, тогда в качестве исходных данных следует использовать так назы ваемые нечеткие числа (параметры) с треугольной функцией принадлежно сти (рис. 1.4.1).

В общем случае под нечетким числом понимается нечеткое подмноже ство универсального множества действительных чисел, имеющее выпуклую функцию принадлежности [25, 74]. Такое описание позволяет взять в качест ве исходной информации интервал параметра min, max и наиболее ожидае мое значение ср max min 2. Тогда нечеткое число представляется трой кой чисел min, ср, max.

(1.4.1) Выделение упомянутых трех значимых точек нечеткого числа весьма распространено в инвестиционном анализе. Часто этим точкам сопоставля ются субъективные вероятности реализации соответствующих (“пессимисти ческого”, “нормального” и “оптимистического”) сценариев исходных дан ных.

Рис. 1.4.1. Треугольная функция принадлежности нечеткого параметра В целом подход, основанный на нечеткостях, преодолевает недостатки вероятностного и минимаксного подходов, связанные с учетом неопределен ностей [47, 106, 107]. Во-первых, здесь формируется полный спектр возмож ных сценариев инвестиционного процесса. Во-вторых, решение принимается не на основе двух оценок эффективности проекта, а по всей совокупности оценок. В-третьих, ожидаемая эффективность проекта не является точечным показателем, а представляет собой поле интервальных значений со своим распределением ожиданий, характеризующимся функциями принадлежности соответствующих нечетких чисел.

Управление риском портфельных инвестиций. С одной стороны, инвестор старается максимизировать свою доходность, а с другой стороны, он фиксирует предельно допустимый риск неэффективности своих инвести ций – риск убытков. Классической моделью управления фондовым портфе лем является модель Марковица [106, 107]. Считается, что портфель содер жит N типов ценных бумаг (ЦБ), а модель характеризуется пятью видами па раметров: 1) начальной ценой Wi0 одной бумаги перед помещением ее в портфель;

2) числом бумаг ni в портфеле;

3) начальными инвестициями Si0 в данный портфельный сегмент;

4) суммарным объемом портфельных инве стиций S;

5) долевым ценовым распределением бумаг в портфеле xi.

При вероятностной постановке задачи особое значение имеет корреля ционная матрица { k ij }, коэффициенты которой характеризуют связь между доходностями i-ой и j-ой бумаг. Таким образом, портфель описан системой статистически связанных случайных величин с нормальными законами рас пределения. Тогда, согласно теории вероятностей, теоретически можно рас считать ожидаемую доходность портфеля r.

Поскольку доход по ЦБ случаен, его точное значение в будущем неиз вестно, а вероятностное описание такого вида случайности не вполне кор ректно в силу отклонений распределения от нормального, то в качестве опи сания доходности ЦБ уместно использовать треугольные нечеткие числа (1.4.1). При этом эксперт отказывается от вероятностного описания доходно сти и формирует расчетный коридор, в котором ожидается уровень доходно сти ЦБ. Пусть ri ri, min, ri, ср, ri, max – доходность по i-ой ценной бумаге, тре угольное нечеткое число. Тогда доходность по портфелю r также является треугольным нечетким числом.

Итак, применение нечетких множеств при учете исходной неопреде ленности относительно доходов по ценным бумагам – весьма перспективное направление анализа эффективности портфельных инвестиций [106]. Экс перт-аналитик при использовании этого подхода избавлен от необходимости формировать вероятностные прогнозы на весьма шаткой информационной основе, когда поведение торгуемых ценных бумаг не обладает характером предсказуемых случайных процессов.

Анализ финансового состояния предприятия. В экономической ли тературе существуют различные подходы к анализу финансового состояния, различающиеся выбором множества показателей (критериев), оценке весо вых коэффициентов в рейтинговых числах, определению границ нормальных ограничений, приводящие к разработке различных методик анализа финан сового состояния [4, 28, 48, 175 и др.]. Поэтому сама эта область экономиче ского анализа является в определенной мере нечетко-очерченной, расплыв чатой. В работе О.И. Косьминой [73] дана сравнительная характеристика де вяти различных методик диагностики финансового состояния конкретного предприятия.

В настоящее время наиболее широко применяется так называемая тра диционная методика. Эта методика предполагает использование финансовых коэффициентов (коэффициент соотношения заемных и собственных средств, коэффициент маневренности, коэффициент автономии, коэффициент струк туры привлеченных средств, коэффициент устойчивого финансирования и др.). Одним из критериев финансовой устойчивости организации является излишек или недостаток источников средств для формирования запасов.

Многие аспекты традиционной методики отражают ее расплывчатую, нечеткую сущность и требуют применения понятий теории нечетких мно жеств. Например, нормальным ограничением для коэффициента текущей ли квидности считается Lтек 2,0. Однако нигде в литературе не приводится обоснования этой границы.

Предприятия все чаще используют балльную оценку финансового со стояния. Сущность такой методики заключается в классификации организа ций по уровню финансового риска, то есть любая анализируемая организация может быть отнесена к определенному классу в зависимости от «набранного»

количества баллов, исходя из фактических значений ее финансовых коэффи циентов.

В связи с этим возникает вопрос о значимости отдельных групп пока зателей в формировании рейтинговой оценки. В отличие от варианта равно ценной значимости всех групп показателей предпочтительным представляет ся вариант дифференцированной значимости отдельных групп, а это уже специфическая задача экспертного оценивания на основе метода анализа ие рархий (МАИ).

Метод нормативной системы значений показателей (НСЗП) основан на формировании эталонной динамики состояния экономического субъекта, понимаемой как наилучшее распределение показателей по темпам их роста.

По мнению автора статьи [73] данная методика является весьма условной, так как основывается только на изменениях динамики показателей, к тому же она не учитывает другие факторы, влияющие на изменения в финансовом со стоянии предприятия. Последнее обстоятельство свидетельствует о нечетко сти постановки задачи НСЗП.

Сущность методики скоринг-анализа заключается в классификации предприятий по степени риска, исходя из фактического уровня показателей финансовой устойчивости и рейтинга каждого показателя, выраженного в баллах на основе экспертных оценок. Данная методика аналогична балльной оценке финансового состояния, однако включает меньше показателей (рен табельность совокупного капитала, коэффициент текущей ликвидности, ко эффициент финансовой независимости). Необходимость балльного оценива ния приводит к использованию нечетко-множественной методологии.

В практике работы часто возникает необходимость в составлении не коего комплексного показателя, индикатора финансовой устойчивости [73, 206]. Специфика деятельности предприятия определяет значимость разных коэффициентов в общей картине его финансового благополучия. Так, напри мер, по мнению руководителей многих российских фирм, на первом плане для них стоит общая устойчивость работы предприятия и его текущая плате жеспособность.

Состав «комплекта» финансовых коэффициентов, который послужит наилучшим показателем платежеспособности, так же, как и значения весовых множителей, выражающих степень значимости каждого из коэффициентов, может быть установлен экспертным путем (т. е. путем опроса руководителей и владельцев фирмы, а также экспертов-экономистов).

Ни одна из применяющихся в настоящее время российскими предпри ятиями методик оценки финансовой устойчивости и финансового состояния предприятия не является идеальной. Большинство методик оценки финансо вого состояния повторяют и дополняют друг друга, они могут быть исполь зованы комплексно или раздельно в зависимости от конкретных целей и за дач анализа, информационной базы, имеющейся в распоряжении аналитика.

Анализ риска банкротства предприятия. Задача определения степе ни риска банкротства является актуальной как для собственников предпри ятия, так и для его кредиторов. Поэтому вызывают интерес научно обосно ванные методики оценки риска банкротства, учитывающие размытость, не четкость представлений об отдельных финансовых показателях [3, 105, 175].

В анализе хорошо известны [54, 48, 76, 175 и др.] так называемые Z показатели, сопряженные с вероятностью предполагаемого банкротства:

Z i X i, (1.4.2) i где X i – показатели бухгалтерской (финансовой) отчетности;

i – веса в свертке, получаемые на основе так называемого дискриминантного анализа выборки предприятий, часть из которых обанкротилась.

Также устанавливаются пороговые нормативы Z 1 и Z 2 : когда Z Z 1, вероятность банкротства предприятия высока;

когда Z Z 2 – вероятность банкротства низка;

когда Z 1 Z Z 2 – состояние предприятия не определи мо. Этот метод, разработанный в 1968 г. Э. Альтманом, получил широкое признание и продолжает использоваться в анализе, в том числе и в России.

Однако для многих неблагополучных российских предприятий он дает иска женные оценки, неоправданно снижая вероятность банкротства.

В целом же идея построения пятифакторной рейтинговой модели Альтмана, заменяющей единым числом анализ множества финансовых пока зателей, которые зачастую противоречат друг другу, весьма привлекательна.

В теории экспертных систем аналогичная операция осуществляется введени ем комплексных показателей качества [20, 90] или переходом к многокрите риальному оцениванию путем свертывания частных критериев [47].

Упомянутое многокритериальное оценивание требует установления приоритетов частных критериев, осуществляемое на основе нечетких экс пертных оценок. После получения этих оценок задача решается методом ана лиза иерархий Саати [142].

При установлении приоритетов мы сталкиваемся с неопределенностью, которая в принципе не может быть раскрыта однозначно и четко. В оценке появляется субъективный компонент, выражаемый нечеткими суждениями типа «наиболее предпочтительный», «несколько предпочтительнее», «значи тельно превосходящий», «эквивалентный» и т.д. В науке это описывается как лингвистическая переменная со своим терм-множеством значений [47, 58], а связь количественного значения некоторого фактора с его качественным лингвистическим описанием задается функциями принадлежности фактора нечеткому множеству.

В работе [105] полное множество финансовых состояний предприятия разбито на пять (в общем случае пересекающихся) нечетких подмножеств вида: А1 - нечеткое подмножество состояний «предельного неблагополучия (фактического банкротства)»;

А2 - нечеткое подмножество состояний «не благополучия»;

А3 - нечеткое подмножество состояний «среднего качества»;

А4 - нечеткое подмножество состояний «относительного благополучия»;

А5 нечеткое подмножество состояний «предельного благополучия».

То есть терм-множество лингвистической переменной «Финансовое состояние предприятия» состоит из пяти компонентов. Каждому из подмно жеств А1… А5 соответствуют свои функции принадлежности 1 V,..., 5 V, где V - комплексный показатель финансового состояния предприятия, причем чем выше V, тем «благополучнее» состояние предприятия. Заметим, что ав торы обычно применяют трапецеидальную форму функций принадлежности.

Перечень экономических задач, решаемых с использованием эксперт ных методов, далеко не исчерпывается отмеченными выше приложениями.

Выделим, для примера, цикл исследований представленной в интернете группы Ecosyn под общим наименованием «Планирование решений в эконо мике». В этом цикле работ нечетко-множественный метод анализа иерархий применяется к решению ряда разнообразных экономических проблем: выбор и прогнозирование наилучшего обеспечения банковского кредита [31];

функ ционально-стоимостный анализ промышленной продукции [166];

рацио нальное распределение ресурсов между альтернативами (1С: Бухгалтерия – Парус) [138] и др.

На основе проведенного выше анализа известных решений важных экономических задач можно сделать выводы о том, какие понятия и методы теории экспертных систем наиболее плодотворны в области экономики: по нятие лингвистической переменной, функция принадлежности нечеткому множеству, треугольная форма задания нечетких чисел, трапецеидальные функции принадлежности, метод анализа иерархий Саати, матрица парных сравнений, ранги частных критериев, многокритериальное оценивание, экс пертная оценка рейтингового числа и др.

Рассмотрим далее последовательно главные этапы технологии экспер тизы: кластеризацию объектов экспертизы, определение приоритета призна ков на основе метода анализа иерархий, статистическую обработку эксперт ных оценок и применим далее эти методы теории экспертных систем к ана лизу товаров, готовой продукции, экономических проектов и финансового состояния реальных предприятий.

Глава 2. КЛАСТЕРИЗАЦИЯ ОБЪЕКТОВ ЭКСПЕРТИЗЫ 2.1. Исходные положения Как было отмечено в разделе 1.3, кластеризация (или кластерный ана лиз) – это задача разбиения множества объектов на группы, называемые кла стерами. Внутри каждой группы должны оказаться схожие объекты, а объек ты разных групп должны быть как можно более различны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Обзор современных задач и методов кластерного анализа осуществлен в нескольких специальных обзорных работах: Jain A.K, Murty M.N., Flynn P.J.

Data Clustering: A Review (1999) [213], Бериков В.С., Лбов Г.С. Современные тенденции в кластерном анализе (2008) [11], Миркин Б. Г. Методы кластер анализа для поддержки принятия решений: обзор (2011) [97], а также работах других авторов [2, 13, 52, 34, 56, 165 и др.].

Теоретическим аспектам кластеризации посвящен ряд работ известных авторов: И.Д. Мандель [88], М.С. Олдендерфер, Р.К. Блэшфилд. [115], М.

Жамбю [55], С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин [2], Л.Х. Гитис [38], К.В. Воронцов [30], А.И. Орлов [11] и др. Приложения кластерного анализа рассматриваются в работах [43, 52, 174, 203, 221 и др.].

Решение задачи кластеризации принципиально неоднозначно: 1) число кластеров неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием;

2) выбор метрики, как правило, также субъективен и определяется экспертом;

3) не существует однозначно наилучшего крите рия качества кластеризации.

Цели кластеризации могут быть различными в зависимости от особен ностей конкретной прикладной задачи. Обычно под целью подразумевается установление структуры множества объектов путем разбиения его на группы схожих объектов. Однако нам представляется, что с практической точки зре ния не меньшее значение имеет обоснование применяемого в дальнейшем метода кластеризации и упрощение дальнейшей обработки данных.

Согласно публикациям [88, 115, 55, 38, 30] можно выделить обычную последовательность действий при кластеризации:

1. Предварительный этап (определение множества переменных, по ко торым будут оцениваться объекты в выборке, выделение вектора характери стик, выбор метрики).

2. Применение одного из методов кластерного анализа для создания групп сходных объектов (кластеров) и численный анализ.

3. Представление и интерпретация результатов анализа.

После получения и анализа результатов возможна корректировка вы бранной метрики и метода кластеризации до получения оптимального ре зультата.

Предварительный этап. В кластерном анализе принято отождеств лять l ый объект исследования с вектором его m признаков (характеристи ческим вектором):

X l xl1, xl 2,..., xlm, l 1,2,..., K, (2.1.1) где признаки соответствуют оцениваемым свойствам объекта. В дальнейшем (см. раздел 3) будет обосновано разделение множества признаков на под множества количественных и качественных признаков X i,кол и X i,кач. В свою очередь, качественные признаки можно разделить на три подмножества:

xi,кач x j, нал xr, пэф xl, пфп, (2.1.2) где x j, нал – подмножество «признаков наличия», x r, пэф – подмножество «признаков положительного эффекта», xl, пфп – подмножество «признаков психофизиологической природы».

Существует множество возможных метрик: евклидово расстояние, квадрат евклидова расстояния, расстояние городских кварталов (манхэттен ское расстояние), расстояние Чебышева, степенное расстояние Минковского, расстояние Хемминга и др. (см. табл.1.3.5).

Выбор метрики полностью лежит на исследователе, поэтому результа ты кластеризации могут существенно отличаться при использовании разных мер. Наиболее предпочтительными для экономических приложений будем считать следующие метрики:

1) евклидово расстояние m ls X l, X s xlj x sj ;

(2.1.3) j 1 2) расстояние Чебышева ls X l, X s max xlj x sj ;

(2.1.4) 1 j m 3) расстояние Махаланобиса ls X l, X s X l X s C 1 X l X s T. (2.1.5) Методы кластерного анализа. Различные алгоритмы кластеризации могут быть более или менее успешны в этих ситуациях. Однако создание ал горитма, успешно работающего во всех ситуациях без исключения, пред ставляется трудной и едва ли разрешимой задачей [88, 213].

Классификацию алгоритмов кластеризации можно осуществить сле дующим образом [88, 115, 55, 213, 97 и др.]:

1. Строящие вычисления «снизу-вверх» и «сверху-вниз».

2. Монотетические и политетические.

3. Четкие и нечеткие алгоритмы.

4. Детерминированные и стохастические.

5. Зависящие и не зависящие от начального разбиения.

6. Зависящие и не зависящие от порядка рассмотрения объекта.

Алгоритмы делятся на две основные группы: иерархические и неие рархические [213, 11, 88, 55].

Среди алгоритмов иерархической кластеризации выделяются два ос новных типа: восходящие (агломеративные) и нисходящие (дивизимные) ал горитмы.

Нисходящие алгоритмы работают по принципу «сверху-вниз»: в начале все объекты помещаются в один кластер, который затем разбивается на все более мелкие кластеры. Более распространены восходящие алгоритмы, кото рые в начале работы помещают каждый объект в отдельный кластер, а затем объединяют кластеры во все более крупные, пока все объекты выборки не будут содержаться в одном кластере. Таким образом строится система вло женных разбиений. Результаты таких алгоритмов обычно представляют в ви де дерева – дендрограммы (от греческого dendron – дерево).

Принципиальные преимущества метода иерархий: 1) естественные сис темы, составленные иерархически, т. е. посредством модульного построения и затем сборки модулей, строятся намного эффективнее, чем системы, соб ранные в целом;

2) иерархии устойчивы и гибки;

они устойчивы в том смыс ле, что малые изменения вызывают малый эффект, а гибкие в том смысле, что добавления к хорошо структурированной иерархии не разрушают ее ха рактеристик.

Объединение кластеров. Для вычисления расстояний между кластера ми чаще все пользуются двумя расстояниями: одиночной связью или полной связью. Существует несколько метрик:

1. Одиночная связь (расстояния ближайшего соседа).

2. Полная связь (расстояние наиболее удаленных соседей).

3. Невзвешенное попарное среднее.

4. Взвешенное попарное среднее.

5. Невзвешенный центроидный метод.

6. Взвешенный центроидный метод (медиана).

Сравнение неиерархических и иерархических методов. Неиерархиче ские методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых пере менных в набор признаков, участвующий в кластеризации. При этом анали тик должен заранее определить количество кластеров, количество итераций или правило остановки, а также некоторые другие параметры кластеризации.

Если нет предположений относительно числа кластеров, рекомендуется использовать иерархические алгоритмы кластерного анализа [55, 88]. Однако если объем выборки не позволяет это сделать, возможный путь – проведение ряда экспериментов с различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количество, сравнивать результаты. За счет такого «варьирования» результа тов достигается достаточно большая гибкость кластеризации.

Иерархические методы (aglomerative hierarhical algorithms), в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров. Преимущество этой группы методов в сравнении с неиерархическими методами – их наглядность и возможность получить детальное представление о структуре данных. При использовании иерархических методов существует возможность достаточно легко иденти фицировать и изолировать выбросы в наборе данных и, в результате, повы сить качество данных.

Сложности иерархических методов кластеризации: ограничение объе ма набора данных;

выбор адекватной меры близости;

негибкость полученных классификаций. Иерархические методы не могут работать с большими набо рами данных, а использование некоторой выборки, т.е. части данных, требует обоснования ее репрезентативности.

Представление и интерпретация результатов. Результаты кластери зации должны быть представлены в удобном для анализа виде. Обычно ис пользуется один из следующих способов:

– дендрограмма;

– представление кластеров центроидами;

– представление кластеров набором характерных точек;

– представление кластеров их ограничениями.

Форма кластеров в большинстве случаев определяется выбором метода объединения. Однако следует учитывать, что конкретные методы кластери зации стремятся создавать кластеры определенных форм, даже если в иссле дуемом наборе данных таких кластеров на самом деле нет.

Более подробно проблему представления результатов кластеризации рассмотрим в следующем разделе применительно к кластеризации финансо вого состояния предприятий.

2.2 Кластерно-иерархические методы экспертизы В первой главе и разделе 2.1 был осуществлен обзор современного со стояния теории экспертных систем и теории кластерного анализа. На основа нии изученной литературы можно сделать вывод о принципиальной близости обеих теорий. Отметим лишь некоторые обстоятельства.

1. Родственность методов исследования. Действительно, в обеих об ластях формируется вектор признаков (характеристический вектор) и выби рается адекватная метрика. Далее исследуются свойства объектов в m - мер ном пространстве признаков и оценивается принадлежность характеристиче ского вектора некоторой области в этом пространстве (кластеризация) или вычисляется обобщенный показатель (экспертиза). В первом случае исполь зуется многомерное шкалирование, а во втором – одномерное. Однако и в некоторых задачах кластеризации также целесообразно переходить к одно мерной шкале, например, при скоринговом анализе финансового состояния предприятий.

2. Иерархический характер исследований. В кластерном анализе (см.

раздел 2.1) известна большая группа собственно иерархических алгоритмов, среди которых выделяются агломеративные иерархические алгоритмы. Кро ме того, представление результатов осуществляется с помощью специально го графического средства – дендрограммы. В теории экспертных систем бо лее распространен метод анализа иерархий. Однако в обоих случаях рассмат ривается одна и та же последовательность «цель – задачи (по уровням иерар хии) – альтернативы».

Как в теории экспертных систем, так и в кластерном анализе существу ет большое количество эффективных методов. Однако, как следует из обзора литературы, выбор автором одного из них полностью определяет все направ ление дальнейших исследований. Практически не делается попыток объеди нения положительных свойств и процедур различных методов. Нам же пред ставляется, что методология кластерного анализа (и экспертизы) должна иметь комплексный характер.

Кластерно-иерархический подход. С учетом сделанных замечаний, предложим единый кластерно-иерархический подход к решению задач экс пертизы и кластерного анализа, сочетающий достоинства ряда эффективных методов анализа, которые должны дополнять друг друга.

Так, применительно к проблеме кластеризации, предложим много уровневую процедуру обработки характеристических векторов объектов (ка тегоризацию данных, использование критерия знаков, критерия Вилкоксона, статистическую обработку векторов объектов). Назовем такую процедуру методом «кластерного сита» (рис.2.2.1-2.2.3).

Рис. 2.2.1 Кластерно-иерархический подход (первая стадия) Предложенная процедура сочетает в себе подходы и методы как теории экспертных систем, так и кластерного анализа, и является единым исследова тельским процессом. Поэтому деление ее на три стадии является чисто ус ловным.

Рис. 2.2.2 Кластерно-иерархический подход (вторая стадия) Рис. 2.2.3 Кластерно-иерархический подход (третья стадия) На первой, начальной стадии (см. рис.2.2.1), осуществляется выбор группы экспертов и проверка ее согласованности. Последняя может осущест вляться как на основе тестового примера, так и на основе множества данных реальных объектов. Применимы различные способы: анализ корреляционной матрицы векторов оценок одного объекта различными экспертами, построе ние и адаптация нейронной сети, использование решения L-проблемы мо ментов.

Уточнение целей экспертизы осуществляется методом анализа иерар хий (МАИ). Общая цель (1 уровень иерархии) последовательно разделяется на множество частных целей (2,3 и т.д. уровни иерархии) и методом МАИ определяется их приоритет. Итогом является оптимизированный вариант формулирования целей исследования.

Вторая, предварительная стадия (см. рис. 2.2.2) посвящен последова тельной реализации идеи кластерного сита. Вначале для множества сравни ваемых объектов выделяются два базовых (главных) признака и осуществля ется разделение множества всех объектов на четыре кластера – наличия или отсутствия этих признаков. Затем с помощью критерия знаков или критерия Вилкоксона устанавливается однородность объектов в выделенных кластерах и определяется множество объектов, в которых эта однородность нарушена.

Для одномерной кластеризации в последнем случае используется расстояние Хемминга.

На третьей, заключительной стадии «тонкой» кластеризации произво дится анализ структуры характеристического вектора: выделяются количест венные признаки, признаки наличия, качественные признаки, признаки пси хофизиологического эффекта, признаки отрицательного эффекта. Относи тельная важность этих групп признаков определяется методом анализа ие рархий. Для сложных задач применяется расширенный метод анализа иерар хий, включающий в себя метод Терстоуна и процедуру прямого ранжирова ния.

Следующей стадией является статистическая обработка векторов оце нок экспертов. Для полноценной оценки используется совокупность приемов исследования: анализ корреляционной связи векторов оценок, метод главных компонент, ортогонализация векторов оценок, решение L-проблемы момен тов, применение нечетко-множественного показателя качества с использова нием функций принадлежности нормированных признаков области допусти мых значений.

На основе проведенного анализа проводится кластеризация множества экспертов и, при необходимости, коррекция состава экспертной группы. При этом осуществляется возврат к предыдущим этапам алгоритма – п.8 или п.1.

При возврате к п.8 изменяются оценки лишь последней стадии экспертизы, а при необходимости возврата к п.1 – пересматриваются результаты всего про цесса. Таким образом, экспертиза носит адаптивный характер.

В завершение третьей стадии проводится окончательная кластеризация объектов. На практике возможны два варианта кластеризации, первый из них – кластеризация в многомерном пространстве признаков.

При этом результаты представляются и интерпретируются в виде дендро граммы. Второй вариант – кластеризация в одномерном или двумерном про странстве имеет большее распространение. Во-первых, существует ряд задач, которые требуют одномерного представления результатов, например, задачи скорингового анализа финансового состояния предприятий. Во-вторых, при использовании метода главных компонент, число этих компонент не превы шает 2-3, и поэтому двумерное представление вполне обосновано.

В заключение отметим, что при решении задач экспертизы кластериза ция исследуемых объектов осуществляется многократно: от начала процесса экспертизы (см. рис.2.2.1, 2.2.2) и до его окончания (см. рис.2.2.3). Поэтому кластеризацию следует считать необходимым элементом любой задачи экс пертного исследования.

Далее предложим единый подход к экспертизе и кластеризации, а так же рассмотрим последовательно основные стадии предлагаемого метода кла стерного сита: категоризация данных, критерий знаков, критерий Вилкоксо на, применение теории нечетких множеств, пример кластеризации финансо вых результатов конкретных предприятий.

2.3 Кластеризация по категориальным признакам Первым этапом предложенной выше процедуры кластерного сита яв ляется категоризация данных (см. рис.2.2.2). В качестве исходных данных выбирается небольшое число категориальных признаков объекта (2-3), но эти признаки считаются главными, фундаментальными для целей данной экспер тизы. Количество выделяемых кластеров при этом также получается неболь шим, однако эти кластеры являются определяющими для исследуемого мно жества объектов. Поэтому этот этап кластеризации является исключительно важным для выбора дальнейших методов исследования и формирования ито гового заключения экспертизы.

В качестве категориальных переменных обычно выбирают переменные (признаки), которые принципиально не могут быть представлены в виде чи словых значений. Иначе говоря, под категоризованными данными понима ются данные, представленные в виде частот наблюдений, попавших в неко торые категории (классы) [66, 117, 102, 8 и др.]. Установление статистиче ских связей, т.е. степени зависимости между упомянутыми признаками, вы раженными в категоризованной форме, представляет собой важную теорети ческую задачу.

Приведем следующий пример. При оценке степени предпочтительно сти инвестиционных проектов можно выделить три подхода к оценке: 1) рей тинговая комплексная оценка эффективности финансово-хозяйственной дея тельности;

2) сравнение количества аналогичных рентабельных организаций;

3) сравнение количества аналогичных платежеспособных организаций.

Заметим, что в двух последних случаях рассматриваются не абсолют ные значения рентабельности или платежеспособности предприятия, выра женные численно (тогда задача становится одномерной), а качественно:

«рентабельно – не рентабельно», «платежеспособно – не платежеспособно» и т.д. Иначе говоря, при оценке взаимозависимости между двумя признаками решаются непараметрические задачи.

Пусть в генеральной совокупности классификация произведена на ос новании наличия некоторого признака R (например, организация рентабель на) и другого признака P (например, организация платежеспособна). Обо значим через R отсутствие первого признака, а через P – отсутствие второ го. Тогда количества попаданий k аналогичных организаций в четыре воз можных подгруппы (ситуации) обозначим q ( A i ), где A i – события, являю щиеся произведениями RP, RP, R P, R P, соответственно. Эти ситуации мо гут быть представлены таблицей (табл. 2.3.1).

Напомним, что все эти ситуации возможны на практике: организация может быть рентабельной, но не платежеспособной или наоборот. Наиболь ший интерес, разумеется, представляет случай RP, когда организация и пла тежеспособна, и рентабельна, и финансово устойчива – при этом, как прави ло, можно считать, что между признаками R и P существует определенная взаимосвязь, однако степень этой взаимосвязи меняется в зависимости от вида деятельности и объема инвестиций. Введем показатель взаимосвязи упомянутых величин [ q( RP ) q( RP )][ q( R P ) q( RP )]. (2.3.1) q( RP ) k Таблица 2.3. Частоты произведения событий RP, RP, R P, R P События Сумма P P q (RP) q (R) q ( RP ) R q( R P) q( R P ) R q (R ) Сумма q (P) q (P ) k Будем считать [66, 102], что если 1, величины R, P положительно связаны;

если =1 – не связаны;

если 1 – отрицательно связаны. Можно убедиться, что для рассматриваемых признаков R и P наблюдается первое неравенство.

Меры связи категоризованных данных. Обозначим общее количест во объектов – k, а количество объектов, обладающих определенным свойст вом – q( ). После введения сокращенных обозначений a11 q( RP), a12 q( RP ), a21 q( R P), a22 q ( R P ), (2.3.2) где ( a 22 k ( a11 a12 a 21 ) ), коэффициент, характеризующий взаимосвязь признаков, примет вид:

( a11 a12 )( a 21 a11 ). (2.3.3) ka Разумеется, вместо рентабельности и платежеспособности могут ис пользоваться и другие как экономические, так и технические показатели или их разновидности: государственная или негосударственная форма собствен ности, финансовая устойчивость или неустойчивость предприятия, наличие или отсутствие определенного свойства товара, мужской или женский пол в социологии и т.д.

Для того, чтобы вводимая оценка зависимости была более согласован на с обычным коэффициентом корреляции, рассмотрим коэффициент кате гориальной корреляции a11a 22 a12 a D a11 a11. (2.3.4) k Тогда для независимых признаков D = 0, а для положительной и отрицатель ной зависимости D примет знаки «+» или «–», соответственно.

Согласно Кендаллу [66] используем в задаче обработки категоризован ных данных коэффициент связи:

a11 a 22 a12 a 21 kD Q. (2.3.5) a11 a 22 a12 a 21 a11 a 22 a12 a Возможно использование и четвертого показателя – коэффициента коллигации (сочетаемости) Y, связанного с коэффициентом связи Q выраже нием [66]:

2Y Q. (2.3.6) (1 Y 2 ) Предпочтительность того или иного показателя определяется свойст вами конкретной генеральной совокупности.

Найдем в предположении независимости стандартные ошибки ранее рассмотренных коэффициентов, тогда получаем [66]:

de d (q ( RP )) d (q( R P)) d (q( RP)) d (q ( R P )), (2.3.7) e q ( RP ) q( R P) q ( RP ) q( R P ) где q( RP )q( R P) e, (2.3.8) q( RP )q( R P ) откуда:

cov(u, v), De Du 2 (2.3.9) uv u e u u,v где u и v принимают значения q( RP), q( RP ), q( R P), q( R P ). Воспользуемся результатами, относящимися к мультиномиальному распределению, для ко торого:

q( RP )( k q( RP )) q( RP )q( RP ) D( q( RP )) cov( q( RP ),q( RP )).

, k k Подставляя эти значения в (2.3.7), находим 1 1 1 De e 2 ( ). (2.3.10) q( RP) q( RP ) q( R P) q( R P ) После преобразований из (2.3.10) получаем:

1 1 1 1 (1 Q 2 ) 2 ( DQ ), (2.3.11) 4 q( RP) q ( R P) q ( RP ) q( R P ) 1 1 1 1 2.3. DY (1 Y 2 )2 ( ).

16 q( RP ) q( R P ) q( RP ) q( R P ) В этих формулах предполагается, как это принято в случае больших выборок, что в выборочных дисперсиях могут быть использованы сами на блюдаемые частоты вместо их математических ожиданий.

В разделе 2.6 приведены основные показатели балансов реальных предприятий: «Финист», «Станкомаш», «Мебель Черноземья», «Кристалл».

Выбирая в качестве категориальных переменных рентабельность и платеже способность, мы получим следующие значения коэффициентов (2.3.2):

a11 2, a12 1, a 21 0, a 22 1.

Подставив эти значения в формулы (2.3.4), (2.3.5), рассчитаем величи ны коэффициента категориальной корреляции D и коэффициента взаимосвя зи :

= 0,75.

D = 0,5;

Как видим, величина D 0, что свидетельствует о положительной зави симости рентабельности и платежеспособности, а величина дает числен ную меру этой зависимости (0,75). Это совершенно соответствует интуитив ным представлениям.

Таким образом, метод категоризации данных оказывается вполне при емлемым и при небольшом количестве сравниваемых объектов.

2.4 Установление однородности объектов кластера Согласно предложенному в разделе 2.2 кластерно-иерархическому подходу, начальное разбиение m-мерного пространства признаков на отдель ные кластеры может осуществляться различными способами.

1. Для сложных и ответственных проектов следует использовать рас смотренный выше метод категоризации данных, позволяющий осуществить кластеризацию по главным признакам.

2. Для более простых задач достаточно ограничиться методикой вы числения евклидовых расстояний между векторами признаков (характери стическими векторами), представленной в разделе 1.3.

3. На основе предварительной экспертизы, статистической обработки векторов оценок экспертов и вычисления их взаимно-корреляционной мат рицы.

4. На основе известных априори данных о соотношении некоторых признаков сравниваемых объектов.

5. Путем комбинации перечисленных выше приемов или другими спо собами.

Однако после выполнения любой из перечисленных выше процедур требуется оценить степень близости (однородность) объектов в каждом кла стере. Кардинальный ответ на этот вопрос дает вычисление обобщенной мат рицы дисперсии Dобщ характеристических векторов для каждого кластера как определителя корреляционной матрицы [75]. Однако процедура эта до вольно трудоемкая, а во многих случаях требуется оперативно найти при ближенную оценку однородности объектов. Такая оценка тем более оправда на, поскольку согласно предложенному кластерно-иерархическому подходу, выделенные первоначально кластеры все равно будут подвергаться в даль нейшем «более тонкой» процедуре статистической обработки векторов оце нок экспертов.

Для проверки гипотезы об однородности объектов экспертизы, пред ложим использовать свободный от распределения статистики критерий зна ков или критерий Вилкоксона. Теоретическим и практическим вопросам применения этих критериев посвящен ряд публикаций [66, 67, 160, 102, 8 и др.].

Критерий знаков. Пусть для оценки однородности двух объектов вы брано m признаков: x11), x 21),..., x m ) – для первого объекта;

x1 2), x 22),..., x m2) – ( ( ( ( ( ( для второго. Для критерия знаков ситуации x i(1) x i( 2) (2.4.1) приписывается знак «+», или +1, а ситуации x i(1) x i( 2) (2.4.2) – знак «–», или –1.

Пусть, что функция распределения наблюдений F(x) и F(X P ) p, (2.4.3) тогда Хр есть р-квантиль этого распределения. Для любого р, 0 р 1, значе ние Хр есть характеристика положения распределения. Проверим гипотезу H 0 : X P x0, (2.4.4) где x 0 – некоторое заданное значение (если для удобства принять x0 за начало отсчета, то мы хотим проверить равенство Хр нулю.) Пусть имеется выборка из n наблюдений, тогда выборочная функция распределения будет сходиться по вероятности к функции распределения на блюдений. Покажем отношение между порядковыми статистиками x(1), x(2),..., x(n) и значением Хр, подлежащим проверке [102], а также найдем сколько наблюдений в выборке попадает ниже x0, и образуем статистику n n S h( x 0 x ( i ) ) h( x 0 x i ), (2.4.5) i 1 i Статистика S считает число положительных значений среди разностей (x0-xi), и поэтому критерий, основанный на S, называется критерием знаков.

Очевидно, что S имеет биномиальное распределение, так как S есть сумма n независимых наблюдений над (0-1) – случайной величиной h(x0 - x) с вероят ностью P{h( x 0 x) 1} P{x x 0 }.

Обозначим P{xix0} = P. Гипотеза (2.4.4) сводится к H0 : P p, (2.4.6) и проверяем гипотезу о биномиальном параметре Р, а также рассмотрим од носторонние или двусторонние альтернативы к гипотезе (2.4.6).

При проверке гипотезы P 1 / 2, нужно сравнить значение 1 1 S n / n1 / 2 (2.4.7) 2 с подходящим стандартным нормальным отклонением.

Приближенную мощность критерия знаков можно рассчитать с помо щью нормальной аппроксимации. Пренебрегая поправкой на непрерывность, поскольку она мала при больших выборках. Видим, что критической обла стью одностороннего критерия для P 1 / 2 против P 1 / 2 является 1 S n d n1 / 2, 2 где d – подходящее нормальное отклонение для критерия размером. Сле довательно, функция мощности приближенно равна [102]:

1 ( u nP ) 1 / { 2nP( 1 P )} Q1 ( P ) exp du 2 nP( 1 P ) n d n1 / 1/ 2 1 n P 2 2 d, (2.4.8) ( 2 ) 1 / 2 exp( t 2 )dt G [ P( 1 P )] 1 / 2 1 n1 / 2 P d 2 { P( 1 P )}1 / где G{x} – нормальная функция распределения. Из (2.4.8) следует, что при n мощность стремится к 1 для любого P 1/2. Поэтому критерий со стоятелен.

Функция мощности двустороннего симметричного критерия с критиче ской областью 1 S n d / 2 n1 / 2 равна 1/ 2 1/ 2 1 1 1 n P 2 2 d / 2 n 2 P 2 d / Q2 ( P ) G G (2.4.9) [ P(1 P)] [ P(1 P)] 1/ 2 1/ и стремится к 1 для любого P 1 / 2 при n. Таким образом, устанавли вается состоятельность двустороннего критерия против общих альтернатив.

Функции мощности (2.4.8) и (2.4.9) выражаются через значение Р, за даваемое альтернативной гипотезой и если теперь желаем рассматривать эф фективность критерия знаков в конкретных ситуациях, нам нужна дальней шая конкретизация распределения. Вернемся к первоначальной формули ровке гипотезы (2.4.4) и ограничимся случаем медианы X0,5, которую будем обозначать Мe. Задача состоит в проверке гипотезы H 0 : Me M 0. (2.4.10) Функция распределения наблюдений, как и раньше, равна F(x), а плот ность распределения равна f(x). Покажем формулу для значения Р M f ( x )dx.

P F( M 0 ) (2.4.11) Если нас интересует относительная эффективность критерия знаков, когда известно, что функция распределения F симметрична, так что ее сред нее и медиана Me совпадают, то проверим гипотезу (2.4.10), пользуясь в ка честве статистики критерия выборочным средним x [66]. Когда F имеет ко нечную дисперсию 2 и x асимптотически нормально со средним m и дис персией 2 n, тогда при больших выборках оно эквивалентно статистике Стьюдента M( x | m ) m n. (2.4.12) D( x | m ) Для статистики критерия знаков нам будет удобно принять m за начало отсчета, тогда M 0 m f ( x )dx.

M( S | P ) nP n В первоначальной системе отсчета M( S | m ) m m M 4n f ( m )2 (2.4.13) D( S | M 0 ) Из (2.4.12), (2.4.13) находим, что эффективность критерия знаков рав на AS, x 4 2 { f ( m )} 2. (2.4.14) Ясно, что (2.4.14) не имеет ненулевой нижней границы, поскольку мы можем иметь для медианной ординаты f(Mе) = 0. В нормальном случае f ( Mе ) ( 2 2 ) 1 / 2, так что (2.4.14) принимает значение 2 /. Поскольку мы проверяем здесь симметрию относительно M 0, мы можем использовать критерий Вилкоксона, имеющий асимптотическую относительную эффек тивность (АОЭ), равную в нормальном случае и всегда превышающую 3/ 0,864 [66].

Расширение области применения критериев в экономике. Рассмот ренные выше критерий знаков могут эффективно применяться для установ ления однородности объектов в каждом кластере. Предложим следующие ва рианты использования этих критериев в решении экономических задач.

1. Установление однородности товаров (работ, услуг). Естественным применением упомянутых критериев представляется проверка идентичности или однородности товаров в целях налогообложения.

Принципы определения цены товаров, работ или услуг устанавливают ся ст. 40 Налогового кодекса (НК) РФ [104]. В общем случае для целей нало гообложения принимается цена товаров, работ или услуг, указанная сторо нами сделки. Пока не доказано обратное, предполагается, что эта цена соот ветствует уровню рыночных цен. Налоговые вправе проверять правильность применения цен в следующих случаях: 1) между взаимозависимыми лицами;

2) по товарообменным (бартерным) операциям;

3) при совершении внешне торговых сделок;

4) при отклонении более чем на 20 процентов в сторону по вышения или в сторону понижения от уровня цен, применяемых налогопла тельщиком по идентичным (однородным) товарам (работам, услугам).

Для проверки последнего условия в ст. 40 НК РФ вводятся понятия идентичности и однородности, однако не дается никаких рекомендаций для проверки этих качеств. Идентичными признаются товары, имеющие одина ковые, характерные для них, признаки (ст. 40 НК РФ). Однородными при знаются товары, которые, не являясь идентичными, имеют сходные характе ристики и состоят из схожих компонентов, что позволяет им выполнять одни и те же функции и (или) быть коммерчески взаимозаменяемыми (ст. 40 НК РФ). При определении однородности товаров учитываются, в частности, их качество, наличие товарного знака, репутация на рынке, страна происхожде ния.

Использование критерия знаков после их модификации позволит за крыть эту проблему в налогообложении, предлагая эффективную методику установления идентичности или однородности.

2. Множественная кластеризация. Стандартные постановки задач обо их критериев предполагают лишь установление однородности (или неодно родности) объектов. Расширим постановку задачи, предполагая деление ис следуемого множества объектов не на два, а на несколько кластеров на при мере модифицированного критерия знаков, несколько изменив соответст вующие условия (2.4.1), (2.4.2).

Пусть для оценки однородности двух объектов выбрано m признаков:

x11), x 21),..., x m ) – для первого объекта;

x1 2), x 22),..., x m2) – для второго. Для ( ( ( ( ( ( критерия знаков ситуации x i(1) x i( 2) (2.4.15) припишем число 1, а ситуации x i(1) x i( 2) (2.4.16) – число 0. В том случае, если соответствующие признаки не могут быть со поставлены количественно, под символом «» или «» в этих формулах по нимается «лучше» или «хуже».

Введенные изменения отличают постановку задачи (2.4.15)-(2.4.16) от соответствующих постановок задач как в критерии знаков, так и в критерии Вилкоксона. В формулах (2.4.1)-(2.4.2) критерия знаков предполагается, что упомянутым случаям приписываются значения +1 или –1. Однако, в теории экспертных систем более предпочтительно изменение показателя в диапазоне [0, 1]. Кроме того, в стандартных постановках экспертных задач принято сравнение объектов с одинаковым числом m сравниваемых признаков, а в критерии Вилкоксона объемы сравниваемых выборок, как правило, различ ны.


После принятия условий (2.4.15), (2.4.16) векторы сравнений X l x1l, x 2l,..., x m l (2.4.17) различных объектов l 1,2,..., k будут содержать только нули или единицы и для определения их различия предложим использовать два подхода.

Первый алгоритм. Непосредственно учитывать предпочтения элемен тов характеристического вектора одного объекта перед другим (т.е. опреде лять сумму nls единиц предпочтений l го объекта перед s ым) и вычислять коэффициент предпочтения nls k пр,ls. (2.4.18) m Далее следует построить матрицу предпочтений аналогично тому, как мы поступали в первой главе (см. формулу 1.3.4). Однако эта матрица уже не будет симметричной, поскольку коэффициент предпочтения не обладает свойствами метрики (для него не выполняется аксиома симметрии). При по парном сравнении объектов возникают трудности интерпретации получен ных результатов.

Приведем следующий пример. В статье авторов [24] анализировалась структура капитала четырех предприятий: «Финист», «Станкомаш», «Мебель Черноземья», «Кристалл». Были рассчитаны финансовые коэффициенты ча стные и обобщенный показатели структуры капитала. На основании этих расчетов установлено, что первые два предприятия находятся в состоянии, близком к кризисному. Предприятие «Кристалл» находится в нормальном финансовом состоянии, а «Мебель Черноземья» – в чрезвычайно благопо лучном состоянии. Т.е. по данным расчетов образуются два кластера по два предприятия.

Однако, если мы применим сравнение этих предприятий попарно на основе коэффициента (2.3.34), то получим ошибку. Как два первых, так и нормальное четвертое предприятие будут отнесены к одному кластеру. Это объясняется тем, что чрезвычайно благополучное третье предприятие просто «подавит» все остальные.

Для того, чтобы избежать такой ситуации, введем понятие нормализо ванного вектора финансовых коэффициентов U 1 U 5, установив величины этих коэффициентов на границе нормальных ограничений, известных из ли тературы [4, 48]. При этом мы будем сравнивать эти коэффициенты не по парно, а с этим нормализованным вектором. Соответственно изменится и коэффициент предпочтения:

n l,норм k l,норм. (2.4.19) m Непосредственная проверка позволяет установить, что сравнение с нормализованным вектором и использование коэффициента (2.4.18) дает правильное разбиение финансового состояния предприятий на кластеры.

Предложенный алгоритм интуитивно понятен, требует простых вычис лений и может быть рекомендован для ускоренного приближенного разбие ния множества объектов на кластеры.

Второй алгоритм. С учетом введенных условий (2.4.15), (2.4.16) пред ложим использовать для кластеризации метрику Хемминга.

3. Расстояние Хемминга как критерий кластеризации. Метрика Хем минга – число позиций, в которых соответствующие символы двух слов оди наковой длины различны. В общем случае расстояние Хемминга применяет ся для строк одинаковой длины любых q-ичных алфавитов и служит мерой различия (функцией, определяющей расстояние в метрическом пространстве) объектов одинаковой размерности [164].

Первоначально метрика была сформулирована Ричардом Хеммингом во время его работы в Bell Labs для определения меры различия между кодо выми комбинациями (двоичными векторами) в векторном пространстве ко довых последовательностей, в этом случае расстоянием Хемминга d x, y между двумя двоичными последовательностями (векторами) x и y длины m называется число позиций, в которых они различны. В отличие от введенного ранее обычного обозначения метрики, для метрики Хемминга мы в даль нейшем будем использовать обозначение d :

m d x, y x i y i mod 2. (2.4.20) i Нетрудно убедиться (см. табл.1.3.5), что в двоичном случае расстояние Хэмминга является частным случаем метрики Минковского m d x, y xi y i. (2.4.21) i Расстояние Хэмминга обладает всеми свойствами метрики [87].

Вернемся к рассмотренному выше примеру оценки структуры четырех предприятий. В статье [24] для этих предприятий были рассчитаны финансо вые коэффициенты структуры капитала U 1 U 5.

Сравнивая рассчитанные значения этих коэффициентов с соответст вующими границами нормальных ограничений U iн, можно выделить со гласно условиям (2.4.15), (2.4.16) следующие ситуации: если рассчитанное значение U i удовлетворяет нормальному ограничению – ситуации присваи вается оценка 1, если не удовлетворяет – оценка 0 (табл. 2.4.1).

Таблица 2.4. Соответствие коэффициентов структуры капитала нормативам В последней строке (см. табл. 2.4.1) приведены вычисленные расстоя ния Хемминга между характеристическими векторами рассмотренных пред приятий X l и вектором X норм, элементами которого являются соответст вующие границы нормальных ограничений.

Как видим, мы получили два кластера: в один входят предприятия «Мебель Черноземья» и «Кристалл» которые близки между собой и практи чески удовлетворяют нормальным ограничениям, а во второй – предприятия «Финист» и «Станкомаш», которые очень далеки от нормального финансово го состояния.

Итак, оба предложенных алгоритма кластеризации дали качественно одинаковые результаты, правильность которых подтверждается исследова нием обобщенного показателя структуры капитала, проведенного в статье [24].

2.5. Нечетко-множественная кластеризация Основы теории нечетких множеств заложены Л. Заде (L. Zadeh) [58] и развиты в ряде теоретических работ А. Кофмана (A. Kaufmann) [74], Х.

Зиммермана (Zimmermann H.J.) [226], Т. Саати (T. Saaty) [142], А.И. Орлова [117], С.Л. Блюмина [110], А.П. Рыжова [141], Н.В. Дилигенского [47], А.О. Недосекина [107] и других авторов. Практические вопросы нечетко множественной кластеризации рассматривались в работах [34, 43, 141, 171, 193 и др.].

Выбор функции принадлежности. Ключевым понятием в решении нечетко-множественных задач является понятие функции принадлежности.

Рассмотрим далее некоторые подходы к определению этой функции.

Пусть X – некоторое множество элементов x, и А : X [0,1]. Не четким подмножеством А в X называется график отображения А, то есть множество вида ( x, A x ) : x X ;

при этом значение A x называется степенью принадлежности x к А.

При анализе и синтезе нечетких систем используются различные его частные случаи. Приведем два примера функций принадлежностей нечетких множеств [141]: так называемые S – функции и –функции, задаваемые следующим образом:

x, 0 для x 2 x, для S x;

,, (2.5.1) 1 2 x x, для 1 x.

для График этой функции – кривая, плавно возрастающая от 0 (при x ) до 1 (при x ) с перегибом в точке x.

S x;

, 2, x, для x;

, (2.5.2) S x;

, 2, x.

для График этой функции – колоколообразная кривая с максимумом, рав ным 1, при значении x.

Для частного случая, когда X является подмножеством числовой пря мой, часто используются нечеткие множества (L-R) – типа. Функции принад лежности для таких множеств задаются с помощью невозрастающих функ ций L и R, удовлетворяющих следующим требованиям: L0 R0 1.

Функция принадлежности нечеткого множества А, имеющая (L- R) – тип, задается следующим образом:

a1 x L a при x a1, a L 0;

L A ( x ) R x a при x a 2, a R 0;

aR (2.5.3) при x a1, a 2.

График этой функции имеет восходящую (левую) ветвь, нисходящую (правую) ветвь и плоскую часть при x a1, a 2.

Зачастую отрезок [ a1, a 2 ] называют интервалом толерантности, a границы a L, a R – левым и правым коэффициентом нечеткости, соответст венно. Рассмотренные ранее функции принадлежности S – и – типа являют ся частными случаями функций (L-R) – типа.

Другим примером функций принадлежности (L-R) – типа, используе мых далее, является предположение, что L и R являются линейными. В этом случае имеем:

x aL ;

0 при x aL при a L x a1 ;

a a 1 L A( x ) 1 при a1 x a 2 ;

(2.5.4) aR x при a 2 x a R ;

a a R0 2 x aR.

при Такие функции принадлежности будем называть линейными функция ми принадлежности (L-R) – типа. Линейные функции принадлежности (L-R) – типа при условии a1 a 2 называются трапецеидальными, а при условии a1 a 2 a – треугольными.

В работе [141] анализируются различные попытки обобщения функции принадлежности A x, в частности, изменения ее области значений [0, 1].

Однако нам представляется что использование упомянутого отрезка для оценки степени принадлежности вполне естественно из-за наглядной интер претации: 0 – полная непринадлежность элемента универсума нечеткому множеству, 1 – его полная принадлежность. Кроме того, вводится понятие множества принадлежностей X i x и дается расширение самого определения нечеткого множества.

Анализируя рассмотренные выше способы введения функций принад лежности (2.5.1) – (2.5.4), можно сделать вывод о целесообразности исполь зования при экспертизе трапецеидальных функций. В теории и практике экс пертных систем основные погрешности оценивания связаны совсем не с формой A x, а с другими факторами (несогласованностью группы экспер тов, неправильным выбором показателя качества, ошибками экспертов и т.д.). Поэтому разумно выбрать форму A x из соображений максимального удобства использования.

Сказанное выше относится к задаче одномерной кластеризации. В случае нечеткой многомерной кластеризации в качестве функции принад лежности, по-видимому, наиболее предпочтительно использовать нормиро ванную плотность m - мерного нормального распределения.

Расстояния в нечетких множествах. Пространство характеристиче ских векторов X является метрическим пространством. Различные варианты расстояний в таких пространствах были представлены в первой главе (см.

табл. 1.3.5). Однако в нечетких множествах понятие состояния требует обобщения.

Приведем далее четыре наиболее употребительных определения рас стояний между нечеткими множествами A, B, которые по-прежнему удовле творяют аксиомам метрики (2.4.38). Соответствующие функции принадлеж ности обозначим A x, B x.


1. Евклидовое расстояние m A, B A ( xi ) B ( xi ). (2.5.5) i 2. Относительное евклидовое расстояние 1m m A, B A ( xi ) B ( xi ) (2.5.6) т i 3. Расстояние Хемминга m d A, B A ( x i ) B ( x i ). (2.5.7) i 4. Относительное расстояние Хемминга 1m d m A, B A ( xi ) B ( xi ). (2.5.8) m i После введения понятия расстояния между нечеткими множествами можно использовать метрический подход к измерению степени нечеткости множеств [141]. Идея метрического подхода заключается в оценке степени нечеткости как расстояния между оцениваемым множеством и некоторым множеством с известной степенью нечеткости.

Пусть А - нечеткое множество. Обычное (четкое) множество A с функцией принадлежности если A ( x ) 0,5;

0, A( x ) 1 если A ( x ) 0,5;

(2.5.9) 0 или 1, если A ( x ) 0,5.

называется ближайшим к нечеткому множеству А. Смысл этого определения состоит во введении искусственного множества A со скачкообразной функ цией принадлежности.

Введем понятие базисного множества А*, под которым будем понимать некоторое множество с известной степенью нечеткости. Возможны два пре дельных варианта выбора такого множества:

1. А* = A. Это множество определяется множеством А и имеет сте пень нечеткости, равную нулю. Введенное множество может служить крите рием: чем больше расстояние от некоторого множества до его ближайшего четкого множества, тем больше степень его нечеткости.

2. А* = A 0,5, где A o,5 ( x ) = 0.5, x X. Это максимально нечеткое множество, поскольку относительно любого элемента x нельзя утверждать, принадлежит ли он множеству A или не принадлежит. Введенное множество может служить критерием: чем ближе к нему некоторое нечеткое множество, тем больше степень его нечеткости.

Теперь можно сформулировать определение степени нечеткости множества.

Пусть f – некоторая монотонная функция, ( x, y ) – метрика в множе стве принадлежностей x, А* –- некоторое базисное множество с извест ной степенью нечеткости, тогда степенью нечеткости A нечеткого множе ства А называется значение A f A, A.

Функция f подбирается для удовлетворения некоторым естественным требованиям для степени нечеткости, которые определяются конкретно для каждой задачи. Примерами таких требований могут быть изменение степени нечеткости в пределах от 0 до 1, равенство степени нечеткости нулю для обычного множества и т.п.

Алгоритмы нечеткой кластеризации. Исходной информацией для кластеризации является матрица наблюдений x11... x1m x... x 2 m X x 21 x 22 (2.5.10)......

......

x... x km k1 xk каждая строка которой представляет собой значения m признаков одного из k объектов кластеризации.

Задача кластеризации состоит в разбиении объектов из X на не сколько подмножеств (кластеров), в которых объекты более схожи между со бой, чем с объектами из других кластеров. Расстояние может рассчитываться как между исходными объектами (строками матрицы X ), так и от этих объ ектов к прототипу кластеров.

Четкие методы кластеризации разбивают исходное множество объек тов на несколько непересекающихся подмножеств. При этом любой объект из X принадлежит только одному кластеру. Нечеткие методы кластеризации позволяют одному и тому же объекту принадлежать одновременно несколь ким (или даже всем) кластерам, но с различной степенью.

Существует логическая связь четкой кластеризации алгоритмом c средних и базового нечеткого алгоритма c-средних. Поэтому их следует рас сматривать последовательно [175].

При кластеризации алгоритмом c-средних множество X разбивается на подмножества Ai, i 1,2,..., c со следующими свойствами:

c X;

Ai (2.5.11) i _ Ai A j, i, j 1, c, i j ;

(2.5.12) A i X, i 1, c. (2.5.13) Условие (2.5.11) указывает, что все объекты должны быть распределе ны по кластерам. При этом, каждый объект должен принадлежать только од ному кластеру (условие (2.5.12) ) и ни один из кластеров не может быть пус тым или содержать все объекты (условие (2.5.13). Количество кластеров с 2,3,..., k 1 задается до начала работы алгоритма.

Задачу кластеризации удобно формулировать, используя характери стическую функцию. Характеристическая функция может принимать два значения: 0 – если элемент не принадлежит кластеру, и 1 – если элемент при надлежит кластеру. Используя характеристическую функцию, опишем кла стеры следующей матрицей разбиения:

_ _ U u li, u li 0,1, l 1, k, i 1, c, (2.5.14) где l – ая строка матрицы U указывает на принадлежность l го объекта X l ( xl1, x l 2,..., xlm ) к кластерам A1, A2,..., Ac. Матрица U должна обладать следующими свойствами:

_ c uli 1, l 1, k ;

(2.5.15) i _ k 0 u li k, i 1, c. (2.5.16) l Для оценки качества разбиения используется критерий разброса, показы вающий сумму расстояний от объектов до центра своего кластера. Для евк лидового пространства этот критерий записывается так [175]:

c Vi X l, (2.5.17) i 1 X l Si S i X p, u pi 1, p 1, k – i ый кластер;

где Xl Vi – центр i ого кластера.

Si X l Si Кластеризацию объектов X можно сформулировать как следующую задачу оптимизации: найти матрицу U, минимизирующую значение крите рия (2.5.17). Дискретный характер четкого разбиения приводит к трудностям нахождения оптимальной кластеризации из-за негладкости целевой функции.

Рассмотренный выше алгоритм с-средних является основой базового алгоритма нечетких c-средних [175]. Нечеткие кластеры описываются сле дующей матрицей нечеткого разбиения (матрицей принадлежности):

_ _ F li, li 0,1, l 1, k, i 1, c, (2.5.18) в которой k-ая строка содержит степени принадлежности объекта X l к кла стерам A1, A2,..., Ac. Единственным отличием матриц F и U является то, что при нечетком разбиении степень принадлежности объекта к кластеру прини мает значения из интервала [0, 1], а при четком – из двухэлементного множе ства {0, 1}. Аналогичные (2.5.15) – (2.5.15), условия для матрицы нечеткого разбиения записываются так:

_ c li 1, l 1, k ;

(2.5.19) i _ k 0 li k, i 1,c. (2.5.20) l Нечеткое разбиение позволяет просто решить проблему объектов, рас положенных на границе двух кластеров – им назначают степени принадлеж ностей, равные 0.5. Недостаток нечеткого разбиения проявляется при работе с объектами, удаленными от центров всех кластеров. Удаленные объекты имеют мало общего с любым из кластеров, поэтому интуитивно хочется на значить для них малые степени принадлежности. Однако, по условию (2.5.19) сумма их степеней принадлежностей такая же, как и для объектов, близких к центрам кластеров, т.е. равна единице. Для устранения этого недостатка можно использовать возможностное разбиение, которое требует только, что бы произвольный объект из X принадлежал хотя бы одному кластеру. Воз можностное разбиение получается следующим ослаблением условия (2.5.19):

i, li 0, k.

Для оценки качества нечеткого разбиения можно использовать такой критерий разброса:

k li Xl r c k li l Vi X l, где Vi r. (2.5.21) k li i 1 l 1 r l Здесь: Vi – центры нечетких кластеров;

r 1 – экспоненциальный вес, опре деляющий нечеткость, «размазанность» кластеров.

Нахождение матрицы нечеткого разбиения F с минимальным значени ем критерия (2.5.21) представляет собой задачу нелинейной оптимизации, которая может быть решена разными методами. Наиболее известный и часто применяемый метод решения этой задачи – алгоритм нечетких c-средних, в основу которого положен метод неопределенных множителей Лагранжа. Он позволяет найти локальный оптимум, поэтому выполнение алгоритма из раз личных начальных точек может привести к разным результатам. Алгоритм нечетких c-средних представлен в работе [175].

В алгоритме самым важным параметром является количество класте ров c. Правильно выбрать количество кластеров для реальных задач без ка кой-либо априорной информации о структуре данных достаточно сложно.

Для решения этой задачи мы предложим свой подход, основанный на проце дуре категоризации данных.

Метод категориальной иерархии. Для использования рассмотренного выше алгоритма с-средних необходимо задание числа кластеров с. Однако априорная оценка числа кластеров желательна и при использовании других алгоритмов, поскольку повышает итоговую точность кластеризации. Как бы ло отмечено выше, определение числа кластеров является весьма затрудни тельной задачей.

Для преодоления этих затруднений предложим метод категориальной иерархии, существо которого поясняется рис. 2.5.1. Метод основан на рас смотренной выше (см. раздел 2.3) процедуре категоризации данных. Соглас но этой процедуре, вначале выделяются два основных (главных) признака объекта экспертизы R, P, а затем множество объектов разбивается на четыре класса: RP, RP, R P, R P, где символами R, P обозначается отсутствие соот ветствующий признаков. В разделе 2.3 рассматривается случай наличия ка тегоризующей переменной, который приводит к разбиению исходного мно жества данных на 8 кластеров. Последовательное применение процедуры ка тегоризации приводит к разбиению исходного множества на 16 кластеров и т.д.

На верхнем уровне иерархии (см. рис. 2.5.1) выбираются признаки R, P, которые экспертами признаются главными для сравниваемых объек тов. На втором уровне выбираются признаки ( S,T ), которые признаются главными для каждого из выделенных четырех кластеров, на третьем – U,V и т.д.

Рис. 2.5.1. Нечетко-множественная иерархия основных признаков Обычно достаточно ограничиться тремя уровнями, поскольку макси мально возможное при этом количество кластеров равно 64. На самом деле с 64, поскольку некоторые из кластеров могут оказаться пустыми.

На каждом из уровней используются функции принадлежности и принята следующая система обозначений: Z i – функция принадлежности признака Z на i ом уровне иерархии.

Рассмотрим пример оценки финансового состояния предприятия.

Предлагаемый алгоритм категориальной иерархии включает три этапа.

1 этап. Выберем основные показатели финансового состояния пред приятия: рентабельность, платежеспособность, степень покрытия запасов ис точниками их формирования, структуру капитала, деловую активность, ры ночную активность Как известно [4,28], каждый из этих показателей определяется через множество коэффициентов. Коэффициенты неоднозначны, часть из них кор релированны с другими, иногда они изменяются разнонаправлено. Поэтому для оценки упомянутых показателей можно использовать два приема:

а) вместо множества коэффициентов, характеризующих конкретный показатель выбрать один, наиболее информативный. Например, при оценке платежеспособности выбрать коэффициент текущей ликвидности L4 или ко эффициент общей платежеспособности L1 ;

б) ввести обобщенные показатели платежеспособности, структуры ка питала и др. так, как это сделано в работах [21, 24].

В любом из этих случаев можно будет для оценки каждого показателя использовать не множество разрозненных коэффициентов, а единый обоб щенный признак.

2 этап. На первом уровне иерархии в качестве главных признаков вы берем рентабельность R и платежеспособность P. На втором уровне в каче стве главных признаков выберем степень покрытия запасов S и структуру ка питала T. На третьем уровне иерархии выберем деловую активность U и рыночную активность V.

В итоге мы получим до 64 кластеров (на самом деле количество кла стеров будет гораздо меньше, поскольку некоторые кластеры не будут со держать ни одного объекта).

3 этап. Определенное на предыдущем этапе количество кластеров с может служить исходной информацией для последующего применения мето да с-средних или любого другого метода детальной кластеризации.

В разделе 2.2 был предложен комплексный кластерно-иерархический подход к экспертизе сложных объектов. Рассмотренный выше метод катего риальной иерархии служит основой для дальнейшей углубленной кластери зации. Последнее подтверждает нашу мысль о том, что при серьезном экс пертном исследовании методы кластеризации и иерархии должны следовать друг за другом, перемежаться.

Глава 3. КЛАСТЕРИЗАЦИЯ И ИЕРАРХИЯ ПРИЗНАКОВ ОБЪЕКТА ЭКСПЕРТИЗЫ 3.1. Функционал взвешенного суммирования в нормированных пространствах Как было отмечено во втором разделе, при проведении сложной и от ветственной экспертизы неоднократно приходится осуществлять кластериза цию, а последовательное выполнение этапов экспертизы само собой пред ставляет собой определенную иерархию и зачастую требует использования метода анализа иерархий (МАИ). В этом существо предложенного кластерно иерархического подхода (см. раздел 2.2).

Для более детального анализа и достижения максимальной объектив ности оценок экспертов свойства каждого объекта экспертизы разлагаются на ряд признаков x j, j 1,2,..., m. Поэтому задача экспертизы является част ным случаем задачи многокритериального оценивания, а на последних эта пах требует применения методов многомерной статистики.

Для анализа множества сравниваемых объектов важнейшее значение имеет рациональный выбор показателя качества объекта экспертизы. В из вестной литературе в области теории экспертных систем рассматриваются различные подходы к решению этой проблемы [47, 85, 108, 163, 179 и др.].

Однако большинство исследователей приходит к выводу, что на заключи тельном этапе экспертизы целесообразен переход от многомерного оценива ния в множестве R m к построению единого показателя в множестве R 1 или рейтингового числа. Такой переход обычно называют «сверткой критериев».

В экономике предпочтительность использования в качестве обобщен ного показателя рейтинговых чисел подчеркивается в ряде работ [28, 47, 48, 73, 128 и др.]. Наиболее известным примером является пятифакторный пока затель Альтмана оценки вероятности банкротства, представляющий собой линейную комбинацию пяти признаков, весовые коэффициенты при которых определены на основе статистического анализа множества предприятий.

Другим примером является метод балльной оценки финансового состояния предприятий, наиболее эффективной реализацией которого является скорин говый анализ [73, 128, 26].

Таким образом, вместо раздельного рассмотрения множества призна ков (критериев) в качестве показателя качества обычно рассматривают их взвешенную сумму m vj J x j vT x, (3.1.1) j где v – вектор весовых коэффициентов;

v, x R m.

Однако в теории и практике экспертизы возникает ряд задач, которые требуют обобщения показателя (3.1.1) в рамках развиваемой методики: нор мировка отдельных признаков, нормировка различных кластеров признако вого пространства, учет возможной взаимосвязи признаков, введение функ ций принадлежности при переходе к нечетко-множественному показателю качества и др. Поэтому предложим обобщение показателя (3.1.1) в следую щем виде J A v T B x, (3.1.2) где A – линейный матричный оператор, учитывающий возможную взаимо связь признаков, межластерный приоритет признаков, внутрикластерный приоритет признаков, A R mm ;

B – линейный матричный оператор, учиты вающий нормировку признаков, функции принадлежности при построении нечетко-множественного показателя J, B R mm. Конкретный вид матрич ных операторов A, B для различных детерминированных и нечетко множественных задач экспертизы приведем в разделе 3.2.

Воспользовавшись некоторыми результатами функционального анали за [69, 87, 157], рассмотрим математические свойства показателей (3.1.1), (3.1.2).

В предыдущих разделах мы использовали понятие множества векто ров признаков X X i. Однако понятие «множества» становится для нас особенно полезным лишь после того, как ему придается определенная струк тура. Множество, наделенное определенной структурой, т. е. множество с ус тановленными соотношениями между его элементами или операциями над ними, в функциональном анализе называют «пространством» [157].

Свойства линейного пространства векторов оценок. В общем слу чае совокупность всевозможных систем m чисел (оценок экспертов) x x1, x 2,..., x m, где сложение и умножение на число определяются формулами x y x1 y1, x2 y2,..., xm ym, x x1, x 2,..., x m являет ся частным случаем линейного пространства L. Оно называется действи тельным m -мерным арифметическим пространством и обозначается симво лом Rm. Итак, векторы оценок экспертов образуют линейное пространство.

Для теории экспертизы большое значение имеет понятие изоморфизма.

Линейные пространства L и L* называются изоморфными, если между их элементами можно установить взаимно однозначное соответствие, которое согласовано с операциями в L и L*. Это означает, что из x x и y y следует x y x y ;

x x ( – произвольное число).

В дальнейшем для каждого из признаков xi будет введена своя норми ровка (например, делением на максимальное значение признака по группе сравниваемых объектов экспертизы). При этом важным обстоятельством яв ляется то, что пространство признаков X и пространство нормированных признаков X j объекта экспертизы являются изоморфными.

x Как известно [69], элементы x j линейного пространства L называют ся линейно зависимыми, если существуют такие числа j, не все равные 0, m jxj 0. В противном случае эти элементы называются линейно не что j зависимыми. Иначе говоря, элементы x j линейно независимы, если из по следнего равенства вытекает, что j = 0 для любого j.

Для теории и практики экспертизы важным является вопрос о размер ности пространства векторов оценок. Если в пространстве L можно найти m линейно независимых элементов, а любые m 1 элементов этого пространст ва линейно зависимы, то говорят, что пространство L имеет размерность m.

Базисом в m -мерном пространстве L называется любая система из m линей но независимых элементов.

Однако в силу коррелированности векторов оценок экспертов размер ность их пространства X оказывается значительно меньше, чем m. Проблема снижения размерности пространства оценок рассматривается в работах [2, 192], а эффективным путем ее решения является метод главных компонент [49, 124]. Позитивным результатом для практики экспертизы является значи тельное уменьшение требуемого количества экспертов.

Непустое подмножество L' линейного пространства L называется под пространством, если оно само образует линейное пространство по отноше нию к определенным в L операциям сложения и умножения на число. Иначе говоря, L L есть подпространство, если из x L, y L следует, что x y L при любых и.

В основе кластеризации объектов по совокупности признаков экспер тизы лежит понятие фактор-пространства. Пусть L – линейное пространство, и L' – некоторое его подпространство. Скажем, что два элемента х и у из L эк вивалентны, если их разность х – у принадлежит L'. Это отношение рефлек сивно, симметрично и транзитивно, т. е. определяет разбиение всех x L на классы. Класс эквивалентных элементов называется классом смежности по подпространству L'. Совокупность всех таких классов мы назовем фактор пространством L пo L' и обозначим L / L'.

Известно [69], что если L – пространство m измерений, а его подпро странство L' имеет размерность r, то фактор-пространство L / L' имеет раз мерность m – r. Пусть L – произвольное линейное пространство и L' – неко торое его подпространство. Размерность фактор-пространства L / L' назы вается коразмерностью подпространства L' в пространстве L. Коразмерность определяет степень различия классов смежности с точки зрения пространства L, или в конечном счете число кластеров, на которые разделяются объекты экспертизы.

Таким образом, мы установили два полезных свойства пространства векторов оценок экспертизы: 1) обоснованность нормировки векторов при знаков, поскольку пространства признаков X и нормированных признаков X являются изоморфными;

2) возможность уменьшения требуемого числа экспертов, поскольку размерность пространства векторов признаков значи тельно меньше m в силу коррелированности векторов оценок.



Pages:     | 1 || 3 | 4 |   ...   | 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.