авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 | 4 | 5 |   ...   | 10 |
-- [ Страница 1 ] --

Федеральное агентство по образованию

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ

ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

А.Н.ВАСИЛЬЕВ, Д.А.ТАРХОВ

НЕЙРОСЕТЕВОЕ

МОДЕЛИРОВАНИЕ

Принципы. Алгоритмы. Приложения

Научное издание

Санкт-Петербург

Издательство Политехнического университета

2009

Оглавление 3

Введение 7 Глава 1. Анализ состояния предметной области, постановка задач и описание основных моделей 41 1.1. Линейная регрессия как важный пример 42 1.2. Постановка задач моделирования 52 1.3. Статические нейронные сети 76 1.4. Динамические нейронные сети 95 1.5. Многорядные дифференциальные уравнения Глава 2. Структурные алгоритмы построения статических и динамических нейронных сетей 2.1. Построение статической нейронной сети прямого распространения по статической выборке 2.2. Кластерный анализ. Сети Кохонена и Гроссберга 2.3. Сети с радиальными базисными функциями (RBF-сети) 2.4. Многослойный персептрон с временными задержками и связанные с ним нейросетевые архитектуры 2.5. Динамическая кластеризация и сети Кохонена 2.6. RBF-сети с временными задержками 2.7. Рекуррентные сети Глава 3. Итерационные методы обучения нейронных сетей 3.1. Метод Ньютона как реализация приближений с быстрой сходимостью 3.2. Методы нулевого порядка 3.3. Методы первого порядка 3.4. Методы второго порядка 3.5. Методы выбора шага 3.6. Методы глобальной оптимизации 3.7. Распределённое обучение нейронных сетей 3.8. Обучение нейронных сетей по распределённым данным и обучение распределённых нейронных сетей Глава 4. Применение статических нейронных сетей к построению приближенных решений эллиптических краевых задач на плоскости и в пространстве 4.1. Новые подходы на основе RBF-сетей к решению краевых задач для уравнения Лапласа на плоскости 4.2. Случайные добавки 4.3. Сложные граничные условия. Нелинейные уравнения 4.4. Нейросетевой подход к решению линейных эллиптических задач в пространстве 4.5. Сложная геометрия. Эволюционные алгоритмы подбора структуры и весов Глава 5. Принципы нейросетевого моделирования многокомпонентных систем с фиксированными границами подобластей 5.1. Постановка задачи. Два нейросетевых подхода к решению 5.2. Задача Пуассона 5.3. Уравнение Шредингера с кусочным потенциалом (квантовая точка) 5.4. Нелинейное уравнение Шредингера 5.5. Теплообмен в системе «сосуды – ткани» Глава 6. Принципы нейросетевого моделирования многокомпонентных систем с переменными границами подобластей 6.1. Нейросетевые подходы к моделированию систем с фазовыми переходами 6.2. Сравнительный анализ традиционного и нейросетевого подходов к построению приближенной модели калибратора переменного давления 6.

3. Нейросетевой подход к решению задачи в обобщённой постановке Глава 7. Построение приближенных нейросетевых моделей по разнородной информации 7.1. Нейросетевая модель решения задачи о пористом катализаторе 7.2. Нейросетевая регуляризация решения задачи продолжения температурных полей по данным точечных измерений 7.3. Нейросетевая аппроксимация решения корректной краевой задачи для ультрагиперболического уравнения 7.4. Некоторые дальнейшие обобщения Глава 8. Осцилляторные нейросетевые модели бесконечной размерности 8.1. Теорема о выпрямлении траекторий на бесконечномерном торе 8.2. Приводимость линейной системы с нечётными почти периодическими коэффициентами 8.3. Решение аналитического уравнения с почти периодическими коэффициентами 8.4. Общая схема метода Колмогорова. Основные определения 8.5. Разрешимость гомологического уравнения 8.6. Условия сходимости метода Колмогорова Глава 9. Нейросетевой эмулятор Essence 9.1. Основные функциональные возможности пакета Essence 1.2 9.2. Описание интерфейса Essence 1.2 9.3. Определение характеристик температуры воздуха для региона Западной Сибири с помощью пакета Essence 9.4. Разграничение региона Западной Сибири по зонам с помощью пакета Essence Заключение Литература Введение Прежде, чем описывать особенности нейросетевого моделирования, сформулируем задачу математического моделирования в самом общем виде.

Под математической моделью исследуемого объекта (системы) будем понимать отображение F : ( X, Z ) Y, устанавливающее связь между набором входных данных X, определяющих условия функционирования объекта, набором параметров состояния Z, характеризующих состояние элементов (компонент) модели, и набором выходных данных Y. Отображение F при таком подходе характеризуется структурой (видом элементов и связей между ними) и набором параметров. Чаще всего ограничиваются подбором параметров при фиксированной структуре, выбранной исходя из «физических соображений», экспериментальных данных и т.п., но более адекватным представляется одновременный подбор структуры и параметров модели. Такой подбор параметров (или параметров и структуры) осуществляется на основе минимизации некоторого набора {J } функционалов ошибки, качества и т.д., определяющих степень выполнения моделью своего назначения.

В задачах обработки данных, как правило, задан конечный набор входных параметров X и набор соответствующих им параметров Y. При этом функционал ошибки показывает, насколько выход модели для заданного входа отличается от известного из опыта выхода Y.

В задачах, где построение математической модели осуществляется на основе дифференциальных данных, функционал показывает, насколько искомая функция удовлетворяет известному дифференциальному уравнению. В подобных задачах традиционно используются дополнительные соотношения в виде задаваемых краевых и начальных условий, хотя наш подход легко позволяет рассматривать задачи, в которых помимо дифференциального уравнения задаются приближенно известные, вообще говоря, пополняемые экспериментальные данные. При этом могут быть учтены дополнительные соотношения, связанные с природой описываемого объекта или отражающие особенности модели: требование симметрии, законы сохранения, условия разрешимости возникающей задачи… По-существу, предлагаемые нами методы решения этих задач мало отличаются друг от друга, требуется только грамотно выбрать набор функционалов {J } и множество функций F, в котором ищется модель. Предлагаемый подход к моделированию в такой постановке созвучен с идеей, высказанной великим Л.Эйлером: «Все явления мира с таким же успехом можно определить из причин конечных при помощи метода максимумов или минимумов, как из самих причин производящих».

В данной книге модели ищутся в нескольких стандартных функциональных классах, называемых обычно нейронными сетями. На данный момент, как в России, так и за рубежом, накоплен богатый опыт применения отдельных типов нейронных сетей к многочисленным практическим задачам Созрела необходимость создания единой методологии разработки алгоритмов конструирования и обучения различного вида нейронных сетей применительно к решению широкого класса задач моделирования.

В последние годы появился интерес к применениям нейронных сетей и в такой области как классические и неклассические задачи математической физики. По всей видимости, это было обусловлено целым рядом факторов:

разнообразие практических приложений;

общие трудности применения стандартных методов к решению многих проблем ввиду нелинейности моделей, большого объема данных (высокая размерность, большое число уравнений и условий), неточности в задании коэффициентов уравнений, краевых и начальных условий, сложности геометрии задачи;

неклассические постановки задач;

поиск единого подхода к решению совершенно разных типов задач, для каждого из которых обычно применяются свои методы;

уникальные свойства искусственных нейронных сетей;

поиск новых направлений развития численных методов (несеточные методы, интеллектуальные вычисления);

появление новых технологий (нейрокомпьютеры, grid-технологии и др.) и построение алгоритмов, естественных для таких технологий.

Эти причины, а также слабая исследованность применения нейронных сетей к задачам математической физики явились причиной того, что эти задачи выбраны в качестве основного полигона, на котором будет проверяться предлагаемая методология нейросетевого моделирования.

В математической физике имеется достаточно широкий круг задач (относящихся, как правило, к описанию систем с распределенными параметрами), которые приводят к изучению краевых задач для уравнений в частных производных (или интегро-дифференциальных уравнений).

Основная методологическая ошибка работ по математической физике состоит в том, что дифференциальное уравнение в частных производных (вместе с краевыми условиями) принимается за объект моделирования, по которому строится его приближённая модель – решение, найденное тем или иным численным методом. Правильней рассматривать дифференциальные уравнения (вместе с сопутствующими начально-краевыми условиями) как приближённую модель, содержащую информацию о моделируемом объекте, от которой требуется перейти к более удобной модели (например, функциональной), используя уравнения и иную доступную информацию. Ещё более правильным является рассмотрение иерархии моделей разной точности и области применимости, которые могут уточняться по мере поступления новой информации.

Лишь небольшое число задач математической физики, обычно обладающих симметрией, допускает точное аналитическое решение.

Существующие приближенные методы решения либо позволяют получить лишь поточечную аппроксимацию подобно сеточным методам (получение из поточечного решения некоторого аналитического выражения представляет собой отдельную задачу), либо предъявляют специальные требования к набору аппроксимирующих функций и требуют решения важной вспомогательной задачи разбиения исходной области подобно тому, как это происходит в методе конечных элементов.

Имеющиеся нейросетевые подходы к решению задач математической физики либо узкоспециализированы, либо используют варианты метода коллокации при неизменных нейросетевых функциях, что может приводить к заметным ошибкам между узлами.

Среди публикаций, посвященных теме применения нейронных сетей для решения дифференциальных уравнений в частных производных (как правило, это сети специального вида с присущими им методами настройки), отметим некоторые.

В своей фундаментальной работе [273], посвященной 20-летию (1968 1988) мультиквадрик-бигармонического метода (MQ-B), Р.Харди рассматривает не только историю возникновения и развития этого оригинального метода, но подытоживает основные идеи и преимущества, связанные с его применением.

Неудачи в использовании в топографии различного рода модификаций тригонометрических и полиномиальных рядов для построения кривых или поверхностей по разбросанным данным привело к возникновению нового подхода. Для приближения функции, к примеру, двух независимых переменных вместо кусочно-линейных аппроксиматоров используются разложения типа (в обозначениях Харди) n H ( x, y ) = j Q j ( x, y;

x j, y j, ), j = по мультиквадрикам вида Q j ( x, y;

x j, y j, ) = ( x x j ) 2 + ( y y j ) 2 + 2.

Отмечаются достоинства разложений: их большая эффективность в сравнении, например, с разложениями по сферическим функциям;

мультиквадрики Q j, а, следовательно, и функции типа H являются бесконечно дифференцируемыми, что делает возможным «подгонку» значений функций, производных и др. Дается обзор приложений данного похода в геодезии, геофизике, съемке местности и картографии;

в фотограмметрии, удаленном зондировании, измерении, контроле и распознавании, обработке сигналов;

в географии и цифровых моделях местности;

в гидрологии.

Ряд важных результатов в области применения нейронных сетей с радиальными базисными функциями (см. 1.3), называемых RBF, к решению дифференциальных и интегральных уравнений получено Е.Канза. Особо отметим статьи [281-283,297]. В Интернет-публикации [283] он дает обзор различных подходов и мотивацию к использованию RBF для решения уравнений в частных производных, намечая проблемные места и очерчивая перспективы. Он отмечает, что в численном решении уравнений в частных производных в основном доминируют методы конечных разностей, элементов или объемов, использующие локальные интерполяционные схемы. Для локальных аппроксимаций эти методы требуют построения сетки, что в случае больших размерностей уже представляет нетривиальную задачу.

На примере эллиптических уравнений рассматривается асимметричный метод коллокации для уравнений в частных производных. В случае параболических и гиперболических уравнений использование RBF-разложений проводится лишь для пространственных координат, а временная зависимость учитывается методом прямых (что приводит к рассмотрению обыкновенных дифференциальных уравнений). В эллиптическом случае дифференциальные уравнения и граничные условия для простоты предполагаются линейными, а краевая задача – корректно поставленной. Действие операторов сводится к действию на базисные функции, и возникает задача коллокации, приводящая к решению линейной системы для коэффициентов разложения по базисным функциям.

Канза отмечает, что более интересные задачи для уравнений в частных производных нуждаются в продуманном расположении узлов с тем, чтобы охватить достаточно широкий круг примеров для важных физических явлений.

Использование MQ для решения уравнений Бюргерса с вязкостью обнаружило, что с ростом числа Рейнольдса для адекватного описания фронта разрыва потребовался адаптивный выбор подмножества узлов.

Наиболее важное место в работе Канза – его замечание о формулировке задач с точки зрения глобальной оптимизации, минуя методы коллокации, которые по существу являются плохо обусловленными. Выделяются работы Е.Гальперина и др.[268-269], развивающие этот подход, при котором начальные условия, граничные условия, сами уравнения вводятся посредством функционалов, взвешенная сумма которых задает итоговый глобальный функционал. Вектор допустимых параметров (узлы, формообразующие параметры, коэффициенты разложения) MQ-RBF-сетей варьируется до тех пор, пока невязки не достигнут требуемого уровня точности. Такой подход уменьшает число используемых функций. При этом не только обходятся любые плохо обусловленные проблемы, возникающие из асимметричной или симметричной коллокационной задачи решения уравнений в частных производных, но в круг рассматриваемых вводятся плохо поставленные или так называемые некорректные задачи, которые могут иметь решения, представляющие физическую реальность, несмотря на то, что «точное»

математическое решение может и не существовать.

Гальперину и Канза [270] удалось использовать этот подход и для численного решения слабо сингулярных интегральных уравнений Вольтера:

присоединяя по одной MQ базисные функции и оптимизируя параметры на каждом шаге посредством трехпараметрической оптимизационной процедуры, они установили, что в зависимости от задачи требовалось от 4 до 7 базисных функций для сходимости с ошибкой, не превосходящей 5 107.

Подобный подход применялся и в статье Е.Канза и др. [297], в которой рассматривались уравнения эллиптического типа с краевыми условиями Дирихле или Неймана, в качестве тестовых брались двумерные задачи для уравнения Лапласа, Пуассона, бигармонического уравнения;

обнаружено хорошее согласие между точным и вычисленным решением.

В работе Ефима Гальперина и Куан Зенга [269] дается основанный на понятии -эквивалентных решений (приближённых решений, для которых функционал ошибки не превосходит ) новый подход к рассмотрению некорректных и переопределенных задач для уравнений в частных производных и для задач, решение которых не существует. Разрабатывается основанный на методе глобальной оптимизации новый метод для решения и управления процессами, описываемыми посредством уравнений в частных производных.

Следуя [269], опишем понятие -эквивалентного решения подробнее.

Определение. Пусть дано 0, функция называется -эквивалентным решением ( -решением) системы уравнений (включающих дифференциальные уравнения, краевые и другие условия) тогда и только тогда, когда при её подстановке в эти уравнения левые и правые части различаются меньше чем на.

Очевидно, что два -решения не обязаны быть близки друг другу. Они «близки» в отношении условий, которые включены в конкретное понятие эквивалентности.

Класс -эквивалентных решений содержит все точные решения;

конкретное -решение может аппроксимировать одно, несколько или ни одного из точных решений. Причем -эквивалентные решения могут существовать, когда ни одного точного решения не существует.

Таким образом определённые, -эквивалентные решения естественны из за случайных неточностей в задании модельных уравнений и примесей, загрязнения окружающей среды, в которой физические задачи рассматриваются. Мало того, именно -эквивалентные решения (или их аппроксимации) получаются при вычислениях.

Численный метод решения ДУ, предложенный Диссанаяке и др. [259], также основан на нейросетевом подходе. Построение нейронной сети с помощью метода точечной коллокации преобразует численную проблему решения уравнения в частных производных к задаче безусловной минимизации. Методика проиллюстрирована с помощью двух численных примеров.

В работах В.И.Горбаченко [100-105,176] для решения дифференциальных уравнений с частными производными применялись клеточные нейронные сети (CNN ). Они объединяют в себе черты клеточных автоматов и нейронных сетей.

Близость математического описания данного класса нейронных сетей и систем разностных уравнений, аппроксимирующих дифференциальные уравнения в частных производных, аргументирует естественность и перспективность их применения. Существует мнение, что CNN позволяют описать более сложные нелинейные физические явления, чем известные дифференциальные уравнения в частных производных.

В монографии В.И.Горбаченко [100] детально изучены возможности использования нейрокомпьютеров в решении краевых задач теории поля:

рассмотрены структуры и алгоритмы работы аналоговых и цифровых клеточных нейроподобных сетей для решения дискретных аналогов дифференциальных уравнений в частных производных;

приведены результаты исследования алгоритмов обучения и структуры моделирующих нейроподобных сетей для решения задач теории поля (в основном, задач, описываемых уравнениями эллиптического и параболического типов), некоторых нелинейных задач, внутренних и внешних задач (граничных интегральных уравнений в связи с последними), задач теории пластин;

рассмотрены нейронные сети для решения частичной проблемы собственных значений;

приведен анализ структуры нейрокомпьютеров на основе аналоговых и цифровых сетей.

В последних работах В.И.Горбаченко и др. (например, [103]) нейросетевой подход применяется в некорректных задачах: для решения коэффициентной обратной задачи математической физики, в которой коэффициенты уравнения (или функции, входящие в начально-краевые условия) восстанавливаются по набору значений решения в некоторых точках области [203]. В других работах [104-105] предпринята попытка использования иного типа нейронных сетей (радиально базисных) для решения дифференциальных уравнений в частных производных. Теоретические результаты проиллюстрированы численными экспериментами для случая однородной задачи Дирихле в квадрате для уравнения Пуассона и специальной правой части, отмечалось преимущество градиентного метода нахождения весов в сравнении с традиционным методом коллокации.

В статье Май-Дуй [289] представлены несеточные процедуры решения линейных дифференциальных уравнений (обыкновенных и в частных производных эллиптического типа), основанные на MQ-RBF нейронных сетях и использующие предложенные авторами методы аппроксимации функций и их производных.

Интерес представляет работа С.А.Терехова [300], в которой на тестовых задачах нейронные сети рассматриваются в качестве пробных вариационных решений краевых и начальных задач для уравнений математической физики.

В работе И.Лагариса и др. [286] решение краевой задачи ищется в виде суммы двух слагаемых, одно из которых удовлетворяет заданным начально краевым условиям и не содержит подбираемых параметров, другое – подчиняется однородным начально-краевым условиям и включает в себя нейронную сеть прямого распространения с подбираемыми параметрами.

Сконструированное таким образом нейросетевое решение настраивается, чтобы удовлетворить дифференциальному уравнению. Такой подход применим к обыкновенному дифференциальному уравнению, дифференциальному уравнению в частных производных, системе дифференциальных уравнений, но, к сожалению, лишь в случае линейных задач. Метод иллюстрируется решением набора модельных задач для областей с простой геометрией типа отрезка или квадрата, проводится сравнение нейросетевых решений с полученными на основе галеркинского метода конечных элементов.

В работе К.Е.Бурнаева и др.[36] представлена близкая по духу работам [100-101] методика решения дифференциальных уравнений, использующая ячеистые нейронные сети. В качестве исходной ими берется аппроксимационная конечно-разностная постановка задачи. Метод проиллюстрирован решением нескольких простых примеров для уравнения Лапласа и уравнения теплопроводности в прямоугольных областях с известным аналитическим решением.

В публикации С.В.Беликова [21] предлагается использование нейросетевой методологии не только для нахождения коэффициентов известного шаблона для решения задачи математической физики, но для выбора способа решения и вида решения, что является нетривиальной задачей.

Нейронные автоматы, расширяющие концепцию иерархических нейронных сетей и модели смеси экспертов, представляют объединение нейронных сетей в граф, который рассматривается как граф перехода конечного автомата.

Решение о переходе из одного состояния в другое или остановка принимается нейросетью. Решением задачи является путь в графе переходов, неполный путь интерпретируется как часть решения или приближение к нему.

В статье Р.Масуока [290] приводятся результаты экспериментов по обучению нейронных сетей на основе ограничений в форме дифференциальных данных (включая уравнения в частных производных), разработан соответствующий алгоритм.

А.В.Шобуховым [176] сделаны первые шаги в исследовании нейросетевого варианта метода сплайн-коллокации для численного решения нелинейных уравнений математической физики (уравнение Бюргерса).

Авторами был предложен единый подход, позволяющий применять практически одинаковые алгоритмы к совершенно разным задачам [54-56].

В 2003 году в работе [54] была сформулирована программа применения методологии нейронных сетей к построению приближенных решений задач математической физики. Основные её этапы:

1) Рассмотрение простой задачи, имеющей известное аналитическое решение, с которым сравнивается решение, найденное с помощью нейронных сетей. Распространение методики решения этой задачи на некоторый достаточно широкий класс практически важных задач.

2) Решение нескольких более сложных задач, известные численные подходы к которым наталкиваются на некоторые трудности, хотя и не являющиеся непреодолимыми, но требующие применения разного рода искусственных приёмов.

3) Решение задач, для которых стандартные методы неприменимы.

4) Построение нейросетевых алгоритмов, которые даже для известных задач будут более эффективными, чем классические алгоритмы типа метода сеток или конечных элементов.

5) Доказательства теорем о сходимости для определённых классов задач, получение конструктивных оценок числа требуемых функций и т.п.

6) Создание самообучающейся интеллектуальной системы для решения достаточно широкого класса задач математической физики.

Значительная часть заявленной программы (этапы 1-3, частично 4,5) реализовывалась впоследствии в цикле статей. Результаты этих исследований изложены в главах 4-7 с учетом накопленного опыта и подведением определенных итогов.

Использование нейронных сетей в качестве новой методологии решения как старых – классических, так и новых – неклассических задач основано на целом ряде особенных свойств нейросетей. Предлагаемый нейросетевой подход позволяет получить сразу (или кусочно решение в аналитической аналитической) форме – в виде функции, удовлетворяющей требуемым условиям гладкости и поведения на бесконечности: например, нейросетевая базисная функция – гауссиан – позволяет получить бесконечно дифференцируемое решение, убывающее на бесконечности быстрее любой степени аргумента.

Очевидно, что с помощью нейронных сетей можно вычислить линейные функции, нелинейные функции одной переменной, а также всевозможные суперпозиции – функции от функций, получаемые при каскадном соединении сетей. Но сколь велики возможности нейронных сетей? Возникают довольно естественные вопросы:

1. Какие функции удастся вычислить точно: можно ли, например, произвольную непрерывную функцию n переменных получить с помощью операций сложения, умножения и суперпозиции из непрерывных функций меньшего числа переменных?

2. Какие функции можно сколь угодно точно аппроксимировать с помощью нейронных сетей, каковы требования к нейросетевым функциям?

Ответ на первый принципиальный вопрос оказался положительным.

А.Н.Колмогоров и В.И.Арнольд доказали, что любую непрерывную функцию n переменных можно получить с помощью операций сложения, умножения и суперпозиции из непрерывных функций одной переменной.

Следует заметить, что условие непрерывности нельзя значительно усилить: существуют аналитические функции многих переменных, которые не допускают представления с помощью суперпозиции аналитических функций двух переменных. Более того, А.Г.Витушкиным показано, что все k раз непрерывно дифференцируемые функции трех переменных нельзя представить в виде суперпозиций функций двух переменных, каждая из которых дифференцируема [ 2k 3] раз и все частные производные которых порядка [ 2k 3] удовлетворяют условию Липшица.

Приведем формулировку теоремы Колмогорова, завершившей серию исследований для непрерывных функций и послужившей фундаментальным результатом в обосновании нейросетевых приложений:

Каждая непрерывная функция n переменных, заданная на единичном кубе n -мерного пространства, представима в виде n i 2 n + f ( x1, x2,..., xn ) = h j j ( xi ), i =1 j = где непрерывные функции h j ( ) зависят от f (), а непрерывные (но негладкие) функции ij (), кроме того, еще и стандартны, т.е. не зависят от выбора функции f ().

В частности, например, любая непрерывная функция двух переменных представима в виде f ( x1, x2 ) = h j ( 1j ( x1 ) + 2 ( x2 ) ).

j j = Ответ на второй вопрос – о возможности и условиях нейросетевой аппроксимации – также очень важен, особенно в связи с практическими приложениями. Проблема приближения произвольной функций из заданного класса с помощью функций, выбираемых из определенного «узкого» семейства, имеет богатую историю и характеризуется многочисленными замечательными результатами. Хорошо известна теорема Вейерштрасса о приближении функций многочленами утверждающая, что непрерывную функцию нескольких переменных на замкнутом ограниченном множестве можно равномерно приблизить последовательностью полиномов. В последнее время мощное развитие, особенно в связи с физическими приложениями, получила аппроксимация рациональными функциями (аппроксимация Паде), а также аппроксимация нелинейными конечно-параметрическими многообразиями [35,232,253,271,294,299].

Теорема Вейерштрасса имеет далеко идущее обобщение – теорему Стоуна. Вместо замкнутого ограниченного множества R p рассмотрим X компактное пространство и алгебру C( X ) непрерывных X. Приведем вариант формулировки вещественнозначных функций на теоремы Стоуна:

Теорема 1. Пусть E C ( X ) – замкнутая подалгебра в C ( X ) : 1 E и функции из E разделяют точки в X (то есть для любой пары различных точек x, y X существует функция g E, такая, что g (x) g (y ) ), тогда E = C ( X ).

Важным является то, что в рассмотрение вводятся не только функции многих переменных и существенно обогащается набор аппроксимирующих «узких» семейств. В качестве плотного множества может выступать кольцо многочленов от любого набора функций, разделяющих точки, а не только семейство многочленов от координатных функций, как в теореме Вейерштрасса. Следовательно, плотно множество тригонометрических многочленов, множество линейных комбинаций радиальных базисных функций – эллипсоидальных гауссианов вида exp {Q(x x)}, где Q – положительно определенная квадратичная форма и др.

Нейронные сети можно рассматривать как универсальные аппроксиматоры [232]. Это заключение следует из теоремы 1 для RBF-сетей и из приведённой далее обобщенной аппроксимационной теоремы Стоуна для сетей другого вида – многослойных персептронов (см. 1.3).

Пусть E C ( X ) – замкнутое линейное подпространство пространства непрерывных функций на компакте X, C ( R) – линейное пространство непрерывных функций на действительной оси R, C ( R ) – некоторая нелинейная функция, такая, что для любого g E выполнено g E. В этом случае будем говорить, что подпространство E замкнуто относительно нелинейной унарной операции. Обобщенная теорема Стоуна формулируется так:

Теорема 2. Пусть E C ( X ) – замкнутое линейное подпространство в C ( X ), 1 E, функции из множества E разделяют точки в X, E замкнуто относительно нелинейной унарной операции C ( R ), тогда E = C ( X ).

Теорема Стоуна интерпретируется как утверждение об универсальных аппроксимационных возможностях произвольной нелинейности: с помощью линейных операций и каскадного соединения с использованием произвольного нелинейного элемента (именно эти операции и осуществляются при нейрокомпьютинге – суперпозиции простых функций одной переменной и их линейных комбинаций) можно вычислить любую непрерывную функцию с любой наперед заданной точностью.

Доказан ряд теорем об аппроксимации непрерывных функций многих переменных нейронными сетями с использованием практически произвольной непрерывной функции одного переменного (см. библиографию в [232]).

К настоящему времени получено много результатов по аппроксимациям на основе нейронных сетей в различных функциональных пространствах. Сюда же относятся вопросы аппроксимации нелинейными конечномерными многообразиями – Брудный, Темляков и др.

Очень важной для мотивации выбранного подхода представляется устойчивость нейросетевой модели по отношению к ошибкам в данных – неточностям в задании коэффициентов уравнений, граничных и начальных условий, возмущениям границы, погрешностям вычислений.

Нейросетевой подход в предлагаемой форме слабо зависит от формы области и может быть применен в случае задач со сложной геометрией области [54-58, 60, 69], он позволяет учесть разрывы и изменение типа уравнения в подобластях [46,57,58,69, 71,304], рассмотреть нелинейности [56-58, 303-304].

Другим принципиальным моментом, характерным для нейросетевого подхода, является распараллеливание задачи и возможность использования набора сетей, что существенно при построении моделей систем с кусочно заданными параметрами. К тому же указанный подход позволяет применить хорошо отработанные для нейронных сетей приемы поиска оптимальной использующие кластеризацию, генетические алгоритмы структуры, (например, процедуры типа многорядного алгоритма МГУА), коллектив сетей экспертов [195] и др. Подробнее об этих алгоритмах см. главу 2.

Мы не предлагаем полностью отказаться от использования классических подходов. Если они успешно работают – замечательно. По-видимому, наиболее эффективные алгоритмы получаться сочетанием классических и нейросетевых подходов.

В ряде неклассических постановок задач моделирования систем с распределенными параметрами рассматриваются нестандартные уравнения, отсутствуют классические варианты задания начально-краевых условий, вместо которых, например, указаны точечные данные, известные, как правило, приближенно (см. главу 7), что приводит к необходимости построения серии уточняемых моделей. Нейросетевой подход эффективен и в этом случае, см.

главу 7.

Развитие интеллектуальных вычислений и, в частности, нейрокомпьютинга, есть по своей сути не что иное, как попытка дать ответ на вызов, который предъявляет в своих ограниченных возможностях современная вычислительная техника, базирующаяся на архитектуре фон Неймановского типа.

Первая глава посвящена постановкам задач и систематизации основных нейросетевых моделей на основе единого формализма.

В первом параграфе на примере линейной регрессии приводятся основные виды функционалов ошибки и формулируются подходы к подбору структуры искомой зависимости. В дальнейшем эти результаты будут перенесены на нейронные сети.

Во втором параграфе формулируются основные задачи моделирования, к которым прикладываются нейронные сети, в частности, задача построения нелинейной регрессии общего вида, задача построения модели по дифференциальным данным, частным случаем которой являются классические краевые задачи, обсуждаются особенности постановки и решения этих задачи в случае, когда во время работы алгоритма поступает новая информация о моделируемом объекте.

В третьем параграфе рассматриваются статические нейронные сети.

Под статическими нейронными сетями понимаются сети, в которые явным образом не входит время. Эти конструкции могут применяться и для решения динамических задач, если в качестве входов использовать переменные в разные моменты времени.

Начинается рассмотрение с наиболее употребительного вида таких сетей – многослойного персептрона (многослойной сети прямого распространения).

Далее эта конструкция обобщается на сети прямого распространения с частичной структурой связей, которые описаны на языке графов. Этот вид сетей очень удобен для применения различных алгоритмов подбора структуры, ряд из которых описан во второй главе. Кроме этого, в данном параграфе описаны и другие виды нейронных сетей – сети Кохонена, связанные с алгоритмами кластеризации, RBF – сети, наиболее подходящие для локальной интерполяции и сети Гроссберга, сочетающие в себе оба этих вида сетей. В основном обучение сетей трактуется как процедура оптимизации функционала ошибки, например, суммы квадратов разностей между тем, что выдаёт сеть, и тем, что нам хотелось бы, чтобы она выдавала.

Проведённый анализ наиболее употребительных типов статических нейронных сетей позволяет сделать следующие выводы:

• Для подбора весов сети можно использовать методы нелинейной оптимизации, хотя существующие методы поиска глобального экстремума [125] перестают работать уже для сетей из нескольких десятков нейронов.

• Необходим достаточно богатый набор методов подбора структуры сети, выходящий за рамки первых попыток в данном направлении [122, 142, 183, 202, 238, 239, 250].

• Для расширения возможностей моделирования желательно иметь более широкий выбор нейросетевых архитектур и способов их конструирования.

Результаты работы в данном направлении представлены в главах 2 и 3.

В четвёртом параграфе первой главы рассмотрены динамические нейронные сети. Первым видом сетей такого типа является многослойный персептрон с временными задержками. Аналогично описываются полные сети с временными задержками, для которых на вход нейрона могут подаваться линейные комбинации выходов всех предыдущих слоёв, а не только непосредственно предшествующего и временные сети с частичной структурой связей. Приведены различные варианты задачи динамической кластеризации и нейросетевые подходы к её решению, а также проанализированы рекуррентные сети, т.е. сети с обратными связями.

Далее в данном параграфе показано, что большинство видов нейронных сетей может быть описано едиными рекуррентными соотношениями, после этого в качестве частных случаев рассматривается несколько известных нейросетевых архитектур: сети Хопфилда, Хемминга, двунаправленная ассоциативная память (сеть Коско), а также сети Джордана и Элмана.

В пятом параграфе вводится новый класс нейросетевых моделей – многорядные дифференциальные уравнения. В отличие от предыдущих рассмотрений, нейросетевой подход применяется к построению уравнений, а не их приближённых решений. Приведены способы построения подобных моделей. Этот класс моделей практически не исследован. Надеемся, что читатели восполнят этот досадный пробел.

Во второй главе разработана общая методология нахождения структуры нейронной сети и различные методы на её основе. При этом особое внимание уделяется алгоритмам, сочетающим подбор структуры нейронной сети и её весов.

В первом параграфе второй главы решается задача построения статической нейронной сети прямого распространения по статической выборке.

Проведён анализ подходов к определению начальных значений весов сети, метод главных компонент предварительной настройки многослойного персептрона, процедуры добавления и удаления нейрона и слоя сети. На основе этих процедур разработан ряд новых алгоритмов построения нейронных сетей.

Конструкция сети с частичной структурой связей позволяет удобным образом строить генетический алгоритм подбора её архитектуры.

Более перспективным представляется многорядный алгоритм определения структуры сети прямого распространения с частичной структурой связей. Кроме того, в данном параграфе приведён двойной генетический алгоритм построения коллектива нейронных сетей, суть которого состоит в генетическом алгоритме разбиения выборки на кластеры и генетическом алгоритме построения сети для каждого кластера.

Во втором параграфе данной главы рассматриваются алгоритмы подбора структуры сетей Кохонена и Гроссберга.

В третьем параграфе второй главы анализируются особенности обучения и конструирования RBF-сетей различных видов, включая новые виды таких сетей, в зависимости от решаемых задач моделирования.

Параграфы 4-6 второй главы посвящены динамическим нейронным сетям без обратных связей. Один из возможных подходов к построению такого рода сети состоит в том, чтобы использовать в качестве входа статической сети входной вектор с разными временными задержками. Если эти задержки использовать не только перед первым, но и перед другими слоями многослойного персептрона, то получается другой вид сети – многослойный персептрон с временными задержками (TDNN) [232]. Если исходить не из многослойного персептрона, а из сети с частичной структурой связей, то можно реализовать разного рода динамические алгоритмы подбора структуры сети и различные временные фильтры между слоями. В данных параграфах приведён ряд алгоритмов подобного рода.

Обучение нейронных сетей обычно сводится к некоторой итерационной процедуре оптимизации нелинейного функционала, поэтому в третьей главе приведено много как известных, так и новых алгоритмов нелинейной оптимизации. Определение условий и скорости сходимости стандартных алгоритмов обучения нейронных сетей в литературе практически не обсуждается, хотя соответствующие оценки сразу следуют из общих результатов для рассматриваемых алгоритмов. Особенно интересными являются проанализированные в третьей главе итерационные процессы, обобщающие метод Ньютона в силу своей быстрой сходимости. Анализ условий сходимости обсуждающихся во второй главе алгоритмов существенно более сложен. Главная сложность заключается в изменении размерности пространства при итерациях, т.е. приходится рассматривать итерационный процесс в последовательности пространств, вложенных друг в друга.

Стандартный метод Ньютона не совсем удобен в силу двух причин – локальной сходимости и больших вычислительных затрат при решении линеаризованной системы на каждом шаге. Эти причины побуждают рассматривать более сложные подходы, которые в значительном числе задач оказываются более эффективными. Главными особенностями доказанных в параграфе 3.1 теорем о сходимости итерационных процессов по сравнению с известными результатами является рассмотрение процессов в последовательности пространств, вложенных друг в друга, сочетание шагов методов разных порядков, рассмотрение оценки Гёльдера с переменным показателем и замена обратного оператора приближённым обратным с оценкой, меняющейся от шага к шагу.

В параграфах 3.2-3.5 приведены многие известные алгоритмы нелинейной оптимизации и рассмотрены некоторые возможные их модификации.

Самая актуальная для практики проблема заключается в большой ресурсоёмкости алгоритмов обучения нейронных сетей и большом времени обучения соответственно. Для решения этой проблемы возможны два пути.

Во-первых, интерес представляют такие модификации алгоритмов глобальной оптимизации, которые работоспособны в пространстве, размерность которого составляет сотни и тысячи, в отличие от существующих алгоритмов, которые работоспособны до размерности 20-30.

Во-вторых, требуется так модифицировать алгоритмы обучения, чтобы они достаточно эффективно работали в распределённой среде (Интернет).

Более того, желательно реализовать распределённые варианты алгоритмов в виде соответствующих программных продуктов.

Наши исследования показали, что численные решения дифференциальных уравнений в частных производных, обыкновенных дифференциальных уравнений, интегральных и интегро-дифференциальных уравнений сильно выигрывают от применения глобальной оптимизации.

Основным препятствием к широкому применению такого подхода является недостаток надежных программных средств многопараметрической глобальной оптимизации.

В шестом параграфе третьей главы проведено рассмотрение многих известных и новых алгоритмов, позволяющих приблизиться к глобальному экстремуму. Эти подходы были проверены в задачах обучения нейронных сетей и оказались достаточно эффективными в случае, когда число подбираемых переменных (весов сети) составляет от сотен до нескольких тысяч.

В последних двух параграфах третьей главы разработаны подходы к распределённой реализации рассмотренных ранее алгоритмов. В качестве основной области их применения может быть указана типичная для Интернета задача обработки информации в ситуации, когда связи между узлами ненадёжны, а пересылка всех данных в один узел невозможна или нерациональна. Работа с нейронными сетями в такой ситуации возможна в двух вариантах, проанализированных в данной главе: либо единая сеть обучается на многих компьютерах параллельно, либо обучается и работает сеть, отдельные части которой находятся на разных компьютерах.

В связи с этим, в седьмом параграфе разработаны методы и алгоритмы распределённого обучения нейронных сетей, в восьмом – методы и алгоритмы обучения нейронных сетей на распределённых данных и задача построения и обучения распределённых нейронных сетей, т.е. таких сетей, у которых отдельные части находятся на различных компьютерах.

Следующие четыре главы посвящены применению нейронных сетей к задачам математической физики.

Рассмотрим краевую задачу в достаточно общей постановке A(u ) = g, u = u (x), x R p, B (u ) = f, (0.1) здесь A() – некоторый дифференциальный оператор, т.е. алгебраическое B() – оператор, выражение, содержащее частные производные от u, позволяющий задать граничные условия (допустимый оператор), – граница. Операторы A и B могут быть нелинейными, менять тип в области подобластях, коэффициенты операторов и функции f, g могут иметь разрывы.

Использование нейронных сетей в качестве новой методологии построения приближенных решений как старых – классических, так и новых – неклассических задач основано, как уже отмечалось, на целом ряде особенных свойств нейросетей, среди которых универсальность нейросетевого функционального базиса, кусочно аналитическая форма нейросетевого решения;

устойчивость нейросетевой модели по отношению к ошибкам в данных;

слабая зависимость от геометрии и типа уравнения;

подбор весов и структуры нейронной сети;

возможность распараллеливания задачи и использования набора сетей;

при решении серии задач с уточняющейся постановкой нет необходимости решать задачу заново – достаточно доучить уже настроенную сеть.

Выбор типа сети, ее структуры и методов обучения обычно определяется свойствами коэффициентов и геометрией рассматриваемой задачи. В задачах с гладкими коэффициентами успешно применяются RBF-сети. Применение персептронов, как правило, оказывается оправданным, если в задаче присутствуют резкие переходы или есть основания ожидать, что такие резкие переходы присутствуют в решении. Это может происходить, например, в случае разрывных функций, задающих коэффициенты уравнений, краевых, начальных или других условий. Это характерно для уравнений или систем гиперболического типа, может проявиться и в случае уравнений, меняющих тип в подобластях, или в задачах с нелинейностями. Подходящий выбор базисных элементов позволяет включить хорошо известный Метод Конечных Элементов в рассматриваемый подход.

Возможно применение и других типов нейронных сетей – в нестационарных задачах могут использоваться рекуррентные сети, они могут применяться и в стационарной ситуации для составных областей сложной формы (см. 5.5).

Далее обсуждаются варианты настройки весов сети, дающей приближенное решение задачи (0.1), на основе минимизации функционала ошибки. Такой подход применим в достаточно общей ситуации, ибо не предъявляет особых требований к геометрии области, типу уравнения, гладкости коэффициентов и т.д. В дискретной форме функционал ошибки вычисляется на множествах пробных точек, которые могут задаваться, но могут и меняться в процессе обучения. Перегенерация тестовых точек после определенного числа шагов процесса обучения сети делает его более устойчивым, ибо позволяет избежать вырождения многообразия, определяющего нейросетевые решения. Обсуждается проблема выбора тестовых точек в случае ограниченной и неограниченной области, негладких условий и т.п. Рассматриваются специальные методы настройки весов в случае линейных задач.

Первая часть главы 4 посвящена применению методов из предыдущих глав к простым задачам математической физики, точное решение которых известно. Во второй – изучается устойчивость нейросетевых приближений, рассматриваются более изощренные методы одновременной настройки весов и структуры нейросети.

В параграфе 1 рассматривается задача Дирихле для уравнения Лапласа в единичном круге : u = 0, u = f. Свойства решений эллиптических краевых задач во многом схожи со свойствами решения этой модельной задачи, для которого имеется явное интегральное представление – есть возможность тестирования получаемых результатов. Даны подходы к решению задачи на основе нейросетевой методологии:

1. Минимизация функционала ошибки общего вида – непосредственное применение процедуры построения нейросети для случая, когда A – оператор Лапласа, B – оператор, задающий условие Дирихле.

2. Подход, при котором в качестве нейросетевых базисных функций выбираются фундаментальные решения оператора Лапласа. При этом обучение сети сведется к удовлетворению краевых условий.

3. «Компенсационные» методы, основанные на явных выражениях для лапласиана в случае функции Гаусса (или Коши) и специальных способах расстановки центров RB-функций.

4. Использование интеграла Дирихле в качестве функционала ошибки J. Для областей, обладающих симметрией (в нашем случае – круг) интегралы, входящие в выражение для функционала, вычисляются в явном виде или достаточно просто аппроксимируются, что позволяет уменьшить общее число параметров – ускорить настройку сети.

5. Нейросетевое приближение граничных данных приводит на основе формулы Пуассона к приближенному решению задачи Дирихле.

Проведено сравнительное исследование этих методов. Как и следовало ожидать, быстрее всего работают методы, в максимальной степени учитывающие особенности задачи, однако эти методы трудно распространить на более сложные случаи, например, на нелинейные задачи.

Рассмотрены возможные направления усложнения задачи.

В любой реальной задаче присутствуют случайные добавки – погрешности измерений, шумы и т.д. Для изучения влияния таких добавок в параграфе 2 было рассмотрено несколько задач с возмущением уравнения Лапласа, граничных условий Дирихле и самой границы.

Численные эксперименты показали, что регулярные возмущения коэффициентов уравнений и функций, входящих в описание краевых условий, практически не меняют приближенное решение исходной задачи при изменении амплитуды решения в весьма широком диапазоне. Это нельзя утверждать относительно случайных возмущений границы области.

В параграфе 3 рассматривались более сложные граничные условия:

задание граничного условия не на всей границе, а только на её части (полуокружности);

задание условия на окружности и радиусе;

задание на части границы условия Дирихле, а на другой части – условия Неймана (задача Зарембы). Вычислительный эксперимент показал вполне приемлемую точность и сходимость процесса обучения, при этом «эллипсоидальные» RBF–сети показали себя намного эффективней обычных.

Естественные обобщения нейросетевых подходов на случай более высоких размерностей для линейных задач даны в параграфе 4 – они получаются несложной модификацией указанных подходов для двумерного случая.

Большинство стандартных численных методов решения задач математической физики трудно применять в случае областей сложной геометрии. Алгоритм решения для каждой такой задачи приходиться существенно перерабатывать для того, чтобы учесть её особенности.

Использование нейронных сетей для решения задач такого рода позволяет с одной стороны строить алгоритмы единообразно, с другой – рассмотреть набор принципиально различных алгоритмов, каждый из которых является наиболее эффективным для определённого круга задач.


В параграфе 5 на примере простейшей модельной задачи обсуждаются пять подходов к построению нейросетевой аппроксимации решения в задачах для областей сложной формы.

Будем искать решение задачи Дирихле для двумерного уравнения Лапласа в L -области, являющейся объединением двух прямоугольников 1 и 2.

Подход I. Для приближенного решения задачи используется единая нейронная сеть из «эллиптических» экспонент, обучаемая на основе минимизации функционала ошибки.

Подход II. Предлагаются две модификации известного метода Шварца с использованием нейросетевых аппроксимаций для подобластей 1 и 2.

Следующие подходы, использующие эволюционные алгоритмы, позволяют не только обучить сеть, но и подобрать её структуру.

Подход III. При этом подходе используется идеология МГУА – Метода Группового Учета Аргументов. Строится несколько вариантов многорядного алгоритма отбора лучших функций.

Подход IV. Предложены модификации генетического алгоритма построения нейронной сети, использующие обучение двух ансамблей сетей.

Генетические операции (мутации, транслокации, скрещивание) задаются в нейросетевых характеристиках, а не в терминах бинарных кодов.

Подход V. Происходит обучение коллектива сетей-экспертов – получившаяся группа сетей дает локальное представление для решения задачи во всей области, т.е. каждая сеть даёт решение в своей подобласти.

Процедура декомпозиции области, на которую опираются подходы II-V, может быть проведена и в случае областей более сложной формы, когда область разбивается на большее число компонент. Описаны реализации подходов в этом случае.

Сравнительный анализ результатов вычислений показал, что эволюционные подходы III-V приводят к существенному сокращению (от 4 до 10 раз) числа нейронов, требуемых для достижения данной точности.

В главе 5 дается построение устойчивых нейросетевых моделей многокомпонентных систем с распределенными параметрами в случае фиксированных границ раздела компонент.

В параграфе 1 дается постановка задачи и предлагаются два нейросетевых подхода к решению.

При первом подходе обучение сети проводится на основе минимизации единого функционала ошибки, включающего в себя условия согласования. При втором подходе обучение нейросетей, дающих приближенные решения в подобластях, проводится как одновременно – вся совокупность сетей обучается сразу, с учетом условий согласования, соответствующее слагаемое добавляется в функционал, так и раздельно – с чередованием процессов обучения сетей на основе минимизации соответствующих функционалов ошибок по подобластям с процедурой их стыковки. Обсуждаются достоинства и недостатки обоих подходов.

Предложенные общие нейросетевые подходы проиллюстрированы на нескольких характерных примерах построения приближенных математических моделей.

В параграфе 2 рассмотрена задача Пуассона. Рассматривались разные варианты выбора базисных нейроэлементов и функционалов ошибки, односетевой и двухсетевой подходы. Сравнение нейросетевого решения с МКЭ-приближением показало их хорошее согласование.

Параграф 3 посвящен построению нейросетевой модели нанообъекта (квантовая точка) – рассматривается уравнение Шредингера с кусочным потенциалом. Коэффициенты уравнения являются рациональными функциями спектрального параметра.

n = 1,2,3.

Рассмотрен случай размерностей Волновая функция приближается кусочно в каждой из подобластей системой нейронных сетей на основе радиальных базисных функций (Гауссовы пакеты). Настройка весов сетей осуществляется на основе минимизации единого функционала ошибки.

Численные эксперименты показали хорошее соответствие приближений точным решениям (в простых случаях) и решениям, полученным другими методами.

В параграфе 4 качестве модельного уравнения рассматривалось стационарное уравнение Шредингера с кубической нелинейностью в случае двух вариантов постановки задачи (два типа граничных условий).

В параграфе 5 рассматривается плоская и пространственная задача теплообмена в системе «сосуды-ткани»: венозный и артериальный сосуды окружены мышечной тканью, в которой выделяется тепло. Предполагаем, что перенос тепла в сосудах осуществляется, в основном, за счет конвекции, в тканях – за счет кондукции.

Возникает краевая задача, связанная с изменением типа уравнения и краевого условия: температурное поле T в ткани удовлетворяет уравнению Пуассона (эллиптический тип), в сосудах – уравнению теплопереноса (параболический тип);

на части границы (включая входы сосудов) выполняется условие Дирихле, на части границы, отвечающей тканям, – однородное условие Неймана, на участках стыка подобластей имеются условия согласования в виде непрерывности поля и его производной по нормали к разделу (коэффициенты теплопроводности крови и тканей практически равны).

В случае плоской задачи рассматривались возмущения двух типов:

сосуды с искривленными стенками и сосуды с пристеночными бляшками.

Предлагаемый нейросетевой подход позволяет и при этих усложнениях построить достаточно точные решения возмущенных задач. Дается обобщение рассмотренной постановки задачи на случай трех переменных и ее нейросетевое решение.

Для ускорения процесса построения оптимальных весов сети целесообразно соответствующим образом выбрать их начальные значения. При расчётах они разделялись на две группы: одна (сосуды) – для эллипсоидальных Гауссовых функций, сильно вытянутых вдоль сосудов, другая (ткани) – для слабо деформированных функций.

Рассматривались оба подхода с присущими им особенностями.

Численные расчеты показали, что нейросетевая аппроксимация правильно отражает поведение решения задачи в плоском и в пространственном случае.

Глава 6 посвящена приложению нейросетевого моделирования к исследованию многокомпонентных систем в случае неизвестных изначально переменных границ между компонентами (как свободных, так и управляемых).

В параграфе 1 рассматриваются нейросетевые подходы к моделированию систем с фазовыми переходами.

Численное решение поставленной задачи в рамках нейросетевой методологии проведено на примере одномерной задачи Стефана, решение которой известно и может использоваться для контроля предлагаемого нейросетевого подхода.

Рассмотрены следующие естественные с точки зрения методологии нейронных сетей подходы к задаче Стефана:

1. Аппроксимация температурных полей для обеих фаз с помощью соответствующим образом обученной RBF-сети или персептрона.

2. Построение гетерогенной сети, которая включает в себя наряду с RBF сетями, описывающими температурные режимы для каждой из фаз, еще и персептрон с одним скрытым слоем, задающий фронт фазового перехода.

3. Поиск температурного поля с помощью пространственной RBF-сети, зависящие от времени веса которой находятся из системы обыкновенных дифференциальных уравнений.

4. Использование рекуррентных нейронных сетей для задания нестационарных температурных режимов фаз.

Численный эксперимент показал, что сети, построенные на основе персептронов, легче обучаются и лучше приближают решения нелинейных задач с разрывными коэффициентами, чем гладкие RBF-сети. Первый подход наиболее прост в реализации и мало отличается от своих нейросетевых аналогов для других задач математической физики. Второй подход не многим сложнее, но лучше отвечает особенностям задачи и позволяет достигать требуемой точности, используя сети с меньшим числом элементов и меньшее время обучения;

он также допускает распараллеливание задачи. Третий и четвёртый подходы быстрее, что особенно существенно при решении серии однотипных задач, однако требуют тщательного учёта особенностей задачи для обеспечения устойчивости реализующих их алгоритмов.

В параграфе 2 проводится сравнительный анализ традиционного и нейросетевого подходов к построению приближенной модели калибратора переменного давления. Рассмотрена образцовая поверочная установка переменного давления, измерительная рабочая полость которой симметрична как относительно оси вращения, так и перпендикулярной ей плоскости.

Полость наполнена вязкой жидкостью. На цилиндрической части границы полости находится пьезоэлектрический источник гармонических колебаний. Он накладывает переменное давление на присутствующее постоянное давление.

Мы полагаем, что акустическое волновое поле в измерительной камере является гармоническим во времени, осесимметричным и четным по отношению к плоскости симметрии. На оси симметрии расположены два датчика давления – стандартный и проверяемый. Нужно подобрать форму части границы, содержащей датчик, таким образом, чтобы давление на нем было максимальным.

Классический подход. Оригинальный метод оптимизации границы, вычисления переменного давления u был предложен Васильевым А.Н. ранее (1989 г.).

Указанный прямой метод приводит к алгоритму итерационного типа:

заданное приближение для границы позволяет с помощью интегрального уравнения найти предельные значения решения на границе (а тем самым и внутри области), а затем корректировать границу при помощи уравнения Эйлера вариационной проблемы для оптимизируемой границы.

Нейросетевой подход. Применяется неклассический подход, основанный на проектировании гетерогенной нейронной сети и технологии ее обучения, который представляется более эффективным и адекватным. Аппроксимируем решение с помощью RBF-сети из гауссианов. Значения параметров ищутся из условия минимизации функционала ошибки. Для аппроксимации неизвестной части границы используется другая сеть – персептрон с одним скрытым слоем, обучаемая на основе минимизации функционала, описывающего требования, предъявляемые к датчику.

Разработан специализированный алгоритм итерационного типа обучения гетерогенной нейронной сети. Приведены результаты вычислений, примеры оптимальной области.


Новый подход к решению описанной задачи имеет следующие очевидные преимущества: помехоустойчивость – результат мало меняется при небольших изменениях входных данных (граничные условия, свойства среды, временная нестабильность);

нет необходимости при решении серии задач обучать сеть заново;

возможность применения к нелинейным и неклассическим задачам, в случае сложной геометрии.

В параграфе 3 приведена абстрактная постановка задачи управления границей и сделано обобщение нейросетевого подхода, когда ищется не только решение. К переменным, подлежащим определению, относится и сама форма области, граничные условия и др., рассматриваемые в качестве элемента некоторого параметрического семейства, элементы которого подлежат определению.

В главе 7 даны общие методы построения приближенных нейросетевых моделей по разнородной информации (дифференциальные уравнения и данные). В предлагаемом подходе, заменяющем традиционный двухэтапный метод построения модели, рассматривается иерархия моделей, как дифференциальных, так и функциональных, включающая всю имеющуюся исходную информацию, допускающая эволюцию моделей на любом уровне и способная включать в рассмотрение вновь поступающую информацию. На этом пути возможно и построение регуляризаций решений некорректных или неклассических задач.

Многие прикладные задачи приводят к необходимости строить приближенное решение дифференциального уравнения (или набора уравнений), выделяя это решение не начально-краевыми условиями, как это принято в классических постановках задач математической физики, а, например, неким набором экспериментальных данных. Заметим, что в столь нетрадиционной постановке, задачи становятся некорректными и, вообще говоря, могут и не иметь решения. Предлагаемый нейросетевой подход позволяет конструировать приближенные решения и в столь нестандартных ситуациях.

Для задачи, описывающей процессы тепломассопереноса в гранулах пористого катализатора, в первом параграфе построено приближенное нейросетевое решение в виде одной нейросети и для случая интервального задания параметров задачи.

В качестве примера неклассической постановки во втором параграфе исследовалась задача нахождения функции, для которой в некоторой части области известно уравнение, кроме того, получены (например, в результате измерений, возможно, с некоторой погрешностью) её значения в некотором наборе точек.

Предложенная методика позволяет работать не только с уравнениями эллиптического типа. На примере уравнения теплопроводности для струны она применяется к эволюционным уравнениям – задача продолжения нестационарных полей по данным точечных наблюдений.

Некоторые начально-краевые задачи становятся корректно поставленными лишь при наложении определенных требований на краевые или начальные условия: при выполнении этих соотношений (порой зависящих от векторного параметра) задача корректна. Наш подход позволяет изучить и такие задачи: в параграфе 3 рассмотрен другой нетривиальный пример – построение приближенных решений неклассического ультрагиперболического уравнения: xu = y u, где x – оператор Лапласа по переменной x. В последнее время это малоизученное уравнение вновь привлекло к себе внимание. Оно оказалось связанным с задачами интегральной геометрии, теории представлений групп, обратными задачами квантовой теории рассеяния, распространения волн, задачами компьютерной томографии.

В первой части данного раздела на основе нейросетевых RBF аппроксимаций и лучевого преобразования Ф.Йона строятся решения ультрагиперболического уравнения во всем пространстве. Обоснована корректность некоторых краевых характеристических задач с условиями Дирихле для ультрагиперболического уравнения. Во второй части раздела описываются два нейросетевых подхода к построению приближенных решений этих корректных задач. При первом подходе строится нейросеть, аппроксимирующая решение в области, а необходимое и достаточное условие разрешимости алгебраического характера учитывается как одно из требований к решению введением соответствующего слагаемого в функционал ошибки.

При втором – обучается нейронная сеть, приближающая граничные данные из класса разрешимости, решение во всей области восстанавливается по ее выходу с помощью явного интегрального представления.

Предлагаемые нейросетевые подходы могут быть применены и для выделения множеств решений интегральных, интегро-дифференциальных и иных уравнений;

более подробно такие постановки и возможные естественные обобщения рассматриваются в параграфе 4 для случая систем уравнений и сопутствующих ограничений (условий в весьма общей постановке). При таком обобщении, так же как и ранее, могут использоваться алгоритмы, позволяющие наряду с настройкой весов нейронных сетей подобрать и их структуру.

Рассматриваются варианты распараллеливания соответствующих подходов.

В главе 8 приводятся осцилляторные модели нейронных сетей.

Хотя исходной целью изучения работы нейронных сетей было моделирование работы человеческого мозга, виды нейронных сетей, рассмотренные в первой главе, оказались не вполне подходящими для решения данной задачи. Более перспективными являются модели, описывающие отдельные аспекты работы мозга с помощью сложных колебаний системы взаимосвязанных осцилляторов [106].

Эта модель тоже не является идеальной, хотя бы потому, что мозг это целостная система, состоящая из миллиардов нейронов. Более адекватной представляется система из бесконечного множества осцилляторов, связи между которыми ослабевают при переходе от одной группы к другой. При этом место квазипериодических колебаний занимают почти периодические колебания с бесконечным базисом частот. Восьмая глава посвящена некоторым подходам к построению такой теории.

Её построение позволило бы создать технические конструкции, более адекватно реализующие функции искусственного интеллекта. Другое применение – создание медицинской техники, регулирующей работу организма с помощью слабых колебательных воздействий.

Описание и анализ алгоритмов нельзя считать завершённым без создания программного пакета, реализующего эти алгоритмы. Нейросетевой эмулятор Essence, описанию которого посвящена глава 9, разработан EssenceGroup под руководством Тархова Д.А. Текущая версия (Essence 1.2) представляет собой программную среду, написанную на базе платформы Java 2 и предназначенную для разработки и обучения нейронных сетей с целью отыскания скрытых зависимостей в числовых данных.

Конечной целью является создание распределённой по Интернет интеллектуальной системы, способной решать разнообразные задачи моделирования.

В заключении приведены основные результаты и намечены перспективные направления исследований.

Глава 1. Анализ состояния предметной области, постановка задач и описание основных моделей В настоящее время нейросетевая тематика достаточно популярна и широко исследуется [85, 98, 99, 112, 130, 136, 149, 165, 168, 183, 202, 217, 218, 228, 232], но говорить о том, что эта область знаний достигла определённой завершённости, не приходится. Нет даже общеупотребительного понимания того, что такое нейронные сети, не говоря уже о единых методах работы с различными их видами. В это время как нейронные сети успешно применяются в качестве моделей во многих прикладных областях [21, 38, 78, 96, 99, 100, 107, 122, 129, 135, 144, 145, 155, 166, 174, 179, 192, 193, 196, 207, 220, 221, 223, 224, 230]. При этом практически в каждой книге применяются свои обозначения и методы, и осознать связь между ними очень непросто. Попытка решить эту проблему была предпринята в [217], данную книгу можно рассматривать как следующий шаг на этом пути.

В данной книге под нейронными сетями подразумевается набор рассмотренных далее в этой главе математических моделей, составленных из простых элементов по определённым правилам. Каждая модель определяется архитектурой (принципами построения), структурой и параметрами. Выбор архитектуры сети для решения конкретной задачи моделирования – задача неформальная и трудно формализуемая. Единообразные методы подбора структуры сети для решения широких классов задач обсуждаются в следующих двух главах. Подбор параметров (они обычно называются весами сети) для многих задач может быть решён стандартными методами нелинейной оптимизации, применёнными к рассматриваемому функционалу ошибки. Эти стандартные выкладки проделаны ниже в единых обозначениях. Наиболее эффективные алгоритмы получаются сочетанием структурной и параметрической адаптации. Такие алгоритмы приведены во второй главе.

1.1. Линейная регрессия как важный пример В данном параграфе рассматривается простейшая типичная задача математического моделирования – построение линейной регрессии. Важность этого примера состоит не только в том, что такую зависимость тоже иногда относят к нейросетевой [100, 144], но и в том, что линейные преобразования обычно являются частью нейросетевой модели. Ещё более важной является возможность проиллюстрировать на этом простом примере ряд общих подходов, применяемых далее в общем случае.

Основные определения. Рассматриваемая задача состоит в построении зависимости вида y = w1 x1 + w2 x2 +... + wm xm + w0, (1.1) или в векторной форме y = ( w, x) + w0, где ( w, x) = w1 x1 + w2 x2 +... + wm xm ( x( x1, x2,..., xm ) называется входом, а y – выходом), по выборке входов x1, x 2,..., x N, и соответствующих выходов y1, y2,..., y N.

Коэффициенты w0, w1, w2,..., wm подбираются таким образом, чтобы ошибка аппроксимации была минимальна.

В качестве ошибки аппроксимации чаще всего используют квадратичный функционал N E = ( yn (w, x n ) w0 ) 2. (1.2) n = Кроме этого функционала иногда употребляются и другие, например:

N E1 = yn (w, x n ) w0 min. (1.3) n = или E = max yn ( w, x n ) w0, (1.4) 1 n N Ясно, что применение функционала (1.3) уменьшает влияние отдельных выбросов, а применение функционала (1.4) наоборот приводит к более равномерному приближению во всех точках.

Другая трактовка этих функционалов заключается в том, что они соответствуют наблюдениям в условиях помех с разными статистическими свойствами [39]. Если y1, y2,..., y N определяются с точностью до нормально распределённого случайного слагаемого, то для оценки коэффициентов следует использовать функционал (1.2). Если это слагаемое (ошибка измерений) распределена равномерно в некотором интервале – она, например, может быть результатом округления – то для оценки параметров регрессии следует использовать функционал (1.4). Если ошибка измерений распределена по закону Лапласа (это характерно для наблюдений в меняющихся условиях), то следует использовать функционал (1.3).

Легко находятся оптимальные (с точки зрения функционала (1.2)) 1N yn, yN = w0 = y N ( w, x N ). Здесь значения коэффициентов модели:

N n= 1N x N = x n, w – решение системы N n= Rw = h, (1.5) N где h – вектор с координатами h1, h2,..., hm, hi = ( xin xiN )( yn y N ), R – n = матрица с элементами rij, N rij = ( xin xiN )( x jn x jN ).

n = Если матрица R невырождена, то (1.5) имеет единственное решение w = R -1h. Если матрица R вырождена, то решение системы (1.5) либо неединственное, либо не существует. При этом обычно ищется решение минимальной длины, т.е. w = R +h, где R + – псевдообратная матрица к R (подробности см. в [4]). Если R не вырождена, но близка к этому, т.е. плохо обусловлена, тогда при решении (1.5) могут появиться большие ошибки. Задачи нахождения как точного, так и приближённого решения систем линейных уравнений хорошо исследованы [5], [80], [97], [110], [138], [159], [182], [206], [229].

Построение главных компонент. Если в задаче построения линейной регрессии размерность входа слишком велика, то решение системы уравнений (1.5) затрудняется. Если между компонентами входного вектора (переменных регрессии) существует много линейных связей, т.е. одни переменные близки к линейным комбинациям других, то система уравнений оказывается плохо обусловленной и её численное решение наталкивается на существенные трудности. Для решения этих проблем можно перейти к так называемым главным компонентам [4, 33].

Пусть задан набор m -мерных векторов наблюдений: x1, x 2,..., x N. Будем искать такую матрицу A и набор векторов f n, n = 1, 2,..., N, что размерность s вектора f n меньше m и Afl минимально отличается от вектора x l, другими словами, минимизировать функционал N E = x n Af n. (1.6) n = При этом получившийся набор векторов f n образует ортонормированный базис, N f f T т.е. – единичная матрица. Известно, что для центрированной выборки nn n= A R столбцами матрицы будут собственные векторы матрицы из предыдущего параграфа.

Приведём пример нейросетевого алгоритма вычисления первого главного компонента [183].

Алгоритм 1.1. Алгоритм Ойя.

1. Выбираем начальные значения координат искомого первого собственного вектора a1 j (0) и другие параметры алгоритма.

2. Уточняем его координаты по формуле a1 j (k + 1) = a1 j (k ) + (k ) f1 (k )( x j (k ) a1 j ( k ) f1 ( k )), m где f1 (k ) = ai1 (k ) xi (k ) – аналог формулы (1.1), (k ) – шаг, вообще говоря, i = убывающий по определённому закону или подбираемый в процессе обучения.

При этом в качестве x j ( k ) берутся последовательно координаты векторов исходной выборки x1, x 2,..., x N.

3. Нормируем вектор f1, т.е. делим его координаты на длину.

4. После прохождения всей выборки повторяем шаги 2 и 3.

5. Если выполнены условия останова, например, функционал (1.6) стал достаточно малым, работа алгоритма заканчивается.

Если выборка пополнилась, работа алгоритма может быть продолжена.

При этом старые векторы можно включать в обработку реже, чем новые. Если темп пополнения выборки заранее неизвестен, то можно предложить адаптивный вариант, который заключается в следующем. Вновь пришедший вектор обрабатывается сразу после его получения, затем обрабатывается предыдущий вектор и так далее, пока не придёт очередное наблюдение x N +1.

Если ищется не один собственный вектор, а сразу s, тогда можно вычислять на шаге 2 собственные векторы итерационно по формуле i aij (k + 1) = aij (k ) + (k ) f j (k )[ x j (k ) a pj (k ) f p (k ))].

p = Такой подход к вычислению главных компонент удобен для случая пополняющейся выборки, когда в процессе работы алгоритма поступают новые наблюдения, которые сразу надо включать в обработку.

Постановка задачи выбора переменных. Если количество координат входного вектора x слишком велико, то можно применить и другой подход подбора структуры модели, используя не все, а только часть координат.

Обычно считается, что чем больше переменных взято в модель, тем меньше ошибка. В реальных задачах это не так. Дело в том, что наблюдения, как правило, содержат не только истинные значения, но и шум (погрешности или ложные отсчёты). Если берётся максимум переменных, тогда приближаются не только истинные значения, но и ошибки. Наиболее известные статистические подходы к преодолению этой проблемы, как правило, не работают, так как вероятностные свойства ошибок заранее не известны.

Для преодоления этих проблем А.Г.Ивахненко предложил наиболее адекватную методологию – метод группового учёта аргументов (МГУА), который активно развивается им и его учениками и последователями [131-134].

Основная идея этого метода состоит в том, что коэффициенты регрессии вычисляются по одному функционалу, а качество модели оценивается по другому (вспомогательному) функционалу.

Опишем критерии качества (вспомогательные функционалы), соответствующие МГУА, более подробно, используя приведённые выше источники. Наилучшей считается та модель, для которой выбранный критерий принимает минимальное значение.

Критерий регулярности. Пусть выборка разбита на две части – 1.

множество A, которому соответствуют номера из множества N A и множество B, которому соответствуют номера из множества N B. Пусть yn ( A) – выход модели, рассчитанной по первой части выборки, т.е. в сумме (1.2) и в последующих формулах участвуют только слагаемые из множества A. Тогда (y критерий имеет вид 2 ( B ) = yn ( A)) 2. Применяется также симметричная n nN B (y (y форма критерия 2 ( AB ) = yn ( A)) 2 + yn ( B )) 2.

n n nN B nN A N Критерий минимума смещения. n = ( yn ( A) yn ( B)) 2. При этом 2. см n = A части выборки могут быть примерно одинаковы, во множество рекомендуется выбирать точки с большими значениями выходной величины, а во множество B – с меньшими. Другой способ разделения выборки на части A и B – поиск максимума по возможным разделениям минимума nсм : чем меньше 2 nсм / nсм (max), тем более достоверна модель. Можно также использовать N nсм ( ) = ( yn ( A) yn ( B)) 2, где 1,53.

n = Критерий точности многошагового прогноза. Этот критерий 3.

применяется для временных последовательностей и удобен в случае, когда постоянно поступают новые данные. Можно поступить следующим образом:

вычислить коэффициенты модели по N точкам, а затем вычислить выход модели для последующих N1 точек. Этот прогноз можно сравнить с истинными N + N (y значениями, когда они поступят. Критерий имеет вид I ( N ) = yn ) 2.

n n = N + Близким по смыслу является критерий точности краткосрочного прогноза (y y ) n n nNC 2 (C ) =. Здесь N C – несколько точек за теми, по которым ( y y) n nNC производится подбор коэффициентов модели, y – оценка среднего значения yn по N C. Если значение этого коэффициента больше единицы – модель неприменима.

Если для модели должно 4. Критерий баланса переменных.

выполняться дополнительное условие (y )=0, которое не используется при N подборе коэффициентов, тогда критерий имеет вид B = 2 ( yn ).

n = Критерий баланса прогнозов. В этом критерии минимизируется 5.

разность прогнозов при различном масштабе дискретизации переменных, например, строится модель по всем точкам и модель такой же структуры, для построения которой используются точки через одну, и выбирается модель, у которой разность прогнозов минимальна.

Сценарный критерий – просматривается прогноз на большом 6.

промежутке времени и отсеиваются заведомо нереальные модели. Этот критерий применяется при долгосрочном прогнозе.

1N (W ) = (n).

– 7. Усреднённый критерий регулярности N n= Другими словами, в тестовую выборку выделяют все точки по очереди, рассчитывают коэффициенты модели по оставшимся точкам, вычисляют ( n) ошибку в единственной тестовой точке и результат усредняют.

Применение этого критерия имеет особый смысл для малой выборки, когда к исходной информации надо относиться особо экономно.

Абсолютно помехоустойчивый критерий. Для этого критерия 8.

N V = ( yn ( A + B) yn ( A))( yn ( B) yn ( A + B)).

n = Этот критерий 9. Критерий несмещённости коэффициентов.

получается, если в критериях 2) или 8) заменить разность выходов на разность коэффициентов полученной модели.

10. Комбинированные критерии. Для алгебраических моделей, которые не содержат времени как аргумента, применяется критерий 12 = nсм + 2 ( B ), где – некоторый параметр. Для долгосрочного прогноза 2 = nсм + B 2. Для 2 авторегрессии и других временных моделей 32 = nсм + I 2 ( N ) и так далее.

Другой способ скомбинировать 11. Последовательные критерии.

несколько критериев – применить их друг за другом. При этом первый критерий позволяет отобрать несколько подходящих моделей, а второй – выбрать из них наилучшую. В [134] рекомендуется в качестве основного (завершающего) критерия использовать критерий минимума смещения или критерий баланса прогнозов (для долгосрочного прогнозирования), а в качестве вспомогательных – критерий регулярности, критерий точности многошагового прогноза или критерий точности краткосрочного прогноза.



Pages:   || 2 | 3 | 4 | 5 |   ...   | 10 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.