авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 6 | 7 || 9 | 10 |

«Федеральное агентство по образованию САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ А.Н.ВАСИЛЬЕВ, Д.А.ТАРХОВ НЕЙРОСЕТЕВОЕ ...»

-- [ Страница 8 ] --

Нейросетевой подход К решению задачи с успехом применяется подход, основанный на проектировании и обучении гетерогенной нейронной сети, который представляется более эффективным и адекватным. Будем аппроксимировать решение u (, z ) с помощью RBF-сети (нейронной сети с радиальными базисными функциями), другими словами, представим его в форме N c (a x x ), где в качестве базисной функции выбираются i i i i = (r ) = exp(r 2 ), (ci, ai, x ) – векторный настраиваемый параметр. В нашем i случае имеем N u (, z ) = ci e ai [( i ) + ( z zi ) 2 ], i = где {( i, zi)}iN 1 – набор центров RBF-сети.

= Следует отметить, что подобным образом можно исследовать и более сложные задачи с асимметрией, нарушением гладкости, корректности, нелинейностями, переменными и зашумленными коэффициентами, с изменением типа уравнения в подобластях.

Значения параметров ищутся из условия минимизации функционала J [u ] (краевая задача для u заменяется вариационной задачей для J ): в нашем случае полагаем 2 J [u ] = 1 u + k 2u d + 2 u u d + 3 u f 0 d, z i 0 – штрафные коэффициенты.

Для аппроксимации неизвестной части границы используется персептрон с одним скрытым слоем n ( ) = bi (di ei ) + b0, i = где нелинейная активационная функция задается как ( s) = s (1 + s ), возможны и другие формы активационных функций, например, ( s) = th( s) ;

коэффициенты b0, bi, di, ei – настраиваемые параметры персептрона, n – число нейронов.

После дискретизации задачи аналоги функционалов получаются в следующей форме:

Функционал, в соответствии с которым обучается нейросеть, задающая поле давления, выберем в виде 2 M M M J [u ] = 1 u + k u ( j, z j ) + 2 u u ( j, z j ) + 3 u f 0 ( j0, z j0 ), z j =1 j =1 j0 = где используются три набора тестовых точек: {( j, z j )}M=1 – внутри области, j {( j, z j )}M=1 – на граничной части, {( j0, z j0 )}M 0 1 – на граничной части 0 ;

j0 = j i 0, i = 1, 2,3, – штрафные коэффициенты.

Функционал, описывающий требования, предъявляемые к датчику, имеет вид mG + 5 ( ( a ) H ) 2 + 6 ( ( i ) h) 2, I [u ] = 4 u (0, h) i = здесь i 0, i = 4,5,6, – штрафные коэффициенты;

некоторые дополнительные требования к функции ( ) описываются третьим членом функционала через набор точек {( i, ( i ))}imG – в месте расположения датчика G.

= Процесс обучения нейронной сети (настройка параметров с целью минимизации функционалов I и J ) устроен следующим образом:

1. Начальное состояние границы задается как выход персептрона с такой инициализацией коэффициентов (весов), чтобы граница была близкой к горизонтальной прямой.

2. Центры RBF сети изначально распределены случайно (по равномерному или другому закону) или регулярно (в соответствии с определенным правилом) в прямоугольнике (или некоторой его окрестности). Коэффициенты ci и ai считаются независимыми случайными равномерно распределенными параметрами.

3. Выбираются контрольные точки на границе (на заданном расстоянии друг от друга) и внутри области (случайно равномерно) и вычисляется функционал J.

4. Выполняется несколько шагов минимизации функционала J на основе какого-либо итерационного метода, что приводит к изменению коэффициентов (весов) RBF-сети. В нашем исследовании был успешно применен метод случайного поиска.

5. Изменяются веса персептрона и соответствующая часть границы при минимизации функционала I.

6. Случайные тестовые точки внутри области генерируются заново с учетом изменения границы.

7. Шаги 5 и 6 итерационного процесса повторяются заданное число раз или до достижения требуемой точности: функционал J становится меньше определенного значения, и изменение функционала I достаточно мало.

Для реализации указанного алгоритма была написана программа на C ++.

В публикации [305] приведены результаты вычислений для следующих значений параметров: M = 1536, M = M 0 = 100, mG = 8;

1 = 0.5, i = 1, i = 2,...,6.

Здесь в качестве иллюстрации приведены графики, характеризующие итерационный процесс вид оптимальной области для указанных значений параметра.

Рис.6.7. Итерационный процесс I Рис.6.6. Итерационный процесс J (N RBF = 75) (N RBF = 75) Рис.6.8. Оптимальная область Нейросетевой подход к решению описанной задачи, имеет следующие очевидные преимущества: помехоустойчивость – результат мало меняется при небольших изменениях входных данных (граничные условия, свойства среды – масла, временная нестабильность);

нет необходимости при решении набора задач обучать сеть заново, достаточно использовать уже обученную сеть для достаточно близких входных данных и, если необходимо, доучить сеть до уровня требуемой точности;

возможность применения к нелинейным и неклассическим задачам. Так, например, можно • уточнить модель измерительной установки, используя для расчета волнового поля в рабочей полости систему уравнений акустики, не ограничиваясь при этом линейной аппроксимацией;

• совершенствовать модель, уточняя ее структуру и коэффициенты на основе серий известных приближенно экспериментальных данных в соответствии с идеями, изложенными в главе 7, в частности, решая некорректную задачу идентификации при безынерционном оптическом методе измерения параметров среды, заполняющей камеру установки;

• модифицировать допустимый граничный оператор, учитывая взаимодействие волн со стенками камеры, исследовать влияние датчика на волновое поле в рабочей полости;

• рассмотреть рабочие полости со сложной геометрией без симметрии, системы составных резонаторов, с акустически взаимодействующими элементами, и учесть эффекты (влияние пузырьков, газообразные среды, акустические течения и др.), возникающие в рабочей камере установки.

Изучение каждой из этих задач с помощью традиционных подходов упирается в труднорешаемые вопросы.

От исследования конкретной прикладной задачи можно перейти к ее возможному обобщению. В указанной ниже постановке задачи ищется не только ее решение. К переменным, подлежащим определению, относится и сама форма области. При этом границу можно задавать некоторым набором точек или, как это делается здесь, рассматривать в качестве элемента некоторого параметрического семейства, параметры которого подлежат определению.

6.3. Нейросетевой подход к решению задачи в обобщённой постановке Пусть { } – гладкое семейство областей в R p, зависящее от параметра (который может быть и векторным), = ;

A – эллиптический оператор, B – допустимый граничный оператор, – комплексное число. Рассмотрим решения семейства краевых задач Au (x) = u (x), x R p,.

Bu = f С множеством этих решений {u } свяжем следующую экстремальную задачу:

Пусть I [u, ] – некоторый гладкий функционал, определенный на решениях {u }. Требуется найти область из семейства { }, которая при фиксированном значении числа доставляет функционалу I экстремальное значение.

Методология нейронных сетей позволяет не только переформулировать постановку задачи в нейросетевом базисе, но и рассмотреть случаи нелинейных моделей. Заметим, что накладываемое на оператор условие эллиптичности не является существенным и, скорее, вводится для удобства проведения аналогии.

Можно точно так же рассмотреть случай систем уравнений, а в случае многокомпонентной области ставить и решать комбинированные задачи, в которых происходит изменение типа уравнения при переходе от одной подобласти к другой, ввести в рамки общей схемы временные задачи, полагая время одной из переменных, использовать наборы данных наблюдений, заменяющие в неклассических постановках начально-краевые условия (см.

главу 7).

Самый простой вариант, использованный при нейросетевом моделировании датчика, – искать u ( x) как нейросетевую функцию своих аргументов, подбирая веса сети так, чтобы получалось решение краевой задачи, и далее находить из условия экстремума I. При этом для каждых и f строится своя сеть. Использование алгоритмов эволюционного типа (см. главу 2), позволяет более тонко настраивать нейронную сеть, одновременно подбирая веса сети и ее структуру, и тем самым уменьшить количество составляющих ее элементов.

Можно конструировать сеть, у которой входами будут и значения f в некотором фиксированном наборе точек, а выходом –. При этом надо будет набрать исходную базу данных, т. е. решить задачу для достаточно представительного набора параметров. Оба этапа совместимы с помощью одной гетерогенной сети. Очевидно, что возможная нелинейность практически не усложняет задачу.

Аналогично решаются задачи восстановления уравнения (или граничного условия) как элемента некоторого параметризованного семейства.

Нейросетевой подход к решению обратных задач такого рода может рассматриваться как один из методов их регуляризации. Существенные обобщения сделаны в работах [66, 73,74,302-303].

Глава 7. Построение приближенных нейросетевых моделей по разнородной информации Изучение реальных объектов весьма часто приводит к построению математических моделей в форме задач математической физики для дифференциальных (или иных) уравнений в постановках, далеких от классических.

Возьмём, к примеру, задачу поиска полезных ископаемых с помощью геофизических методов. Математически её обычно ставят как обратную задачу математической физики, решая тем или иным методом регуляризации. При этом не учитывается сложный характер свойств земной толщи, описываемой при таком подходе достаточно простым уравнением. Представляется целесообразным рассматривать это уравнение как первое приближение, уточняя его структуру в процессе исследования вместе с геометрическими и иными свойствами залегающих в глубине земли пластов.

Другая известная попытка построения достаточно сложной практически интересной модели связана с прогнозом погоды. Весьма вероятно, что недостаточная точность получаемых прогнозов определяется не только неустойчивостью соответствующей системы, но и принятием многих априорных допущений, не уточняемых далее во время расчётов и дальнейших наблюдений.

Аналогичной критике можно было бы подвергнуть и модель системы «сосуды-ткани», изучавшуюся в главе 5. Очевидно, что выбранная модель, как в части сосудов, так и в части тканей, является чрезмерно упрощённой и может рассматриваться только в качестве начального приближения, уточняясь в процессе расчётов и наблюдений.

То же самое можно сказать практически про любую модель реального технического или биологического объекта. В соответствии с предлагаемой методологией её можно уточнять, получая новые научные и практические результаты. Более того, такое уточнение моделей без принципиальных трудностей может быть автоматизировано.

Как правило, в реальных задачах коэффициенты уравнений и параметры задаются неточно: например, параметр меняется в некотором интервале, центр которого характеризует среднее значение параметра. Нейросетевой подход позволяет в этом случае построить приближенное решение задачи с помощью одной сети. Многие прикладные задачи приводят к необходимости строить приближенное решение дифференциального уравнения (или набора уравнений) в некотором классе функций, выделяя это решение не начально-краевыми условиями, как это принято в классических постановках задач математической физики, а, например, неким набором экспериментальных данных. Заметим, что в столь нетрадиционной постановке, задачи становятся некорректными и, вообще говоря, могут и не иметь решения. Предлагаемый нейросетевой подход является приближенным аналитическим методом исследования математических моделей, в частности, он позволяет конструировать приближенные решения на начальном этапе моделирования и в столь нестандартных ситуациях (см.

примеры). Некоторые начально-краевые задачи становятся корректно поставленными лишь при наложении некоторых определенных требований на краевые или начальные условия: при выполнении этих соотношений (порой зависящих от векторного параметра) задача корректна. Наш подход позволяет изучить и такие задачи – см. §7.3 о нейросетевом подходе к построению приближенных решений неклассического – ультрагиперболического уравнения.

7.1. Нейросетевая модель решения задачи о пористом катализаторе Анализ баланса тепла и массы в грануле пористого катализатора при каталитической химической реакции приводит – в безразмерных переменных – к изучению следующей нелинейной граничной задачи:

y ( x) требуется найти решение обыкновенного дифференциального уравнения y d2y p + y = (1 + y )exp (7.1), 1 y dx 2 x удовлетворяющее краевым условиям dy (0) = 0, y (1) = 0.

dx Параметр p учитывает геометрию гранулы: для сферической частицы p = 2, для цилиндрической – p = 1. В этом примере далее рассматривается случай плоской гранулы – p = 0.

В работе профессора Е.Б.Кузнецова из материалов VI Международной конференции NPNJ'2006 приведены два метода численного решения дискретного аналога поставленной задачи – ее разностной аппроксимации:

метод Лаэя и метод дискретного продолжения по наилучшему параметру.

Результаты вычислений по этим оригинальным методам, к сожалению, не приводятся, но утверждается, что они совпадают с результатами, полученными методом интегральных уравнений, которые приведены в известной монографии профессора На – На Ц. Вычислительные методы решения прикладных граничных задач. – М.: Мир, 1982, 296 с.

Применим к этой нелинейной задаче обсуждавшийся в предыдущих главах развиваемый авторами нейросетевой подход к построению устойчивых приближенных моделей сложных систем.

Напомним суть этого подхода на простейшей (вообще говоря, нелинейной) краевой задаче p A(u ) = g, u = u (x), x R, B(u ) = f, здесь A(u ) – дифференциальный оператор, B(u ) – оператор, позволяющий задать граничные условия, – граница области.

Ищем приближённое решение этой задачи в виде выхода искусственной N нейронной сети заданной архитектуры u (x) = ci v(x, ai ), веса которой – i = линейно входящие параметры ci и нелинейно входящие параметры ai – определяются в процессе минимизации функционала ошибки вида M M J (u ) = A(u (x j )) g (x j ) + B(u (xj )) f (xj ).

2 j =1 j = Здесь {x j }M 1 – периодически перегенерируемые пробные точки в области j=, {xj }M=1 – пробные точки на её границе ;

штрафной параметр.

j В нашем случае = (0;

1), = {0,1}, в качестве базисных нейроэлементов, к примеру, могут быть выбраны гауссианы v( x, a1i, a2i ) = exp{a1i ( x a2i ) 2 }, здесь a = ( a1, a2 ), u = y ( x), а для функционала ошибки используется выражение вида dy y ( x j ) d2y M J ( y) = ( x j ) (1 + y ( x j ))exp + (0) + y (1).

dx 1 y( x j ) dx 2 j = В качестве метода глобальной минимизации для настройки параметров приближенного нейросетевого решения y ( x) выбирался модифицированный метод многогранника (см. главу 3). С целью сравнения наших результатов с результатами, полученными у На вычисления проводились для тех же значений параметров: = 0.1, = 0.5, = 1.

0.2 0.4 0.6 0.8 1. -0. -0. -0. -0. Рис.7.1. График нейросетевого решения задачи y ( x) для N = Уже для N = 6 удалось построить приближенное нейросетевое решение задачи со среднеквадратичной ошибкой порядка 4 105 (относительной ошибкой, не превосходящей 0.08%), устойчивое по отношению к возмущениям ее параметров, при этом решение представлено в аналитической форме, его значения в контрольных точках совпали с данными, приведенными в монографии На.

Ещё более интересной является задача построения нейронной сети, дающей решение задачи не при фиксированных значениях параметра, а значениях из некоторого интервала. При этом данный параметр надо подать на вход сети наряду с переменной x. В качестве такого параметра можно было бы выбрать, так как зависимость от него наиболее интересна с точки зрения приложений. Однако более заманчиво ввести в рассмотрение все три параметра: ( min ;

max ), ( min ;

max ) и ( min ;

max ).

При этом в качестве базисных функций можно было бы взять гауссианы v ( x,,,, a1i, a2i,..., a8i ) =, = exp{ a1i ( x a2i ) 2 a3i ( a4i ) 2 a5i ( a6i ) 2 a7 i ( a8i ) 2 } но более эффективным оказалось использование гетерогенной нейронной сети с базисными нейроэлементами вида v( x,,,, a1i, a2i,..., a8i ) =.

= exp{ a1i ( x a2i ) 2 }th{ a3i ( a4i )}th{ a5i ( a6i )}th{ a7 i ( a8i )} Минимизируемый функционал ошибки J зададим в виде – d2y 2 ( x j, j, j, j ) dx M J ( y) = + j j y ( x j, j, j, j ) j (1 + y ( x j, j, j, j ))exp j = (7.2) 1 j y ( x j, j, j, j ) M dy + (0, j, j, j ) + y (1, j, j, j ) j =1 dx Вычисления проводились для следующих интервалов изменения параметров (0.05;

0.15), (0.4;

0.6), (0.8;

1.2). Оптимальные значения весов приближенного нейросетевого решения y ( x,,, ) подбирались на основе минимизации функционала J как с помощью модифицированного метода многогранника, так и с помощью метода плотного облака, который в данном случае оказался более эффективным. Приведем результаты вычислений для сети из N = 30 нейроэлементов при следующих значениях параметров:

размер облака = 0.03, штрафной множитель = 1, число тестовых точек M = 100. Полученное приближенное решение задачи дается нейронной сетью в аналитической форме для указанной области изменения параметров,,. Его значения в контрольных точках отличаются от приведенных в монографии На данных менее чем на 2%.

На приведенных ниже рисунках указаны графики нейросетевого решения для контрольной точки и на соответствующих сечениях:

Рис.7.2. График нейросетевого решения задачи y ( x,,, ) для N = Рис.7.3. График нейросетевого решения задачи y ( x,,, ), ( min ;

max ) Рис.7.4. График нейросетевого решения задачи y ( x,,, ), ( min ;

max ) Рис.7.5. График нейросетевого решения задачи y ( x,,, ), ( min ;

max ) Наряду с этим результат нейрокомпьютинга сравнивался с решением, полученным численными методами, реализованными в ядре среды Mathematica 6, – получилось очень хорошее совпадение. (Заметим, что предыдущие версии пакета Mathematica с подобными задачами не справлялись.) Построенное в явной форме приближенное нейросетевое решение весьма точно моделирует совместные процессы переноса тепла и массы в частице пористого катализатора не только для конкретных значений параметров, но и в интервалах изменения этих параметров: модель задается одной нейросетью.

Заметим, что обученную таким образом нейронную сеть можно использовать для определения параметров по данным измерений, проводя минимизацию по этим параметрам невязки между данными измерений и выходом нейронной сети.

7.2. Нейросетевая регуляризация решения задачи продолжения температурных полей по данным точечных измерений В качестве примера неклассической постановки исследовалась задача нахождения функции, для которой в части области известно уравнение, кроме того, получены (например, в результате измерений) её значения в некотором наборе точек. Будем искать в области = 1 2 функцию u (x), x R p, удовлетворяющую условиям:

u (x j ) = z j, x j 1, j = 1,..., m1, x j 2, j = m1 + 1,..., m1 + m2 ;

A(u ) = 0, x 2, где A – известный дифференциальный оператор.

Нейросетевая аппроксимация решения ищется с помощью RBF-сети из гауссовых функций N u (x) = ci exp{ai x x }, i i = где – евклидова норма в R p (вместо гауссианов возможен выбор и других базисных функций – Коши, мультиквадрики и т.п.). Другой вариант – аппроксимирующая нейросеть из однослойных персептронов N u (x) = bi (di x ei ) + b0, i = где нелинейная функция задается как ( s ) = s (1 + s ), возможны и другие формы активационных функций, например, ( s ) = th( s ).

Веса сети – параметры ci, ai, x ;

b0, bi, d i, ei – находятся из условия i минимизации функционала ошибки m1 + m M J (u ) = A(u ) (x k ) + u (x j ) z j, k =1 j = где {x k }k =1 – набор тестовых точек в подобласти 2.

M 1. В качестве первого примера рассмотрим одно из простейших уравнений эллиптического типа – уравнение Лапласа на плоскости 2u 2u u 2 + 2 = 0. Будем искать его решения в области. Обозначим через U x y множество этих решений. Как выделить из множества U некоторое решение?

Если задать значения решения на границе круга, то, как хорошо известно, элемент u U по условиям u = f находится единственным образом по формуле Пуассона. Но на практике редко приходится сталкиваться с таким способом выделения решения из U. Через U P обозначим подмножество функций u из U, принимающих значения z k в точках некоторого конечного множества P, которые могут находиться как в области, так и вне её. Обычно такие значения известны как результаты наблюдений (возможно с некоторой погрешностью). Заметим, что задание условий (выделяющих решение из U ) в точках некоторого множества P может включать и указание краевых условий на некоторых подмножествах точек границы. Задача усложняется еще больше, если уравнение Лапласа u = 0 удовлетворяется не в, а в некоторой подобласти, или меняется на иное дифференциальное соотношение в дополнении подобласти. Отказываясь от единственности решения и переходя к классам эквивалентных решений данной точности, строим на основе предложенного общего нейросетевого подхода регуляризованную аппроксимацию u N решения из U P : u N ищется как линейная комбинация N нейросетевых базисных функций u N ( x, y ) = ci ( x, y;

ai ), с настройкой сети на i = основе минимизации функционала ошибки J (u ) в виде Mp M J (u ) = u ( x j, y j ) + u ( xk, yk ) zk, 2 j =1 k = где {( x j, y j )} M=1 – множество тестовых точек, 0 – штрафной множитель, j M p – число точек ( xk, yk ) во множестве P.

: x 2 + y 2 1, Для расчетов в качестве области выбирался круг подобласти – 1 : x 2 + y 2 1, x 0, 2 : x 2 + y 2 1, x 0. Пусть заменяющие краевые условия «измеряемые» данные {z j } известны с ошибкой, которая является случайной величиной, равномерно распределенной на отрезке [ ;

].

В качестве тестовой была взята функция u = xy. Выберем = 0.1. Если в виде исходных требований к решению помимо удовлетворения уравнению Лапласа в полукруге 2 задать значения решения со случайной ошибкой в 3 случайных точках в 2, а в полукруге 1 взять решение с такой же ошибкой в случайных точках, то сеть позволяет найти решение с той же среднеквадратичной ошибкой. При этом граничные условия никак не задаются!

Рис.7.6. Область = 1 0. -0. - 0. -0. - - -0. 0. Рис.7.7. График решения u Результаты приведены для гауссовой RBF-сети из 30 функций:

M = 50, m1 = 7, m2 = 3, = 100. Применение нейронной сети на основе других базисных функций – на персептронах – дало существенно более плохие результаты. Среднеквадратичные ошибки в удовлетворении уравнению Лапласа и тестовому краевому условию равны соответственно 0.045 и 0.012. Приведем аналогичные результаты и для другого значения штрафного параметра: = 1, = 0.025, = 0.087.

2. Предложенная методика позволяет работать не только с уравнениями эллиптического типа. На примере уравнения теплопроводности для струны применим предложенную методику к эволюционным уравнениям.

(Рассмотрение подобного примера несколько упрощает проведение численного эксперимента, но нисколько не умаляет общность предлагаемого метода.) Пусть u (t, x), где t [0;

T ], x [0;

1], – решение неоднородного уравнения ut u xx = f (t, x), теплопроводности удовлетворяющее краевым условиям u (t,0) = u (t,1) = 0 и начальным условиям u (0, x) = ( x). Задание этих условий позволяет решать задачу «вперёд» – и, как известно, такая задача является корректной. Формально эти условия позволяют искать решение задачи «назад»:

определить u (t, x), t [T ;

0], x [0;

1], однако такая постановка делает задачу некорректной. Наш подход позволяет получить устойчивое решение этой задачи, а также решение задачи более общего вида, обсуждаемой ниже.

В монографии [203] в качестве примера некорректной задачи приведена задача продолжения нестационарных полей по приближенно известным данным точечных измерений. Регуляризация решения строилась посредством восстановления начальных условий (при заданных краевых условиях) по набору точечных данных (задача управления). При предлагаемом нейросетевом подходе решение как прямой, так и обратной задачи строится единообразно.

Решение прямой задачи ищем, как и ранее, в виде нейросетевого N u N (t, x) = ci exp[ i (t ti) 2 i ( x xi) 2 ], разложения параметры которого i = настраиваются на основе минимизации функционала ошибки, взятого в форме M M J (u ) = ut u xx f (t j, x j ) + 0 u (t j0,0) + j =1 j0 = M1 M +1 u (t j1,1) + 2 u (0, x j2 ) (0, x j2 ).

2 j1 =1 j2 = Перейдем к решению обратной задачи. Заменим начальное условие соотношениями u (tk, xk ) = k, k = 1,..., p в точках некоторого множества P.

Здесь k – полученные с некоторой ошибкой опытные данные.

Приближённое решение этой задачи ищем, как и ранее, в виде нейросетевой функции, имеющей, к примеру, тот же (или аналогичный N приведенному) вид u N (t, x) = ci exp[ i (t ti) 2 i ( x xi) 2 ].

i = Процесс обучения нейронной сети основан, как и ранее, на минимизации функционала ошибки, взятого, например, в виде M M J (u ) = ut u xx f (t j, x j ) + 0 u (t j0,0) + j =1 j0 = (7.3) M1 p +1 u (t j1,1) + p u (tk, xk ) k, 2 j1 =1 k = { } { } где {(t j, x j )} M0 M M, (t j0,0), (t j1,1) – наборы тестовых точек внутри области, j =1 j1 = j0 = на левой и правой границах. Эти наборы тестовых точек перегенерируются после определенного числа шагов процесса обучения.

Отметим, что в этой простой задаче при определенном выборе типа нейроэлементов (например, гауссианов) было получено явное относительно настраиваемых параметров, хотя и очень громоздкое выражение для функционала ошибки. Использование подобных явных формул для функционала, несомненно, ускоряет процесс обучения сети. Но в данном случае при проведении вычислений при оптимизации применялся общий подход.

В качестве модельного (определяемого в подобной постановке) решения u (t, x) = exp( 2t )sin( x), значения которой использовалась функция задавались с ошибкой в наборе точек {(tk, xk )}|kp=1 = P = [0;

1] [0;

1].

Рассматривались случаи разного числа точек p = 50 и p = 24, а также варианты задания «опытных данных» с разной точностью: = 0.001, = 0.01 и = 0.1.

В качестве приближенного решения рассматривалась нейросеть из n = «круговых» гауссовых экспонент («эллипсоидальные» гауссианы также применялись, но никакого выигрыша не дали). Для обучения сети использовался метод плотного облака, проявивший себя в этой задаче лучше модифицированного метода многогранника (см. главу 3), радиус облака – = 0.04. Рассматривались разные варианты инициирования начальных значений параметров обучаемой нейросети – результат оказался ожидаемым:

чем ближе исходная ненастроенная сеть к искомому решению, тем быстрее (за меньшее число эпох обучения) выстраивается приближенное нейросетевое решение задачи данной точности, но неудача в выборе начального приближения может быть скомпенсирована достаточно большим количеством итераций;

увеличение n – числа используемых функций – увеличивает число итераций для достижения предписанной точности и время каждой операции (рассматривались сети из 49, 64 и 100 гауссианов). Изменение в точности задания «экспериментальных данных» с = 0.001 на = 0.01 (и даже на = 0.1 ) не привело к существенному изменению качества построенного нейросетевого решения.

Результаты вычислений для значений n = 36, p = 50, = 0.01 приведены ниже.

1. 0. 0. 0. 0. 0.2 0.4 0.6 0.8 1. Рис.7.8. График решения u (t, x) Рис.7.9. Начальные условия u (0, x) 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.2 0.4 0.6 0.8 1. 0.2 0.4 0.6 0.8 1. Рис.7.10. График решения u (t,0.5), Рис.7.11. График решения u (t,0.5), u [0;

0.4] u [0;

1] Приведем также результаты вычислений для n = 49, p = 24, = 0.1.

1. 0. 0. 0. 0. 0.2 0.4 0.6 0.8 1. Рис.7.12. График решения u (t, x) Рис.7.13. Начальные условия u (0, x) 1. 0. 0. 0. 0. 0. 0.2 0. 0. 0. 0.2 0.4 0.6 0.8 1. 0.2 0.4 0.6 0.8 1. Рис.7.14. График решения u (t,0.5), Рис.7.15. График решения u (t,0.5), u [0;

0.4] u [0;

1] Вид исходного решения отслежен, оно восстанавливается с ошибкой 0.1.

Построенное таким образом приближение для решения задачи можно рассматривать как её регуляризацию.

Аналогичные построения могут быть сделаны для выделения множеств решений интегральных уравнений, интегро-дифференциальных и иных уравнений, более подробно такие постановки и возможные обобщения рассматриваются в параграфе 7.4.

7.3. Нейросетевая аппроксимация решения корректной краевой задачи для ультрагиперболического уравнения Хорошо известно, что однородные линейные дифференциальные уравнения в частных производных второго порядка с постоянными коэффициентами (если они не вырождаются в параболические) с помощью линейной замены переменных и иногда перехода к новой функции могут быть приведены к виду n m uxi xi = u y j y j, (7.4) i =1 j = где x = ( x1, x2,..., xn ) R n, y = ( y1, y2,..., ym ) R m. Заметим, что в частном случае m = 0 получаем уравнение Лапласа (эллиптический тип), при m = 1 – волновое уравнение (гиперболический тип). Вводя, если нужно, дополнительные (фиктивные) координаты и предполагая, что функция u от них не зависит, n=m всегда можно добиться того, что и, тем самым, записать дифференциальное уравнение в виде xu = y u, где оператор Лапласа x n определяется как x = для x = ( x1, x2,..., xn ) R n. Дифференциальные xi i = уравнения в частных производных такого типа называются ультрагиперболическими. Они считаются неклассическими уравнениями. По мнению некоторых авторов, область, относящаяся к теории уравнения (7.4), – “terra incognita”. Это не совсем соответствует действительности (например, [28 30,41-43,88,280] и др.), стоит хотя бы упомянуть теорему Асгейрссона о средних значениях. В последнее время это уравнение вновь привлекло к себе внимание. Оно оказалось связанным с задачами интегральной геометрии, теории представлений групп, обратными задачами квантовой теории рассеяния, распространения волн, задачами компьютерной томографии.

При нейросетевом подходе критерий разрешимости задачи, обеспечивающий ее корректность, входит как дополнительное условие (наряду с уравнением, граничными или иными условиями – законами сохранения, экспериментальными данными и др.) в набор разнородных соотношений, определяющих приближенное нейросетевое решение задачи.

Некоторые подходы к построению аппроксимаций решений корректных краевых задач для неклассических уравнений – на примере ультрагиперболического уравнения в случае специальной ограниченной области с характеристической границей, – основанные на нейросетевой методологии при установленном критерии разрешимости задачи, и составляют предмет рассмотрения данного раздела монографии.

В первой части данного раздела на основе нейросетевых аппроксимаций и лучевого преобразования Ф.Йона строятся решения ультрагиперболического уравнения во всем пространстве. Во второй части приводятся результаты, обосновывающие корректность некоторых краевых характеристических задач для ультрагиперболического уравнения. В третьей части описываются два нейросетевых подхода к построению приближенных решений этих корректных задач.

Преобразование Йона. RBF-метод построения решений {l} в трехмерном пространстве R 3, задавая их Рассмотрим прямые параметрически: x = pt + q, t R, где p = ( p1, p2, p3 ) – направляющий вектор прямой l, а q = (q1, q2, q3 ) – точка на прямой.

Введем для гладкой быстро убывающей функции f от точки в R преобразование Йона L (лучевое преобразование), сопоставляющее ей функцию v от прямой l в R 3 :

v = v(l ) = v(p, q) = f (pt + q)dt = Lf, f S ( R 3 ).

Справедливы свойства: v(p, q) = v(p, q + p ), v(p, q) = v(p, q), таким образом, функция v – действительно функция от прямой.

Иногда прямые линии (негоризонтальные) задаются более просто – парами векторов вида p = ( p1, p2,1), q = (q1, q2,0). В этом случае лучевое преобразование f Lf вводится формулой u = u ( p1, p2, q1, q2 ) = f ( p1t + q1, p2t + q2, t )dt = Lf, (7.5) легко видеть, что функции v и u связаны соотношениями u ( p1, p2, q1, q2 ) = v( p1, p2,1, q1, q2,0), p1 p2 p p v( p1, p2, p3, q1, q2, q3 ) = p3 u (,, q1 1 q3, q2 2 q3 ).

p3 p3 p3 p Лучевое преобразование сопоставляет функции от трех переменных функцию от четырех переменных (такова размерность многообразия прямых в R 3 ). Функции из образа лучевого преобразования должны удовлетворять некоторому дополнительному дифференциальному соотношению.

Ф.Йон [280] подметил следующую интересную связь между функциями от прямых линий и решениями уравнения (7.4): функция v удовлетворяет дифференциальным соотношениям 2v 2v =, i k = 1, 2,3, (7.6) pi qk pk qi в простом случае функция u удовлетворяет одному дифференциальному уравнению 2u 2u =. (7.6') p1q2 p2q Это дифференциальное уравнение (как и каждое из предыдущих соотношений) с точностью до замены переменных совпадают с уравнением (7.4). Это достигается, к примеру, подстановкой p1 = x1 + x3, p2 = x2 + x4, q1 = x2 + x4, q2 = x1 x3.

Верно и обратное: если u – гладкое решение уравнения (7.6') в R 4, удовлетворяющее некоторым требованиям регулярности на бесконечности, то оно может быть представлено в виде (7.5). Обобщением работы Ф.Йона является статья И.М.Гельфанда с соавторами [89], где найдено необходимое и достаточное условие представимости гладкой быстро убывающей функции u от линейного многообразия h посредством интегралов функции точки f по h.

Это условие эквивалентно условию замкнутости некоторой дифференциальной формы, построенной по u. В простом случае (7.5) оно совпадает с (7.6'). В монографии по избранным задачам интегральной геометрии [88] эти вопросы всесторонне изучены как в вещественном, так и в проективном и комплексном случае, в частности, решена и проблема обращения лучевого преобразования.

Например, описан образ пространства Шварца S ( R 3 ) при преобразовании Йона. Пусть H – многообразие прямых в R 3, обозначим через S ( H ) – пространство бесконечно дифференцируемых функций v(l ), быстро убывающих вместе со всеми своими производными. Очевидно, что образ S ( R 3 ) при лучевом преобразовании L принадлежит S ( H ) : L : S ( R 3 ) S ( H ).

Справедливо следующее утверждение [88]:

Теорема. Функция v S ( H ) принадлежит образу пространства S ( R 3 ) при лучевом преобразовании L, т.е. представима в виде v = Lf, где f S ( R 3 ), тогда и только тогда, когда она удовлетворяет системе (7.6).

Построим нейросетевые аппроксимации решений уравнений (7.6), являющиеся решениями. Рассмотрим лучевое преобразование от нейросетевой базисной функции специального вида – Гауссова пакета с поверхностями уровня в виде эллипсоидов f (x;

a, b) = f ( x1, x2, x3 ;

a1, a2, a3, b1, b2, b3 ) = exp {a12 ( x1 b1 ) 2 a2 ( x2 b2 ) 2 a2 ( x2 b2 ) 2 }, 2 где ai, bi, i = 1,2,3 – нелинейно входящие вещественные параметры (веса).

Вычисления дают следующее выражение для лучевого преобразования ( Lf )(p, q;

a, b) = ( Lf )( p1, p2, p3, q1, q2, q3 ;

a1, a2, a3, b1, b2, b3 ) :

AC B Lf = exp, A A где обозначено A = p12 a12 + p2 a2 + p3 a3, 22 B = p1 (q1 b1 )a12 + p2 (q2 b2 )a2 + p3 (q3 b3 )a3, 2 C = (q1 b1 ) 2 a12 + (q 2 b 2 ) 2 a2 + (q3 b3 ) 2 a3.

2 В простом случае p3 = 1, q3 = 0, ai = a получаем из наших вычислений такое выражение для функции u = Lf из образа преобразования Йона u ( p1, p2, q1, q2 ;

a, b1, b2, b3 ) = ( p12 + p2 + 1)a 2 ( p12 + p2 + 1)[(q1 b1 ) 2 + (q 2 b 2 ) 2 + b32 ] [ p1 (q1 b1 ) + p2 (q2 b2 ) b3 ] exp a ( p12 + p2 + 1) – решение уравнения ультрагиперболического типа (7.6') при произвольных a, bi.

v(p, q;

a, b) = ( Lf )(p, q;

a, b) Каждая функция из образа лучевого преобразования L при любых значениях параметров a, b удовлетворяет условиям (7.6). Линейная комбинация таких функций, представляющая собой N выход нейронной сети на основе гауссианов: v(p, q) = ci v(p, q;

ai, bi ), также i = будет удовлетворять дифференциальным уравнениям (7.6), а следовательно, будет элементом из L( S ( R 3 )).

Хорошо известны аппроксимационные свойства нейронных сетей (в частности, созданных на основе модифицированных радиальных базисных функций) – они являются универсальными аппроксиматорами – см., например, [232,293,295]. Таким образом, возникает возможность построения аппроксимаций решений уравнения (7.4) решениями специального вида – нейросетевыми, что и было обосновано выше.

Пример корректной задачи Л.Хермандером [237] был доказан факт существования корректной краевой задачи для любого линейного дифференциального уравнения в частных производных с постоянными коэффициентами. Однако до сих пор неизвестен какой-либо общий способ эффективного описания краевых условий, определяющих корректно поставленную задачу для уравнения произвольного типа. Поэтому представляется важным построение примеров новых корректных задач для неклассических уравнений. Такие примеры для уравнений ультрагиперболического типа можно найти в работах [28-30,41-43].

Рассмотрим следующую краевую задачу: требуется найти функцию u ( x), x R p, удовлетворяющую в области линейному уравнению в где частных производных A(u ) = g и принимающую на границе области = краевые условия вида B(u ) = f, где B – допустимый граничный оператор (в = f ).

этой работе ограничимся случаем краевых условий Дирихле – u Относительно области предполагается, что она имеет достаточно гладкую границу, так что с помощью формулы Грина решение соответствующей краевой задачи (если оно существует) может быть получено в явном виде:

g = например, в случае с помощью интегрального представления P(x, x) f (x)d. Устремим точку x изнутри области на ее границу u (x) = x – вообще говоря, для точек границы получаем соотношение вида f = f + Cf, Cf = 0, откуда следуют условия разрешимости задачи:

порождающие определенные требования алгебраического характера к классу граничных функций f, Нельзя, например, произвольно задавать краевые условия f на границе, являющейся характеристикой дифференциального уравнения.

Трудности представляют как получение самих условий разрешимости, так и их описание в терминах исходной постановки задачи и, в особенности, геометрическая интерпретация этих условий. Для обсуждаемых далее задач для ультрагиперболического уравнения все эти результаты удается получить в законченном виде.

В этом разделе приводятся результаты [43]: предлагается постановка, указываются явные формулы для решения и исследуется корректность некоторых новых задач для ультрагиперболического уравнения с краевыми условиями на поверхностях характеристического типа;

области, в которых ищется решение, являются однородными пространствами некоторых групп преобразований координат;

основной интерес представляет указание необходимого и достаточного условия разрешимости (алгебраического характера) и явное описание класса разрешимости. Подробные доказательства содержатся в работах [30,41-42] и диссертации [43].

Рассмотрим следующие краевые характеристические задачи для уравнения ультрагиперболического типа:

x = ( x12 + x2 2 )1 2, u = u ( x, y ), ( x, y ) R 2 R 2 ;

Пусть Задача I.

2 x = ( x1, x2 ).

x = + для Функция u удовлетворяет x12 x2 ультрагиперболическому уравнению xu = y u в ограниченной области специального вида = {( x, y ) | x + y 2} и принимает на границе области, = ( x, y ).

являющейся характеристикой уравнения, заданные значения u x + y = В такой постановке задача допускает интересную геометрическую интерпретацию: точкам области отвечают прямые линии в трехмерном пространстве, лежащие внутри однополостного гиперболоида, точкам ее границы – прямые, касающиеся гиперболоида изнутри, двум одномерным многообразиям на границе – два семейства образующих гиперболоида.

Задача II. Пусть (, ) R 3 R 3, U = U (, ) со свойством однородности:

U (, ) = 1U (, ).

2 2 S = 0 2, = 2 2 Введем обозначения для 0 2 12 2 = ( 0,1, 2 ), C = {(, ) | (, ) ( R 3 R 3 ) \ (0,0), S = S }. Функция U U= C:

удовлетворяет уравнению U на многообразии = {(, ) | S = S, S + S 0, 0 0,0 0} и граничному условию = (, ), (, ) = 1 (, ). (Заметим, что при наложенном на U S = S = U (, ) условии однородности оператор - действительно является оператором на многообразии.) Задача III. Пусть v = v(1, 2 ),(1, 2 ) S 2 S 2 ;

i [0, ],i [0, 2 ) – сферические координаты точки i на двумерной единичной сфере S 2 ;

i – оператор Лапласа-Бельтрами на S 2. Функция v удовлетворяет уравнению 1 v = 2 v в = {(1, 2 ) | 1 + 2 2};

v = (1, 2 ).

1 +2 = Область играет в теории уравнения xu = y u особую роль. Как известно, любое решение этого уравнения удовлетворяет теореме о среднем Асгейрссона, которая может быть записана в виде тождества w( x, y;

r, s ) = w( x, y;

s, r ), где двойное среднее w вводится как w( x, y;

r, s ) = u ( x + z, y + ) ( z r 2 ) ( s 2 )dzd, – -функция Дирака.

Для того чтобы упомянутое тождество было справедливо при x = y = 0, r = 2, s = 0, необходимо и достаточно, чтобы u удовлетворяло уравнению xu = y u в. Область выделяется теоремой о среднем для ультрагиперболического уравнения подобно тому, как шар – по отношению к уравнению Лапласа.

Для сформулированных задач справедливы следующие результаты:

Доказывается, что задачи I,II,III эквивалентны. Они переходят друг в друга после замен переменных.

При исследовании задач существенную роль играет группа G преобразований координат, оставляющих инвариантной постановку задачи. В терминах задач I и III соответствующие преобразования, вообще говоря, нелинейны. Наиболее простое описание G допускает в терминах координат (, ) :

Предложение 1. L G, если и только если L = L : (, ) ( L1, L2 ) или (+) L = L : (, ) ( L1, L2 ), где Li O (1, 2) – ортохронное преобразование (-) Лоренца, 0.

Все дальнейшие утверждения формулируются для задачи II (знак « »

над опускается).

Преобразование L G задает в пространстве гладких однородных степени 1 функций U (, ), определенных в, представление (L) группы G : U (, ) = U (L-1 (, )). При этом, как установлено, переводит решения уравнения в решения;

область и ее граница переходят в себя и являются однородными пространствами группы преобразований G.

Введем функцию W – двойное среднее функции W ( 0, 0 ) = (, ) ( S ) ( S ) ( S, 0 (1 + )) ( S, 0 (1 ))d d, где ( 0, 0 ), S, 0 = 0 0 0 1 01 2 0 2.

Отметим свойства двойного среднего:

1) W является однородной функцией степени 1 переменных ( 0, 0 ) ;

2) пусть ( ± ) – представления, порожденные преобразованиями L ±), ( тогда ( ± )W ( 0, 0 ) = W± ( ± ) ( 0, 0 ) ;

3) при достаточной гладкости функция W удовлетворяет волновым уравнениям по каждой из переменных 0 и 0 :

W ( 0, 0 ) = W ( 0, 0 ) = 0 ;

0 4) если – граничное значение решения ультрагиперболического уравнения, то в силу теоремы Асгейрссона W (1,0,0,1,0,0) – четная функция параметра.

Из свойств 2,4 следует, что необходимым условием разрешимости задачи является соотношение W ( 0, 0 ) = W ( 0, 0 ), ( 0, 0 ). (7.7) Это равенство является также и достаточным условием разрешимости задачи.

Теорема 1. Если решение задачи существует, то оно единственно в классе непрерывных функций и записывается с помощью двойного среднего в инвариантном виде 1 U (, ) = V. p. 1 2 [ 1 2W ( 0, 0 )]d.

0 (7.8) 2 Требование критерия разрешимости на первый взгляд кажется весьма сильным: граничные данные (, ), зависящие от трех переменных, должны удовлетворять некоторому пятипараметрическому набору условий. Возникает естественный вопрос: сколь богат класс A функций, заданных на границе, которые удовлетворяют этим условиям. Ответ на этот вопрос и более явное описание класса A удобно дать, используя аналог преобразования Фурье граничных данных.

Пусть (, ) – функция, заданная на декартовом произведении верхних пол конусов S = 0 и S = 0, имеющая степень однородности 1. Тогда (, ) справедливо разложение на «однородные компоненты»:

(, ) = (, )d, где (, ) – преобразование Меллина функции задается формулой d 1 (, 1 ) 2i (, ) = (7.9) и является однородной функцией степени 1 2 + i по переменной и 1 2 i по переменной. Для описания класса Асгейрссоновых функций A воспользуемся другой записью разложения Фурье 1 2+i 1 2i (, ) = m,n i ( m + n ) d, e m,n здесь для = (1, 2 ) обозначено = (12 + 2 2 )1 2, ei = (1 + i 2 ). Требование критерия разрешимости, записанное в терминах, можно сформулировать как W0 ( 0, 0 ) = W0 ( 0, 0 ), ( 0, 0 ), а в терминах m,n – в виде соотношения mn = Vm,n m,n,, (7.10) где (1 2 + i + m)(1 2 i + n) Vm,n =.

(1 2 i + m)(1 2 + i + n) Очевидно, что Vm,n = Vm,n = (Vm,n ) 1.

Таким образом, для Асгейрссоновых функций достаточно задать при 0, тогда при 0 однозначно определяется.

Введем на множествах функций и структуру гильбертовых пространств H и H, задав скалярные произведения (, ) = (, ) (, ) (S ) ( S ) ( S, + S, 2)d d,, = (, ) (, ) ( S ) ( S ) ( S, 1) ( S, 1)d d.

Скалярные произведения на самом деле не зависят от (, ) и (, ).

Отсюда следует Предложение 2. Операторы представления группы G левыми сдвигами ( ) унитарны в гильбертовом пространстве H(H ).

Пусть заданы пространства H± : H+ = { H| = 0 при 0}, аналогично вводим H = { H| = 0 при 0}. Пространства H+ (H ) совпадают с пространствами Харди функций (, ), для которых (, ) является граничным значением (в смысле L2 ) функции, аналитической в верхней (нижней) полуплоскости переменной t = ln( ), интегралы от квадрата модуля которой по прямым Im t = const 0( 0) равномерно ограничены.

Из равенства Планшереля (, ) =, d следует, что оператор V с матрицей Vm,n изометрически отображает H+ на H.

Класс разрешимости задачи A H описывается следующей теоремой:

Теорема 2. Гильбертово пространство H разлагается в ортогональную H = H+ H ;

существует обратимый H+ H :

сумму подпространств и изометрический оператор V : H+ H ;

класс Асгейрссоновых функций A H может быть выделен как A = { H|- = V +, ± H± }.

Доказательство достаточности сформулированных условий разрешимости дает теорема существования решения Теорема 3. Если по граничным данным A построить в функцию U ( 0, 0 ) согласно (7.8), то U ( 0, 0 ) 1) является однородным степени решением U в области ;

U= ультрагиперболического уравнения 0 2) U ( 0, 0 ) удовлетворяет граничным условиям U =.

=S = S 0 Доказательство основывается на представлении решения задачи U в виде U ( 0, 0 ) = th( )W0 ( 0, 0 )d. Приведем эскиз доказательства [43].

В силу свойств двойного среднего требование 1) выполнено. При выходе точки ( 0, 0 ) на границу области (S 0 = S 0 0) для решения удается получить разложение U U 0 + U. Слагаемое U стремится к 0 на основании леммы Римана-Лебега при достаточно широких предположениях (типа суммируемости m,n ) относительно.

В силу свойств Асгейрссоновых функций d ( 0 0 ) ( 00 ) ( m,n + Vm,n m,n )ei (m +n ) =.

1 2 +i 1 2i 0 U0 = 2 m,n Тем самым теорема доказана.

Нейросетевая аппроксимация В этой части параграфа обсуждаются подходы к построению аппроксимации решения задачи на основе методологии нейронных сетей. При этом используются хорошо известные свойства нейронных сетей как универсальных аппроксиматоров (см. главу 1)). Из рассмотренных в главе подходов к настройке параметров нейронных сетей отметим следующие два:

обучение сети на основе минимизации функционала ошибки и обучение нейронной сети, приближающей граничные данные из класса разрешимости, с дальнейшим использованием интегрального представления для решения.

Первый подход. Напомним общую идею – для приближенного решения задачи используем нейросетевую аппроксимацию: ищем приближенное решение краевой задачи u N ( x, y ), где ( x, y ) R 2 R 2, как выход нейронной сети N u N ( x, y ) = Ci ( x, y;

ai ), i = веса которой – линейно входящие параметры Ci и нелинейно входящие параметры ai – находятся в процессе поэтапного обучения сети, построенном J (u ).

на минимизации некоторого функционала ошибки В качестве нейросетевых базисных функций могут, например, использоваться Гауссовы 2 2 пакеты: ( x, y;

xi, yi, ai ) = exp{ai [ x xi + y yi ]}, x = x12 + x2, ai = ( xi, yi, ai ), 2 функции Коши ( x, y;

xi, yi, ai ) = {1 + ai [ x xi + y yi ]}1 и некоторые другие функции.

Функционал ошибки J (u ) выберем в следующей форме J (u ) = A(u ) g d + 1 u f d + 2 Cf d.

2 Первое слагаемое в функционале отвечает за удовлетворение уравнению, следующие слагаемые, входящие со штрафными множителями k 0, отвечают за удовлетворение краевым условиям и принадлежность соответствующему классу разрешимости. Для расчетов используется дискретная форма записи функционала ошибки M1 M M J (u ) = A(u ) g ( x j, y j ) + 1 u f ( x j1, y j1 ) + 2 Cf ( x j2, y j2 ).

2 2 j =1 ji =1 j2 = При этом условия проверяются на множествах контрольных точек:

внутри области – {( x j, y j )}M=1, на границе – {( x ji, y ji )}M=1, i = 1,2. Эти i j ji тестовые множества, как обычно, перегенерируются после завершения каждого этапа обучения (прохождения определенного числа шагов в процессе минимизации функционала).

В нашем случае = {( x, y ) | x + y 2}, A = x y, g = 0, f =, условие разрешимости Cf = 0, описывающее класс допустимых граничных данных – Асгейрссоновы функции, – имеет наиболее простой вид в терминах Задачи II:


W ( 0, 0 ) = W ( 0, 0 ), ( 0, 0 ).. Нейросетевые аппроксимации решения ищутся для Задачи I – критерий разрешимости придется переписать в ее терминах. Производя интегрирование в выражениях для двойного среднего (, ) ( x, y ) W, замену переменных и функций с учетом однородности функции (, ), придем к равенству 2 B( )cos B ( )sin A( )cos A( )sin c( ) 1 d d =,,, c( ) c( ) c( ) c( ) 0 2 B( )cos B ( )sin A( )cos A( )sin c( ) d d, =,,, c( ) c( ) c( ) c( ) где для 0 = ( 0 0, 0 cos 0, 0 sin 0 ) и 0 = ( 0 0, 0 cos 0, 0 sin 0 ) введены a ( 0 ) = 0 0 01 cos 0 2 sin = 0 0 0 cos( 0 ), обозначения b( 0 ) = 0 0 01 cos 0 2 sin = 0 0 0 cos( 0 ), A( ) = a ( 0 )(1 ), B( ) = b( 0 )(1 + ), a( 0 )(1 ) + b( 0 )(1 + ) A( ) + B( ) c( ) = =.

2 Это соотношение должно выполняться для произвольных параметров ( 0, 0 ), таких что S 0 = S 0 0, 0 0 0, 0 0 0. Именно его надо учесть в последнем слагаемом функционала J.

Развернутое выражение для J (u ) в данной работе не приводится ввиду его громоздкости. Интегралы, входящие в приведенное условие разрешимости, вычисляются с помощью квадратурных формул [20] (например, по простейшей формуле прямоугольников). Множества пробных точек на границе во втором и третьем слагаемых функционала имеют вид {(r cos(s ), r sin(s ),(2 r )cos(t ),(2 r )sin(t )}, j k j k j l j l где случайная величина rj распределена на отрезке [0;

2], величины sk и tl – на отрезке [0;

2 ]. Выбирая законы распределения тестовых точек в области и на границе, можно управлять процессом обучения нейронной сети. Другая возможность настраивать сеть – одновременно подбирать веса и структуру сети с помощью эволюционных алгоритмов из главы 2 – может быть применена и в этой задаче.

Весьма кратко очертим упомянутый выше другой способ построения приближений.

Второй подход. Как уже отмечалось, наиболее простое и удобное описание проблемы и ее законченное решение дается в терминах Задачи II.

Имеется возможность интегрального представления решения через граничные данные и критерий разрешимости задачи. По существу это связано с симметрией задачи и выделением области по отношению к дифференциальному уравнению на основе теоремы о среднем. Используя аналог преобразования Фурье – разложение краевых условий на «однородные компоненты» – удается не только переписать формулу для решения через Фурье-компоненты граничных данных, но, что гораздо более важно, дать в терминах этих компонент исчерпывающее описание множества Асгейрссоновых функций A – класса разрешимости задачи.

Таким образом, возникает следующий вариант построения приближенного решения;

сеть аппроксимирует не само решение (которое заведомо существует для функций из класса A ), а функцию, выбранную из класса разрешимости с помощью соотношения (7.10), и уже выход этой сети, пересчитанный по явным формулам (7.8), порождает приближенное нейросетевое решение. Аппроксимация преобразования Меллина, используемого в разложениях (7.9), может быть сделана подобно тому, как это реализовано в [22], но более перспективным представляется его сведение заменой переменных к преобразованию Фурье и применение быстрых нейронных сетей [112].

7.4. Некоторые дальнейшие обобщения Предпосылкой результатов данного раздела послужили некоторые подходы к построению приближённых решений краевых задач для плоских областей со сложной геометрией, основанные на нейросетевой методологии, – см. главу 4, в которой подробно рассмотрены алгоритмы решения задачи для достаточно простого уравнения, специальных краевых условий и плоской области частного вида. Представляет интерес обобщение этих подходов на случай пространства произвольной размерности, допускающей декомпозицию области общего вида, на случай уравнений из достаточно широкого класса, систем уравнений, пополняемых экспериментальных данных, законов сохранения и информации иного рода – всё это не вызывает особых трудностей.

Круг начально-краевых задач для уравнений в частных производных, которые могут быть решены аналитически, крайне узок – как правило, это задачи, обладающие симметрией. Столь же скудно и множество решенных в явном виде задач для интегральных, интегро-дифференциальных линейных (а тем более нелинейных) уравнений, иные же уравнения (и соответствующие им задачи) неясно даже как решать, хотя бы и приближенно. Следующей ступенью в усложнении постановки могли бы быть задачи, допускающие декомпозицию, то есть задачи, алгоритм решения которых сводится к некоторой итерационной последовательности решений однотипных «простых» задач. Одним из подобных алгоритмов для уравнений в частных производных эллиптического типа является достаточно хорошо известный и весьма широко применяемый в случае областей со сложной геометрией альтернирующий метод Шварца [95].

Нейросетевая методология дает модификации методов типа Шварца (см. 4.5) и предлагает оригинальные весьма эффективные алгоритмы построения приближённых решений подобных задач не только для уравнений в частных производных, но и в более общей постановке.

Как уже отмечалось, большинство стандартных численных методов решения задач математической физики трудно применять в случае областей сложной геометрии. Для каждой такой задачи приходится существенно перерабатывать (или строить заново особый изощренный) алгоритм решения с тем, чтобы учесть её особенности. Использование нейронных сетей в качестве новой методологии решения задач такого рода позволяет с одной стороны строить алгоритмы единообразно, с другой – рассмотреть набор принципиально различных алгоритмов, каждый из которых является самым эффективным для определённого круга задач.

Рассмотрим следующую краевую задачу: требуется найти функцию u (x), где x R p, удовлетворяющую в области, вообще говоря, нелинейному уравнению в частных производных A(u ) = g и принимающую на границе k области = i краевые условия вида B(u ) = f, где B – допустимый i= граничный оператор (в простейшем случае получаются краевые условия = f i ).

Дирихле – u i Относительно области предполагается, что она допускает декомпозицию, то есть может быть представлена в виде объединения n подобластей = i, для которых приближённое решение соответствующей i= краевой задачи существует и может быть получено более просто, чем для исходной задачи.

Наиболее простая ситуация возникает, когда i – так называемые канонические подобласти, для которых решение соответствующей краевой A(ui ) = gi, ui = u, gi = g i i задачи (здесь fi – продолжение краевых условий u i = f i f на всю i ) существует и может быть получено в явном виде: например, в случае линейного оператора A с помощью интегральных преобразований P (x, y ) f (y )d + Gi (x, y )gi (y )d y.

ui (x) = y i i i i Если граничные условия и правые части уравнения аппроксимировать N fi (y ) = C (y, ai ), соответственно нейросетевыми приближениями вида i i = M gi (y ) = Ci (y, a ), то получение решения сведётся к вычислению действия i i = указанных выше интегральных преобразований на базисные функции, которые в ряде практически интересных случаев удаётся вычислить явно.

Известен классический вариант альтернирующего метода Шварца, который позволяет построить аппроксимирующую последовательность для решения задачи в в случае, когда она допускает подобную декомпозицию.

Рис.7.16. Канонические подобласти Если область не удаётся разбить на канонические подобласти, то зачастую её можно представить как объединение областей более простой формы, для которых обычный нейросетевой алгоритм [56,57] проще реализуется и быстрее сходится, например, за счёт удачно подобранных начальных значений весов соответствующих нейронных сетей или использования для решения соответствующих подзадач нейронных сетей существенно меньшего размера.

Естественно напрашивающееся и не вызывающее особых трудностей направление обобщения используемых нейросетевых подходов – рассмотрение случая систем уравнений и сопутствующих ограничений (условий в весьма общей постановке).

Перейдем к общей постановке, которая годится для намного более { } Q = широкого класса задач: пусть задан набор условий Aq (u1, u2,..., ur ), где q q = q – некоторое множество, на котором соответствующее условие должно быть выполнено, us – неизвестные функции. Операторы Aq могут задавать уравнения, а также граничные и иные условия – например, законы сохранения, уравнения состояния, требования симметрии или данные, полученные из опыта.

Будем искать каждую неизвестную функцию как выход нейронной сети:

Ns us (x) = ci,s s (x;

ai,s ), s = 1...r подбирая веса – параметры ai,s и ci,s – путём i = минимизации функционала ошибки, составленного из слагаемых вида Mq A (u, u,..., u )(x ), каждое из которых входит в сумму с некоторым q 1 2 r j,q q j = q 0, весовым множителем обычно фиксируемым заранее или пересчитываемым время от времени по указанной ранее процедуре.

(Возможные процедуры подбора весовых множителей оставим в стороне, упомянем только самую простую – подбирать их так, чтобы слагаемые в функционале были примерно одинаковыми, время от времени осуществляя пересчёт q.) При этом пробные точки x j,q, соответствующие бесконечным множествам q, выбираются случайно через определённое число шагов алгоритма оптимизации, а точки, соответствующие конечным множествам, могут выбираться случайно, если использовать их все сразу не представляется целесообразным. Слагаемые в функционале не обязаны быть квадратичными, они могут быть взяты и в другой форме (см. 1.1).

При таком обобщении, так же как и ранее, могут использоваться алгоритмы, позволяющие наряду с настройкой весов нейронных сетей подобрать и их структуру (подробности см. в главе 2). Для решения подобной задачи можно применить несколько принципиально различных вариантов организации алгоритма.

Во-первых, можно составить единый функционал, используя сразу все условия и искать сразу веса всех нейронных сетей, минимизируя этот функционал. Этот вариант весьма требователен к вычислительным ресурсам.


Во-вторых, можно составить несколько функционалов, основанных на различных наборах условий, и подбирать свою часть весов, минимизируя попеременно каждый из них. При рациональной организации вычислений такой вариант позволяет ускорить вычисления, но остаётся проблема разумного выбора структуры используемых нейронных сетей.

В-третьих, можно применить один из алгоритмов, сочетающий подбор весов нейронной сети и её структуры. Такой вариант позволяет получить наиболее точное и адекватное решение поставленной задачи. В этом разделе обсуждаются пять подходов такого рода к построению аппроксимации решения задачи на основе методологии нейронных сетей. При этом используются хорошо известные свойства нейронных сетей как универсальных аппроксиматоров (см. введение, главу 1).

Подход I. Обобщённый алгоритм кластеризации ошибок.

Ns Обучаем набор нейросетевых функций вида us (x) = ci,s s (x;

ai,s ), 1.

i = Mq Q J (u1, u2,..., ur ) = q Aq (u1, u2,..., ur )(x j,q ) минимизируя функционал.В q q =1 j = этом случае можно взять число N s не слишком большим.

Для каждого набора вычисляем ошибки z j,q = Aq (u1, u2,..., ur )(x j ), 2.

Q при этом набор тестовых точек x j из = q можно поменять по сравнению q= с предыдущим пунктом, главное условие – он должен быть достаточно представительным. Эти тестовые множества перегенерируются после завершения каждого этапа обучения (прохождения определенного числа шагов в процессе минимизации функционала). Если значение Aq не определено в некоторой точке x j, тогда полагаем z j,q = 0.

3. Проводим кластеризацию точек {(x j, z j,1, z j,2,..., z j,Q )} в соответствующем пространстве.

4. Берём кластеры (они могут и пересекаться), строим для каждого соответствующее нейросетевое приближение, дающее минимальную ошибку для сужения функционала на множество точек из J (u1, u2,..., ur ) рассматриваемого кластера.

5. Добавляем к соответствующим нейросетевым функциям построенные в предыдущем пункте слагаемые и повторяем шаг 1 с получившимся набором.

6. Если функционал недостаточно мал, то пополняем популяцию наборов, приближая кластеры и применяя шаги 1-5 к новой выборке.

Следует заметить, что предложенный метод не предъявляет особых требований ни к форме области (односвязность, возможность декомпозиции), ни к уравнению (линейность, вещественность коэффициентов). Однако усложнение формы области и уравнения приводит к трудности выбора начальных приближений для весов сетей, к увеличению требуемого для достижения заданной точности решения числа функций и к соответствующему замедлению процесса нелинейной оптимизации.

Подход II. Обобщённый метод Шварца.

В этом случае существенно используется возможность декомпозиции исходной области на подобласти, пересекающиеся только по части границ:

P = p.

p= 1. Подобно тому, как это было реализовано при подходе I для всей области, в каждой из подобластей p строим свою нейросетевую аппроксимацию для решения u1, p, u2, p,..., urp, p, используя при задании соответствующего функционала ошибки J p соответствующую p часть Qp Mp условий J p = q, p Aq (u1, p, u2, p,..., urp, p )(x j,q, p ), при этом учитываются q p q =1 j = краевые условия лишь на части границы q p – контрольные множества точек берутся на границе пока лишь там, где известны краевые условия.

2. После определенного числа этапов обучения каждого набора нейронных сетей возникают приближения для неизвестной части краевых условий на границах каждой подобласти;

3. Происходит обмен данными – в каждый из функционалов ошибки вводятся дополнительные слагаемые, обусловленные информацией о решении на той части границы подобластей p, на которых решения не были заданы, этой информацией является решение, построенное на другой подобласти.

4. Процедура вычислений повторяется заданное число раз или до достижения уровня требуемой точности.

Более интересной представляется такая нейросетевая модификация метода Шварца, при которой подобласти p могут не только иметь общую границу раздела, но и пересекаться по множествам ненулевой меры. При этом в п.3 алгоритма декомпозиции в функционалы ошибки J p вводится информация M q, p rp u ui,q (x j,q, p ), где пробные точки о рассогласовании решений q, p i, p q p j =1 i = x j,q, p берутся в пересечении q p (что даёт более гладкую стыковку).

Расчет весов нейросетевых решений для подобластей и обмен данными при построении решения во всей области может быть реализован в рамках grid технологий. При этом решение для каждой подобласти p подбирается на своём компьютере с учётом аппроксимаций решений на пересечении с соседними областями, информация о которых пересылается время от времени с соответствующих компьютеров. См. также гл.3.

Подход III. При этом подходе используется идеология МГУА.

= 0 выбираем некоторое 1. Для каждого условия Aq (u1, u2,..., ur ) q множество наборов базисных функций u1, u2,..., ur.

2. Рассматриваем линейные комбинации таких наборов (только парные или не только, в любом случае объём перебора следует ограничить) и подбираем их коэффициенты (возможно, не только ci ), минимизируя Mp A (u, u,..., u )(x функционал ).

p 1 2 r j, p p j = 3. Выбираем лучшие из получившихся функций в смысле лучшего Mp q, p Aq (u1, u2,..., ur )(x j,q ) значения функционалов вида, где Q p – номера q qQ p j = областей пересекающихся (близких) с p. Для выбора можно использовать и несколько таких функционалов.

4. Рассматриваем линейные комбинации получившихся функций и повторяем предыдущие шаги, подбирая веса нейронных сетей по одним функционалам, а выбор лучших нейронных сетей осуществляя по другим функционалам, пока ошибка не становится достаточно малой.

Заметим, что возможна такая модификация алгоритма: при составлении парных линейных комбинаций в п.2 выбираются нейросетевые функции, отвечающие разным подобластям, а при отборе пар в п.3 лучшими считаются, например, пары, дающие минимальное рассогласование в пересечении подобластей.

В более изощренном варианте этого подхода можно подбирать не только коэффициенты ci, но и другие веса сети, причем отбор проводить, следуя другим критериям. Заметим, что, используя разные типы функций, мы можем строить на этом пути гетерогенные сети различной архитектуры.

Подход IV. Используя декомпозицию области, реализуем специализированный генетический алгоритм построения набора нейронных сетей u1, u2,..., ur, задающего решение:

Для каждой из подобластей p строим популяцию из K 1.

нейросетевых аппроксимаций для решения u1, p, u2, p,..., urp, p, используя при задании соответствующего функционала ошибки J p соответствующую p Qp Mp часть условий J p = q, p Aq (u1, p, u2, p,..., urp, p )(x j,q, p ), при этом, как и во q p q =1 j = втором подходе, используются краевые условия лишь на части границы q p – контрольные множества точек берутся на границе там, где известны краевые условия.

Выбираем для дальнейшей работы из каждого коллектива лучшие 2.

нейронные сети в числе K1 K, исходя из минимума функционала ошибки по области \ p. Другой вариант этого шага – выбирается K1 сетей, дающих минимальное значение функционалу, который использовался для их обучения, K 2 K1 сетей, на которых минимален другой функционал а из них аналогичного вида. Ещё один вариант – ранжировать все сети по ошибкам на p и для дальнейшей работы выбирать сети, каждом из подмножеств имеющие минимальный суммарный ранг. Если сеть попала в число худших с точки зрения своего функционала, но относительно другого функционала попала в число лучших, тогда её можно переместить в соответствующий коллектив.

Производим случайные мутации сетей, вероятность которых тем 3.

больше, чем больше ошибки по своей и по чужой области (например, сумма ошибок). Эти мутации могут быть разного типа: удаление слагаемого в сумме N us (x) = ci,s s (x;

ai,s ), для данной сети с минимальным коэффициентом ci или i = удаление случайно выбранного слагаемого;

добавление функции i со случайным векторным параметром ai ;

случайное изменение параметров ai на некоторое значение и т.д. При этом функции i могут быть разными, что приводит к построению гетерогенных сетей.

Делаем случайные транслокации – например, обменивая 4.

коэффициенты ci у двух поднаборов функций. Этот пункт не обязателен, и его можно опустить.

Проводим скрещивание – берем лучшие K 2 K1 сетей (в смысле 5.

минимума соответствующего функционала), выбираем две сети из них и часть функций берем от одной сети, часть – от другой сети, в результате получается новая сеть, которая пополняет множество обучающихся сетей и называется потомком. Эта операция повторяется с некоторым множеством пар таких сетей.

При этом часть потомков производится от сетей одной популяции (сетей, обучавшихся по одному и тому же множеству p ), часть – от сетей разных популяций. Получившимися потомками дополняем каждую популяцию до прежнего числа K или некоторого другого, если рассматривается популяция переменного размера.

Повторяем предыдущие шаги определенное число раз или до тех 6.

Q M пор, пока ошибка J (u1, u2,..., ur ) = q Aq (u1, u2,..., ur )(x j,q ) для какого q q =1 j = либо набора сетей не станет достаточно малой.

Алгоритмы эволюционного типа достаточно легко модифицируются, что позволяет приспосабливать их к особенностям конкретной задачи. Один из подобных вариантов рассматриваемого генетического алгоритма получается, если вместо функционалов J p использовать отдельные слагаемые в сумме J (u1, u2,..., ur ). При этом на шаге 3 отбрасываются сети, худшие с точки зрения каждого из рассматриваемых функционалов. При этом скрещиванию на шаге разумно подвергать сети, которые дают минимальное значение различным из этих функционалов.

Можно модифицировать данный алгоритм, добавив к нему процедуру кластеризации ошибок (подход I). Получившиеся функции добавляем к основному набору в качестве одного из видов мутаций на шаге 3.

Для повышения эффективности скрещивания можно использовать наборы функций разного типа, которые в литературе по эволюционным вычислениям трактуются как мужские и женские особи. Различие в процедурах настройки этих наборов заключается в том, что веса входящих в них сетей подбираются в процессе минимизации функционалов, состоящих из сумм по более «узким» и более «широким» множествам пробных точек. Для мужских особей число точек меньше, а множество, из которых пробные точки выбираются, имеет меньший размер, например, локализуясь вблизи особенностей – границ раздела, угловых точек, максимальных ошибок и т.д.

Для женских особей число пробных точек больше и они сравнительно равномерно распределены по рассматриваемой области или её подобласти, если область допускает декомпозицию.

Данный генетический подход легко адаптировать к распределённым вычислениям. Наиболее естественный вариант возникает, если каждый коллектив сетей обучать в своём узле. При этом пересылаться между узлами должны только отдельные сети (набор весов и информация о структуре) или части сетей, предназначенные для скрещивания. Кроме того, пересылаться может некоторая информация, например, значения оптимизируемых функционалов. Если узлов мало, то в одном узле может обучаться несколько популяций, между ними разумно реализовать более интенсивное скрещивание, чем между популяциями из разных узлов. Если узлов много, то на каждом из них можно размещать часть популяции или даже отдельные элементы. Это не слишком сильно скажется на скорости вычислений, в особенности, если сети большие, так как наиболее трудоёмкая операция – обучение сетей осуществляется локально. См. также главу 3.

Подход V. При этом подходе происходит обучение коллектива сетей, по духу близкое тому, как это делалось в [195]:

1. Обучаем наборов нейросетевых функций вида K Ns us (x) = ci,s s (x;

ai,s ), минимизируя единый функционал i = Mq Q J (u1, u2,..., ur ) = q Aq (u1, u2,..., ur )(x j,q ). В этом случае можно взять q q =1 j = число N s не слишком большим.

Для каждой подобласти q выбираем набор сетей, для которых 2.

Mq J q (u1, u2,..., ur ) = Aq (u1, u2,..., ur )(x j,q ) минимальна ошибка, q j = соответствующая данной подобласти.

Обучаем каждый набор на своём подмножестве q, включая в 3.

минимизируемый функционал слагаемые, отвечающие за рассогласование на стыках (см. подход II).

В результате обучения возникает приближенное нейросетевое решение, которое в каждой подобласти задаётся соответствующей нейронной сетью.

Данный алгоритм допускает модификацию, при которой декомпозиция области не задаётся априорно, а производится естественным образом в процессе работы алгоритма.

1. Обучаем K наборов нейросетевых функций вида Ns us (x) = ci,s s (x;

ai,s ), минимизируя функционал i = Mq Q J (u1, u2,..., ur ) = q Aq (u1, u2,..., ur )(x j,q ). В этом случае можно взять q q =1 j = число N s не слишком большим.

Для каждого набора вычисляем ошибки z j,q = Aq (u1, u2,..., ur )(x j ), 2.

Q при этом набор тестовых точек x j из = q можно поменять по сравнению q= с предыдущим пунктом, главное условие – он должен быть достаточно представительным. Если значение Aq не определено в некоторой точке x j, тогда полагаем z j,q = 0.

3. Проводим кластеризацию точек {(x j, z j,1, z j,2,..., z j,Q )}.

4. Берём кластеры, (они могут и пересекаться), строим соответствующее покрытие множества и выбираем для каждого получившегося подмножества набор обученных нейросетевых функций, дающий минимальную ошибку.

5. Обучаем каждый набор на своём подмножестве, включая в минимизируемый функционал слагаемые, отвечающие за рассогласование на стыках (см. подход II). Сами подмножества могут меняться в процессе работы алгоритма.

Так же, как и предыдущий, Подход V допускает достаточно простую и эффективную распределённую реализацию. Наиболее простой вариант такой реализации состоит в том, чтобы обучать на каждом узле свой набор функций, который оказался лучшим на некотором подмножестве. При этом пересылать необходимо только информацию о поведении аппроксимации на стыках и только на те узлы, которым соответствуют области обучения сетей, стыкующиеся с областью для данного узла. Возможен также вариант, при котором одному узлу соответствует несколько наборов функций. Если узлов много, тогда можно обучать один набор на нескольких узлах, реализуя какой либо распределённый алгоритм из главы 3.

Опыт применения эволюционных алгоритмов [44,70,217,219] позволяет считать алгоритмы с заранее фиксированной структурой нейронных сетей устаревшими. В ближайшей перспективе следует сосредоточиться на широкой апробации представленных в данной книге подходов (и их модификаций) с целью определения разумных для разного круга задач способов построения начальных популяций и подборов параметров генетических операций (мутаций, транслокаций и скрещивания).

Второе направление обобщения – возможное расширение круга рассматриваемых задач. Успешные применения нейронных сетей к задачам математической физики внушают уверенность в том, что таким же образом можно решать значительно более широкий круг задач. Поставленная выше задача подбора модели по данным экспериментов допускает следующее обобщение, включающее многие стандартные и нестандартные задачи. Пусть задан некоторый класс параметризованных моделей y = f (x, a), где подбору подлежат как конкретная структура S функции f, выбираемая из некоторого множества структур, так и векторный параметр a, выбрав который мы получаем конкретную выходную функцию сети. Заметим, что выбор структуры f тоже можно параметризовать, но обычно удобнее подбирать её напрямую.

Следует учесть, что f может быть и отображением самого общего вида. Будем искать модель, наилучшим образом удовлетворяющую условиям Aq (x, y, q ) = 0, i = 1,..., N, где q – некоторое множество x, на котором соответствующее условие должно быть выполнено. В упомянутых выше постановках задач в качестве множеств q выступают точки xi, но возможны задачи, для которых условие должно быть выполнено для каждой отдельной точки из множества q или в интегральном смысле, т.е. для всего множества в целом.

Сформулируем соответствующий алгоритм одновременного подбора параметров и структуры модели более формально. Начинаем с генерации F0 = {i = ( Si, ai, Gi )}, некоторого начального множества моделей определяемых структурой Si, весами ai и множеством Gi, на котором данная модель работает, и множества функционалов J j, в процессе минимизации которых и подбирается модель. Алгоритм определяется зависимостью Fj ( Fj 1, J j [{ Ai, j, i, j }]), J j +1 = J j +1 ( Fj, J j,{ Ai, j, i, j }), где Ai, j +1 = Ai, j +1 ( Fj, J j,{ Ai, j, i, j }), i, j +1 = i, j +1 ( Fj, J j,{ Ai, j, i, j }). Таким образом, в процессе работы алгоритма меняется не только совокупность моделей, но и перестраиваются множества функционалов, условий и множеств, на которых эти условия заданы. Для построения реального алгоритма надо все эти зависимости конкретизировать. Рассмотренные ранее алгоритмы являются примерами алгоритмов данного класса.

Глава 8. Осцилляторные нейросетевые модели бесконечной размерности Рассмотренные в первой главе классические нейросетевые модели – персептрон, RBF и т.д. – не отражают в достаточной степени адекватно процессы, происходящие в мозге. Для моделирования этих процессов применяются и другие типы сетей, например, в виде системы из нескольких связанных осцилляторов, совершающих квазипериодические колебания [106].

Такие модели обладают рядом недостатков. Во-первых, реальное количество нейронов составляет миллиарды, поэтому остаётся неизвестным, не создаёт ли переход к такой большой системе принципиально новых качественных особенностей поведения. Во-вторых, интересно изучить особенности поведения многоуровневых систем, когда один блок нейронов, сильно связанных между собой, связан с другим блоком нейронов существенно слабее.

С прикладной точки зрения изучение этих вопросов весьма актуально.

Первый круг возможных приложений – расшифровка мысленных команд по слабым электромагнитным колебаниям мозга и создание на этой основе новых человеко-машинных интерфейсов. Второй – лечение различных заболеваний с помощью слабых электромагнитных колебаний с отслеживанием результатов воздействия. Третий – бионические приложения, т.е. создание ведущих себя подобно мозгу интеллектуальных колебательных систем. Для реализации подобных систем нужно построить соответствующую теорию колебаний систем с бесконечным числом степеней свободы. Создание полноценной теории таких колебаний и интерпретация её результатов с точки зрения биологии – дело будущего. В данной главе обсуждаются только некоторые математические конструкции, которые могут служить основой для разработки подобной теории (см. параграф 8.4) и отдельные частные результаты в данном направлении (параграфы 8.1 – 8.4).

8.1. Теорема о выпрямлении траекторий на бесконечномерном торе Квазипериодическое движение конечномерной системы можно трактовать как движение по некоторому тору соответствующей размерности.

Если система имеет бесконечную размерность, тогда естественно ожидать почти периодического движения с бесконечным базисом частот, которое можно рассматривать как движение по тору бесконечной размерности. Один из результатов, который хотелось бы получить, состоит в сохранении характера движения при малом возмущении. Логично предположить, что возмущения имеют разный порядок по различным координатам, причём уравнения можно упорядочить таким образом, что координаты с большими индексами оказывают меньшее влияние на движение. Такое предположение формализуется далее в виде равенств типа (8.2) и (8.3).



Pages:     | 1 |   ...   | 6 | 7 || 9 | 10 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.