авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 | 4 | 5 |   ...   | 6 |
-- [ Страница 1 ] --

Российская академия наук

Российская ассоциация математического программирования

Институт систем энергетики им. Л.А.Мелентьева СО РАН

Иркутский государственный университет

Иркутский государственный университет путей сообщения

Иркутская государственная сельскохозяйственная академия

Институт динамики систем и теории управления СО РАН

Вычислительный центр РАН International Association for the Promotion of Co-operation with Scientists from the New Independent States of the Former Soviet Union (INTAS) Российский фонд фундаментальных исследований Иркутская областная администрация 13-я Байкальская международная школа-семинар МЕТОДЫ ОПТИМИЗАЦИИ И ИХ ПРИЛОЖЕНИЯ ТРУДЫ ШКОЛЫ-СЕМИНАРА Том 2. Оптимальное управление 2 – 8 июля 2005 г.

Иркутск, Байкал Иркутск УДК 517.977+517.983+517.988+517.63+519. Оптимальное управление: Труды XIII Байкальской международной школы-семинара "Методы оптимизации и их приложения", Иркутск, Байкал, 2 – 8 июля 2005 года. Том 2:

Иркутск, ИСЭМ СО РАН. – 2005. – 244 с.

ISBN 5-93908-033-2.

Данный том содержит работы, посвященные теории и методам решения задач опти мального управления.

Для научных работников, студентов и аспирантов, специализирующихся в области оп тимального управления и математического моделирования.

Труды подготовлены при финансовой поддержке Российского фонда фундаменталь ных исследований (проект 05-01-10048-г) и International Association for the Promotion of Co-operation with Scientists from the New Independent States of the Former Soviet Union (проект 04-85-832) Ответственные за выпуск: д.ф.-м.н. Срочко В.А.

к.ф.-м.н. Антоник В.Г.

c Институт систем энергетики ISBN 5-93908-033- им. Л.А. Мелентьева СО РАН, Russian Academy of Sciences (RAS) Russian Association of Mathematical Programming Institute of Energy Systems, Siberian Branch of RAS Irkutsk State University Irkutsk State University of Railway Communications Irkutsk State Agricultural Academy Institute of System Dynamics and Control Theory, Siberian Branch of RAS Computer Center of RAS International Association for the Promotion of Co-operation with Scientists from the New Independent States of the Former Soviet Union (INTAS) Russian Foundation of Basic Research Administration of Irkutsk Region PROCEEDINGS OF 13-th Baikal International School-seminar OPTIMIZATION METHODS AND THEIR APPLICATIONS Volume 2. Optimal control July, 2 – 8, Irkutsk, Baikal Irkutsk Optimal control: Proceedings of XIII Baikal International School-seminar "Optimization methods and their applications", July, 2 – 8, Irkutsk, Baikal, 2005. Vol. 3. Irkutsk: Melentiev Energy Systems Institute SB RAS. – 2005. – 244 p.

Publication of the proceedings are supported by Russian Foundation of Basic Research (project 05-01-10048-г) and International Association for the Promotion of Co-operation with Scientists from the New Independent States of the Former Soviet Union (project 04-85-832) c Melentiev Energy Systems Institute SB RAS СОДЕРЖАНИЕ ПЛЕНАРНЫЕ ДОКЛАДЫ Р. Габасов, Ф.М. Кириллова (Минск) Оптимальное управле ние в реальном времени динамическими системами в условиях неопределенности........................... В.В. Гурман, М.Ю. Ухин (Москва) Приближенный синтез опти мального управления......................... В.А. Срочко, С.Н. Ушакова (Иркутск) Решение задач опти мального управления на основе билинейных аппроксимаций.. СЕКЦИОННЫЕ ДОКЛАДЫ Ю.В. Агеева, А.И. Тятюшкин (Иркутск) Синтез оптимального управления в одной задаче преследования............. Е.В. Аксенюшкина (Иркутск) К численному решению задач оп тимального управления с терминальными ограничениями.... А.Ф. Албу, В.И. Зубов (Москва) Усовершенствованный алгоритм расчета процессов с фазовыми переходами.

........... В.М. Александров (Новосибирск) Оптимальное по быстродей ствию управление в режиме реального времени.......... В.Г. Антоник, А.Л. Ветрова (Иркутск) Метод численного реше ния нелинейной задачи оптимального управления специального вида.................................. А.В. Аргучинцев, Е.А. Лутковская (Иркутск) К вопросу об оптимальном управлении начальными условиями линейной по состоянию канонической гиперболической системы........ М.А. Аргучинцева, Э.В. Мошняков (Иркутск) Оптимальные формы тел, разрушающихся за счет радиационного нагрева при движении в атмосфере........................ М.А. Аргучинцева, Н.Н. Пилюгин (Иркутск, Москва) Оптими зация формы тела по двум критериям – радиационному потоку и волновому сопротивлению..................... А.В. Банщиков (Иркутск) О влиянии структуры сил на устойчи вость спутника со стабилизатором................. v Н.И. Баранчикова (Владивосток) Позиционный принцип мак симума в задаче оптимального управления с терминальными ограничениями............................ В.А. Батурин, А.А. Лемперт (Иркутск) Метод сильного улуч шения в задачах оптимальногоуправления многоэтпаными про цессами................................ А.С. Булдаев (Улан-Удэ) Методы возмущений в для нелокального улучшения управления в квадратичных по состоянию системах Л.А. Бурлакова (Иркутск) О некоторых свойствах квадратичных форм.................................. O.O. Vasilieva (Colombia) Optimality conditions for singular controls. Р.Р. Гильманшин (Иркутск) Исследование вида решения и лока лизация корней одной экстремальной задачи случайного раз мещения частиц........................... Е.В. Гончарова, А.И. Овсеевич (Иркутск, Москва) Асимптоти ка форм областей достижимости линейных динамических си стем с импульсным управлением.................. В.В. Дикусар, Д.А. Чекарев (Москва) Исследование достаточно го условия экстремума в линейной задаче оптимального управ ления................................. В.А. Дыхта (Иркутск) Неравенство Гамильтоно-Якоби и доста точные условия оптимальности в распределенных системах... В.Д. Иртегов (Иркутск) Об одном классе уравнений Эйлера Лагранжа............................... Я.В. Катуева (Владивосток) Параллельный алгоритм дискретной оптимизации на множестве номиналов параметров в задаче син теза.................................. Е.Д. Котина (Санкт-Петербург) Задача совмечтной оптимизации для дискретных систем....................... Н.В. Мамонова (Иркутск) Сопряженные процедуры улучшения в задачах оптимального управления................. В.Е. Маркин (Владивосток) Субоптимальное по быстродействию управление сложными динамическими объектами в условиях неопределенности........................... А.Д. Овсянников (Санкт-Петербург) Об одной нестандартной за даче теории управления....................... vi Р.Р. Рафатов, Н.Т. Асаналиева (Бишкек) Оптимальное управ ление в проблеме минимизации загрязнений атмосферы части цами вредных примесей с помощью принципа максимума Понт рягина и метода сферических гармоник.............. А.В. Сурков, И.А. Финогенко (Иркутск) О стабилизации управ ляемых систем с запаздыванием с использованием инвариантно дифференцируемых функционалов Ляпунова........... В.А. Терлецкий (Иркутск) Вариационный принцип максимума для полулинейных гиперболических систем со смешанными условиями............................... Д.О. Трунин (Улан-Удэ) Метод фазовой линеаризации в задачах оптимального управления с функциональными ограничениями. А.И. Тятюшкин (Иркутск) Многометодный алгоритм для реше ния краевой задачи оптимального управления.......... И.А. Финогенко (Иркутск) Аппроксимация, релаксация и стаби лизация в системах с монотонными характеристиками...... Г.В. Шевченко (Новосибирск) Алгоритм численного решения нелинейной задачи оптимального быстродействия специально го вида................................. A.A. Щеглова (Иркутск) Управляемость и наблюдаемость вы рожденных линейных гибридных систем............. vii ПЛЕНАРНЫЕ ДОКЛАДЫ ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В РЕАЛЬНОМ ВРЕМЕНИ ДИНАМИЧЕ СКИМИ СИСТЕМАМИ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ Р. Габасов Белгосуниверситет, Минск e-mail: kirill@nsys.minsk.by Ф.М. Кириллова Институт математики НАН Беларуси, Минск e-mail: kirill@nsys.minsk.by Аннотация. Излагаются последние результаты авторов и их сотрудников по методам опти мального управления в реальном времени. Обсуждаются проблемы оптимального управления по принципам обратной связи и режиме реального времени (детерминированные, недетер минированные модели, децентрализация и декомпозиция, оптимальное непрямое управление, оптимальное управление с учетом фазовых ограничений, нелинейные задачи, оптимальное управление и наблюдение в системах с запаздыванием и системах с распределенными парамет рами).

Ключевые слова: оптимальное управление, обратная связь, неопределенность, реальное время, алгоритмы Введение Управление - создание в каждый текущий момент времени целенаправленных воздей ствий на объект управления в зависимости от доступной информации о поведении объекта и действующих на него возмущениях. В теории управления рассматриваются три прин ципа управления: 1) по разомкнутому контуру, 2) по замкнутому контуру, 3) в реальном времени. При использовании первого принципа до начала процесса управления по апри орной информации строится программа (программное управление), которая в процессе управления не корректируется. Во втором принципе управления текущие управляющие воздействия (позиционные управления) создаются по заранее (до начала процесса управ ления) составленным правилам, определенным на всевозможной информации о поведении объекта и действующих на него возмущениях, которая может появиться в процессе управ ления. Эти правила реализуются в форме прямых, обратных и комбинированных связей.

При использовании третьего принципа управления упомянутые связи заранее не созда ются, их текущие значения вычисляются в реальном времени по ходу процесса управле ния. Первые задачи оптимального управления, поставленные и решенные инженерами в конце 40-ых годов XX века, были нацелены на синтез замкнутых систем управления с оптимальными обратными связями. Они базировались на объектах с сосредоточенными параметрами, использовали детерминированные математические модели, предполагали, что в процессе управления будут доступны точные значения всех фазовых переменных.

Работа выполнена в рамках ГПФИ и при поддержке БРФФИ (проект Ф04Р – 002) При этом в новых задачах принципиальное значение имели геометрические ограниче ния на управляющие воздействия, что существенным образом отличало их от задач клас сического вариационного исчисления. При решении первых задач оптимального управ ления инженеры, следуя традициям классической теории управления, использовали как вспомогательные разомкнутые системы управления и строили для них оптимальные про граммы, которые затем применяли для синтеза оптимальных обратных связей. Основы ваясь на этих фактах, Л.С. Понтрягин сформулировал новую (неклассическую) вариа ционную задачу и (вместе со своими учениками) доказал для нее необходимое условие оптимальности программ в виде фундаментального принципа максимума. Дальнейшие развитие теории оптимального управления пошло по пути исследования оптимальных программ. Кроме обыкновенных систем были исследованы системы с запаздыванием, си стемы с частными производными и т.д. Проблема же синтеза оптимальных замкнутых систем управления до сих пор остается нерешенной даже для обыкновенных систем как в рамках принципа максимума, так и в рамках второго фундаментального метода теории оптимального управления - динамического программирования Р. Беллмана2. Новый под ход к проблеме синтеза оптимальных обыкновенных систем, ориентированный на принцип оптимального управления в реальном времени, был предложен в Минске в начале 90-х гг.

Доклад основан на последних результатах авторов и их сотрудников по реализации принципа оптимального управления в реальном времени [1]. Рассматриваются следующие темы: 1) оптимальное управление по принципу обратной связи, 2) оптимальное управле ние в реальном времени, 3) оптимальное управление по недетерминированным моделям, новые типы обратных связей, 4) децентрализация, декомпозиция, 5) оптимальное управ ление в реальном времени с запаздыванием, 6) оптимальное непрямое управление, 7) учет фазовых ограничений, 8) нелинейные задачи, 9) оптимальное управление и наблюдение в системах с запаздыванием, 10) оптимальное управление системами с распределенными параметрами.

Ниже приводится краткое изложение результатов по первой части темы 9), получен ных совместно с О.П.Ярмош.

1. Постановка задачи Пусть T = [t, t ] - промежуток управления;

Th = {t, t +h,..., t h}, h = (t t )/N, N – натуральное число;

A(t) Rnn, a(t) R, b(t) Rn, t T ;

x10 (t) R, t [t, t [, непрерывные функции;

e1 = (1, 0,..., 0) Rn ;

c, x0 Rn ;

g, g Rm ;

H Rmn ;

R, ( 0) – постоянное запаздывание;

u(t) R, t T, - дискретное управляющее воздей ствие:

u(t) = u(s), t [s, s + h[, s Th.

В классе дискретных управляющих воздействий рассмотрим линейную задачу:

J(u) = c x(t ) max, x(t) = A(t)x(t) + e1 a(t)x1 (t ) + b(t)u(t), x(t ) = x0, (1) x1 (t) = x10 (t), t [t, t [;

x(t ) X = {x Rn : g Hx g };

u(t) 1, t T.

Назовем вектор x(t) = (x1 (t),..., xn (t)) положением, пары xt (·) = (x(t);

x1 (s), s [t, t[), (t, xt (·)) состоянием и позицией системы (1) в момент t. Каждым xt (·), u(·) = Исключение составляет линейно-квадратичная задача Летова - Каллмана, для которой в силу игнори рования принципиально важных в приложениях оптимального управления геометрических ограничений на управляющие воздействия получается решение задачи в виде линейной обратной связи (u(t), t T ) соответствует единственная траектория x(t), t T, системы (1). Управляющее воздействие u(·) при u(t) 1, t T ;

x(t ) X называется программой. Программу u0 (·) принято называть оптимальной, если J(u0 ) = max J(u), где максимум вычисляется по всем программам. Погрузим (1) в семейство задач, опреде ленных на T ( ) = [, t ], Th, с произвольными z (·) = (z Rn ;

z1 (s) R, s [, [).

Пусть u0 (t|, z (·)), t T ( ), - оптимальная программа для (, z (·)), X – множество z (·), для которых существуют оптимальные программы.

Оптимальное управление (типа обратной связи) по состоянию есть функционал u0 (, z (·)) = u0 ( |, z (·)), z (·) X, Th. (2) Замкнем объект управления (физический прототип математической модели (1)) обратной связью (2) и запишем уравнение его поведения в форме:

x = A(t)x(t) + e1 a(t)x1 (t ) + b(t)u0 (t, xt (·)) + w(t), x(t ) = x0 ;

(3) x1 (t) = x10 (t), t [t, t [, где u0 (t, xt (·)) = u0 (, x (·)) = u0 ( |, x (·)), t [, + h[, Th ;

w(t) Rn, t T, – кусочно непрерывная функция, содержащая действующие на физический объект в процессе управ ления возмущения, а также неточности моделирования и построения обратной связи.

Обозначим через x (t), t T, поведение объекта управления в конкретном процессе, в котором реализовалось возмущение w (t), t T. Оно удовлетворяет уравнению x = A(t)x (t) + e1 a(t)x (t ) + b(t)u (t) + w (t), u (t) = u0 (, x (·)), t [, + h[, Th.

Функцию u (t), t T, назовем реализацией оптимальной обратной связи (2) в конкретном процессе управления.

Получение u ( ), Th, с помощью заранее (до начала процесса управления) синтези рованной обратной связи (2) называется оптимальным управлением (физическим объек том) по принципу обратной связи. Эта проблема не решена до настоящего времени даже для объектов без запаздывания ( = 0).

Цель дальнейшего - описать для объектов с запаздыванием метод оптимального управления в реальном времени [1], при котором обратная связь (2) не строится, а каждый элемент u ( ) реализации вычисляется в процессе управления за время, не превышающее h.

2. Основные элементы метода.

Пусть Ion I = {1, 2,..., m}, Ton Th, Ion = Ton ;

h(i) – i-ая строка матрицы H;

+h t Ton (i) ()b()d, Don = D(Ion, Ton ), D(I, Ton ) = iI (i) (t) = ((i)1,..., (i)n (t)), t T, – решение сопряженной системы = A (t)(t) e1 a(t + )1 (t + ), (i) (t ) = h(i) ;

(i)1 (t) = 0, t ]t ;

t + ]. (4) Пару Kon = {Ion, Ton } будем называть опорой задачи (1)[2], если detDon = 0 ;

Kon = {Ion =, Ton = } - пустая опора.

Опору сопровождают:

1) m-вектор (множителей) Лагранжа : (I) = (on = (i, i Ion ), n = (i, i Iн ) = t+h c b()d, t Ton, ) - решение (4) при 0), Iн = I Ion ;

on = con Don, con = (ch (t) = c (t ) = c;

c1 (t) = 0, t ]t, t + ];

= 0, если Kon - пустая опора;

t+h 2) (дискретная) копрограмма h (t), t Th : h (t) = 0, t Ton ;

h (t) = ()b()d, t n Tн = Th Ton ;

(t) R, t T, - котраектория - решение (4) при (t ) = c H ;

1 (t) = 0, t ]t, t + ];

момент t Tн – неопорный нуль копрограммы, если h (t h)h (t) 0;

Tн - множество неопорных нулей;

опора регулярна, если i =, i Ion ;

h (t) =, t Tн ;

h (t ) = 0;

h (t h) = 0;

h (t h)h (t + h) 0, t Ton ;

h (t)h (t + h) 0, t Tн0 ;

Tk = [tk, tk+1 [, tk Ton Tн0, k = 1, k - промежутки постоянства знака копрограммы, t = t1 t2...

tk +1 = t ;

3) псевдопрограмма (t), t T ;

псевдотраектория (t), t T ;

выходной псевдосигнал = H(t ) :

(t) = sign h (t), если h (t) = 0;

(t) 1 при h (t) = 0, t Tн ;

i = argmax i, [gi, gi ], если i = 0;

i [gi, gi ] при i = 0, i Ion ;

on = Don (on pon );

on = 0, если - Kon – пустая опора;

t p = p(I) = H[F (t )x0 + q(t ) + r(t )], q(t ) = t F1 ( + )a( + )x10 ()d, r(t ) = tk+1 t k F ()b()d signh (tk ) если tk Tн0 ;

rk = tkk+1 F ()b()d signh (tk + h) k=1 rk ;

rk = tk если tk Ton, k = 1, k ;

= D(I, Ton )on + p;

F (t) = (F1 (t),..., Fn (t)) Rnn, t T, фундаментальная матрица решений уравнения (1):

F (t) = F (t)A(t) [F1 (t + );

O]a(t + ), F (t ) = E, F (t) = 0, t ]t, t + ];

O Rnn1 - нулевая матрица;

E Rnn - единичная диагональная матрица.

Опора называется оптимальной, если выполняется соотношение|(t)| 1, t T on ;

gi i gi, i Iн. При этом u0 (t) = (t), t T..

3. Двойственный метод.

Метод строит оптимальную программу с помощью итеративного преобразования опор. Начальная опора произвольная. Общая итерация метода Kon Kon (5) основана на принципе уменьшения меры неоптимальности опоры[2].

Предварительно введем аппроксимацию F (t), t T, функции F (t), t T. Для этого разобьем T на промежутки T = [t, t [, t Th, j = 1, j 1;

t = t1 t2... tj = t.

j j j+1 j Для функции F1 (t), t T (j), построим конечнопараметрическую аппроксимацию Pj (t), t T (j). Положим P (t) = Pj (t), t T (j) ;

j = 1, j 1. Выберем совокупность моментов sf Th, f = 1, f ;

t s1... sf t и запомним F (sf ), f = 1, f. Пусть Ff (t), t [sf, sf +1 [, – решение уравнения F (t) = F (t)A(t) [P (t + );

O]a(t + ), Ff (sf ) = F (sf ) (6) Положим F (t) = Ff (t), t [sf, sf +1 [, f = 1, f 1. Функция F (t), t T, – аппроксима (t) Fij (t)| 1, i, j = 1, n;

t T, 1 – заданная точность.

ция F (t), t T, если |Fij К началу каждой итерации, кроме априорной информации:

A(t), a(t), b(t), t T ;

x10 (t), t [t, t [;

, c, H, x0, g, g ;

T (j), Pj (t), t T (j), j = 1, j 1;

F (sj ), f = 1, f ;

храним текущую информацию:

Tн0 ;

on ;

rk, k = 1, k ;

(t), t Ton ;

;

Kon, Tн0 ;

D(I, Ton );

F (t h), F (t), t Ton (t), (t + h), t Ton Tн0.

Итерации будем осуществлять с помощью следующих соотношений:

(t) = h (t + h)/h (t + h), если h (t + h)h (t + h) 0;

(7) (t) = h (t h)/h (t h), если h (t h)h (t h) 0, t = t;

(t) = t /h (t), если h (t)h (t) 0;

(8) (t) = h (t h)/h (t h), если h (t h)h (t h) 0, t = T ;

i = i /i, если i i 0;

i = в противном случае, i I. (9) t+h h (t) = (c H)(t), (t) = F ()b()d, t Th ;

(10) t h (t) = on Hon (t), если Kon = ;

(11) h (t) = h(t), если Kon =, t Th ;

i µ+1 = µ + µ, mu = 2|h (tkµ )|, при µ = (tkµ );

(12) µ = (giµ giµ )|iµ |, при µ = iµ ;

µ µ = min{(tkµ ), iµ };

(tkµ ) = min (t), t tµ Tн0 ;

iµ = min i, i Ion, µ (13) где матрица Hon R|Ion |n составлена из строк h(i), i Ion матрицы H. Итерацию (5) начнем с вычисления = max{(tk0, i0 )}, (tk0 ) = max (t), t Ton ;

i0 = max i, i Iн ;

где tk0 =, (tk0 ) = 0, если Kon = ;

(t) = ((t), [1, 1]);

i = (i, [gi, gi ]). При = решение задачи (1) завершим – Kon = Kon ;

u0 (t) = (t), t T.

Предположения:

(А) На итерациях участвуют только регулярные опоры.

(В) signh (t h) = signh (t) = signh (t + h), t Ton Tн (С) Нули копрограммы не появляются и не исчезают через левый, правый концы и внутри отрезка.

На каждом шаге для обновления текущей информации достаточно параллельно проинтегрировать уравнение (6) на промежутках длины h.

Теорема. При сделанных предположениях двойственный метод конечен.

4. Реализация оптимальной обратной связи.

До начала оптимального управления в реальном времени построим (см. п.3) по априор ной информации оптимальную программу для позиции (t, xt (·)), запомнив текущую ин формацию Kon (t );

Tн0 (t );

D(I, Ton |t );

F (t), t Ton (t ) Tн0 ;

F (t + h), t Ton (t );

;

rk, k = ;

(s), s T (t );

;

(t), (t + h), t T on(t Tн0 (t ). Процесс управления систе 1, k on мой (3) начнем с подачи на объект управления (3) управляющего воздействия u (t) = u0 (t, xt (·)), t [t, t + h[.

Для вычисления реализации u ( ), t, оптимальной обратной связи (2) дополним текущую информацию, использованную при построении оптимальной программы (п.3): 1) x ( ), x ( h1 ),..., x ( µh1 ), µh1 + h1 ;

2) F (t), t =, + h2,..., + h2 = +.

1 По этой информации и полученному измерению x ( ) построим конечнопараметриче скую аппроксимацию x, t [, [, реализовавшейся функции x (t), t [, [. Ис 1 пользуя квадратурную формулу, подсчитаем q ( ) = F1 ( + )a( + )x ()d. Числа 1, h1, h2 подберем таким образом, чтобы величина q ( ) с заданной точностью приближа ла q( ) = F1 ( + )a( + )x ()d для всех возможных x (t), t T. Для позиции (, x (·)) вычислим оптимальную программу u0 (t|, x (·)), t T ( ), корректируя двой ственным методом (п.3) опору Kon ( h), построенную для момента h. Положим u (t) = u0 ( |, x(·)), t [, + h[.

Поскольку при малых периодах квантования времени h и ограниченных возмущениях w (t), t T, состояния x h (·), x (·) отличаются между собой незначительно, а основные вычисления на итерациях допускают распараллеливание, то построение Kon ( ) требует небольшого числа итераций, для каждой из которых достаточно проинтегрировать урав нение (6) на небольших промежутках времени.

В докладе приводятся результаты численных экспериментов, которые иллюстрируют алгоритмы построения оптимальных управлений в реальном времени Список литературы [1] Габасов Р., Кириллова Ф.М. Принципы оптимального управления. - Доклады НАН Беларуси, 2004, Т.48, N1, с. 15-18.

[2] Габасов Р., Кириллова Ф.М., Тятюшкин А.И. Конструктивные методы оптимиза ции. Мн.: Изд-во БГУ, 1983. Ч.1. Линейные задачи. 214 с.

OPTIMAL ONLINE CONTROL FOR DYNAMIC SYSTEMS UNDER UNCERTAINTY R. Gabasov Belorussian State University, Minsk e-mail: kirill@nsys.minsk.by F.M. Kirillova Institute of Mathematics of National Academy of Sciences of Belarus e-mail: kirill@nsys.minsk.by Abstract. Feedback and on-line principles of optimal control are under consideration. Deterministic and nondeterministic models are investigated, problems of decentralization and decomposition, optimal indirect control and problems under state constraints are studied. In conclusion systems with delay and systems in partial derivatives are considered. Examples are given.

Key words: optimal control, feedback, on-line control, uncertainty, algorihtms ПРИБЛИЖЕННЫЙ СИНТЕЗ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В.В. Гурман, М.Ю. Ухин Институт программных систем РАН, г. Переславль-Залесский e-mail: gurman@cprc.botik.ru Аннотация. На основе общей теории достаточных условий оптимальности Кротова принципа расширения и глобальных оценок освещается общий подход к проблеме синтеза оптимального управления, который является приближенным изначально, а не на стадии реализации точных теоретических результатов. В конструктивном плане применяются аппроксимации решений уравнений типа Беллмана и эффективные косвенные методы, использующие активные преоб разования модели объекта по принципу расширения, вырожденность и магистральную природу решений прикладных задач. Эффективность предлагаемого подхода демонстрируется на ряде прикладных задач из различных областей.

Ключевые слова: оптимальное управление, синтез управления, приближенное решение, магистральое решение, множество достижимости Введение Синтез законов управления, обеспечивающих достижение требуемых целей, являет ся кардинальной проблемой теории управления, которая влечет многочисленные матема тические постановки и их теоретические исследования соответствующие разнообразным практическим ситуациям. Часто заданные свойства и цели выражаются в терминах экс тремальных задач, и тогда речь идет о синтезе оптимального управления. Имеющиеся здесь плодотворные теоретические исследования и разработки группируются вокруг из вестных сотношений метода динамического программирования, уравнения Гамильтонa Якоби-Беллмана, его обобщений и аналогов для различных постановок (Беллман, 1960;

Летов,1960;

Габасов, Кириллова, 1980;

Мерриэм, 1967;

Красовский, 1985;

Красовский, Суб ботин, 1974;

Куржанский, 1977;

Кротов, Гурман, 1973;

Субботин, 1991;

Krotov, 1996;

Bardi, Capucco-Dolcetta, 1997;

Lions, 1982).

Однако, практическая, численная реализация ценных теоретических результатов вы зывает большие трудности, которые связаны с объективной сложностью самих изучаемых объектов законов управления как многомерных зависимостей от состояния системы и учитываемых внешних воздействий, а также нерегулярным характером задач оптималь ного управления, типичным для приложений.

Цель данной работы осветить подход, который является приближенным изначально, а не на стадии реализации точных теоретических результатов. Он возможен принципи ально при наличии, по крайней мере, верхних оценок точности приближенных решений.

Именно такие оценки получаются на основе общей теории достаточных условий оптималь ности Кротова и общего принципа расширения (Кротов, Гурман, 1973;

Krotov, 1996;

Гур ман, 1997). При этом в конструктивном плане могут использоваться как непосредственные аппроксимации решений уравнений типа Беллмана, так и эффективные косвенные мето ды, использующие активные преобразования модели объекта по принципу расширения, Работа выполнена при финансовой поддержке РФФИ, проект 03-01- вырожденность и магистральную природу решений прикладных задач, многоэтапные и мультиметодные процедуры улучшения приближенных решений.

Еще один аргумент в пользу априорно приближенного подхода фундаментальная неопределенность, связанная с субъективностью критерия оптимальности, представленно го минимизируемым функционалом. Она сохраняется при сколь угодно точном описании объекта управления. С учетом этого построение модели на этапе постановки задачи и ее активные преобразования рассматриваются как важный активный ресурс при построении методов поиска практически приемлемых решений.

Спецификой предлагаемого подхода является систематическое обращение к дискрет ным во времени моделям управляемых систем, в том числе получаемым путем кор ректной дискретизации непрерывных систем. Это позволяет обойти обременительные теоретико-функциональные требования в применяемых схемах аппроксимации и оценках приближенных решений.

Помимо прямого назначения, процедуры синтеза оптимального управления и предла гаемый приближенный подход могут быть использованы для исследования свойств управ ляемых систем, оценки их интегральных характеристик, таких как множества достижи мости, для повышения эффективности итерационных методов улучшения управления, как развитие и обобщение известных результатов (Куржанский, 1977;

Черноусько, 1988, Гур ман, 1997;

Константинов, 1977;

Батурин, Урбанович, 1997).

Заметим также, что даже задачу о поиске оптимального управления в форме програм мы целесообразно в ряде случаев решать как задачу синтеза, поскольку проверка условий глобальной оптимальности программного управления, точной или приближенной, требует построения поля экстремалей, либо функции Кротова, что не уступает по трудоемкости процедуре синтеза.

1. Приближенный синтез и его оценки 1.1. Системы с полной информацией Известную схему Беллмана точного решения задачи оптимального синтеза будемрас сматривать как конкретный способ задания функции Кротова (t) в одноименных доста точных условиях оптимальности, который ведет к соотношениям метода динамического программирования для многошаговых процессов любой природы как оптимальных реше ний дискретной системы (1) x (t + 1) = f (t, x (t), u (t)).

по критерию минимума функционала I = F (tI, x (tI ), tF, (tF )) при условиях u (t) U (t, x (t)), tI, tF, x (tI ) заданы, x (tF ) свободно. А именно, (tF, x (tF )) = F (x (tF )), (2) (3) (t, x (t)) = sup (t + 1, f (t, x (t), u (t))).

u(t)U(t,x(t)) Функция us (t, x (t)) при достаточно большом s определяет оптимальное управление с обратной связью или, иначе синтез оптимального управления с любой степенью точности.

Принципиально любую зависимость u(t, x(t)) можно рассматривать как приближенно оптимальный синтез управления если есть возможность судить о его точности. Такую возможность открываeт, в частности, известная верхняя априорная оценка Кротова (Кро тов, Гурман, 1973):

tF sup R(t, x(t)) (, u) = inf R(t, x(t), u(t, x(t))) x(t)X(t) tI x(t)X(t) (4) G(x(tF )) + sup inf G(x(tF )).

x(tF )X(tF ) x(tF )X(tF ) R(t, x(t), u(t)) = (t + 1, f (t, x (t), u (t))) (t, x(t)), G(x(t)) = F (x(t)) + (t, x(t)).

Управление u(t, x) тем ближе к оптимальному, чем меньше эта оценка. Она зависит, как видно, не только от самого оцениваемого закона управления, но и от оценочной функции Кротова. Последняя генерирует другую зависимость (5) u (t, x(t)) = arg min (t + 1, f (t, x (t), u (t))).

u(t)U(t,x(t)) При этом, как видно из определения u, (u, ) (, ).

u 1.2. Системы с неполной информацией: гарантирующий подход Рассмотрим теперь обобщение описанной схемы на задачи с неполной информацией в следующей постановке (Кротов, Гурман, 1973). Рассматривается система (6) x (t + 1) = f (t, x (t), u (t, y(t)), w (t, x(t))), где y(t) = q(t, x(t), w(t, x(t)), y = q(t, x, w) заданная функция со значениями из некото рого множества Y произвольной природы, называемая оператором наблюдения, обуслов леннaя гипотезами об информированности.

Вводятся функционалы m D, J(m) = F (x(tF )), I(u) = sup J(m), Du где Du подмножество решений системы (6) при заданной функции u(t, y). Обозначим также через Du множество всех функций u(t, y, для которых m D.

Требуется минимизировать функционал I на Du, т.е. найти последовательность us u D, такую, что I(us ) d = inf sup J(m).

Du Du Если, в частности, существует функция u(t, y) Du, такая, что I ((u(t, y)) = d, то она называется оптимальной. Такая постановка адекватна проблеме выбора оптимального га рантированного управления динамической системой (6), при неполной информации о со стоянии и возмущении.

Пусть оператор наблюдения задан следующим образом: w = (w1, w2 ), y = (x, w1 ), ины ми словами, обеспечивается полная информация о состоянии системы и о части возмуща ющих воздействий. В этом случае решение получается из следующих условий (Кротов, 1996):

(7) (t, x (t)) = inf sup inf (t + 1, f (t, x (t)), u (t), w (t)), w1 w u (tF, x(tF )) = F (x), (8) При этом u(t, y) = u(t, x, w1 ) синтез оптимального управления в рассматриваемой задаче. Оценка приближенного синтеза аналогичнa (4), где R(t, x(t)) = inf sup inf R (t, x, u, w), w1 w u R (t, x (t), u (t), w (t)) = (t + 1, f (t, x (t)), u (t), w (t)) (t, x (t)), (9) Для случая, когда информация о внешнем воздействии отсутствует (y = x), уравне ние (7) становится дискретным аналогом известного в теории дифференциальных игр уравнения Айзекса (Айзекс, 1967).

1.3. Системы с неполной информацией: стохастический подход Рассмотрим также другой подход к трактовке неопределенностей, при другой гипотезе информированности: имеется полная информация о состоянии x, отсутствует информация о возмущении w, но известо его вероятностное распределение (Беллман, 1964).

Пусть, в отличие от предыдущей минимаксной постановки, задан вероятностный за коне распределения dP (t, w) возмущения w на каждом шаге t. он порождает некоторое вероятностное распределение процессов на множестве Du. Ставится задача о минимуме математического ожидания функционала I(us ) d = inf I(u).

I(u) = EDu J(m):

Du Для этой постановки принципа оптимальности Беллмана непосредственно получаются следующeе дискретнoе соотношениe для функции, из которoго получается и искомый закон управления u(t, x):

(10) (t, x (t)) = sup w (t + 1, f (t, x (t)), u (t), w (t)), u где w (q) операция осреднения, в результате которой получается математическое ожида ние случайной величины q. Oценкa приближенного синтеза получается аналогично преды дущей для рассматриваемого случая, если операцию inf заменить операцией осреднения w w.Общее выражение для оценки приближенного синтеза (4) при этом сохраняется, если под R(t, x) понимать выражение R(t, x) = sup w R (t, x, u, w). (11) u Обратим внимание, что соотношения Беллмана и их обобщения во всех рассмотренных случаях имеют вид t, x( t) = H(t, x, (t + 1, x)). (12) Далее будем предполагать, что пространства состояний, управлений и возмущений конечномерные евклидовы.

2. Аппроксимация соотношений типа Беллмана 2.1. Интерполяция многомерным полиномом Данная схема состоит в том, что оценочная функция Кротова-Беллмана ищется в фор ме (t, x) = (t, x) + (t, x), где (t, x) некоторое начальное приближение, (t, x) мно (t)g (x), {g (x)} некоторый заданный набор базисных гомерный полином (t, x) = функций, а { (i)} соответствующий набор коэффициентов, подлежащих определению посредством интерполяции рассмотренных выше соотношений типа Беллмана:

[g (x (t))] [ (t)] = H ({ (t + 1), x (t)) + ), [g (x (tF ))] [ (tF )] = F (x (tF )), (13), = 1, 2,..., M, номер узла, [(·) ], [(·) ], [(·) ] матрицы размеров M 1, M 1, M M соответственно.

Предполагая, что матрица [g (x (tF ))] обратима, отсюда получаем { (t)}.

К примеру, для случая отсутствия возмущений получаются конкретно следующие ре куррентныe соотношеня для (t):

[ (t)] = [g (x (t))]1 (14) sup (t + 1)g (f (t, x (t), u)) +.

uU(t,x) Алгоритм описанного метода состоит из следующих этапов:

1. В рассматриваемой области задаются узловые линии, и соответствующая конструк ция полинома (t, x).

2. В моменты времени t решается система уравнений (13). В результате определяются коэффициенты интерполяционного полинома, приближенная функция Кротова и порож денный ей приближeнный синтез оптимального управления u(t, x).

3. Вычисляется оценка точности приближeнного синтеза оптимального управления.

Если эта оценка неудовлетворительна, то следует повторить шаги 1 и 2 с увеличением числа узловых линий.

Однако в многомерных задачах при использовании интерполяции необходимо согласо вание формы интерполяционного полинома и сетки узлов интерполяции, обеспечивающее обратимость матрицы [g (x (i))]. Выбор этих двух элементов, в конечном счeте, и опреде ляет конкретный метод приближенного решения поставленной задачи синтеза на основе интерполяции. В качестве интерполяционного полинома может быть использована следу ющая известная в теории интерполяции конструкция, представляющая собой композицию одномерных полиномов:

m (x1 (t))j (t, x(t)) = j1 = (15) m2 mn j2 jn (x2 (t))... j1 j2...jn (t)(xn (i)), j2 =1 jn = где j1 j2...jn (t) - неизвестные коэффициенты интерполяционного полинома, которые под лежат вычислению и которые, в конечном счете, определяют приближенно- оптимальный синтез управления. Число этих коэффициентов совпадает на регулярной решетке с числом узловых точек и равно произведению количества узловых точек по каждой из фазовых координат M = m1 · m2 ·... · mn.

Аналогичная схема для непрерывных систем впервые была предложена и реализована В.З.Букреевым в работах (Букреев, 1968;

Кротов, Букреев, Гурман, 1969).

Другая возможная схема интерполяция регулярным полиномом на специальной сет ке. Под регулярным степенным полиномом порядка n понимается сумма всех однородных функций (форм) порядка от 0 до n:

(1) (2) (t, x) = (0) (t) + j (t)(xj ) + j1 j2 (t)(xj1 xj2 +... (16) j j1,j Соответствующая ему сетка строится как сетка для конечноразностного вычисления частных производных соответствующих порядков. При этом получается заведомо разре шимая линейная система относительно коэффициентов.

2.2. Аппроксимация методом наименьших квадратов Разработана также модификация описанного метода, в которой равенства (13) заменя ются минимизацией относительно неизвестных коэффициентов интерполяционного поли нома суммы квадратов отклонений полинома от соответствующих правых частей в узлах.

[g (x (t))] [ (t)] H ({ (t + 1), x (t)) + ) 2, min [ (t)] [g (x (tF ))] [ (tF )] F (x (tF ) + (tF, x (tF ) 2.

min [ (t)] Рассматривая эти выражения как функции от (t) при фиксированных t, видим, что это функции выпуклые, имеющие минимум в стационарной точке, где их градиенты относи тельно (t) обращаются в нуль. Получаются линейные системы относительно (t), а в результате их разрешения рекуррентные соотношение вида { (t)} = K(t, { )(t + 1)}, (tF ) = F, аналогичные (14), хотя и более сложные.

Преимущество такого подхода в том, что отпадает необходимость согласования кон струкции полинома и конфигурации узловых точек, требуется лишь избыточность числа узлов относительно числа неизвестных, чтобы задача аппроксимации имела единственное решение.

2.3. Итерационное улучшение аппроксимаций Полученная в результате аппроксимации по какой-либо из описанных схем oценочная функция и соответствующий приближенно-оптимальный синтез могут быть получены также посредством итерационных алгоритмов улучшения, построенных по схеме мини мизации невязки выполнения соотношений типа Беллмана некоторого положительно определенного функционала, родственной основной схеме вариационных методов матема тической физики.

А именно, вводится положительно определенный функционал (()), ( ) = 0, где ()) oператоp, обращающийся в нуль на решении соотношений типа Беллмана ((2), (3), (7),(12)). Ставится задача его минимизации в некотором классе функций, по рожденном заданной конструкцией (t, x) = (t, x, ), где некоторый набор искомых числовых или функциональных параметров. В этом классе становится функционалом I ().

В качестве может выступать невязка соотношений типа Беллмана tF (R(t, x)) dQ + (G(x))dQ tI X X (где (·), (·) некоторые положительно определенные функции), либо оценка (4). В ка честве будем рассматривать набор функций одной переменной. Тогда для минимизации I () могут быть применены хорошо отработанные на сегодня итерационные алгоритмы улучшения управляемых процессов. При этом в общем случае точного решения мы не получим, однако близость найденного приближенного решения к оптимуму может быть в любом случае проверена с помощью оценки (4).

Один из возможных методов, реализующих описанную общую схему улучшение ко эффициентов аппроксимирующего полинома (t). Для улучшения можно воспользовать ся достаточно простой итерационной процедурой градиентной до сходимости к некото рому стационарному значению функционала. Далее процесс улучшения может быть продолжен и проверен на достижение локального минимума методами второго порядка (Гурман, 1997;

Батурин, Урбанович, 1997).

Другой возможный метод основан на аппроксимации функции многих переменных позиномом суммой произведений функций одной переменной:

m n g(x1, x2,..., xn ) j yi (xi ). (17) = j=1 i= j Для нахождения функций yi (xi ) строится итерационная процедура аналогичная предыдущей (Гурман, 1976). Однако, в отличие от предыдущего метода, где базисные функции задавались, а определялись только коэффициенты аппроксимации, преиму щество данного подхода состоит в том, что базисные функции заранее не задаются, а формируются автоматически в процессе итераций, хотя и более сложных.

3. Методы восстановления функции цены Под функцией цены понимается зависимость функционала, подсчитанного на неко тором семействе решений системы (1), от времени, и состояния, рассматриваемых как начальные для траекторий этого семейства. Если решения оптимальны, то, как известно, функция цены становится функцией Беллмана. Если траектории семейства - приближённо-оптимальные, то и полученный с их помощью синтез также будет приближенно-оптимальным.

3.1. Общий подход Предлагаемая общая процедура состоит из следующих шагов.

1. В рассматриваемой области фазового пространства при каждом t задаётся дискрет ный набор точек (узлов), от которых как от начальных строится семейство решений, при нимаемых за исходные приближения в каком-либо известном итерационном алгоритме улучшения (градиентном, второго порядка и т.п.).

2. Каждое решение улучшается до достижения оптимума, вычисляются значения функции Кротова-Беллмана в узлах.

3. Задается приближенная функция Кротова-Беллмана посредством аппроксимации по найденному дискретному набору.

4. Вычисляется приближенно-оптимальный синтез управления с одновременной верх ней оценкой (4).

5. При удовлетворительном значении оценки процедура заканчивается, иначе изме няется схема аппроксимации и повторяются шаги 3 и 4 до окончания по оценке или до установления.

Данный подход специфичен именно для дискретных систем, для которых конструк ции Кротова, используемые на шагах 4 и 5, не требуют непрерывности и гладкости от функции, и поэтому допускают произвольные аппроксимации, в том числе наиболее простые кусочно-гладкие (например, кусочно-линейные) и даже кусочно-постоянные, что существенно упрощает шаг 5. В этом одно из важных преимуществ данного подхода по сравнению с первым, представленным в предыдущем разделе. Другое преимущество принципиальная применимость к задачам с любыми фазовыми ограничениями, в том числе с ограничениями на правом конце, а не только к задачам со свободным правым концом.

Небольшая модификация данного метода делает его применимым и к непрерывным системам. В этом случае шаги 1 и 2 выполняются непосредственно для непрерывной модели, а по дискретной схеме лишь задается функция и подсчитывается оценка.

3.2. Метод восстановления для задач с магистральными решениями Рассмотрим важную конкретизацию общего подхода, эффективную в широком клас се задач, для которых среди оптимальных траекторий может быть выделена некоторая опорная, ”притягивающая"другие траектории выбранного семейства. Роль таких опорных траекторий могут играть так называемые магистрали в вырожденных задачах оптималь ного управления (Гурман, Ухин, 2003).

В этом случае шаг 1 намеченной общей процедуры, существенно влияющий на ее эф фективность, конкретизируется следующим образом.

1.1 Находится семейство магистралей как решений производной задачи для сетки зна чений t, x, рассматриваемых как начальные.

1.2. Для каждого такого решения строится подходящее приближение из класса до пустимых (с учетом имеющихся ограничений) по принципу скорейшего выхода на маги страль.

Проиллюстрируем это на примере.

Пример 1. Пусть требуется построить оптимальный синтез для задачи минимума функционала I = x1(tF ) при условиях x3 = u, t [0, 3], |u| 1, x1 = (x2)2, x2 = x3, в области |x| 1. Переходя дважды к производной задаче, получим следующее маги стральное решение для любых начальных условий:

xi, t = tI, i = 2, 3, I i x1(t) = x1I, x (t) = t (tI, tF ].

0, Это решение аппроксимировалось следующим образом: u = signx2 на промежутке [tI, t ) и u = signx2 на промежутке [t, t ], где t момент, при котором x2 обраща ется в нуль, либо t = tF, а t подбирается так, что x3(t ) = 0, если t = tF. Для выбранного дискретного набора точек на траекториях этого семейства фиксировалось значение функционала I(tq, xq ), которое для каждого q-го узла легко подсчитывается.

Для приближенной функция Кротова Беллмана применялась линейная интерполяция.

Оценка производилась по формуле. Для построенного семейства оценка получилась равной 0.48 (при |x| 1 и 100 узлах). Далее получались новые значения улучшением первоначальных траекторий через 4 итерации по методу градиента. В результате оценка уменьшилась до 0.073.

3.3. Метод последовательного уточнения модели Схема последовательного уточнения модели является логическим развитием общего подхода, рассматриваемого в данном разделе. Она может быть кратко описана в следую щих общих терминах.

Пусть (Di, M), i = 1, 2,..., n, ряд моделей, каждая из которых представлена в абстрактной форме посредством отношения Di M, причем Di+1 Di, где M является одним и тем же основным множеством для всех отношений. Пусть задан функционал I на M, mi = arg min I, mi+1 Di+1 приближение mi в Di+1. Оно может быть использовано Di в некотором итерационном процессе, который применяется при нахождении mi+1.

Можно контролировать эту многоступенчатую процедуру следующими неравенствами:

Ii In I(min ), I(min ) In I(min ) Ii, где min есть аппроксимация mi в Dn, т.е. аппроксимация, удовлетворяющая ограниче ниям конечной модели. Если каждая задача решается в форме синтеза то для оценки следует использовать максимум отклонения функции цены от функции Беллмана пред шествующей модели (если она найдена) в рассматриваемой области.

Обратим внимание, что здесь получается целая серия верхних оценок точности при ближенных решений, вытекающих из соотношений между моделями рассматриваемого ряда, в дополнение к "собственным"оценкам получающимся при приближенном решении соответствующих задач в форме синтеза. Из оценок, относящихся к конечной модели, в качестве критерия окончания процесса приближений в сомнительных случаях следует выбирать наилучшую, хотя она может оказаться и не самой простой.

При построении рассматриваемого ряда моделей следует учесть важную особенность прикладных задач магистральную природу их решений, связанную с идеализацией пере менных, принимаемых в качестве управляющих при постановке задачи, и с отбрасыванием соответствующих реальных связей. Таким образом серия последовательно уточняющих ся моделей может строиться непосредственно в зависимости от количества учтенных и исключенных связей.

Очевидно, возможны упрощения и при других расширениях модели.

4. Приложение к оценкам множеств достижимости Множество достижимости (МД) важная характеристика управляемой системы, ко торых позволяют решать разнообразные задачи управления, (Красовский, Субботин, 1974;

Куржанский, 1977;

Черноусько, 1988, Хрусталев, 1988). Задачи описания и оценки множе ства достижимости родственны задачам синтеза оптимального управления и могут к ним сводиться (Гурман, 1997;

Константинов, 1987). Поэтому вполне естественно применить для подобных задач методы, представленные в предшествующих разделах.

Напомним, что множеством достижимости XR (t, tI, XI ) системы (1) в момент t, по рожденным начальным множеством XI, заданным в момент tI, называется объединение значений x(t) принимаемых в момент t нa всевозможных траекториях системы (1), начи нающихся в момент tI из XI. Далее tI и XI будем считать фиксированными и исключим их из числа аргументов. Множество XE называется внешней оценкой МД в рассматриваемый момент t, если XR XE. Из этих определений вытекают следующие соотношения:

(1) XR (t + 1) = f (t, XR (t), U(t, XR (t))), XR (tI ) = XI, (2) XE (t + 1) = f (t, XE (t), U(t, XE (t))), XE (tI ) = XEI.

Они описывают эволюцию МД или его оценки. Последнее служат основой для постро ения аналитических оценок в случае, когда операции объединения в правой части (19) могут быть выражены посредством максимизации (минимизации) с помощью некоторых скалярных функций. Один из подходов - oценки с помощью функций из заданного класса.

Будем предполагать, что x и u - элементы эвклидовых пространств.

скалярная функция, где = (x1,..., xn1, a Пусть (, a) вектор параметров, и n XE (t) = {x : x (, a(t)). Чтобы получить оценку XE (t + 1), следуя (19), решим задачу:

найти sup xn (t + 1) при условиях u,x xn (, a(t)).

u U(t, x), x(t + 1) = f (t, x, u), Обозначим результат через (t, (t + 1), a(t)). Тогда описанием XE (t + 1) будет x (t,, a(t)). Аппроксимируем (t,, a(t)) функцией (, a) за счет выбора a по некоторому подходящему критерию близости, а результирующее значение a примем за a(t + 1). Тем самым получим рекуррентную цепочку a(t + 1) = g(t, a(t)), a(tI ) = aI, которая представляет эволюцию оценки МД в терминах функции (, a).


Эти соотношения обобщаются непосредственно на случай, когда XE (t) = {x: xl l (l, al (t))}, l l = x1, x2,..., xl1, xl+1,..., xn, al (tI ) = alI задано, и когда множество достижимости лежит на некотором многообразии.

Если в качестве l (l, al (t)) использовать полином с набором коэффициентов al, для аппроксимации можно применить или адаптировать схемы, рассмотренные в разделе 1.

Заметим, что получаемые оценки МД не обязательно будут внешними. Для внешних оценок положим l (t, x) = xl l (l, al (t)), и используем семейство (t, x) в теореме 5.4 (Гурман,1997).

5. Приложение к улучшению управления Вычислительные трудности построения синтеза оптимального управления заставляют решать эту проблему в два этапа. Вначале ищется оптимальная программа и соответ ствующая траектория. Затем в некоторой окрестности последней строится приближенно оптимальный синтез с требуемой точностью при предположении, что действующие возму щения не приводят к выходу результирующих траекторий за пределы этой окрестности.

Для поиска оптимальной программы можно применять итерационные методы последо вательного улучшения, основанные на локализации рассмотренных выше схем. Один из методов локализации состоит в том, что задача улучшения некоторого элемента mI (так чтобы уменьшился заданный функционал I(m)) сводится к задаче минимума вспомога тельного функционала I (m) = (1 )I(m) + J(mI, m), [0, 1], где J(mI, m) функционал типа метрики.

Известно, что непрерывных систем возможен и используется другой эффективный спо соб локализации варьирование управления на достаточно малом временном интервале.

Для дискретной системы второй способ непосредственно неприменим именно из-за дис кретности времени, однако в комбинации с вышеописанным регулятором типа метрики он оказывается вполне применимым и эффективным.

Локализованная задача синтеза облегчается тем, что рост размерности компенсирует ся снижением числа узлов, по которым производится аппроксимация функции Беллмана за счeт сужения области синтеза. При относительно малом числе узлов, аппроксимация становится весьма чувствительной к выбору формы интерполяционного полинома и соот ветствующей сетки узлов. С этой точки зрения представляет особый интерес регулярный полином 2-го порядка = (t) + T (t)x + xT (t)x, в котором набор коэффициентов при каждом t составляют скаляр, n-вектор и n n матрица.

В работе (Белышев, Ухин, 2005) описывается серия алгоритмов улучшения постро енных по этому принципу с использованием указанной конструкции, коэффициенты которой находятся по правилу наименьших квадратов относительно сетки ее значений, получающихся при разрешении рекуррентных соотношений типа Беллмана. При этом конечным результатом соответствующих итерационных процедур будет как искомая оптимальная программа так и приближенно оптимальный синтез управления в ее окрестности, которая может оказаться и нелокальной.

6. Практические приложения Приближенный синтез оптимального управления по дискретным схемам на основе гло бальных методов и априорных оценок это эффективный путь практического решения сложной проблемы оптимального синтеза. Это подтверждают разнообразные приложения разработанных методов.

Так в работах (Никифорова, Ухин, 1999;

Никифорова, Ухин, Феофилов 1999) рас сматриваются задачи улучшения и локально-оптимального синтеза управлений, реализу ющих характерные маневры вертолета. Приближенный синтез в окрестности траектории начального приближения с помощью полиномов первого – второго порядка приводит к улучшению управлений, а после серии итераций к локальному оптимуму и прибли женному локально-оптимальному синтезу управления. При этом начальное приближение находилось по методу последовательного уточнения модели.

В качестве начальной грубой модели из полной системы уравнений вертолета содержа щей 14 сложных нелинейных уравнений выбиралось кинематическое соотношение между положением (r) и скоростью (v) центра масс вертолета в инерциальном пространстве:

r = v. Добавление следующего кинематического соотношения между скоростью и уско рением v = a давало второе приближение. Затем добавлялись уравнение углового дви жения и динамики ротора и т.д. Ограничения на управляющие переменные в указанных выше моделях получались из грубых оценок в тех дифференциальных уравнениях, где они служат переменными состояния в комбинации с заданными конечными ограничениями.

Практически для рассматриваемой серии маневров (перелет над сложным рельефом, пространственные маневры разгона и торможения) оказалось достаточно модели второго приближения. Полная модель вертолета использовалась только для компьютерной ими тации при полученных приближенно оптимальных законах управления.

Весьма перспективно приложение рассматриваемых методов к задачам экономической динамики и устойчивого развития благодаря ярко выраженному магистральному харак теру их решений. Это наглядно демонстрируют работы (Гурман, Ухин, 2004, 2005;

Ухин, Шевчук, 1999), где применяется метод восстановления функции цены. При идеализирую щих предположениях находится единственная магистраль;

далее строится приближенный синтез управления по правилу скорейшего выхода на магистраль, который затем улучша ется и оценивается.

В книге (Гурман, Ухин, 2005) таким путем исследована задача оптимизации реклам ной деятельности фирмы, на модели представляющей собой многомерный аналог модели рассматривавшейся в работах (Sethi, Tompson, 1981;

Дыхта, Самсонюк, 2000), с учетом ограниченности совокупных средств на рекламу различных производимых продуктов.

В работах (Гурман, Ухин, 2004;

Ухин, Шевчук, 1999) Описывается приложение данно го метода к актуальной задаче оптимизации стратегии устойчивого развития на агреги рованных эколого-экономической моделях с учетом инновациoнного фактора, Специфика этой задачи позволяет построить методом восстановления функции цены глобальный при ближенный синтез оптимального управления с хорошей априорной оценкой, позволяющей судить о высокой точности решения. Указываются возможности распространения данно го подхода на аналогичные многокомпонентные региональные модели любой размерности для построения эффективных процедур их исследования на практике. Для этого разра ботана многоэтапная процедура (Гурман, Рюмина, 2003), в которой модель региона мо дифицируется от существенно идеализированной с абсолютно магистральным решением в аналитическом виде до наиболее реалистической, учитывающей всевозможные детали и ограничения, а на заключительном этапе применяется универсальный итерационный алгоритм улучшения и локально-оптимального синтеза управления.

Список литературы [1] Р. Айзекс Дифференциальные игры. М.: Мир, 1967.

[2] М. Барди, И. Капуццо Дольчетта Optimal control and viscosity solutions of Hamilton Jacoby-Bellman equations. Boston: Birkhauser, 1997.

[3] В.А. Батурин, Д.Е. Урбанович Приближенные методы оптимального управления, основанные на принципе расширения. Новосибирск:– Наука. Сиб. предприятие РАН, 1997.

[4] Р. Беллман Динамическое программирование. М.: ИЛ, 1960.

[5] Р. Беллман Процессы регулирования с адаптацией. М: Наука, 1964.

[6] В.З. Букреев Об одном методе приближенного синтеза оптимального управления Автоматика и телемеханика, 1968, N11.

[7] Р. Габасов, Ф.М. Кириллова Основы динамического программирования. Минск: Изд во Белорусского университета, 1980.

[8] В.И. Гурман Приближенный синтез оптимального управления Автоматика и те лемеханика, 1976, N 6.

[9] В.И. Гурман Вырожденные задачи оптимального управления. М.: Наука, 1977.

[10] В.И. Гурман Принцип расширения в задачах управления. М: Наука,Физматлит, 1997.

[11] В.И. Гурман Магистральные решения в процедурах поиска оптимальных управлений. Автоматика и телемеханика, 2003, N 3.

[12] Vladimir I.Gurman, Mikhail Yu. Ukhin, Dmitry V. Belyshev Multimethod procedures in control improvement and optimal synthesis Generalized solutions in control problems.

Proceedings of IFAC Workshop and satellite events. Pereslavl-Zalessky, Russia, September 21-27, 2004, Moscow, Fizmatlit, 2004.

[13] V.I. Gurman, M.Yu. Ukhin The extension principle in control problems. Constructive methods and applied problems. Moscow: Fizmatlit, 2005.

[14] В.И. Гурман, М.Ю. Ухин Метод улучшения дискретного управления, основанный на аппроксимации множества достижимости. Сборних научных трудов, посвяще ный 20-летию ИПС РАН. М.: Физматлит, 2004.

[15] V.I. Gurman, M.Yu. Ukhin Models of control systems for practical optimization and estimation problems. Proceedings of Fourth International Conference Tools for Mathematical Modelling in honor of 300-anniversary of Saint-Petersburg (MATHTOOLS’2003), Saint-Petersburg, 2003.

[16] В.И. Гурман, М.Ю. Ухин Приближенный синтез оптимального управления в зада чах с магистральными решениями. Труды второй международной конференции по проблемам управления (МКПУ II) 16-20 июня 2003 г., М.: Институт проблем управ ления РАН, 2003.

[17] В.И. Гурман, М.Ю. Ухин Магистральные решения в задачах оптимизации страте гий развития регионов. Автоматика и телемеханика, 2004, N 4.

[18] В.И. Гурман, М.Ю. Ухин Моделирование и оптимизация стратегий устойчивого развития с учетом инноваций. Proceedings of the Sixth International Conference of the Russian Society for Ecological Economics. Economic Development and the Environment: Information, Modeling and Management (RSEE-2003) August 18-23, Lake Baikal, Siberia, Russia. Chita, 2003.

[19] В.А. Дыхта, О.Н. Самсонюк Оптимальное импульсное управление с приложениями. М.: Наука.Физматлит, 2000. C.256.

[20] Н.Н. Красовский, Н.А. Субботин Позиционные дифференциальные игры. М.: Наука, 1974.

[21] V.F Krotov Global methods in optimal control. N.Y.: Marcel Dekker, 1996.


[22] В.Ф. Кротов, В.З. Букреев, В.И. Гурман Новые методы вариационного исчисления в динамике полета. М: Машиностроение, 1969.

[23] В.Ф. Кротов, В.И. Гурман Методы и задачи оптимального управления. М.: Наука, 1973.

[24] И.А. Крылов, Ф.Л. Черноуськo О методе последовательных приближений для задач оптимального управления. Журнал вычислительной математики и математической физики, 1962, т. 2, N 6.

[25] А.Б. Куржанский Управление и наблюдение в условиях неопределенности. М.: На ука, 1977.

[26] А.М. Летов Аналитическое конструирование регуляторов, II Автоматика и теле механика, 1960, т. 21, N 5.

[27] P.L. Lions Generalized solutions of Hamilton-Jacobi equations. Boston: Pitman, 1982.

[28] К.У. Мерриэм Теория оптимизации и расчет систем управления с обратной связью. М.: Мир, 1967.

[29] Л.Н. Никифорова, М.Ю. Ухин Приближенный синтез дискретного оптимального управления. Труды конференции, посвященной 20-летию ИПС РАН, Переславль Залесский, май 2004.- Москва: Физматлит, 2004. C. 377-386.

[30] Л.Н. Никифорова, М.Ю. Ухин Метод формирования траекторий перелёта вертоле та на основе теории оптимального управления. Вертолет,1999, No 5.

[31] Л.Н. Никифорова, М.Ю. Ухин, Е.Б. Феофилов, Оптимизация пространственных траекторий полeта вертолeта. - Сборник научных трудов Международной акаде мии информатизации "Системный анализ, информатика и оптимизаци", РосЗИТЛП, М., 1999, с. 58-68.

[32] Approximate schemes of optimal control synthesis. Generalized solutions in control problems. Proceedings of IFAC Workshop and satellite events. Pereslavl-Zalessky, Russia, September 21-27, 2004, Moscow, Fizmatlit, 2004.

[33] А.И. Субботин Минимальные и вязкие решения уравнений Гамильтона-Якоби. M.

Nauka, 1991.

[34] М.Ю.Ухин, Е.В. Шевчук Оптимальная стратегия устойчивого развития. Сборник научных трудов "В мире науки"Международной академии информатизации. М.:

РосЗИТЛП, 1999.

[35] М.М. Хрусталев Точное описание множеств достижимости и условия глобальной оптимальности динамической системы. Автоматика и телемеханика, 1988, N 5, [36] Ф.Л. Черноусько Оценивание фазового состояния динамических систем. Метод эллипсов. М.: Наука, 1988.

APPROXIMATE OPTIMAL CONTROL SYNTHESIS V.I. Gurman, M.Yu. Ukhin Program Systems Institute, Pereslavl-Zalessky e-mail: gurman@cprc.botik.ru Abstract. A general approach to the problem of optimal control synthesis on the base of Krotov sucient conditions and global estimates is considered. It is approximate aproiri, not at the stage of implementation of exact theoretical results. As constructive tools there are used the approximations of Bellman-type relations and eective indirect methods based on active tranformations of the object model via the extension principle, the degeneracy and the turnpike nature of applied problems’ solutions. The eciency of the approach proposed is demonstrated on a series of applied problems from dierent elds Key words: optimal control, control synthesis, approximate solution, turnpike solution, reachable set.

РЕШЕНИЕ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ НА ОСНОВЕ БИ ЛИНЕЙНЫХ АППРОКСИМАЦИЙ В.А. Срочко, С.Н. Ушакова Иркутский государственный университет, Иркутск e-mail: srochko@math.isu.ru Аннотация. Рассматривается основная задача оптимального программного управления с по зиций численного решения. Для построения итерационного метода используется нестандартная аппроксимация в форме билинейной задачи в вариациях. Решение вспомогательной задачи реализуется с помощью метода приращений. Проведено обоснование свойства улучшения для управлений, не удовлетворяющих принципу максимума.

Ключевые слова: задача оптимального управления, билинейная аппроксимация, метод улучшения 1. Введение. Постановка задачи Проблема построения, анализа и реализации вычислительных методов оптимального управления исследовалась в работах многих авторов (см., например, монографии [1-12]).

Вариационная специфика задач оптимального управления породила большое разнообра зие идей, подходов и методов численного решения. На этом многозначном поле выделим обширный класс методов, которые конструируются по следующей стандартной схеме:

1) построение вспомогательной задачи поиска направления спуска (вспомогательного управления), 2) процедура варьирования исходного управления на основе вспомогательного с ис пользованием некоторых параметров, 3) поиск параметров варьирования с целью уменьшения функционала качества.

В рамках задач оптимального управления реализация этой схемы на этапах 1,2 допус кает немало вариантов (слабая, игольчатая, фазовая аппроксимации функционалов вместе с соответствующей техникой варьирования). Как правило, вспомогательная задача для большинства методов не содержит параметров варьирования, т.е. этапы 1,2 независимы.

Тем не менее, представляют интерес методы, в которых этапы 1,2 объединяются, т.е. во вспомогательную задачу включается процедура варьирования вместе с параметрами. Это связано с тем обстоятельством, что вспомогательная задача решается в некоторой допусти мой окрестности номинального управления, которая конструируется в параметрической форме. Целесообразность локального решения вполне понятна – любые аппроксимации, вообще говоря, хорошо моделируют исходный функционал лишь в некоторой окрестности рассматриваемого процесса. При этом третий этап указанной схемы предполагает поиск приемлемой окрестности за счет варьирования параметров.

Следует отметить, что в задачах математического программирования подобного сорта процедуры решения называют методами доверительной окрестности (области) [13,14]. В задачах оптимального управления известный метод последовательной линеаризации из [5] построен в рамках именно такой структуры.

Работа выполнена при финансовой поддержки РФФИ (проект 05-01-00187) и программы "Универси теты России"(проект ур.03.01.064).

В данной работе рассматривается обыкновенная задача оптимального управления без фазовых и терминальных ограничений. Динамическая система линейно зависит от управ ления, которое ограничено с помощью выпуклого компактного множества. В качестве аппроксимации функционала используется фазовая вариация с модифицированной со пряженной системой. Формирование семейства допустимых окрестностей производится на основе выпуклой комбинации управлений. В результате вспомогательная задача от носительно пары "управление, состояние"носит билинейный характер и содержит пара метр выпуклой комбинации, характеризующий окрестность базового управления. Решение вспомогательной задачи предлагается проводить с помощью метода приращений [11], ко торый является наиболее эффективным для билинейных задач. Доказывается свойство локального улучшения для управлений, не удовлетворяющих принципу максимума. В це лом, предлагаемый метод билинеаризации с параметром открывает дополнительные воз можности для численного решения задач оптимального управления.

Определим основную задачу оптимального управления (без терминальных и фазовых ограничений) следующими соотношениями (задача А) (u) = (x(t1 )) min, x(t0 ) = x0, x = f (x, u, t), u(t) U, t T = [t0, t1 ].

Здесь t - время (независимая переменная), u(t) R r - вектор-функция управляющих переменных (управление), x(t) Rn - вектор-функция фазовых переменных (состояние).

Внесем необходимые предположения:

1) целевая функция (x) непрерывно-дифференцируема на R n ;

2) вектор-функция f (x, u, t) правых частей фазовой системы непрерывно- дифферен цируема по x Rn, линейно зависит от u Rr и кусочно-непрерывна по t T ;

3) множество U Rr выпукло и компактно, начальное состояние x0 и промежуток управления T заданы.

Класс допустимых управлений V в задаче А введем как множество кусочно- непрерыв ных вектор-функций u(t), удовлетворяющих поточечному ограничению u(t) U, t T.

Предположим, что каждое допустимое управление u(t), t T в силу фазовой системы порождает единственную кусочно-дифференцируемую траекторию x(t) = x(t, u), которая определена на T.

Определим типовые конструкции для задачи А:

H(, x, u, t) =, f (x, u, t) - функция Понтрягина, = Hx (, x, u, t), (t1 ) = x (x(t1 )) - сопряженная система.

Пусть u(t), t T - допустимое управление с фазовой траекторией x(t) и решением (t) сопряженной системы. Как известно, принцип максимума в задаче А представляется соотношением u(t) = arg max Hu ((t), x(t), t), v, t T vU и получается на основе игольчатой аппроксимации функционала на паре u, w V (w) (u) = 0 (u, w) + o(), (1) 0 (u, w) = Hu ((t), x(t), t), w(t) u(t) dt, T = mes{t T : w(t) = u(t)}.

Более высокий уровень аппроксимации целевого функционала определяется с помощью фазовой вариации следующим представлением [11] (w) (u) = (u, w) + ( x ), (2) (u, w) = Hu ((t, u, w), x(t), t), w(t) u(t) dt, T ( x ) = o ( x(t1 ) ) oH ( x(t) )dt.

T Здесь x(t) = x(t, w) x(t) - приращение фазовой траектории, o, oH - остаточные члены соответствующих приращений.

Сопряженная вектор-функция (t, u, w) в данном случае удовлетворяет модифициро ванной системе = Hx (, x(t), w(t), t), (t1 ) = x (x(t1 )), в которой фазовая траектория x(t) и управление w(t) не согласованы. Такая структура сопряженной системы повышает качество аппроксимации функционала в сравнении со стандартным случаем (1). К примеру, в задачах, линейных по состоянию x, аппроксима ция (2) является точной (( x ) = 0), что не имеет места для представления (1).

2. Метод решения Проведем построение и обоснование итерационного метода на основе бивариации (u, w). Прежде всего, представим её в терминальной форме, используя фазовую ва риацию y(t), t T вместе с соответствующей системой. В результате (u, w) = x (x(t1 )), y(t1 ), y = fx (x(t), w(t), t)y + fu (x(t), t))(w(t) u(t)), y(t0 ) = 0.

Данное представление проверяется непосредственно на основе дифференцирования ска лярного произведения (t, u, w), y(t), t T.

Понятно, что аппроксимация w (u) (u, w) действует вполне удовлетворительно только на управлениях w из некоторой окрестности базового управления u. В этой связи рассмотрим бивариацию (u, w) на семействе управлений w (t, v) = u(t) + (v(t) u(t)) с фиксированным параметром (0, 1] и допустимыми управлениями v(t). Для данного вектор-функции w (t, v) с v V образуют некоторую допустимую окрестность исходного управления u(t).

Фиксируя (0, 1], сформулируем вспомогательную задачу на множестве управлений v V (задача B ) F (v) = x (x(t1 )), y(t1 ) min, v V, y = fx (x(t), w (t, v), t)y + fu (x(t), t))(w (t, v) u(t)), y(t0 ) = 0.

С учетом того, что матричная функция fx (x, u, t) линейно зависит от u, полученная систе ма является билинейной относительно совокупности y - фазовое состояние, v - управление.

Численное решение билинейной задачи B можно эффективно реализовать, например, с помощью метода приращений [11]. Проведем описание метода в данной ситуации.

Введем функцию Понтрягина h и сопряженную p - систему для задачи B h(p, y, v, t) = p, y = Hx (p, x(t), w (t, v), t), y + + Hu (p, x(t), t), w (t, v) u(t) = Hx (p, x(t), u(t), t), y + + Hxu (p, x(t), t)(v(t) u(t)), y + Hu (p, x(t), t), v(t) u(t), p = hy (p, y, v, t) = Hx (p, x(t), w (t, v), t) p(t1 ) = x (x(t1 )).

Отметим, что решение p (t, v) этой системы совпадает с сопряженной вектор- функ цией (t, u, w (t, v)).

Определим h-максимизирующее управление в задаче B v (p, y, t) = arg max Hu (p, x(t), t) + Hux (p, x(t), t)y, v.

vU Итерационная схема метода имеет вид.

Пусть на k-ой итерации получена допустимая пара (v k (t), y k (t)).

Сформируем управление w (t, p) = u(t) + (v (p, y k (t), t) u(t)) и найдем решение pk (t) k сопряженной системы k p = Hx (p, x(t), w (t, p), t), p(t1 ) = x (x(t1 )) в совокупности с управлением v k (t) = v (pk (t), y k (t), t), t T.

Сформируем управление w (t, y) = u(t) + (v (pk (t), y, t) u(t)) k и найдем решение y k+1 (t) системы в вариациях y = fx (x(t), w (t, y), t)y + fu (x(t), t)(v (pk (t), y, t) u(t)), k y(t0 ) = 0.

вместе с управлением v k+1 (t) = v (pk (t), y k+1 (t), t), t T.

В итоге получаем допустимую пару (v k+1 (t), y k+1 (t)), что и завершает итерацию.

Свойство монотонности и сходимость метода характеризуются соотношениями F (v k ) F (v k ) F (v k+1 ), F (v k ) F (v k+1 ) 0, k, причем каждое улучшение по функционалу F (v) дается ценой решения лишь одной за дачи Коши.

Определим условие остановки метода: F (v k ) F (v k+1 ) = 0 и дополнительно предпо ложим выполнение условия регулярности: v k = v k+1.

Зафиксируем результирующее управление в рамках решения задачи B : v (t) = k+ v (t), t T (снимем зависимость от итерационного индекса k и подчеркнем зависимость полученного управления от параметра ).

Отметим, что в силу условия регулярности управление v (t) удовлетворяет принципу максимума в задаче B.

Построим очередное управление в рамках решения задачи u (t) = u(t) + (v (t) u(t)), tT (3) и определим выбор параметра (0, 1] условием улучшения (u ) (u). Простейшей тактикой такого выбора может быть способ половинного деления:

если (u ) (u), то := 1.

Более глубокая схема пересчета реализуется, например, следующим образом [13].

Пусть F (v ) 0, т.е. v = u. Введем отношение (u ) (u) = F (v ) и назначим параметры 0 1 2 1, 0 1 1 2.

Например, можно взять 1 = 0, 25, 2 = 0, 75;

1 = 0, 25, 2 = 2.

Тактика пересчета имеет вид:

2) если 1 2, то :=, 1) если 1, то := 1, 3) если 2, то := min{1, 2 }.

Свойство метода по части улучшения определяется следующим утверждением.

Лемма. Если управление u V не удовлетворяет принципу максимума в задаче, то для достаточно малых (0, 1] имеет место строгое улучшение (u ) (u).

Замечание 1. Для сравнения приведем вспомогательную задачу метода условного градиента, которая не зависит от параметра и в терминальной формулировке имеет вид F (v) = x (x(t1 )), y(t1 ) min, v V, y = fx (x(t), u(t), t)y + fu (x(t), t)(v u(t)), y(t0 ) = 0.

В отличие от B получили простейшую задачу с оптимальным управлением u(t), которое порождает стандартный метод условного градиента u (t) = u(t) + (u(t) u(t)), [0, 1], t T.

Замечание 2. Отметим связь между исходной и вспомогательной задачами: управле ние u(t), t T удовлетворяет принципу максимума в задачах A и B одновременно.

Кроме того, значение вспомогательной задачи B неположительно и убывает по (0, 1].

Замечание 3. В практической реализации метода, по видимому, нет необходимости проводить решение задачи B для каждого текущего значения параметра (0, 1]. Здесь можно придерживаться следующей схемы.

Пусть, например, получен базовый процесс (u(t), x(t)) и имеется некоторое значение 0. Решая задачу B0, найдем управление v0 и построим управление u0 (t) = u(t) + 0 (v0 (t) u(t)), t T.

Если улучшение по функционалу отсутствует ((u0 ) (u)), то процедуру изменения организуем на основе семейства u (t) = u(t) + (v0 (t) u(t)), t T, (0, 0 ).

Как только улучшение достигнуто ((u1 ) (u)), формируется новый процесс с управ лением u1 (t), на базе которого решается задача B1 и т.д.

Таким образом, вспомогательная задача B решается только после завершения ите рации улучшения относительно функционала (u) и формирования очередного процесса (u(t), x(t)), t T.

Список литературы [1] Зубов В.И. Теория оптимального управления. Л.: Изд-во ЛГУ, 1966.

[2] Кирин Н.Е. Вычислительные методы теории оптимального управления. Л.: Изд-во ЛГУ, 1968.

[3] Демьянов В.Ф., Рубинов А.М. Приближенные методы решения экстремальных за дач. Л.: Из-во ЛГУ, 1968.

[4] Черноусько Ф.Л., Баничук Н.В. Вариационные задачи механики и управления. Чис ленные методы. М.: Наука, 1973.

[5] Федоренко Р.П. Приближенное решение задач оптимального управления. М.: Наука, 1978.

[6] Евтушенко Ю.Г. Методы решения экстремальных задач и их применение в системах оптимизации. М.: Наука, 1982.

[7] Васильев Ф.П. Методы решения экстремальных задач. М.: Наука, 1981.

[8] Габасов Р., Кириллова Ф.М. Конструктивные методы оптимизации. Ч.2. Задачи управления Минск: Изд-во "Университетское", 1984.

[9] Васильев О.В. Лекции по методам оптимизации. Иркутск: Изд-во ИГУ, 1994.

[10] Батурин В.А., Урбанович Д.Е. Приближенные методы оптимального управления, основанные на принципе расширения. Новосибирск: Наука, 1997.

[11] Срочко В.А. Итерационные методы решения задач оптимального управления. М.:

Физматлит, 2000.

[12] Аргучинцев А.В. Оптимальное управление начально-краевыми условиями гипербо лических систем. Иркутск: Изд-во ИГУ, 2003.

[13] Fletcher R. Practical Methods of Optimization, Vol.1. New-York: Wiley, 1980.

[14] Деннис Дж., Шнабель Р. Численные методы безусловной оптимизации и решения нелинейных уравнений. М.: Мир, 1988.

SOLVING OR THE OPTIMAL CONTROL PROBLEMS ON THE BASIS OF BILINEAR APPROXIMATIONS V.A. Srochko, S.N. Ushakova Irkutsk State University, Irkutsk e-mail: srochko@math.isu.ru Abstract. Standard optimal control problem is considered from the position of numerical solution.

The method is constructed on the basis of unusual functional approximation in the form of bilinear variation problem. The solution of the auxiliary problem is realized by the method of increments. The improvement feature is proved for the nonextremal controls in the sense of maximum principle.

Key words: Optimal Control Problem, Bilinear Approximation, Improvement Method СЕКЦИОННЫЕ ДОКЛАДЫ СИНТЕЗ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В ОДНОЙ ЗАДАЧЕ ПРЕСЛЕ ДОВАНИЯ Ю.В.Агеева, А.И.Тятюшкин Институт динамики систем и теории управления СО РАН, Иркутск e-mail: tjat@.icc.ru Аннотация. Технология численного решения прикладных задач оптимального управления обычно базируется на универсальном программном обеспечении, имеющем хорошо развитый ин терфейс и богатый арсенал методов оптимизации. Такое программное обеспечение позволяет учитывать особенности решаемой задачи путем последовательного применения различных алго ритмов улучшения на разных этапах итерационного процесса оптимизации.

Ключевые слова: оптимизация, оптимальное управление, параллельные вычисления, числен ные методы.

Введение Модельная задача, описывающая преследование маневрирующего объекта (преследу емого) другим объектом (преследователем), перемещающимся в экспоненциальной атмо сфере по заданному закону сближения под действием силы земного притяжения (параметр Р2 в правой части (1)) и силы вредного аэродинамического сопротивления (член в правой части (2)), сформулирована и исследовалась в работе [1]. В обобщенных координатах (V обобщенная скорость преследователя, - обобщенная плотность воздуха на высоте пресле дователя, u - обобщенное управление преследователя) процесс преследования описывается следующим образом:

dV = V P2 u, V (0) = V0, V (tk ) = Vk = const, (1) dt d = V u, (0) = 0, (2) dt где P2 = g · k · u2, g = 9.81 м/с, k = 1.079 · 104 1/м;

u0 = max(|umin |, umax ), (1) umin 0;

0 umax 1.

Ограничение на управление umin u umax, (3) ограничение на фазовую координату 0 min max, (4) где min, max заданы.

Критерий оптимальности tk min.

Для синтеза оптимального по быстродействию управления необходимо на фазовой плоскости (, V ) построить линию переключения (ЛП) управления, состоящую из то чек фазовой плоскости, в которых управление переключается с одной границы на другую.

1. Постановка задачи Для построения ЛП в фазовой плоскости рассмотрим двумерную задачу оптимального управления в общем виде и применительно к ней приведем метод решения задачи быст родействия и способ построения ЛП.

Пусть управляемый процесс описывается следующей системой дифференциальных уравнений, начальные условия (x0, x0 ) которой могут меняться:



Pages:   || 2 | 3 | 4 | 5 |   ...   | 6 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.