Cтраница 2
Равенство (4.7) связывает между собой максимальное значение функционала для N-шагового процесса с максимальным значением функционала для ( М-1) - шагового процесса и называется основным функциональным уравнением Беллмана. [16]
Здесь г /, - состояние объекта в момент времени k, х - управление в & - й момент. Применим для решения этой задачи метод функциональных уравнений Беллмана. [17]
Во втором подходе, заключающемся в конструкции функции поля экстремалей, называемой также функцией Беллмана-Ляпу нова или потенциальной функцией, и опирающимся на уравнение динамического программирования Беллмана, снимается сложность вывода уравнения вариации функционала с неголономными связями, присущая первому подходу. Однако на следующем этапе возникает новая сложность при необходимости решать функциональное уравнение Беллмана. [18]
Во втором подходе, заключающемся в конструкции функции поля экстремалей, называемой также функцией Беллмана-Ляпунова или потенциальной функцией, и опирающимся на уравнение динамического программирования Беллмана, снимается сложность вывода уравнения вариации функционала с неголономными связями, присущая первому подходу. Однако на следующем этапе возникает новая сложность при необходимости решать функциональное уравнение Беллмана. [19]
Основополагающая идея наших исследований состоит в том, чтобы рассматривать на множестве всех позиций некоторые функции, находящиеся в тесной связи с решениями. Подобный метод можно встретить в динамическом программировании, где решения описываются функциональными уравнениями Беллмана. Изучаемые здесь функции ( функции значения для антагонистической игры и функции решения для неантагонистической игры) в иерархической системе понятий решений располагаются между глобальными сильными и глобальными слабыми ситуациями равновесия и позволяют делать выводы об определенных свойствах глобальных решений. [20]
Задача оптимального управления (4.46), (4.47) по терминологии главы 2 является задачей с закрепленным левым и подвижным правым концами траектории. Это обстоятельство, как легко видеть, не оказывает никакого влияния на вывод функционального уравнения Беллмана, а находит свое отражение лишь в изменении граничного условия. [21]
Ниже следуют теоремы, обеспечивающие корректность перехода к гамильтонову формализму. Получаются определенные соотношения между гамильтонианом, функцией затрат, соответствующей локально оптимальному управлению, и самим оптимальным управлением. Эти соотношения эквивалентны функциональному уравнению Беллмана. [22]
Динамическое программирование хорошо обосновано для дискретных процессов. Обоснованное применение динамического программирования для непрерывных процессов не всегда возможно. Это связано с тем, что при выводе функционального уравнения Беллмана приходится делать предположение, непосредственная проверка которого по уравнениям движения и функционалу невозможна. И только после решения уравнения Беллмана можно проверить, выполняется ли сделанное предположение или нет. Далее, функциональное уравнение Беллмана для непрерывных процессов представляет собой дифференциальное уравнение в частных производных. Это уравнение обычно имеет весьма сложный вид, и численное его решение часто весьма затруднительно. [23]
Динамическое программирование хорошо обосновано для дискретных процессов. Обоснованное применение динамического программирования для непрерывных процессов не всегда возможно. Это связано с тем, что при выводе функционального уравнения Беллмана приходится делать предположение, непосредственная проверка которого по уравнениям движения и функционалу невозможна. И только после решения уравнения Беллмана можно проверить, выполняется ли сделанное предположение или нет. Далее, функциональное уравнение Беллмана для непрерывных процессов представляет собой дифференциальное уравнение в частных производных. Это уравнение обычно имеет весьма сложный вид, и численное его решение часто весьма затруднительно. [24]
При решении задачи дуального управления предполагается, что все неизвестные и неконтролируемые параметры случайны и имеют априорно заданные функции распределения. Собственно решение задачи основано на последовательном применении метода динамического программирования Беллмана ( см. раздел IV. Однако на практике, как отмечалось выше, решение уравнения Беллмана даже в случае линейного объекта, наталкивается на большие вычислительные трудности - так называемое проклятие размерности. В общем случае эти трудности практически непреодолимы, поэтому обычно переходят к субоптимальным адаптивным алгоритмам, стараясь сохранить при этом по возможности все свойства оптимальных алгоритмов. Имеются два пути решения этой задачи. Первый состоит в последовательном усложнении простейших алгоритмов, с целью обеспечить качественное оценивание и управление. Второй предусматривает упрощение функционального уравнения Беллмана. [25]