Cтраница 3
Поскольку выше было показано, что существует стационарная оптимальная стратегия, то задача сводится к нахождению ее из конечного множества стационарных стратегий. Таким образом, поставленная задача является комбинаторной и для ее решения можно использовать метод перебора ( он применим не только для процессов с одним эргодическим классом, но и для процессов общего вида, рассматриваемых в гл. В большинстве случаев, однако, применение полного перебора невозможно из-за слишком большого суммарного числа стационарных стратегий, равного Ki X Kz X X KN - Следовательно, необходимы эффективные алгоритмы для нахождения оптимальной стратегии. [31]
Таким образом, задача заключается в нахождении стратегии, максимизирующей u ( f) ( а также v ( f) на множестве всех стационарных стратегий. Для ее решения необходим эффективный алгоритм. [32]
Из теоремы 5.3 следует, что итерационный алгоритм нахождения стратегий сходится к a - оптимальной стратегии за конечное число шагов, поскольку число всех стационарных стратегий конечно. [33]
Из ( 3) следует, что любая стратегия &, являющаяся оптимальным текущим решением при достаточно большой длительности п планового периода ( п / г), одновременно есть оптимальная стационарная стратегия для бесконечного планового периода. Подробности этого подхода не имеют отношения к цели настоящего обсуждения и потому опускаются. [34]
Было показано существование значения такой игры и стационарных оптимальных стратегий в предположении эргодичности марковской цепи, возникающей при подстановке в переходные функции F ( x x i, s k 1)) любых стационарных стратегий. [35]
![]() |
Пример стохастической задачи о запасах. ( Оптимальные решения при бесконечном плановом периоде. [36] |
Читателю следует записать уравнения ( 9) для оптимальной стратегии и показать, что минимальные значения yt действительно равны значениям, приведенным в таблице на рис. 18.4. ] Заметим, что сходимость к yi является более быстрой при начальных значениях г /, соответствующих стационарной стратегии ( 6), чем в случае, когда все у принимаются равными нулю. Читателю надлежит объяснить, почему при i 1, 2, 3 значения у. [37]
Если общей стратегии я для любого состояния соответствует ожидаемый дисконтированный эффект, который в любом случае столь же велик, как и соответствующий ожидаемый дисконтированный эффект при комбинированной стратегии ( / я), но строго больше по крайней мере для одного состояния, то стационарная стратегия, использующая только правило /, приводит в каждом из состояний к такому ожидаемому дисконтированному эффекту, который не превышает аналогичный ожидаемый дисконтированный эффект при стратегии я, причем она характеризуется ожидаемым дисконтированным эффектом, строго меньшим / я-эффекта по крайней мере для одного состояния. [38]
Любая функция щ ( ш) на ( 0, oo) xQ со значениями а ( ( ш) Л ( т ( со)), прогрессивно измеримая относительно семейства Л, наз. Классы естественных, марковских и стационарных стратегий обозначаются соответственно 9lf, 9 до и 9fs - Ввиду возможности измеримого выбора из А ( х) класс 9 ( 5 ( следовательно, 91 и 91) не пуст. [39]
Таким образом, возникает следующий смешанный алгоритм. Выберем стационарную стратегию и вычислим результирующее пробное значение г. Применим алгоритм итераций по критерию ( о), приведенный в разд. Еслп при расчетах обнаруживается цикл, для которого соответствующая сумма ctj отрицательна, должным образом изменим стратегию, повторно вычислим с для этого улучшающего цикла, пересчитаем ctj и повторно выполним операции. Как только вычисления по алгоритму нахождения кратчайшего пути завершатся получением значений WL. [40]
Необходимое условие оптимальности содержит утверждение, что оптимальная стационарная стратегия дает решение экстремальных уравнений. Покажем теперь, что стационарная стратегия, дающая решение экстремальных уравнений, является оптимальной. [41]
Оптимальность стационарных стратегий была доказана Денардо [31] для модели с переоценкой и Фоксом [59] для модели без переоценки. Позднее Фокс доказал оптимальность стационарных стратегий для модели без переоценки при слабых ограничениях. Ховард [64], Фокс [59], Де Хелинк и Эпан [28], а также Осаки и Майн [94] сформулировали задачи линейного программирования применительно к таким процессам. [42]
Возникающая последовательность / п является монотонно убывающей, с п на каждой итерации происходит определенное улучшение; следовательно, мы никогда не возвращаемся к однажды отвергнутой стратегии. Поскольку имеется конечное число N различных стационарных стратегий, расчеты при данном подходе должны завершаться за конечное число итераций. [43]
Для анализа этого случая выделим три момента. Далее сформулируем утверждение, что всегда существует стационарная стратегия, которая является оптимальной. [44]
Грубо говоря, g представляет собой минимальные ожидаемые затраты за один отрезок при неограниченном плановом периоде. При этом также можно доказать, что выбор стационарной стратегии в связи с поиском оптимального варианта является вполне обоснованным. [45]