Стационарная стратегия

Cтраница 3

Поскольку выше было показано, что существует стационарная оптимальная стратегия, то задача сводится к нахождению ее из конечного множества стационарных стратегий. Таким образом, поставленная задача является комбинаторной и для ее решения можно использовать метод перебора ( он применим не только для процессов с одним эргодическим классом, но и для процессов общего вида, рассматриваемых в гл. В большинстве случаев, однако, применение полного перебора невозможно из-за слишком большого суммарного числа стационарных стратегий, равного Ki X Kz X X KN - Следовательно, необходимы эффективные алгоритмы для нахождения оптимальной стратегии. [31]

Таким образом, задача заключается в нахождении стратегии, максимизирующей u ( f) ( а также v ( f) на множестве всех стационарных стратегий. Для ее решения необходим эффективный алгоритм. [32]

Из теоремы 5.3 следует, что итерационный алгоритм нахождения стратегий сходится к a - оптимальной стратегии за конечное число шагов, поскольку число всех стационарных стратегий конечно. [33]

Из ( 3) следует, что любая стратегия &, являющаяся оптимальным текущим решением при достаточно большой длительности п планового периода ( п / г), одновременно есть оптимальная стационарная стратегия для бесконечного планового периода. Подробности этого подхода не имеют отношения к цели настоящего обсуждения и потому опускаются. [34]

Было показано существование значения такой игры и стационарных оптимальных стратегий в предположении эргодичности марковской цепи, возникающей при подстановке в переходные функции F ( x x i, s k 1)) любых стационарных стратегий. [35]

Пример стохастической задачи о запасах. ( Оптимальные решения при бесконечном плановом периоде. [36]

Читателю следует записать уравнения ( 9) для оптимальной стратегии и показать, что минимальные значения yt действительно равны значениям, приведенным в таблице на рис. 18.4. ] Заметим, что сходимость к yi является более быстрой при начальных значениях г /, соответствующих стационарной стратегии ( 6), чем в случае, когда все у принимаются равными нулю. Читателю надлежит объяснить, почему при i 1, 2, 3 значения у. [37]

Если общей стратегии я для любого состояния соответствует ожидаемый дисконтированный эффект, который в любом случае столь же велик, как и соответствующий ожидаемый дисконтированный эффект при комбинированной стратегии ( / я), но строго больше по крайней мере для одного состояния, то стационарная стратегия, использующая только правило /, приводит в каждом из состояний к такому ожидаемому дисконтированному эффекту, который не превышает аналогичный ожидаемый дисконтированный эффект при стратегии я, причем она характеризуется ожидаемым дисконтированным эффектом, строго меньшим / я-эффекта по крайней мере для одного состояния. [38]

Любая функция щ ( ш) на ( 0, oo) xQ со значениями а ( ( ш) Л ( т ( со)), прогрессивно измеримая относительно семейства Л, наз. Классы естественных, марковских и стационарных стратегий обозначаются соответственно 9lf, 9 до и 9fs - Ввиду возможности измеримого выбора из А ( х) класс 9 ( 5 ( следовательно, 91 и 91) не пуст. [39]

Таким образом, возникает следующий смешанный алгоритм. Выберем стационарную стратегию и вычислим результирующее пробное значение г. Применим алгоритм итераций по критерию ( о), приведенный в разд. Еслп при расчетах обнаруживается цикл, для которого соответствующая сумма ctj отрицательна, должным образом изменим стратегию, повторно вычислим с для этого улучшающего цикла, пересчитаем ctj и повторно выполним операции. Как только вычисления по алгоритму нахождения кратчайшего пути завершатся получением значений WL. [40]

Необходимое условие оптимальности содержит утверждение, что оптимальная стационарная стратегия дает решение экстремальных уравнений. Покажем теперь, что стационарная стратегия, дающая решение экстремальных уравнений, является оптимальной. [41]

Оптимальность стационарных стратегий была доказана Денардо [31] для модели с переоценкой и Фоксом [59] для модели без переоценки. Позднее Фокс доказал оптимальность стационарных стратегий для модели без переоценки при слабых ограничениях. Ховард [64], Фокс [59], Де Хелинк и Эпан [28], а также Осаки и Майн [94] сформулировали задачи линейного программирования применительно к таким процессам. [42]

Возникающая последовательность / п является монотонно убывающей, с п на каждой итерации происходит определенное улучшение; следовательно, мы никогда не возвращаемся к однажды отвергнутой стратегии. Поскольку имеется конечное число N различных стационарных стратегий, расчеты при данном подходе должны завершаться за конечное число итераций. [43]

Для анализа этого случая выделим три момента. Далее сформулируем утверждение, что всегда существует стационарная стратегия, которая является оптимальной. [44]

Грубо говоря, g представляет собой минимальные ожидаемые затраты за один отрезок при неограниченном плановом периоде. При этом также можно доказать, что выбор стационарной стратегии в связи с поиском оптимального варианта является вполне обоснованным. [45]

Страницы: 1 2 3 4