Cтраница 2
Пользуясь печатным или электронным источником, отыскать задачу, в которой описывается конфликтная ситуация с участием двух или трех заинтересованных сторон, разрешаемая путем последовательного принятия решений в условиях изменяющейся во времени и, вообще говоря, неполной информации. [16]
Проблема последовательного принятия решений иллюстрируется многошаговой задачей управления запасами, когда информация о фактическом спросе в данном периоде используется для пересмотра неопределенностей спроса в будущем. В некоторых случаях процедуры последовательного принятия решений требуют слишком больших вычислений. В связи с этим рассматриваются условия упрощения вычислений и различные варианты учета прошлого опыта. [17]
Следует отметить, что понятие игра, ход - формальные понятия. В этих терминах может быть описан любой процесс последовательного принятия решений, в ходе которого лица, принимающие решения, приобретают об обстановке новую информацию или, наоборот, утрачивают ее. [18]
При этом принимаются во внимание нормальные и - распределения случайных величин, параметры которых могут быть определены опять-таки путем элементарных экспериментов. Анализируется связь между априорным и апостериорным распределениями в процессе последовательного принятия решений. Рассматривается одна из важных проблем руководства - принимать ли решение на основе того, что уже известно, или предварительно разработать и реализовать программу сбора дополнительной информации, которая, конечно, потребует определенных затрат. [19]
Проблема, связанная с условием 1, заключается в том, что для оптимизации инвестиций нужно заключать долгосрочный контракт, что дает поставщику гарантии возмущения инвестиций. Но, как указано выше, долгосрочные контракты выдвигают проблемы адаптирующегося, последовательного принятия решений. Таким образом, стратегии оптимальных инвестиций и оптимальной последовательной адаптации в данном случае противоречат друг другу. [20]
В предыдущем параграфе мы обосновали использование игр с одновременным выбором как реалистический способ моделирования ситуаций, в которых время ожидания действий других игроков непродолжительно, что эквивалентно одновременному выбору стратегий. Однако когда промежуток времени между выбором стратегий достаточно большой, предположение о последовательном принятии решений представляется более реалистическим. Рассмотрим пример отрасли, которая в данный момент монополизирована. Другая фирма должна решить, входить в эту отрасль или нет. В зависимости от этого решения фирма-старожил должна определиться, проводить агрессивную ценовую политику или нет. Решение монополиста является функцией решения дебютанта. Другими словами, сначала монополист наблюдает за тем, входит или нет новая фирма в отрасль, а затем принимает решение о проведении той или иной ценовой политики. [21]
Тема динамического программирования также слишком обширна, чтобы рассмотреть ее в этой книге. Динамическое программирование - это общая теория оптимизации для задач, которые могут быть преобразованы в схему последовательного принятия решения на ряде этапов. Почти все задачи оптимизации могут быть преобразованы таким образом. [22]
Наконец, можно пересматривать выражения для неопределенности по мере накопления опыта, но игнорировать тот факт, что в будущем может появиться новый опыт. Это равносильно предположению, что, как только данные получены, вычисляются новые распределения, но задача последовательного принятия решения на остающихся этапах решается просто как задача без обучения. Это означает, что, хотя используемые распределения отражают накопленный опыт, в анализ не включается прогноз опыта, который может быть приобретен в будущем. [23]
В настоящее время механизм последовательного принятия решений является основой, на которой базируются различные модели ведения переговоров. Во-первых, большинство схем переговоров сводится к обмену предложениями и контрпредложениями. Структура последовательного принятия решений предлагает легко доступные конструкции для моделирования повторяющегося характера взаимодействия между агентами. Во-вторых, агенты, ведущие переговоры, действительно устанавливают обратную связь после того, как было сделано предложение или контрпредложение. Обратная связь заключается в ответе агента ( или агентов), которому предназначалось предложение или контрпредложение. В-третьих, структура последовательного принятия решений поддерживает подход открытого мира. При этом агенту не обязательно иметь полную информацию о своем окружении в начале переговоров. Приобретаемые в процессе переговоров знания обеспечивают обучение агента. Такой тип поведения с постоянным интерактивным обучением наиболее эффективен в процессе ведения переговоров. [24]
Таким образом обозначается постепенный, пошаговый процесс адаптации. Однако если пересмотр контракта или поправки к нему рассматриваются как повод для выгодного пересмотра сделки ( что соответствует действительности), то покупатель будет задерживать и накапливать переделки, если компоновкой их в комплексные комбинации легче замаскировать их подлинную ценность; некоторые переделки можно предрешить заранее. В этом отношении оптимальный процесс последовательного принятия решений может оказаться извращенным. [25]
Прежде чем переходить к использованию этого принципа оптимальности, следует отметить, что он не является утверждением типа теоремы, которую следует доказать. Его нужно рассматривать как факт, полученный из наблюдений над реально протекающими процессами, и с точки зрения математика он должен рассматриваться как постулат теории управления. А во-вторых, Этот постулат относится не только к управляемым процессам, которые рассматриваются в теории управления. Он более универсален и используется при исследовании других задач оптимизации, основанных на последовательном принятии решений. В частности, им пользуются при решении задач в теории игр и исследовании операций. [26]
Такой тип процессов может быть назван обучением с учителем. Данная работа посвящается анализу адаптивных процессов для случаев, когда требуемая реакция не может быть указана для каждого входного символа. Применение подобного рода адаптации, названной обучением без учителя [10, 11, 12], может оказаться необходимым в некоторых процессах последовательного принятия решения, в процессах генерирования символов ( процесс обратной классификации) и, возможно, в сходящихся адаптивных процессах для многослойных, сложных схем из адаптивных пороговых элементов. [27]
В настоящее время механизм последовательного принятия решений является основой, на которой базируются различные модели ведения переговоров. Во-первых, большинство схем переговоров сводится к обмену предложениями и контрпредложениями. Структура последовательного принятия решений предлагает легко доступные конструкции для моделирования повторяющегося характера взаимодействия между агентами. Во-вторых, агенты, ведущие переговоры, действительно устанавливают обратную связь после того, как было сделано предложение или контрпредложение. Обратная связь заключается в ответе агента ( или агентов), которому предназначалось предложение или контрпредложение. В-третьих, структура последовательного принятия решений поддерживает подход открытого мира. При этом агенту не обязательно иметь полную информацию о своем окружении в начале переговоров. Приобретаемые в процессе переговоров знания обеспечивают обучение агента. Такой тип поведения с постоянным интерактивным обучением наиболее эффективен в процессе ведения переговоров. [28]
В нескольких предыдущих главах упоминались ситуации адаптивного обучения принятию решений, которые фактически включали в себя последовательности решений. Они представляют интерес, поскольку часто создают серьезные трудности для интуитивного подхода. Решение, принимаемое на каком-то этапе последовательности, влияет на то, что можно будет сделать на последующих стадиях, и само зависит от того, что было сделано на предшествующих этапах. При рассмотрении решения, которое надлежит принять на некотором этапе, приходится предвидеть, что может произойти на следующих этапах и какую реакцию следовало бы выбрать перед лицом различных возможных ситуаций. Далее, часто после того, как миновала какая-то стадия процесса, появляются дополнительные информация и опыт, которые могут быть использованы для модификации сложившихся ранее мнений и прогнозов на будущее. С проблемами такого рода приходится сталкиваться, например, при изучении возможных решений в задаче о торгах и при анализе административно-управленческих систем. Анализ методов последовательного принятия решений на основе адаптивного обучения мы в свое время отложили, ограничившись лишь рассмотрением схемы последовательных выборок, кратко описанной в гл. [29]
Первый подход может рассматриваться как частный случай второго, если потребовать, чтобы формирование оценки происходило в один и тот же момент времени. Суть дела состоит в том, что при постоянном объеме выборки условный риск из-за ошибок в сообщении неодинаков для разных реализаций. Поэтому реализации, которым уже в начале сеанса соответствует довольно малое значение риска, целесообразно усечь, что и делается при последовательном анализе. При этом получается выигрыш в смысле среднего времени наблюдения, хотя отдельные сеансы могут быть весьма длительными. К сожалению, нахождение оптимальных последовательных операторов встречает серьезные трудности математического характера. В частности, достаточно трудно в общем случае обосновать саму возможность последовательного принятия решения. [30]