Cтраница 2
От исходного CMP они отличаются тем, что структура вложенных подсемейств не задается заранее, а формируется в процессе обучения. В этом случае оценки качества учитывают все три типа особенностей, упомянутых выше. Результатом обучения является не только сам алгоритм, но и оценка его обобщающей способности. Такая оценка уже не выписывается явно в виде формулы, а вычисляется по ходу построения алгоритма. Наличие оценки качества на каждом промежуточном шаге позволяет эффективно управлять процессом обучения. [16]
На практике скользящий контроль чаще всего применяется либо для выбора одной модели алгоритмов из нескольких ( model selection) [61], либо для оптимизации небольшого числа параметров, определяющих структуру алгоритма, таких, как степень полинома, параметр регуляризации или количество нейронов на скрытом уровне нейронной сети. Считается, что настройка значительной доли параметров по скользящему контролю лишена смысла. Когда контрольная выборка существенно вовлекается в процесс обучения, скользящий контроль начинает выдавать смещенную заниженную оценку обобщающей способности. Известно, что скользящий контроль дает несмещенную оценку вероятности ошибки в том случае, когда он используется для проверки качества по окончании обучения. Однако до сих пор нет исчерпывающих исследований, показывающих, в какой степени скользящий контроль может использоваться на стадии обучения. [17]
Пока не ясно, существуют ли нетривиальные оценки локальной функции роста для конкретных методов обучения. Различные методы, работающие в одном и том же семействе, могут порождать различные локальные подсемейства на различных классах задач. Отсюда вытекает целесообразность введения и исследования нового понятия - локализирующей способности метода обучения, как важной составляющей его обобщающей способности. [18]
В процессе обучения сети встречного распространения входные векторы ассоциируются с соответствующими выходными векторами. Эти векторы могут быть двоичными или непрерывными. После обучения сеть формирует выходные сигналы, соответствующие входным сигналам. Обобщающая способность сети дает возможность получать правильный выход, когда входной вектор неполон или искажен. [19]
Сеть встречного распространения функционирует подобно столу справок, способному к обобщению. В процессе обучения входные векторы ассоциируются с соответствующими выходными векторами. Эти векторы могут быть двоичными, состоящими из нулей и единиц, или непрерывными. Когда сеть обучена, приложение входного вектора приводит к требуемому выходному вектору. Обобщающая способность сети позволяет получать правильный выход даже при приложении входного вектора, который является неполным или слегка неверным. Это позволяет использовать данную сеть для распознавания образов, восстановления образов и усиления сигналов. [20]
Процедура скользящего контроля заключается в следующем. Фиксируется некоторое множество разбиений исходной выборки на две части: обучающую и контрольную. Для каждого разбиения выполняется настройка алгоритма по обучающей подвыборке и вычисляется частота его ошибок на контрольной подвыборке. Оценка скользящего контроля определяется как средняя по всем разбиениям частота ошибок на контроле. Фактически, скользящий контроль непосредственно измеряет обобщающую способность метода обучения на заданной конечной выборке. [21]
Существование эффекта локализации снимает искусственный запрет на использование сложных алгоритмов. Важно не столько ограничить емкость семейства, сколько разработать метод обучения, способный подстраиваться под конкретные задачи, всякий раз по-разному локализуя рабочую область семейства. При фиксации восстанавливаемой зависимости метод обучения должен строить алгоритмы, похожие на нее. Тогда не важно, сколько еще не похожих алгоритмов содержится в семействе. Это свойство предлагается называть локализующей способностью метода обучения, подчеркивая, что оно является важной составной частью его обобщающей способности. [22]