Cтраница 1
Обобщающая способность определяется как вероятность ошибки алгоритма, полученного в результате обучения, либо как частота его ошибок на некоторой независимой и, вообще говоря, неизвестной контрольной выборке. Основным результатом теории являются количественные оценки, показывающие, что качество получаемых алгоритмов улучшается с ростом длины обучающей выборки и уменьшением частоты ошибок на обучении, но ухудшается при увеличении сложности семейства. Эти оценки позволяют обосновать метод структурной минимизаций риска ( СМР), непосредственно направленный на выбор модели оптимальной сложности. В СМР фиксируется некоторая структура вложенных подсемейств различной сложности, затем в каждом подсемействе решается задача обучения по прецедентам, и из полученных алгоритмов выбирается тот, для которого оценка качества принимает наилучшее значение. [1]
Обобщающая способность мышления позволяет образовывать понятия. [2]
Обобщающая способность бустинга исследована, пожалуй, наиболее хорошо. Более того, качество на тестовой выборке может продолжать улучшаться даже после достижения безошибочного распознавания обучающей выборки. [3]
Обобщающая способность нейронной сети - интерполирующие свойства. [4]
Во-вторых, скользящий контроль характеризует обобщающую способность метода не намного хуже, чем вероятность ошибки. [5]
Строгая логика, оригинальность и большая обобщающая способность ума были характерны для его мышления. [6]
Имеется много работ по сравнительному анализу обобщающей способности бустинга и баггинга. Эмпирические исследования [83] на четырех реальных задачах показывают, что бустинг работает лучше на больших обучающих выборках, баггинг - на малых. При увеличении длины выборки бустинг повышает разнообразие классификаторов активнее, чем баггинг. Наконец, бустинг лучше воспроизводит границы классов сложной формы. [7]
Первой предпосылкой было понимание того, что обобщающую способность целесообразно определять как частоту ошибок на конечной контрольной выборке, но не как вероятность ошибки, которая является величиной ненаблюдаемой, и которую невозможно вычислить точно. На практике любая обучаемая система сталкивается только с конечными выборками, будь то обучающие, контрольные или рабочие совокупности объектов. Использование гипотетических вероятностей может приводить ( и реально приводит - см. основную лемму [ 3, стр. [8]
Интуиция подсказывает, что скользящий контроль должен характеризовать обобщающую способность алгоритма лучше, чем частота ошибок на обучении. [9]
Причина этих неудач анализируется в [37], где вводятся и сравниваются два альтернативных способа формализации понятия обобщающей способности. При первом способе, близком к подходу Вапника-Червоненкиса, оценивается качество отдельного алгоритма, полученного в результате обучения. При втором способе оценивается качество метода обучения в целом. Оказывается, в этом случае оценка отклонения скользящего контроля от вероятности ошибки алгоритма, обученного на случайной выборке, не зависит от емкости семейства, а только от длины обучения и контроля. Данный результат проясняет природу скользящего контроля и показывает, что завышенность предыдущих оценок связана с неудачным выбором функционала качества. [10]
Результаты, первоначально полученные для линейных комбинаций, оказались применимыми и к более широкому классу алгоритмов. Получены оценки обобщающей способности и для более сложных алгоритмических композиций, представимых в виде пороговых выпуклых комбинаций над пороговыми выпуклыми комбинациями. Для всех этих случаев оценки обобщающей способности выражаются через долю обучающих объектов с малым отступом. [11]
Ввиду принципиальной завышенно-сти сложностных оценок можно выдвинуть предположение, что получить приемлемые численные результаты возможно только путем явного привлечения априорной информации о восстанавливаемой зависимости. Основная идея этого направления состоит в том, что если метод обучения строит алгоритмы, в некотором смысле согласованные с имеющейся априорной информацией, то для такого метода может существовать оценка обобщающей способности, существенно лучшая, чем в общем случае. [12]
Отметим, что соответствие обучающей выборки ( локальной информации) и априорных ограничений ( универсальной информации) подробно изучается в теории универсальных и локальных ограничений К. В. Рудакова [13, 19-23] с позиций теории категорий и алгебраического подхода к проблеме распознавания. Алгебраическая теория позволяет проверять непротиворечивость этих двух типов информации и конструктивно описывать неизбыточные классы моделей алгоритмов, допускающие построение корректных алгоритмов. Однако оценки обобщающей способности в данной теории не рассматриваются. Вообще, проблема влияния априорной информации на качество восстановления зависимости представляется наименее изученной. В настоящей работе получены два результата в этом направлении. [13]
В комбинаторном подходе явным образом вводится понятие метода обучения, по отношению к которому семейство алгоритмов становится вторичной конструкцией. Это позволяет рассматривать любые методы, а не только минимизацию эмпирического риска. Качество обучения по прецедентам ( обобщающая способность метода) характеризуется комбинаторными функционалами, основанными на принципе скользящего контроля и зависящими только от метода обучения и заданной конечной выборки. В данной работе изучается несколько разновидностей функционала полного скользящего контроля. [14]
Результаты, первоначально полученные для линейных комбинаций, оказались применимыми и к более широкому классу алгоритмов. Получены оценки обобщающей способности и для более сложных алгоритмических композиций, представимых в виде пороговых выпуклых комбинаций над пороговыми выпуклыми комбинациями. Для всех этих случаев оценки обобщающей способности выражаются через долю обучающих объектов с малым отступом. [15]