Cтраница 1
Обобщающая способность бустинга исследована, пожалуй, наиболее хорошо. Более того, качество на тестовой выборке может продолжать улучшаться даже после достижения безошибочного распознавания обучающей выборки. [1]
В отличие от бустинга, здесь используется не выпуклая комбинация, а более сложная корректирующая операция в виде нелинейной монотонной функции достаточно общего вида. Монотонность можно рассматривать как обобщение выпуклости: любая выпуклая корректирующая операция является монотонной, обратное в общем случае неверно. При выпуклой коррекции вес каждого базового алгоритма остается постоянным на всем пространстве объектов, что представляется не вполне обоснованной эвристикой. Монотонная коррекция обладает существенно более богатыми возможностями для настройки. [2]
Существует несколько объяснений феноменов бустинга. [3]
Имеется много работ по сравнительному анализу обобщающей способности бустинга и баггинга. Эмпирические исследования [83] на четырех реальных задачах показывают, что бустинг работает лучше на больших обучающих выборках, баггинг - на малых. При увеличении длины выборки бустинг повышает разнообразие классификаторов активнее, чем баггинг. Наконец, бустинг лучше воспроизводит границы классов сложной формы. [4]
Имеется много работ по сравнительному анализу обобщающей способности бустинга и баггинга. Эмпирические исследования [83] на четырех реальных задачах показывают, что бустинг работает лучше на больших обучающих выборках, баггинг - на малых. При увеличении длины выборки бустинг повышает разнообразие классификаторов активнее, чем баггинг. Наконец, бустинг лучше воспроизводит границы классов сложной формы. [5]
В-третьих, далеко не все методы обучения минимизируют эмпирический риск. Тем не менее, многие из них неплохо зарекомендовали себя на практике, например, алгоритмы, использующие технику скользящего контроля или внешних критериев МГУА [14], алгоритмы, основанные на регуляризации эмпирического риска, алгоритмы явной максимизации отступа, алгоритмы бустинга и баггинга, и другие. [6]
Имеется много работ по сравнительному анализу обобщающей способности бустинга и баггинга. Эмпирические исследования [83] на четырех реальных задачах показывают, что бустинг работает лучше на больших обучающих выборках, баггинг - на малых. При увеличении длины выборки бустинг повышает разнообразие классификаторов активнее, чем баггинг. Наконец, бустинг лучше воспроизводит границы классов сложной формы. [7]
Если ранее считалось, что для надежного восстановления зависимости необходимо ограничивать сложность используемого семейства алгоритмов, то теперь исследователи приходят к выводу, что семейство может быть сколь угодно сложным, однако первостепенную роль играет метод обучения - тот способ, с помощью которого по обучающей выборке строится алгоритм из выбранного семейства. По всей видимости, некоторые разновидности взвешенного голосования, такие как бустинг, являются удачными методами, способными эффективно сужать изначально широкое семейство алгоритмов, подстраивать его под конкретную задачу. [8]
Имеется много работ по сравнительному анализу обобщающей способности бустинга и баггинга. Эмпирические исследования [83] на четырех реальных задачах показывают, что бустинг работает лучше на больших обучающих выборках, баггинг - на малых. При увеличении длины выборки бустинг повышает разнообразие классификаторов активнее, чем баггинг. Наконец, бустинг лучше воспроизводит границы классов сложной формы. [9]
Метод обучения называется стабильным, если небольшие вариации обучающей выборки, такие как вставка или удаление одного объекта, приводят к незначительным изменениям получаемого алгоритма. Существуют различные способы формального определения стабильности, например, в работе [66] вводится 12 различных определений и устанавливаются взаимосвязи между ними. Эти методы широко используются благодаря своей простоте, однако порождают семейства алгоритмов бесконечной емкости. Доказана стабильность бустинга, машин опорных векторов, методов минимизации эмпирического риска с регуляризирующей штрафной функцией, и некоторых других. К сожалению, численные оценки требуемой длины обучения для стабильных методов также сильно завышены, как сложностные, и дают только качественное обоснование соответствующих алгоритмов. [10]