Cтраница 2
Для алгоритма ЛОР в массиве YPMIN накапливаются средние значения построенных оценок регрессии на тех векторах рабочей выборки, которые принадлежат оптимальным окрестностям, полученным в блоке МНК. [16]
Таким образом, для каждого вектора xh задающего систему окрестностей, могут быть указаны значения у векторов рабочей выборки, принадлежащих экстремальной окрестности, и получена оценка величины суммарного риска классификации. [17]
Заметим, что одни и те же векторы рабочей выборки принадлежат окрестностям различных векторов, а классификация некоторых векторов рабочей выборки, данная в разных строках второго столбца таблицы, может не совпадать. [18]
Программа REKTOR предназначена для выбора из класса кусочно-постоянных решающих правил оптимального правила и классификации в соответствии с ним векторов рабочей выборки. Описываемая программа работает в совокупности с программами ВВОД и ТАКСОН ( см. гл. На вход последовательности программ ВВОД - ТАКСОН - REKTOR поступает выборка наблюдений. Векторы выборки разделены на обучающие и рабочие. Век-юры рабочей выборки, классификация которых известна ( маска классов равна 1 или 2), считаются экзаменационными. Для этих векторов программа подсчитывает частоту ошибок классификации на экзамене. [19]
Теперь перебором по d и / найдем векторы, которые следует исключить, чтобы гарантировать наибольшее число правильно классифицированных векторов рабочей выборки. Задача минимизации по d и t функционала (10.44) достаточно трудна в вычислительном отношении. Точное ее решение требует большого перебора вариантов. Однако использование некоторых эвристических приемов позволяет найти удовлетворительное решение в приемлемое время. [20]
Это сообщение появляется в тех ситуациях, когда для заданного доверительного уровня я оказывается невозможным восстановить значения регрессии на векторах рабочей выборки. В этом случае необходимо либо увеличить величину и, либо увеличить число векторов обучающей выборки, либо уменьшить число признаков. [21]
Таким образом, для каждого вектора xt полной выборки (11.40) может быть указана классификация некоторых ( попавших в окрестность) векторов рабочей выборки и получена оценка mi - R ki числа ошибок классификации. [22]
В этом случае решение задачи путем минимизации среднего риска состоит в том, чтобы построить разделяющую плоскость, гарантирующую минимальную вероятность ошибки, и разделить с ее помощью векторы рабочей выборки. Векторы, лежащие по разные стороны от Г0, должны быть отнесены к разным классам. [23]
В тех же условиях решение этой задачи методом минимизации суммарного риска состоит в том, чтобы в классе плоскостей, безошибочно делящих обучающую последовательность, найти такое разделение векторов рабочей выборки, при котором максимизируется расстояние между выпуклыми оболочками всех разделяемых векторов, состоящих как из элементов обучающей последовательности, так и из элементов рабочей выборки. [24]
При IKL 8 ( алгоритм SUMKL) вызывается подпрограмма SUMR, которая, используя в качестве начального условия обобщенный портрет, построенный в пункте 3, отыскивает оптимальную индексацию векторов рабочей выборки. [25]
По окончании цикла проверяется, было ли при его выполнении завершено построение обобщенного портрета. В противном случае индексация векторов рабочей выборки считается завершенной, и подпрограмма SUMR свою работу заканчивает. [26]
Применение первого метода гарантирует классификацию всех рабочих векторов. В случае применения второго метода часть векторов рабочей выборки может остаться неклассифицированной, если эти векторы выделятся в отдельный, не содержащий обучающих векторов, таксон. Однако построение таксонов но полной выборке позволяет учесть дополнительную информацию о геометрии расположения рабочих векторов, и практика показывает, что второй метод дает более точные решения. Здесь в неявном виде реализуется идея селекции векторов рабочей выборки: отказ от классификации некоторых наблюдений для того, чтобы получить более точную классификацию остальных. [27]
В массив NKL содержимое массива NKR переносится полностью. При окончательной выдаче результатов печатается список связанных номеров векторов рабочей выборки ( см. в настоящей главе § 1, раздел 1.5), отнесенных к каждому из классов. [28]
Рассмотрим теперь случай двух выборок: обучающей и рабочей. На основании обучающей выборки строится решающее правило, с помощью которого классифицируются векторы рабочей выборки. [29]
Из файла номер 10 считывается массив ИРИС Б, с помощью маски MB в нем выделяется 44 вектора, 24 из которых составляют обучающую выборку, а 20 - рабочую. С помощью программы FOP строится обобщенный портрет, с помощью подпрограммы SUMR отыскивается наилучшая индексация векторов рабочей выборки. [30]