Cтраница 3
Рассчитав по формуле коэффициенты корреляции между объектами и группами объектов, получим порядок группировки, на основании которого строится дендрограмма. [31]
Первое - все эти методы просматривают матрицу сходства размерностью NXN ( где N - число объектов) и последовательно объединяют наиболее схожие объекты. Второй важный момент, на который стоит обратить внимание, состоит в том, что последовательность объединений кластеров можно представить визуально в виде древовидной диаграммы, часто называемой дендрограммой. Каждый шаг, на котором объединялась пара объектов, представляется ветвью этого дерева. Заметьте, что дерево изображает иерархическую организацию связей между шестью точками данных. На самом нижнем уровне все шесть точек независимы; иа следующем уровне они объединяются в одну группу и три независимых объекта; наконец, на самом верхнем уровне они все объединяются в одну большую группу. [32]
Для проведения такой процедуры необходимо, чтобы было определено каким-либо образом расстояние между кластером - например, как расстояние между их центрами или между двумя наиболее близкими объектами, или между двумя наиболее удаленными объектами. Имеется много других способов выбора расстояния, каждый из которых соответствует своему типу кластерного анализа. Результат применения этого метода представляет собой диаграмму, напоминающую дерево - дендрограмму. На дендрограмме указаны все последовательные слияния кластеров и приведены отвечающие им меры близости. На основе этой диаграммы исследователь вручную производит окончательную классификацию. [33]
Для любой иерархической классификации существует соответствующее дерево, называемое дендрограммой, которое показывает, как группируются выборки. На рис, 6.15 представлена дендрограмма для гипотетической задачи, содержащей шесть выборок. Уровень 1 показывает шесть выборок как одиночные группы. На уровне 2 выборки х3 и хь были сгруппированы в группу, и они остаются вместе на всех последующих уровнях. Если возможно измерить подобие между группами, то дендрограмма изображается в масштабе, чтобы показать подобие между группами, которые объединяются. [34]
Наконец, для понимания иерархических агломеративных методов не нужны обширные знания. Так, метод одиночной связи не требует понимания матричной алгебры или обширной подготовки по многомерной статистике. Вместо этого дается правило, указывающее, каким образом, исходя из матрицы сходства, объекты могут объединяться в кластеры. По определению в результате работы этих кластерных методов получаются неперекрывающиеся кластеры, которые, однако, являются вложенными в том смысле, что каждый кластер может рассматриваться как элемент другого, более широкого кластера на более высоком уровне сходства. Самым распространенным способом представления результатов этих кластерных методов является дендрограмма ( древновидная диаграмма), которая графически изображает иерархическую структуру, порожденную матрицей сходства и правилом объединения объектов в кластеры. [35]