Cтраница 2
Для каждой из проблем установлены одна или несколько статистических мер. Была сделана попытка разбиения данных с тем, чтобы не только выявить положение всего населения с учетом определенной социальной цели, но и показать, как это отражается на различных группах населения и какие силы влияют на сложившееся положение. Данные ограничиваются сообщениями об объективных условиях. Субъективной информацией, отражающей удовлетворенность или неудовлетворенность людей условиями жизни, стараются по возможности не пользоваться, так как она достаточно противоречива. Однако к информации такого рода прибегают при оценке показателей здоровья и общественной безопасности. [16]
Данные MMPI-теста были подвергнуты кластеризации с помощью процедуры k - средних процедурой GLUSTAN ( Wishart, 1982) для того, чтобы продемонстрировать основные черты итеративных методов. Первый шаг состоит в формировании исходного разбиения данных. Затем вычисляются центры тяжести кластеров. [17]
Менее очевидным является факт, что результаты группировки зависят от выбора евклидова расстояния как меры различия. Этот выбор предполагает, что пространство признаков изотропно. Следовательно, группы, определенные евклидовым расстоянием, будут инвариантны относительно сдвигов или вращений - движений точек данных, не меняющих их взаимного расположения. Однако они, вообще говоря, не будут инвариантны линейным или другим преобразованиям, которые искажают расстояния. Таким образом как показано на рис. 6.9, простое масштабирование координатных осей может привести к различному разбиению данных на группы. Конечно, это не относится к задачам, в которых произвольное масштабирование является неестественным или бессмысленным преобразованием. Однако, если группы должны иметь какое-либо значение, они должны быть инвариантны преобразованиям, естественным для задачи. [18]