Cтраница 3
Действительно, выполненные расчеты равновесной кристаллической и электронной структуры кластера TigCi2 [58] показали, что связи атомов титана с тремя соседними атомами углерода совсем не такие, как связи в графите или в фуллерене CGO; в частности, длины связей Ti-C и С-С в TigCi2 различаются почти в полтора раза и равны 3, 76ао и 2, 63ао ( ао 0, 052918 нм - радиус первой боровской орбиты), соответственно; согласно [59] длина связи Ti-C примерно на 30 % превышает длину связи С-С. В то же время атомы углерода и титана находятся на почти одинаковом расстоянии от центра кластера. Это означает, что реальный додекаэдр TigC ] сильно деформирован и искажен. Согласно [58] связующие состояния кластера TisCi2 образованы комбинацией ( d - орбиталей Ti и молекулярных орбиталей С2, а заполненный уровень с наибольшей энергией расположен между связующими и антисвязующими состояниями титана, что обеспечивает стабильность кластера. Аналогичные выводы о том, что кластеры MgCi2 имеют форму не идеального, а искаженного Пентагон додекаэдр а, были получены в других теоретических расчетах. [31]
Далее, состояния нейрона скрытого слоя являются непрерывными, что также является препятствием для извлечения правил. Для его устранения все значения, которые принимают нейроны скрытого слоя кластеризуются и заменяются значениями, определяющими центры кластеров. Число таких кластеров выбирается небольшим. После такой дискретизации активностей промежуточных нейронов производится проверка точности классификации объектов сетью. Если она остается приемлемой то подготовка к извлечению правил заканчивается. [33]
Плотность - это свойство, которое позволяет определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащих их вовсе. Хотя четко определенной меры плотности нет, это понятие очевидно. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Несмотря на то, что между этим свойством и тем, которое используется в теории статистических выводов, есть аналогия, кластеры не всегда представляют многомерные нормальные популяции. Поэтому лучше всего рассматривать дисперсию как характеристику того, насколько близко друг к другу расположены в пространстве точки кластера. Следовательно, кластер можно назвать плотным, если все точки находятся вблизи его центра тяжести, и неплотным, если они разбросаны вокруг центра. Свойство кластеров - размеры - тесно связано с дисперсией; если кластер можно идентифицировать, то можно и измерить его радиус. [34]
Когда число кластеров известно, можно применить второй способ. В этом случае в качестве критерия используют отношение дисперсии внутри кластера к дисперсии между кластерами. Могут быть применены и другие критерии. Наиболее распространенная схема кластеризации основана на предположении, что всякая точка, определяемая входными данными, должна принадлежать кластеру с самым близким средним значением. Затем рассчитывают новые положения центров кластеров и повторяют второй шаг. Результат в этом случае может зависеть от выбора начальных центров кластеров. Если число кластеров заранее не известно, операцию следует повторить для различного числа кластеров. [35]
Важную роль в кластерном анализе играют меры сходства. Наиболее часто в качестве такой меры употребляется коэффициент корреляции Пирсона, первоначально использовавшийся для определения зависимости переменных. Кластеры обладают рядом свойств, среди которых наиболее важными являются плотность, дисперсия, форма, отдельность. Плотность - это близость отдельных точек скопления, позволяющая отличать его от других областей многомерного пространства, содержащих либо мало точек, либо не содержащих их совсем. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. [36]
![]() |
Простая рекуррентная сеть. [37] |
Существующие методы кластеризации могут быть разделены на иерархические и разделяющие методы. Все они страдают от специфических недостатков при обработке больших объемов данных. Иерархические методы применимы только для небольших наборов данных. Разделяющие методы несколько менее требовательны к ресурсам, но они страдают от методической несвободы из-за предпосылки о правильной догадке о структуре т.е. количества и начального положения центров кластеров. Если выбор начальных кластеров далек от идеала, то разделяющие методы становятся очень ресурсоемкими в вычислении новых центров кластеров. [38]
Это скопление называют кластерами. В зависимости от априорных предположений о свойствах сигналов, принадлежащих одному кластеру, возможна та или иная постановка задачи КА. Одна из постановок заключается в следующем. Дано семейство решающих функций и обучающая выборка, представляющая собой множество точек в евклидовом - пространстве без указания их принадлежности к тому или иному классу. Необходимо выбрать такую решающую функцию из данного семейства, которая разбивает выборки на подвыборки так, чтобы сумма квадратов расстояний между всевозможными парами точек, принадлежащих одной подвыборке, были минимальной. В соответствии с другой возможной постановкой задачи каждый кластер описывается распределением вероятностей сигналов, которое зависит от параметре, причем значения этих параметров известны. Дана выборка, в когорой смешаны сигналы из различных кластеров. По этой выборке необходимо оценить параметры всех распределений, чтобы затем найти решающую функцию. Эта задача является частным случаем параметрической задачи самообучения распознавания образов, поскольку при самообучении рассматривают любые распределения, а в случае КА естественно рассматривают только унимодальные распределения, т.е. имеющие единственный максимум плотности вероятности в центре кластера. Разработаны различные итерационные алгоритмы решения этой задачи. [39]