Предобработка - данные - Большая Энциклопедия Нефти и Газа, статья, страница 2

Предобработка - данные

Cтраница 2

Джон Такер провел тщательное сравнительное исследование использования логистической регрессии и нейронных сетей и определил следующее их принципиальное различие. В то время как статистические методы фокусируются на оптимальном методе выбора переменных, нейрокомпьютинг ставит во главу угла предобработку этих переменных. Если нейронная сеть представляет собой многослойный персептрон, то функцией скрытых слоев и является такая последовательная предобработка данных. Вследствие этого нейронные сети занимают уникальное место среди методов обработки данных, превосходя их в универсальности и сложности, оставаясь при этом data-driven методом мало чувствительным к форме данных как таковых. [16]

В данном разделе рассматривается задача поиска идентичных объектов в ее геометрической интерпретации, которая звучит следующим образом. Требуется построить условный алгоритм, который для произвольной точки х Е [ 0 1) ( эта точка называется запросом) позволяет найти номер точки из множества У, которая совпадает с х ( если такая точка в V существует), при условии, что мы умеем выполнять следующие операции над вещественными числами: арифметические операции ( сложение, вычитание, умножение, деление, взятие целой части вещественного числа), операции сравнения и возможно некоторые другие простейшие операции. При этом допускается предобработка данных, которая может состоять в сортировке данных ( множества У), а также в построении некоторых дополнительных структур. [17]

Коммерческие пакеты отличаются от свободно распространяемых большим набором средств импорта и предобработки данных, дополнительными возможностями по анализу значимости входов и оптимизации структуры сети. Как правило, такие пакеты ( BrainMaker Professional, NeuroForecaster, Лора-IQSOO) имеют собственный встроенный блок предобработки данных, хотя иногда для этой цели удобнее использовать стандартные электронные таблицы. Так, нейро-продукты группы нейрокомпьютинга ФИАН встраивается непосредственно в Microsoft Excel в качестве специализированных функций обработки данных. При этом всю предобработку данных и визуализацию результатов можно проводить стандартными средствами Excel, который, кроме того, имеет богатый и расширяемый набор конверторов для импорта и экспорта данных. [18]

Первое, с чем сталкивается пользователь любого нейропакета - это необходимость подготовки данных для нейросети. До сих пор мы не касались этого, вообще говоря, непростого вопроса, молчаливо предполагая, что данные для обучения уже имеются и представлены в виде, доступном для нейросети. На практике же именно предобработка данных может стать наиболее трудоемким элементом нейросетевого анализа. Причем, знание основных принципов и приемов предобработки данных не менее, а может быть даже более важно, чем знание собственно нейросетевых алгоритмов. Последние как правило, уже зашиты в различных нейроэмуляторах, доступных на рынке. Сам же процесс решения прикладных задач, в том числе и подготовка данных, целиком ложится на плечи пользователя. Данная глава призвана заполнить этот пробел в описании технологии нейросетевого анализа. [19]

В отсутствие внешней цели, учителем сети могут служить лишь сами данные, т.е. имеющаяся в них информация, закономерности, отличающие входные данные от случайного шума. Лишь такая избыточность позволяет находить более компактное описание данных, что, согласно общему принципу; изложенному в предыдущей главе, и является обобщением эмпирических данных. Сжатие данных, уменьшение степени их избыточности использующее существующие в них закономерности, может существенно облегчить последующую работу с данными, выделяя действительно независимые признаки. Поэтому самообучающиеся сети чаще всего используются именно для предобработки сырых данных. Практически, адаптивные сети кодируют входную информацию наиболее компактным при заданных ограничениях кодом. [20]

Конечно, описанными выше методиками не исчерпывается все разнообразие подходов к ключевой для нейро-анализа проблеме формирования пространства признаков. Мы не упомянули, в частности, генетические алгоритмы, которые в совокупностью с методикой box-counting являются весьма перспективным инструментом. Ничего не было сказано также о методике разделения независимых компонент ( blind signal separation), расширяющей анализ главных компонент. Главное, чтобы за деталями не затерялся основополагающий принцип предобработки данных: снижение существующей избыточности всеми возможными способами. Это повышает информативность примеров и, тем самым, качество нейропредсказаний. [21]

Как входами, так и выходами нейросети могут быть совершенно разнородные величины. Очевидно, что результаты нейросетевого моделирования не должны зависеть от единиц измерения этих величин. А именно, чтобы сеть трактовала их значения единообразно, все входные и выходные величины должны быть приведены к единому - единичному - масштабу. Кроме того, для повышения скорости и качества обучения полезно провести дополнительную предобработку данных, выравнивающую распределение значений еще до этапа обучения. [22]

Ключевым для повышения качества предсказаний является эффективное кодирование входной информации. Это особенно важно для труднопредсказуемых финансовых временных рядов. Все рекомендации, описанные в главе о предобработке данных, применимы и здесь. Имеются, однако, и специфичные именно для финансовых временных рядов способы предобработки данных, на которых мы подробно остановимся в данном разделе. [23]

В данном разделе рассматривается задача поиска идентичных объектов в ее геометрической интерпретации, которая звучит следующим образом. Требуется построить условный алгоритм, который для произвольной точки х G [ 0 1) ( эта точка называется запросом) позволяет найти номер точки из множества У, которая совпадает с х ( если такая точка в V существует), при условии, что мы умеем выполнять следующие операции над вещественными числами: арифметические операции ( сложение, вычитание, умножение, деление, взятие целой части вещественного числа), операции сравнения и возможно некоторые другие простейшие операции. При этом допускается предобработка данных, которая может состоять в сортировке данных ( множества К), а также в построении некоторых дополнительных структур. [24]

Страницы: 1 2