Cтраница 3
Дело в том, что лексико-статистический подход, по своей сути, не дает 100 % надежности рубрицирования по обучающей выборке, поскольку он ориентирован не на интерполяцию примеров ( как, например, метод нейронных сетей [2]), а на поиск интегральных признаков ( характеристических терминов), применение которых к обучающим документам вовсе не обязано точно рубрицировать каждый из них. Поэтому имеется следующая возможность: создать несколько словарей-рубрикаторов, полученных для разных порогов OQ, и, применяя их для рубрицирования обучающей выборки, выбрать оптимальный из них по критерию наилучших результатов рубрицирования. [31]
Сходство задач рубрицирования множества документов Мд и формирования обучающей совокупности М0б очевидно: как одна, так и другая, вне зависимости от подхода к ее решению, включает в качестве основной компоненты подзадачу отнесения документа из заданного множества документов к некоторой рубрике. Вместе с тем, имеют место и определенные различия. В задаче рубрицирования документов множества Md исходными являются требования полноты и точности выделения рубрик. При формировании обучающей совокупности MOQ требуется лишь точность выделения документов. Обязательным является также условие, согласно которому совокупность MOQ должна отражать все разнообразие представленных в документах М0 аспектов проблемы Р, значимых для проводимого пользователем исследования. Еще одно требование состоит в том, что документы М0 не должны содержать лишней информации, и, следовательно, являясь документами рубрики г, одновременно принадлежать каким-либо другим рубрикам рубрикатора R. Таким образом, полноты поиска документов, принадлежащих г, в этом случае не требуется: необходимо включение в состав М0б лишь некоторой части таких документов. [32]
На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают выделенные на первом этапе из текста понятия, с возможными весами. Решение принимается на основе правил рубрицирования, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил. [33]
ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора - рубрицированием. [34]
Разработка базы правил представляет собой очень трудоемкий процесс, требующий привлечения высоко квалифицированных специалистов как в предметной области, так и в области инженерии знаний. Суть этого процесса заключается в обработке большего массива отрубрицированных документов, в ходе которого для каждой из рубрик выявляются статистические закономерности, основанные на частоте встречаемости слов и фраз, а также совместной частоте встречаемости отдельных из них. Полученные данные затем используются экспертами при выявлении характерных слов и фраз для описания понятий и формирования правил рубрицирования. [35]
Отметим, что для этого требуется обработка текста с помощью системы морфологического анализа, что связано с замедлением обработки текста. Другой проблемой является отбор слов, которые имеет смысл включать в дальнейший анализ. Популярный метод стоп-слов представляется малоэффективным, ибо отсеивает только служебные слова, но бессилен против остальной неинформативной для рубрицирования лексики. [36]
Эксперименты показали, что неверный выбор OQ может резко снизить качество рубрицирования. Это понятно и из априорных соображений. Если характеристических терминов мало, то, очевидно, многие короткие документы не будут содержать их в достаточном для уверенной их идентификации количестве, следовательно, будет падать полнота рубрицирования. Наоборот, если характеристических терминов слишком много, то неизбежны пересечения рубрик по терминам и использование для идентификации недостаточно надежных терминов, что будет приводить к необоснованному присвоению лишних рубрик, следовательно, будет падать точность рубрицирования. [37]
Конкретизация этой идеи была проведена следующим образом. Был предложен эмпирический метод определения приближенного значения Ov порога актуализации исходя из соображений незначительного ( но имеющего место) пересечения рубрик по терминам. Это приближенное значение Ov принималось за центр диапазона [ Omin Omax ], в котором с определенным шагом аппроксимации брались промежуточные точки Ok, и для каждой точки находился словарь-рубрикатор Wk - Затем выполнялось рубрицирование документов обучающей выборки для всех полученных Wk и по критерию максимума среднего геометрического точности и полноты рубрицирования AT находился оптимальный словарь-рубрикатор Wk0 - Благодаря тому, что последовательность словарей-рубрикаторов Wk оказывается вложенной друг в друга по терминам, удалось на уровне программной реализации выполнять рубрицирование для всех словарей Wk за один проход текстов. [38]
Конкретизация этой идеи была проведена следующим образом. Был предложен эмпирический метод определения приближенного значения Ov порога актуализации исходя из соображений незначительного ( но имеющего место) пересечения рубрик по терминам. Это приближенное значение Ov принималось за центр диапазона [ Omin Omax ], в котором с определенным шагом аппроксимации брались промежуточные точки Ok, и для каждой точки находился словарь-рубрикатор Wk - Затем выполнялось рубрицирование документов обучающей выборки для всех полученных Wk и по критерию максимума среднего геометрического точности и полноты рубрицирования AT находился оптимальный словарь-рубрикатор Wk0 - Благодаря тому, что последовательность словарей-рубрикаторов Wk оказывается вложенной друг в друга по терминам, удалось на уровне программной реализации выполнять рубрицирование для всех словарей Wk за один проход текстов. [39]
Конкретизация этой идеи была проведена следующим образом. Был предложен эмпирический метод определения приближенного значения Ov порога актуализации исходя из соображений незначительного ( но имеющего место) пересечения рубрик по терминам. Это приближенное значение Ov принималось за центр диапазона [ Omin Omax ], в котором с определенным шагом аппроксимации брались промежуточные точки Ok, и для каждой точки находился словарь-рубрикатор Wk - Затем выполнялось рубрицирование документов обучающей выборки для всех полученных Wk и по критерию максимума среднего геометрического точности и полноты рубрицирования AT находился оптимальный словарь-рубрикатор Wk0 - Благодаря тому, что последовательность словарей-рубрикаторов Wk оказывается вложенной друг в друга по терминам, удалось на уровне программной реализации выполнять рубрицирование для всех словарей Wk за один проход текстов. [40]
Благодаря быстрому развитию сетевых технологий резко возрос документооборот предприятий, и, чтобы справиться с ним, необходима фильтрация документов и их распределение по различным отделам предприятия. Все это приводит к настоятельной необходимости решения задачи рубрицирования текстовых документов. [41]
Эксперименты показали, что неверный выбор OQ может резко снизить качество рубрицирования. Это понятно и из априорных соображений. Если характеристических терминов мало, то, очевидно, многие короткие документы не будут содержать их в достаточном для уверенной их идентификации количестве, следовательно, будет падать полнота рубрицирования. Наоборот, если характеристических терминов слишком много, то неизбежны пересечения рубрик по терминам и использование для идентификации недостаточно надежных терминов, что будет приводить к необоснованному присвоению лишних рубрик, следовательно, будет падать точность рубрицирования. [42]