Автоматическое индексирование - документ - Большая Энциклопедия Нефти и Газа, статья, страница 1

Автоматическое индексирование - документ

Cтраница 1

Автоматическое индексирование документов по тек-стам рефератов можно производить на основе той же методики, что и их поиск, но в качестве запроса здесь выступает весь словарь наименований понятий тезауруса. Термины словаря сопоставляются с текстом индексируемого реферата и, если они входят в одно из его предложений, заносятся в массив результатов. Процедура определения вхождений терминов тезауруса в текст реферата выполняется с помощью словаря смысловых связей слов. [1]

Более точные методы автоматического индексирования документов основаны на анализе полных текстов документов, их важнейших содержательных частей ( Введение, Выводы, Заключение и др.) или рефератов. При этом главный признак принадлежности документа к той или иной области принятой классификации определяется абсолютной частотой употребления ключевых слов или сравнением частоты с эталонной. [2]

Используемый ИПЯ позволяет осуществлять автоматическое индексирование документов, вводимых в систему, и ручное индексирование запросов. Он относится к дескрипторным языкам с грамматикой и состоит из набора лексем, представленного в виде НГТ и грамматических средств. НГТ служит в качестве нормативного списка лексем, с помощью которых на ИПЯ можно описывать понятия, составляющие основу смыслового содержания документа или запроса. НГТ используется для автоматического построения словаря основ, необходимого для отождествления слов текста и лексических единиц ИПЯ в процессе автоматического индексирования документов, и в качестве средств автоматизации избыточного индексирования запросов. НГТ относится к тезаурусам посткоординированного типа, т.е. в нем лексемами являются главным образом одиночные слова, а не словосочетания. НГТ сохраняет фасетное построение с пятью фасетами. В каждом из фасетов лексика упорядочена по классам условной эквивалентности ( КУЭ) в виде иерархических деревьев. В основу построения таких деревьев положены предметно-логические связи, существующие между лексемами в данной области знаний. В иерархических деревьях отражены все виды ассоциативных отношений: род - вид, целое - часть, причина - следствие и т.п. Каждая лексема подчиняется иерархически только одной соответствующей лексеме. [3]

Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности ( синонимии), отношение подчинения и ассоциативные отношения. [4]

Комплекс Словарь обеспечивает ведение НГТ и словарей, необходимых для автоматического индексирования документов. [5]

Приведенные цифры показывают, что наибольшие потери полноты информации, связанные с внедрением средств автоматического индексирования документов, происходят из-за отсутствия терминологии в лексическом составе ИПЯ и из-за неверного определения информационной значимости отдельных выделенных в тексте понятий. Вместе с тем потери по этим причинам взаимосвязаны и трудно дифференцируемы. Отсутствие терминологии в словарях не позволяет правильно идентифицировать наличие в тексте семантических повторов, учет которых необходим для оценки информационной значимости грамматических конструкций. Таким образом был сделан вывод о необходимости добора лексики. [6]

В то же время, если оценить степень пересечения аналогичных множеств нерелевантных документов, то эта величина в какой-то мере определяет процент поисковых неудач, не зависящих от приближенности алгоритма автоматического индексирования документов. [7]

Большое место уделено развитию документальной и фактографической информационно-поисковых систем и вопросам формирования их баз данных. В этой связи приводятся некоторые результаты испытания средств автоматического индексирования документов и методологии формирования информационно-поискового тезауруса, ориентированного на работу в системе автоиндексирования. [8]

Современные АСНТИ существенно отличаются от первых вариантов автономных АСНТИ как изменением внутренней технологии системы за счет использования более совершенных технических, программных, лингвистических и других средств, так и увеличением связей системы с другими АСНТИ, АСУ. Эти отличия состоят в использовании внешних баз данных, в возможном одновременном поиске в нескольких базах данных, в одновременном существовании нескольких ИПС ( например, ИПС документальная и фактографическая, системы автоматизированной подготовки изданий и др.; в появлении новых систем управления банками данных ( СУБД); в автоматизации различных вспомогательных операций ( например, автоматическое индексирование документов, запросов); в развитии диалогового режима между потребителем и АСНТИ; в увеличении числа используемых ИПЯ; в возможности работы в составе САЦНТИ и других информационных сетей. [9]

Сбор данных из документов в САП Г построен как естественное продолжение документального поиска. Из хранящихся в банке документов документальной ИПС рефератов по тематике отрасли на вход СПАНГ поступают документы, релевантные фактографическому запросу о документальной тдчки зрения. Их выдает система автоматического индексирования документов. [10]

Темой для подготовки проектов контрактов были избраны разработка и внедрение комплекса двуязычных тезаурусов. Специфической особенностью этих работ, отличающей ее от проводившихся ранее совместных исследований в этом направлении, явилась необходимость учета средств автоматического индексирования документов, создание которых было осуществлено во ВНИИОЭНГ. [11]

Страницы: 1