Структура - тезаурус - Большая Энциклопедия Нефти и Газа, статья, страница 1

Структура - тезаурус

Cтраница 1

Структура тезауруса выбиралась с учетом особенностей ИПЯ Нефть-2, частью которого он является. Тезаурус подразделен на пять изолированных друг от друга фасетов ( категорий): процессы; объекты; характеристики; вещества; идентификаторы и модификаторы. Эти фасеты отражают древовидную структуру базисных отношений, существующих между дескрипторами. [1]

В табл. 1.1 изображена связь между структурой тезауруса и возможностями поиска в АИДОС. [2]

В книге рассматривается информационно-поисковый язык системы, базируемой на использовании ППП АИДОС: структура тезауруса, реализуемые в нем отношения, структура рубрикатора, средства классификации фактографической информации. Описаны основные принципы стратегии поиска, формальные правила для установления соответствия поискового предписания поисковому образу документов; приводится структура пакета. [3]

На распределение памяти для массива тезауруса влияет не только количество символов ключевых слов, но и структура тезауруса. [4]

Характерной особенностью процедуры отождествления является ее ориентированность на семантику слов, выражающуюся в учете взаимосвязи между словообразовательными элементами естественного языка и функциональными семантическими характеристиками анализируемых слов, отраженными в фасетной структуре тезауруса и, соответственно, в кодах дескрипторов. Это позволяет решать ряд проблем, возникающих при опознании слов текста. Во-первых, это дает возможность разрешать неоднозначность опознания в случаях, когда слово текста может быть опознано более чем через одну основу словаря. Во-вторых, это позволяет опознавать слова, отсутствующие в словаре, но имеющие в нем аналоги, образованные с помощью других словообразовательных элементов. [5]

Структура подлежащего разработке тезауруса зависит от специфики его применения, от потребности пользователя. Структура тезауруса влияет на результаты поиска, на эффективность работы всей системы. Пользователь может использовать в качестве тезауруса уже простой перечень понятий. Но если системе предъявляются большие требования относительно точности и полноты поиска накопленной информации, то естественно предпочесть соответствующую более сложную структуру тезауруса. [6]

Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной области. Результаты такой обработки обычно представляются в виде матрицы документ-термин. Элемент матрицы на пересечении строки и столбца трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подобия между словами, определяемые в зависимости от частоты, с которой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса. [7]

В конце предыдущего параграфа мы говорили о том, что конечное множество предложений естественного языка представляет собой, без учета семантики, формальный язык. В более сложном случае тезаурус представляет собой перечень некоторых текстов, каждому из которых придана дополнительная, так называемая грамматическая информация. Эта структура тезауруса применяется в тех случаях, когда список предложений очень велик. Мы поясним его на небольшом списке, чтобы передать только самую суть этого способа описания формального языка. [8]

Однако о повторении некоторого смыслового компонента в тексте может свидетельствовать не только появление терминов, входящих в один и тот же класс эквивалентности, но и наличие других терминов, достаточно близких по смыслу. Таковыми являются термины, расположенные в соседних узлах иерархической структуры тезауруса. Поэтому для правильного учета частоты появления в тексте некоторого существенного смыслового компонента должна учитываться суммарная частота всех включающих этот смысловой компонент понятий в пределах нескольких нижних уровней иерархической структуры тезауруса. Степень близости понятий, объединяемых иерархическими связями, не одинакова для разных тезаурусных категорий, т.е. для разных ветвей иерархии тезауруса. Поэтому был проведен анализ степени близости между терминами, расположенными в соседних узлах иерархической структуры, отдельно для разных категорий тезауруса. В результате было определено, в пределах какого числа нижних уровней повторение в тексте соответствующих понятий может достаточно надежно свидетельствовать о повторении одного и того же смыслового компонента. На практике суммарный учет частоты в пределах нескольких уровней иерархии осуществляется путем усечения ЧЭДов. Поскольку структура ЧЭДа в нефтегазовом тезаурусе отражает положение этого ЧЭДа в структуре тезауруса, включая в себя коды всех уровней, расположенных выше данного класса условной эквивалентности, то для проведения требуемого обобщения достаточно исключить из ЧЭДа коды соответствующего числа нижних уровней. [9]

Страницы: 1