Cтраница 3
Нетрудно понять, что процедура информационного поиска существенно упростится, если синонимия ключевых слов будет вообще устранена. Тогда при координатном индексировании документам, имеющим одинаковое предметное содержание, будут сопоставляться поисковые образы, состоящие из одних и тех же ключевых слов. [31]
Существуют два основных варианта автоматического индексирования структурных формул. Первый вариант сводится к обычному координатному индексированию. В этом случае дополнительная запись имеет вид набора чисел, например: 17; 56; 105; 264, что означает, что данная структура содержит 17 - й, 56 - й, 105 - й и 264 - й признаки из словаря структурных признаков. При втором варианте задается не словарь признаков, а правило генерации фрагментов структурной формулы. Другими словами, задаются отношения между исходной структурной формулой и некоторым классом фрагментов. [32]
Приведенный справа от реферата алфавитный список ключевых слов образует поисковый образ этого реферата. Практический опыт показывает, что для координатного индексирования одного документа обычно бывает достаточно 8 - 15 ключевых слов. [33]
Очевидно, что ИПС может быть эффективной лишь тогда, когда обеспечено единообразное индексирование одинаковых по содержанию документов и информационных запросов. Необходимость в таком единообразии особенно велика при координатном индексировании, основанном на использовании слов и словосочетаний естественного языка, которому свойственны такие явления, как синонимия, омонимия и полисемия. Единообразие координатного индексирования может быть обеспечено лишь путем установления определенного контроля за употреблением слов и словосочетаний естественного языка, выступающих в качестве ключевых слов. [34]
Нет сомнения в том, что глубоко понять традиционные библиотековедческие правила каталогизации и систематизации можно только в общем контексте современной концепции информационно-поисковых языков. Вместе с тем преимущества и ограничения разрабатываемых в информатике языков координатного индексирования выявляются полностью лишь в их сопоставлении с языками алфавитного, систематического и предметного библиотечных каталогов. Как было сказано выше, интеграция названных разделов уже совершается в обеих научных дисциплинах - необходимо распространить ее и на преподавание этих дисциплин. [35]
Контроль за использованием ключевых слов может иметь различные степени. При нулевом или очень слабом контроле предметизатор выбирает ключевые слова для координатного индексирования документа непосредственно из текста этого документа без учета того, какие ключевые слова использовались раньше; он не учитывает ( или почти не учитывает) синонимии ключевых слов и иногда даже не приводит словоформы к нормальному виду. При полном контроле индексирование производится по нормализованному списку ( словарю) ключевых слов, в котором полностью устранена синонимия, полисемия и омонимия ключевых слов и эти слова связаны друг с другом родовидовыми и ассоциативными связями. Практический опыт показывает, что чем выше степень лексикографической обработки словарного состава ИПЯ, тем большего контроля требует такой ИПЯ при его практическом использовании. [36]
Основой эмпирического построения тезауруса обычно является свободное индексирование, то есть описание предметного содержания документов списками слов и выражений ( фраз), которые представляются предметизатору наиболее подходящими для этой цели. При этом вовсе не требуется, чтобы слова и выражения, выбираемые для координатного индексирования документа, содержались в текстэ этого документа. Слова и выражения, накопленные в результате свободного индексирования достаточно представительного массива документов ( порядка 2 тысяч и более), составляют основу для построения тезауруса. [37]
После подписания Великобританией Конвенции о присоединении к МКИ английская система классификации изобретений была пересмотрена и в 1963 г. была введена новая классификация, предусматривающая распределение понятий по 8 разделам ( близким к разделам МКИ), 40 классам, примерно 400 подклассам и 50000 рубрикам. В новой системе используется фа-сетный принцип, существенно отличающий ее от обычных иерархических классификаций и позволяющий осуществлять координатное индексирование. [38]
Этот метод построения тезауруса применяется тогда, когда имеется хорошо отработанный предметный словник и возникает необходимость в координатном индексировании большого собрания документов, которое до этого уже было заиндексировано предметными заголовками. Предметный словник с определенной степенью полноты отражает терминологию соответствующей предметной области; в нем уже произведена определенная нор мализация используемых терминов и словосочетаний, а также выявлены и соответствующим образом определены многозначные слова. [39]
Аналитико-синтетическая обработка документов научной информации в соответствии с [8] включает библиографическое описание документов, их классификацию ( индексирование), аннотирование ( составление аннотаций), реферирование ( составление рефератов), сжатие ( семантическая обработка документов) и перевод с одного языка на другой. Рассмотрим важнейшие из этих видов обработки, выполняемые с целью введения носителей научной информации в ЭЦВМ - классификацию и координатное индексирование. [40]
Проблема нормализации лексических единиц усугубляется из-за того, что на практике нет средств контроля лексики, в равной мере доступных всем библиотекам. Так, эффективность реализации языка предметных рубрик резко снижается из-за отсутствия изданных списков предметных рубрик, а отсутствие поддерживающихся в рабочем состоянии информационно-поисковых тезаурусов существенно осложняет задачи координатного индексирования. Поэтому устранение синонимии и многозначности слов естественного языка превращается в сложную задачу на этапе обработки документов и запросов, ведет к потерям информации и информационному шуму при выдаче. [41]
Интересно, что в стандартных американских учебниках по каталогизации о координатном индексировании, равно так же, как об индексировании ключевыми словами говорится лишь несколько слов. Эксперименты показали, что при любых формах совместного ведения ОРАС разброс терминов индексирования, часто минимальный при использовании стандартного списка предметных рубрик, достигает запредельных значений при координатном индексировании. Поэтому координатное индексирование считается слишком сложным инструментом для библиотечной практики, не оправдывающим вложенных средств. Этот вид индексирования глубоко изучается лишь в некоторых библиотечных школах, не по учебникам, а по монографиям, их авторы, как правило, являются профессорами и преподавателями этих школ. Что же касается ключевых слов, то этот вид индексирования отвергается по причине явной примитивности и низкой результативности при поиске. В массиве до тысячи документов поиск по ключевым словам себя еще оправдывает, если определены категории, фасеты. [42]
Подсистема Сбор и аналитическая обработка информации не автоматизирована. Основная тяжесть в ней ложится на специалиста в той или иной тематической области, который должен отобрать и оценить фактографическую информацию, намеченную к вводу в систему, произвести координатное индексирование и подготовку предмашин-ного формата. [43]
Интересно, что в стандартных американских учебниках по каталогизации о координатном индексировании, равно так же, как об индексировании ключевыми словами говорится лишь несколько слов. Эксперименты показали, что при любых формах совместного ведения ОРАС разброс терминов индексирования, часто минимальный при использовании стандартного списка предметных рубрик, достигает запредельных значений при координатном индексировании. Поэтому координатное индексирование считается слишком сложным инструментом для библиотечной практики, не оправдывающим вложенных средств. Этот вид индексирования глубоко изучается лишь в некоторых библиотечных школах, не по учебникам, а по монографиям, их авторы, как правило, являются профессорами и преподавателями этих школ. Что же касается ключевых слов, то этот вид индексирования отвергается по причине явной примитивности и низкой результативности при поиске. В массиве до тысячи документов поиск по ключевым словам себя еще оправдывает, если определены категории, фасеты. [44]
Информационно-поисковый язык ( ИПЯ) - искусственный язык, предназначенный для выражения содержания документов или запросов, а также описания фактов для последующего поиска. Процесс выражения содержания документа и ( или) запроса на ИПЯ называется индексированием. Различают пред-координатное и координатное индексирование. [45]