Cтраница 3
В докладе дается характеристика системы лингвистического обеспечения АИБС, от которого зависит качество систематизации и формирования информационных массивов, индексирование документов и поисковых запросов в детской библиотеке. [31]
Ранее уже отмечалось, что в качестве дескрипторов используются лишь такие ключевые слова, которые достаточно часто употребляются для целей индексирования документов. Если же ключевое слово встречается очень редко, то целесообразно включить его в более широкий класс условной эквивалентности, с которым данное ключевое слово находится в отношении подчинения. В естественных языках к такому приему прибегают при построении рядов тематических синонимов. [32]
Автоматизированные ИПС - третий элемент системы - обеспечивают наиболее эффективный поиск в патентном фонде на базе специальных поисковых языков и глубокого индексирования документов. [33]
Но успокаиваться еще рано, так не решена проблема отдельных символов в кодировках языков народов РФ, не обеспечена необходимая автоматизированная среда для работы по индексированию документов; не решены до конца вопросы конвертирования нормативных файлов из других систем. [34]
Подробно рассмотреньт вопросы анализа обслуживания абонентов документальной ИПС Нефть-2, характеризуются программные срепства и методы морфологического анализа слов естественного языка и структурно-семантического анализа текста, направленные на автоматизацию индексирования документов. [35]
Следует отметить, что число найденных нерелевантных документов в данном случае несколько занижено, а точность - завышена, так как по обрабатывавшимся предписаниям предварительного добора лексики не проводилось, а индексирование документов осуществлялось на основании словарей, сформированных после первого анализа результатов поиска по сложным запросам. [36]
На современном этапе разработки и дальнейшего функционирования автоматизированной информационно-библиотечной системы ( АИБС) приоритетная роль принадлежит средствам лингвистического обеспечения, поскольку от них зависит качество систематизации и формирования информационных массивов и изданий, индексирование документов и запросов для проведения разных видов поиска. Обеспечение оперативного доступа пользователей к электронным каталогам невозможно без создания соответствующей поисковой системы. [37]
Ясно, что нельзя включать в тезаурус все слова, имеющие большое значение относительной частоты встречаемости, так как они могут идентифицировать слишком общие понятия, которые в дальнейшем-не смогут служить в качестве специфических терминов при индексировании документов. В то же время слова, имеющие низкую частоту встречаемости, не всегда являются случайными в данной области знаний. [38]
Маловероятно, чтобы обыкновенный выбор слов из реферата или текста документа с последующим поиском по запросу, задаваемому в виде булевой формулы, который применяется сейчас во многих ИПС, был бы столь же эффективен, что и обычное индексирование документов, выполняемое человеком. Однако можно легко заставить машину выполнять другие, вообще говоря нелингвистические операции, такие, как ранжирование документов, нормализация текста с помощью машинных словарей и тезаурусов, итеративный поиск, благодаря которым можно будет достичь большей эффективности, чем та, которую дают системы, контролируемые человеком. [39]
Проведенные экспериментальные исследования эффективности поиска позволили сделать вывод о том, что фактор, связанный с несовершенством языка индексирования, оказывает сравнительно небольшое влияние на показатели эффективности системы, а определяющим является фактор, связанный с несовершенством процесса индексирования документов и запросов и идентификации документов. Другими словами, эффективность систем ИГИ в основном определяется квалификацией специалистов службы информации, их умением правильно понимать запросы, интерпретировать их в обозначениях принятого в системе ИШ, умением правильно оценивать содержание документов и относить их к определенным запросам. Возможности человека в решении всех этих задач с помощью эвристических подходов являются значительно большими, чем возможности ЭВМ, где реализуются формальные алгоритмы, например идентификации документов на основе предваритель-но выбранных критериев смыслового соответствия. [40]
Основные функции подсистемы - это комплектование центрального отраслевого справочно-информационного фонда; техническая обработка поступающих документов ( прием, регистрация, предварительный отбор документов; оценка источников; проверка на дублет-ность; присвоение номеров обработки; формирование реферативных карт); составление вторичных документов; индексирование документов; подготовка к перфорации текстовой и поисковой частей документов. [41]
Поскольку любой из описанных выше процессов индексирования в принципе является алгоритмическим, то есть может быть расчленен на конечную и совершенно одновначную последовательность элементарных дискретных операций, приводящую к преобразованию различных текстов в соответствующие им поисковые образы ( множества ключевых слов), то такое индексирование документов может производиться машиной. [42]
В том случае, когда число документов, выдаваемых в ответ на запрос, для обеих систем одинаково, алгоритмы автоматического анализа текста, работающие в системе SMART, приводят к потере полноты и точности, меняющейся от 20 до 50 %, по сравнению с результатами системы MEDLARS, где применяется обычное индексирование документов. При этом наблюдаемые различия в значениях полноты и точности статистически достоверны, так что ясно, что система индексирования MEDLARS дает лучшие результаты. [43]
С 1976 по 1980 г. указанное программное обеспечение развивалось в следующих основных направлениях: совершенствование технологии обработки информации, ускорение процессов автоматического поиска документов, а также улучшение качества и повышение технологичности выдачи найденных документов; совершенствование программного обеспечения ведения информационно-поискового тезауруса как в одно, так и в двухязычном вариантах в связи с развитием международного сотрудничества в области НТИ; создание автоматизированной подсистемы периодического контроля качества документального поиска; автоматизация индексирования документов, поступающих на вход ИПС Нефть-2; обеспечение информационной совместимости с другими автоматизированными ИПС; использование новой перфорационной техники, подготавливающей данные на магнитной ленте. [44]
Метод индексирования документов, при котором ПОД состоит из одной лексической единицы ( выделено нами - прим. [45]