Cтраница 2
Тезаурус, включающий только основную лексику той или иной отрасли и наиболее очевидные парадигматические отношения и предназначенный для использования в качестве основы при построении узкотематических тезаурусов. [16]
Этот метод построения тезауруса применяется тогда, когда имеется хорошо отработанный предметный словник и возникает необходимость в координатном индексировании большого собрания документов, которое до этого уже было заиндексировано предметными заголовками. Предметный словник с определенной степенью полноты отражает терминологию соответствующей предметной области; в нем уже произведена определенная нор мализация используемых терминов и словосочетаний, а также выявлены и соответствующим образом определены многозначные слова. [17]
Это наименее изученный и реже всего применяемый метод построения тезаурусов. [18]
Если требуется структура А ( см. табл. 1.1), то нет необходимости соблюдать все существующие требования к построению тезауруса. [19]
Существует много алгоритмов автоматической классификации терминов [13, 14, 27-31], причем некоторые из них дают возможность получить такую классификацию терминов, которая при информационном поиске не уступает классификации, полученной вручную. Главным препятствием на пути развития автоматических методов классификации служит относительно высокая стоимость затрат времени и труда, которые требуются для построения автоматического тезауруса. [20]
Для формализации записи учебных программ целесообразно разработать служебный словарь ( тезаурус), содержащий специальные термины, слова и устойчивые словосочетания, используемые при составлении комплекта учебных программ по специальности. В принципе тезаурус может разрабатываться также и на основе дескрипторов, соответствующих определенным понятиям. Однако на основании проведенных исследований можно утверждать, что первый путь построения тезауруса оказывается более экономичным. В этом случае тезаурус, ориентированный на одну вузовскую специальность, содержит около 2 5 тыс. различных слов, для записи каждого из которых достаточно 2 байтов. [21]
Основой эмпирического построения тезауруса обычно является свободное индексирование, то есть описание предметного содержания документов списками слов и выражений ( фраз), которые представляются предметизатору наиболее подходящими для этой цели. При этом вовсе не требуется, чтобы слова и выражения, выбираемые для координатного индексирования документа, содержались в текстэ этого документа. Слова и выражения, накопленные в результате свободного индексирования достаточно представительного массива документов ( порядка 2 тысяч и более), составляют основу для построения тезауруса. [22]
В словарном составе ИПЯ встречается немало дескрипторов, которые полностью включают в себя один или несколько других дескрипторов, выражающих более узкие понятия. Например, понятие сплавы полностью включает в себя понятие сплавы меди, а это понятие в свою очередь полностью включает в себя понятия латунь и бронза. Между дескрипторами, выражающими такие понятия, объективно существуют отношения рода и вида. При построении тезаурусов выявление родовидовых отношений между дескрипторами обычно производится на основе сопоставления объемов, понятий, выражаемых этими дескрипторами. [23]