Cтраница 2
Понятия автоматически кодируются с помощью двух словарей: словаря слов и словаря понятий. Словарь слов может быть оформлен в виде словаря словоформ или словаря основ слов. Все его элементы нумеруются. Словарь понятий содержит список свернутых кодов именных словосочетаний, используемых в информационной системе. Каждое наименование понятия представлено в словаре сочетанием номеров слов, входящих в его состав, и номером грамматической структуры. Грамматическая структура словосочетания содержит информацию о связях между словами и информацию о формах слов, необходимую при декодировании. Различные грамматические структуры задаются списком. [16]
Возможность определения грамматических признаков новых слов с помощью словаря была проверена на примере обобщенных и флективных классов. В именных словосочетаниях обобщенные и флективные классы слов определялись точнее: обобщенные классы - с вероятностью 0 99, флективные классы - с вероятностью 0 95, причем данные, полученные с помощью словаря основ слов и с помощью словаря словоформ, совпадали. [17]
Дескрипторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ. Далее с помощью процедур морфологического анализа и отождествления наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процессе формирования поисковых образов рефератов на печать выдается список новых наименований понятий вместе с их словарными номерами. Этот список служит в дальнейшем в качестве исходного материала для установления смысловых связей между наименованиями понятий и для пополнения классификационного словаря понятий. [18]
Подобно процессу кодирования, декодирование наименований понятий также осуществляется в три этапа. Сначала по номеру понятия из словаря понятий выбирается сочетание номеров основ слов и грамматич. Наконец, с помощью словаря основ слов формируется буквенный код наименования ( морфологич. [19]
Составление словарей - задача весьма трудоемкая. Естественным поэтому является стремление автоматизировать этот процесс. Но если процесс составления словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и словосочетаний. [20]
Каждое из оставшихся после исключения словосочетаний слов в предложении может быть либо несущественным, либо неопределенным, либо ключевым, что выясняется в результате сравнения со входным словарем СИАП. Если какая-нибудь, основа слова из входного словаря входит в рассматриваемую основу, то остаток ( включая пустой) сравнивается со списком окончаний слов естественного языка. В случае успеха принимается, что анализируемое слово есть во входном словаре, в противном случае оно рассматривается, как новое ( неопределенное) слово. Во входном словаре основы слов размечаются по первым двум буквам и упорядочиваются по числу букв, в каждой основе. [21]
В первый включаются буквенные коды основ наиболее часто встречающихся слов и всех слов, входящих в состав наименований объектов я хар-к ( или предметных рубрик) автоматизиров. Каждой основе слова поставлен в соответствие номер граммами, класса, определяющего спн-такспч. Омонимичным основам ставятся в соответствие наборы номеров классов. В словаре основы слов расположены в порядке возрастания их длины, а в пределах группы основ равной длины - по алфавиту. Каждой основе присвоен порядковый номер, к-рый определяется ее позицией в словаре и нигде ио записывается. [22]
В первый включаются буквенные коды основ наиболее часто встречающихся слов и всех слов, входящих в состав наименований объектов и хар-к ( или предметных рубрик) автоматизиров. Каждой основе слова поставлен в соответствие номер грамматич. Омонимичным основам ставятся в соответствие наборы номеров классов. В словаре основы слов расположены в порядке возрастания их длины, а в пределах группы основ равной длины - по алфавиту. Каждой основе присвоен порядковый номер, к-рый определяется ее позицией в словаре и нигде не записывается. [23]