Cтраница 3
Задача ставится следующим образом. Даны перечни наименований понятий ( именных словосочетаний) в различной форме с повторениями одних и тех же элементов. Требуется отобрать из этих перечней разные по смыслу наименования понятий и представить их в форме, принятой для записи машинного словаря. Для решения этой задачи необходим машинный словарь основ слов, включающий все основы, которые могут встретиться в именных словосочетаниях. Такой словарь составляется заранее по описанной выше методике или формируется в процессе составления словаря именных словосочетаний. [31]
При этом запросы следует формулировать в виде именных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо - димо, чтобы в тексте реферата встретились все перечисленные в запросе словосочетания. При смешанной логической связи между словосочетаниями, оформленной в виде конъюнкции дизъюнкций ( в конъюнктивной нормальной форме), требуется, чтобы в тексте реферата встретилось хотя бы по ОДНО. [32]
При этом запросы следует формулировать в виде именных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо - димо, чтобы в тексте реферата встретились все перечисленные в запросе словосочетания. При смешанной логической связи между словосочетаниями, оформленной в виде конъюнкции дизъюнкций ( в конъюнктивной нормальной форме), требуется, чтобы в тексте реферата встретилось хотя бы по ОДНО. [33]
Все сказанное ранее позволяет предположить, что введение большого количества словосочетаний ( около 60 % от всей лексики словника), хотя и значительно расширяет размеры словаря, является вполне целесообразным, поскольку позволяет наиболее полно и точно отразить всю систему понятий и отношений индексируемой предметной области. В общем случае можно считать, что большинство понятий информационно-поискового языка выражается терминологическими именными словосочетаниями и лишь в отдельных случаях единичными словами. [34]
Для этого необходимо расчленить текст реферата на именные группы и рассматривать эти группы в качестве именных словосочетаний формализованного описания документа. Границами именных групп могут служить знаки препинания и слова, не принадлежащие к классам существительных, прилагательных, предлогов и союзов. [35]
Это та разновидность грамматики, которая вырастает из данного типа анализа предложений. Большинство объектов, находящихся на одном уровне с предложением, представляют собой падежные ячейки, подлежапще заполнению именными словосочетаниями. [36]
Каждая работа в IDEF3 описывает какой-либо сценарий бизнес-процесса и может являться составляющей другой работы. Поскольку сценарий описывает цель и рамки модели, важно, чтобы работы именовались отглагольным существительным, обозначающим процесс действия, или именным словосочетанием, содержащим такое существительное. [37]
Артикли, стояшие перед словами и словосочетаниями peoples, plant fruits, evening shows. Soviet people, common goal, а также место, занимаемое этими словами в начале предложения, перед-сказуемым, служат показателями, Помогающими отнести их к именным словосочетаниям и определить эпнсюва как группы подлежащего. В установлении синта сической функции лея помогает акже отсутствие предлогов перед этими словами. [38]
Артикли, стояшие перед словами и словосочетаниями peoples, plane. Soviet people, common goal, а также место, занимаемое этими словами в начале предложения, перед сказуемым, служат показателями, помогающими отнести их к именным словосочетаниям и определить эти слова как группы подлежащего. В установлении синтаксической функции слов нам помогает также отсутствие предлогов перед этими словами. [39]
Конечно, анализ текстов можно провести только один раз и при выдаче их на печать производить морфологический синтез. Но и в этом случае время поиска в массиве пословных кодов текстов рефератов оказывается существенно большим, чем время поиска в массиве поисковых образов документов, построенных на базе именных словосочетаний. Поэтому в большинстве случаев выгоднее индексировать тексты рефератов по словосочетаниям хранить в памяти ЭВМ одновременно их поисковые образы и побуквен-ные или пословные коды. [40]
Таблицы признаков для определения грамматических классов слов ( аналоги таблиц 8.3 и 8.4) могут быть выполнены сменными, так что одна и та же программа может быть настроена для работы с неформализованными текстами и с именными словосочетаниями. Таблицы для именных словосочетаний могут быть Получены по табл. 8.3 и 8.4 путем замены указанных в них символов наиболее вероятных грамматических классов слов на символы наиболее вероятных классов, встречающихся только в именных словосочетаниях. [41]
Все переменные в этом правиле являются списками символов. Правило читается так: список символов S может быть понят как предложение, если можно разделить его на две части S1 и S2 таким образом, чтобы с помощью вспомогательных правил определить S1 как именное словосочетание, a S2 - как глагольное словосочетание. Предикат append и осуществляет такое разделение списка S. Обычно он используется для конкатенации данных ему первых двух списков и для вывода результатов в третий список. [42]
Грамматика обычно имеет иерархический характер, потому что структуры справа от стрелок в грамматических правилах должны определяться другими, более низкоуровневыми грамматическими правилами. Ниже приводится несколько способов представления структуры именного словосочетания. [43]
Именное словосочетание ( пр) - это простое существительное, собственное существительное или существительное плюс соответствующие прилагательные либо определители этого существительного. Глагольное словосочетание ( vp) представляет собой глагол или глагол плюс соответствующее наречие либо вспомогательное слово. Предложное словосочетание ( рр) есть с именным словосочетанием, которое следует сразу же за предлогом; функция предложного словосочетания в предложении определяется функцией предлога. С этой точки зрения предложение может быть представлено как упорядоченный набор именных, глагольных и предложных словосочетаний. [44]
Для автоматического индексирования с контролем по тезаурусу необходимо иметь систему из трех словарей: 1) словарь основ слов; 2) словарь наименований понятий; 3) словарь родо-видовых связей слов. Словарь основ слов представляется в побуквенном коде и каждой основе ставится в соответствие номер ее смыслового эквивалента. В словаре наименований понятий большая часть понятий выражена именными словосочетаниями и значительно меньшая - отдельными словами. В качестве однословных терминов используются наиболее информативные слова из числа представленных в словаре основ. Словосочетания и однословные термины кодируются номерами смысловых эквивалентов слов. Каждому наименованию понятия ставится в соответствие его номер. [45]