Cтраница 3
Морфологический анализ слов с изменяемой основой типа IV начинается с их флективного анализа, причем слова с супплетивными формами сначала рассматриваются как неизменяемые. Далее с помощью табл. типа 7.11 и 7.12 вариантные формы основ заменяются на канонические, а по супплетивным формам слов вырабатывается соответствующая им грамматическая информация. [31]
Различают точные и приближенные методы морфологического анализа. Точных методы базируются на использовании словаря основ слов или словоформ, приближенные - на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией. [32]
В результате морфологического анализа основы слов заменяются их порядковыми номерами по словарю и сопровождаются грамматической информацией, которую могут нести формы слов без учета окружения в тексте. Морфологический синтез слов является заключительным этапом процесса декодирования сообщений, записанных на информационном языке, в результате которого осуществляется формирование буквенного кода слова по номеру основы и сопровождающей его грамматической информации. В основу построения алгоритмов автоматического морфологического анализа и синтеза положено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слов. [33]
Отождествление таких наименований понятий связано с необходимостью применять трансформации с изменением основ слов. В результате некоторые слова переходят из одного грамматического класса в другой ( например, из класса существительных в класс прилагательных или наоборот), а порядок слов в словосочетании и грамматическая информация к словам изменяются. [34]
После прочтения романа у человека возникает обычно потребность познакомиться более подробно с грамматикой изучаемого иностранного языка, и те грамматические справочники, над которыми он раньше засыпал, становятся желанными спутниками в его занятиях творческой речевой деятельностью, В этот момент он может считать, что цель обучения достигнута: его мозг смоделировал в основном иноязычную языковую систему и ему требуется помощь в устранении имеющихся в ней белых пятен. Теперь налицо потребность в грамматической информации, и потому она будет усваиваться моментально и сразу станет руководством при осуществлении творческой речевой деятельности. Почему же нецелесообразно было подробное изучение грамматики до чтения романа с опорой на литературный перевод. [35]
Используемые в настоящее время вычислительные машины настолько существенно отличаются от двухмашинного комплекса человеческого мозга, что трудно было бы ждать возможности удовлетворительного моделирования всех специфических особенностей человеческого понимания языкового текста на этих машинах. Но принципиально дискретный характер операций, совершаемых над языками ( как естественными, так и искусственными - логическими) левым полушарием, делает уже в настоящее время вполне реальной возможность построения таких программ, которые могли бы воспроизводить некоторые процессы анализа и синтеза речи в левом полушарии. Эти процессы включают переработку как грамматической информации, так и такой смысловой, которая непосредственно связана с грамматической. [36]
Автоматическое кодирование наименований понятий осуществляется в три этапа. Сначала отождествляются слова, входящие в наименование понятия, с элементами словаря слов. Слова заменяются их номерами по словарю и сопровождаются грамматической информацией. Порядковый номер понятия далее используется в качестве его кода. [37]
В ИПС словари слов могут быть в виде словаря словоформ и в виде словаря основ слов. В первом случае основным элементом словаря является буквенный код словоформы, во втором - буквенный код основы слова. В процессе перевода сообщений с русского языка на информационный поиск в словаре осуществляется по буквенному коду словоформы или основы слова, а из словаря выбирается порядковый номер словоформы ( основы слова) и сопровождающая его грамматическая информация. Первый вид поиска в словаре называется прямы м, а второй - обратным. В ИПС словарь должен быть построен так, чтобы он был удобен и для прямого и для обратного поиска. [38]
В конце предыдущего параграфа мы говорили о том, что конечное множество предложений естественного языка представляет собой, без учета семантики, формальный язык. В более сложном случае тезаурус представляет собой перечень некоторых текстов, каждому из которых придана дополнительная, так называемая грамматическая информация. Эта структура тезауруса применяется в тех случаях, когда список предложений очень велик. Мы поясним его на небольшом списке, чтобы передать только самую суть этого способа описания формального языка. [39]
В процессе флективного анализа основа слова может не найтись в словаре. Это возможно в тех случаях, когда анализируемое слово имеет основу типа II в вариантной форме или является сложным словом с внутренней флексией или когда основа анализируемого слова не представлена в словаре ни в канонической, ни в вариантной форме. До окончания флективного анализа слова обычно неизвестно, какой из трех перечисленных случаев имеет место. Вначале анализируемое слово проверяется на возможность наличия вариантной формы основы типа II. При положительном результате проверки определяется номер основы и грамматической информации к слову. [40]
Синтез форм неизменяемых слов сводится к простой выборке из словаря буквенного состава их основ. В некоторых случаях к последнему приформировывается возвратная частица. Формы изменяемых слов составляются из буквенных кодов их основ и окончаний. В случае необходимости к основе слова приформ ировывается внутренний мягкий знак, а к окончанию-возвратная частица ся или сь. Кроме того, канонические формы основ типа II, III, IV заменяются на вариантные. Необходимость замены канонической формы основы на вариантную определяется по номеру основы и сопровождающей его грамматической информации. [41]