Cтраница 1
Рубрицирование выполняется по некоторому решающему правилу, учитывающему как важность терминов в документе, так и их веса для рубрик. [1]
Задача рубрицирования в первоначальной редакции ставится следующим образом. Пусть имеется одноуровневый рубрикатор, состоящий из j рубрик. [2]
![]() |
Матрица рубрицирования для теста 5. [3] |
Матрицы рубрицирования ( строка матрицы содержит количество документов соответствующей рубрики, отнесенное системой к рубрикам рубрикатора) для тестов 4, 5 и б даны в табл. 6, 7 и 8 соответственно. [4]
Процесс рубрицирования разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений. Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющего понятие, относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляется вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения. [5]
![]() |
Процесс рубрицирования. [6] |
Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектов сравнения. Под терминологическим портретом документа понимают совокупность наиболее важных терминов, содержащихся в тексте документа. [7]
Для быстрого рубрицирования энциклопедических статей разработана система автоматизированной рубрикации, реализованная в виде специального рабочего места редактора-лингвиста. [8]
![]() |
Определение вероятности релевантности текста рубрике. [9] |
По качеству рубрицирования нейросетевые методы рубрицирования занимают среднее положение между статистическими методами и методами, основанными на знаниях. [10]
Принято качество рубрицирования оценивать следующим образом. Иногда вводят интегральный критерий качества AT, представляющий собой среднее геометрическое ( или среднее арифметическое) точности и полноты. [11]
Суть процесса рубрицирования в рамках данного подхода состоит в выделении из текста опорных дескрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик. [12]
Сходство задач рубрицирования множества документов Мд и формирования обучающей совокупности М0б очевидно: как одна, так и другая, вне зависимости от подхода к ее решению, включает в качестве основной компоненты подзадачу отнесения документа из заданного множества документов к некоторой рубрике. Вместе с тем, имеют место и определенные различия. В задаче рубрицирования документов множества Md исходными являются требования полноты и точности выделения рубрик. При формировании обучающей совокупности MOQ требуется лишь точность выделения документов. Обязательным является также условие, согласно которому совокупность MOQ должна отражать все разнообразие представленных в документах М0 аспектов проблемы Р, значимых для проводимого пользователем исследования. Еще одно требование состоит в том, что документы М0 не должны содержать лишней информации, и, следовательно, являясь документами рубрики г, одновременно принадлежать каким-либо другим рубрикам рубрикатора R. Таким образом, полноты поиска документов, принадлежащих г, в этом случае не требуется: необходимо включение в состав М0б лишь некоторой части таких документов. [13]
Для многих приложений рубрицирования важно правильно оценить достоверность отнесения документа к той или иной рубрике. [14]
Более высокие результаты рубрицирования в тестах 5 и б, по сравнению с равновесным тестом 4, объясняются эффектом перенасыщения, поскольку объем обучающего материала в тесте 4 превышает оптимальный. [15]