Рубрицирование - Большая Энциклопедия Нефти и Газа, статья, страница 1
Пойду посплю перед сном. Законы Мерфи (еще...)

Рубрицирование

Cтраница 1


Рубрицирование выполняется по некоторому решающему правилу, учитывающему как важность терминов в документе, так и их веса для рубрик.  [1]

Задача рубрицирования в первоначальной редакции ставится следующим образом. Пусть имеется одноуровневый рубрикатор, состоящий из j рубрик.  [2]

3 Матрица рубрицирования для теста 5. [3]

Матрицы рубрицирования ( строка матрицы содержит количество документов соответствующей рубрики, отнесенное системой к рубрикам рубрикатора) для тестов 4, 5 и б даны в табл. 6, 7 и 8 соответственно.  [4]

Процесс рубрицирования разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений. Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющего понятие, относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляется вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения.  [5]

6 Процесс рубрицирования. [6]

Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектов сравнения. Под терминологическим портретом документа понимают совокупность наиболее важных терминов, содержащихся в тексте документа.  [7]

Для быстрого рубрицирования энциклопедических статей разработана система автоматизированной рубрикации, реализованная в виде специального рабочего места редактора-лингвиста.  [8]

9 Определение вероятности релевантности текста рубрике. [9]

По качеству рубрицирования нейросетевые методы рубрицирования занимают среднее положение между статистическими методами и методами, основанными на знаниях.  [10]

Принято качество рубрицирования оценивать следующим образом. Иногда вводят интегральный критерий качества AT, представляющий собой среднее геометрическое ( или среднее арифметическое) точности и полноты.  [11]

Суть процесса рубрицирования в рамках данного подхода состоит в выделении из текста опорных дескрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик.  [12]

Сходство задач рубрицирования множества документов Мд и формирования обучающей совокупности М0б очевидно: как одна, так и другая, вне зависимости от подхода к ее решению, включает в качестве основной компоненты подзадачу отнесения документа из заданного множества документов к некоторой рубрике. Вместе с тем, имеют место и определенные различия. В задаче рубрицирования документов множества Md исходными являются требования полноты и точности выделения рубрик. При формировании обучающей совокупности MOQ требуется лишь точность выделения документов. Обязательным является также условие, согласно которому совокупность MOQ должна отражать все разнообразие представленных в документах М0 аспектов проблемы Р, значимых для проводимого пользователем исследования. Еще одно требование состоит в том, что документы М0 не должны содержать лишней информации, и, следовательно, являясь документами рубрики г, одновременно принадлежать каким-либо другим рубрикам рубрикатора R. Таким образом, полноты поиска документов, принадлежащих г, в этом случае не требуется: необходимо включение в состав М0б лишь некоторой части таких документов.  [13]

Для многих приложений рубрицирования важно правильно оценить достоверность отнесения документа к той или иной рубрике.  [14]

Более высокие результаты рубрицирования в тестах 5 и б, по сравнению с равновесным тестом 4, объясняются эффектом перенасыщения, поскольку объем обучающего материала в тесте 4 превышает оптимальный.  [15]



Страницы:      1    2    3