Cтраница 2
В некоторых системах используются инвертированные файлы, позволяющие осуществлять быстрый поиск данных в базе данных. [16]
На базе тезаурусг реализуется инвертированный файл, обеспечивающий возможность быстрого поиска записей в памяти с прямым доступом. [17]
В данной главе рассматриваются инвертированные файлы, применяемые в диалоговых системах. Пользователи этих систем вводят запросы и получают ответы с помощью терминалов; они имеют возможность постепенно уточнять свои запросы до тех пор, пока не получат из базы данных требуемую информацию. Поиск информации осуществляется с помощью вторичных индексов, причем объем памяти для их хранения, как правило, превышает объем памяти, необходимый для хранения данных. [18]
В соответствии с табл. 31.1 инвертированные файлы находят применение в системах трех типов. К первому типу относятся системы с вторичными индексами. В этих системах последовательность расположения записей ( или сегментов) в файлах соответствует последовательности значений первичного ключа. Как правило, используется один первичный индекс и несколько вторичных. Подробно эти вопросы рассмотрены в предшествующих главах. [19]
Одной из основных областей применения инвертированных файлов являются системы, предназначенные для поиска документов и для обработки текста. В настоящее время созданы и успешно эксплуатируются многочисленные системы данного типа. Рост объема информации, подлежащей накоплению, а также снижение стоимости запоминающих устройств приведут, вероятно, к еще более широкому распространению информационно-поисковых систем, предназначенных для поиска документов. [20]
Какое влияние на проектирование систем инвертированных файлов может оказать наличие большой иерархической системы памяти и использование поэтапного перемещения блоков ( гл. [21]
На рис. 9.37 показана структура инвертированного файла, касающаяся примера, рассмотренного в разд. Здесь записи с одинаковым значением ключа образуют связанный список и таблица индексов содержит начальные адреса таких списков. Поскольку может потребоваться также информация о студентах данной возрастной группы, то сформирован и индекс даты рождения. Каждая запись имеет длину 100 байт, однако одна сводка о студенте может состоять из нескольких записей. Каждая сводка начинается с трех обязательных ключевых полей, содержащих фамилию студента, аббревиатуру, составленную из первых букв названий курсов, посещаемых им или ею, и последние две цифры года рождения. [22]
Рассмотрим пример выполнения поиска при наличии инвертированных файлов. [23]
Системы второго типа иногда называются системами частично инвертированных файлов. [24]
По значениям дескрипторов в СУБД ПОИСК строятся инвертированные файлы. Запись инвертированного файла состоит из значения дескриптора и списка номеров записей, соответствующих этому значению. Пусть в записях основного файла с порядковыми номерами 18, 204, 766 и 1039 содержится ключевая фраза ИО САПР. Тогда запись инвертированного файла содержит фразу ИО САПР и цепочку из указанных номеров документов. Поскольку для другого слова цепочка номеров может оказаться более длинной или более короткой, записи инвертированного файла имеют переменную длину. [25]
СУБД осуществляет поиск каждого из дескрипторов в инвертированном файле с целью определения множеств номеров записей. В соответствии с запросом выполняются операции над множествами записей, в результате которых формируется результирующий список номеров записей, удовлетворяющих запросу. Поиск физических адресов происходит по номерам записей в файле перекрестных ссылок. Затем информация, считанная из основного файла, преобразуется в соответствии со спецификациями второй части запроса в вид, необходимый для выдачи либо на экран дисплея, либо на печать. [26]
Для эффективного решения рассматриваемой проблемы используются так называемые инвертированные файлы. [27]
Что может быть предпринято для улучшения характеристик систем инвертированных файлов. [28]
Широко распространены на практике методы многоаспектного поиска по инвертированным файлам. [29]
В СУБД ПОИСК существует возможность автоматического контроля вводимых в инвертированный файл дескрипторов с целью исключения из него слов, бессмысленных с точки зрения доступа, например предлогов. Программа, осуществляющая подобный контроль, может также анализировать формы одного и того же слова, приводя их к одному виду с целью исключения дублирования записей в инвертированном списке. В некоторых случаях возникает необходимость группирования отдельных дескрипторов. Например, понятие ЕСПД объединяет совокупность ГОСТов по программной документации. [30]