П. Г. Демидова А. В. Зафиевский А. А. Короткин А. Н. Лататуев Базы данных Учебное пособие


Download 1.32 Mb.
Pdf ko'rish
bet13/94
Sana15.06.2023
Hajmi1.32 Mb.
#1487605
1   ...   9   10   11   12   13   14   15   16   ...   94
Bog'liq
Базы данных

1.8. Полнотекстовые базы данных 
В классических базах данных хранится лишь небольшая 
часть данных, образующая основу всей информационной струк-
туры, вследствие чего жестко нормируются как формат данных, 
так и взаимосвязи между ними. Вместе с тем дальнейшее разви-
тие компьютерной техники привело к тому, что стало возможным 
хранить на компьютерных носителях не только базовую инфор-
мацию, но и полные текстовые документы в виде неструктуриро-
ванных текстов или даже их фотографических изображений, а 
также информационные объекты других типов: рисунки, анима-
цию, аудио- и видеозаписи. В результате возникли большие хра-
нилища данных, основным содержанием которых является изна-
чально неструктурированная информация. 
Вместе с тем хранящиеся объекты имеют сложную внутрен-
нюю структуру, которая, однако, неизвестна в момент их поме-
щения в хранилище. Поскольку основной задачей в подобных 
системах является отыскание объекта по каким-либо признакам, 
эти системы стали называться информационно-поисковыми сис-
темами (ИПС). Впоследствии на них также было распространено 
название «базы данных», несмотря на то что они содержат не 
только базовую, но и другую информацию. В связи с этим иногда 
различают классические базы данных, называя их ориентирован-
ными на данные, и базы данных с неструктурированной инфор-
мацией, называя их ориентированными на документы или полно-


18 
текстовыми. При этом под документом может пониматься не 
только текстовый документ, но и любой большой информацион-
ный объект (изображение, аудио- или видеоклип, компьютерная 
программа и т. д.), структура которого заранее не известна 
информационной системе. Разумеется, современные базы данных 
сочетают оба подхода, поэтому имеет смысл говорить лишь об их 
преимущественной направленности. 
Проблематика полнотекстовых баз данных заметно отличает-
ся от таковой в структурированных базах данных. Прежде всего, 
хотя первоначально информация в исходных документах не 
является структурированной, запросы к базе данных на поиск 
нужного документа могут формироваться только на основе ка-
кой-либо информации о внутренней структуре хранящихся доку-
ментов. Поэтому для работы с документами (далее для простоты 
будем рассматривать только текстовые документы) необходимы 
некоторые априорные представления о структуре имеющихся 
документов (модель документа). Простейшим примером может 
быть, например, представление документа как набора слов. В 
этом случае для поиска нужного документа можно указать пере-
чень встречающихся в нем слов. Безусловно, любое подобное 
представление документов является упрощением, поэтому в ин-
формационно-поисковых системах как запросы, так и результаты 
выполнения запросов носят приблизительный характер. 
Одной из основных задач в информационно-поисковых сис-
темах является автоматическая индексация документов, то есть 
выбор модели документов и организация указателей на докумен-
ты (индексов), которые позволяют отбирать соответствующие 
запросу документы, не просматривая их целиком. Другой важной 
задачей является проблема ранжирования выдаваемых доку-
ментов, то есть их выдача в порядке убывания степени соответ-
ствия запросу в соответствии с принятой моделью. 
Наряду с описанным дескрипторным способом организации 
функционирования ИПС, широко используется также основной для 
бумажных библиотек классификационный способ, основанный на 
создании иерархической структуры, описывающей тематику доку-
ментов (систематического указателя, или рубрикатора). Аналогом 
автоматической индексации в этом случае является автоматическая 
рубрикация, то есть размещение в узлах рубрикатора в результате 


19 
автоматического синтаксического анализа текста документа одного 
или нескольких указателей на этот документ. 
В заключение стоит отметить, что информационно-поиско-
вые системы представляют собой наиболее коммерциализирован-
ный продукт в сфере баз данных. В то время как другие разно-
видности баз данных обычно являются информационной основой 
какой-либо автоматизированной компьютерной системы, ИПС 
являются самодостаточными и непосредственно предоставляют 
услуги конечным пользователям. Это могут быть как простейшие 
системы, размещенные на оптическом диске, так и громадные на-
учные и статистические базы данных, доступ к которым осу-
ществляется через Интернет. Заметим, что одной из важнейших в 
этой сфере является проблема ценообразования, которая лежит за 
рамками настоящего пособия. 

Download 1.32 Mb.

Do'stlaringiz bilan baham:
1   ...   9   10   11   12   13   14   15   16   ...   94




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling