П. Г. Демидова А. В. Зафиевский А. А. Короткин А. Н. Лататуев Базы данных Учебное пособие
Download 1.32 Mb. Pdf ko'rish
|
Базы данных
1.8. Полнотекстовые базы данных
В классических базах данных хранится лишь небольшая часть данных, образующая основу всей информационной струк- туры, вследствие чего жестко нормируются как формат данных, так и взаимосвязи между ними. Вместе с тем дальнейшее разви- тие компьютерной техники привело к тому, что стало возможным хранить на компьютерных носителях не только базовую инфор- мацию, но и полные текстовые документы в виде неструктуриро- ванных текстов или даже их фотографических изображений, а также информационные объекты других типов: рисунки, анима- цию, аудио- и видеозаписи. В результате возникли большие хра- нилища данных, основным содержанием которых является изна- чально неструктурированная информация. Вместе с тем хранящиеся объекты имеют сложную внутрен- нюю структуру, которая, однако, неизвестна в момент их поме- щения в хранилище. Поскольку основной задачей в подобных системах является отыскание объекта по каким-либо признакам, эти системы стали называться информационно-поисковыми сис- темами (ИПС). Впоследствии на них также было распространено название «базы данных», несмотря на то что они содержат не только базовую, но и другую информацию. В связи с этим иногда различают классические базы данных, называя их ориентирован- ными на данные, и базы данных с неструктурированной инфор- мацией, называя их ориентированными на документы или полно- 18 текстовыми. При этом под документом может пониматься не только текстовый документ, но и любой большой информацион- ный объект (изображение, аудио- или видеоклип, компьютерная программа и т. д.), структура которого заранее не известна информационной системе. Разумеется, современные базы данных сочетают оба подхода, поэтому имеет смысл говорить лишь об их преимущественной направленности. Проблематика полнотекстовых баз данных заметно отличает- ся от таковой в структурированных базах данных. Прежде всего, хотя первоначально информация в исходных документах не является структурированной, запросы к базе данных на поиск нужного документа могут формироваться только на основе ка- кой-либо информации о внутренней структуре хранящихся доку- ментов. Поэтому для работы с документами (далее для простоты будем рассматривать только текстовые документы) необходимы некоторые априорные представления о структуре имеющихся документов (модель документа). Простейшим примером может быть, например, представление документа как набора слов. В этом случае для поиска нужного документа можно указать пере- чень встречающихся в нем слов. Безусловно, любое подобное представление документов является упрощением, поэтому в ин- формационно-поисковых системах как запросы, так и результаты выполнения запросов носят приблизительный характер. Одной из основных задач в информационно-поисковых сис- темах является автоматическая индексация документов, то есть выбор модели документов и организация указателей на докумен- ты (индексов), которые позволяют отбирать соответствующие запросу документы, не просматривая их целиком. Другой важной задачей является проблема ранжирования выдаваемых доку- ментов, то есть их выдача в порядке убывания степени соответ- ствия запросу в соответствии с принятой моделью. Наряду с описанным дескрипторным способом организации функционирования ИПС, широко используется также основной для бумажных библиотек классификационный способ, основанный на создании иерархической структуры, описывающей тематику доку- ментов (систематического указателя, или рубрикатора). Аналогом автоматической индексации в этом случае является автоматическая рубрикация, то есть размещение в узлах рубрикатора в результате 19 автоматического синтаксического анализа текста документа одного или нескольких указателей на этот документ. В заключение стоит отметить, что информационно-поиско- вые системы представляют собой наиболее коммерциализирован- ный продукт в сфере баз данных. В то время как другие разно- видности баз данных обычно являются информационной основой какой-либо автоматизированной компьютерной системы, ИПС являются самодостаточными и непосредственно предоставляют услуги конечным пользователям. Это могут быть как простейшие системы, размещенные на оптическом диске, так и громадные на- учные и статистические базы данных, доступ к которым осу- ществляется через Интернет. Заметим, что одной из важнейших в этой сфере является проблема ценообразования, которая лежит за рамками настоящего пособия. Download 1.32 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling