В начало
ЛЕКЦИЯ Классификация БД. Фактографические и
документальные БД. БД оперативной и ретроспективной
информации. Хранилища данных. Локальные и распределенные БД. Соотношение основных
требований и свойств СУБД: система компромиссов 2.1. Классификация баз данных Классификация баз и банков данных может быть произведена по разным признакам
(и относящихся к разным компонентам и сторонам функционирования БнД), среди
которых можно выделить, например, следующие (Слайд
2). По форме представляемой информации можно выделить фактографические, документальные,
мультимедийные, в той или иной степени соответствующие цифровой, символьной и
другим (не цифровой и не символьной) формам представления информации в вычислительной
среде. К последним можно отнести картографические, видео, аудио, графические и
другие БД. По типу хранимой (не мультимедийной) информации можно выделить фактографические,
документальные, лексикографические БД. Лексикографические базы – это классификаторы,
кодификаторы, словари основ слов, тезаурусы, рубрикаторы и т.д., которые обычно
используются в качестве справочных совместно с документальными или фактографическими
БД. Документальные базы подразделяются по уровню представления информации –
полнотекстовые (так называемые «первичные» документы) и библиографическо-реферативные
(«вторичные» документы, отражающие на адресном и содержательном уровне
первичный документ). По типу используемой модели данных выделяют три классических класса БД:
иерархические, сетевые, реляционные. Развитие технологий обработки данных привело
к появлению постреляционных, объектноориентированных, многомерных БД, которые в
той или иной степени соответствуют трем упомянутым классическим моделям. По топологии хранения данных различают
локальные и распределенные БД. По типологии доступа и характеру
использования хранимой информации БД могут быть разделены на
специализированные и интегрированные. По функциональному назначению (характеру
решаемых с помощью БД задач и, соответственно, характеру использования данных)
можно выделить операционные и справочно-информационные. К последним можно
отнести ретроспективные БД (электронные каталоги библиотек, БД статистической
информации и т.д.), которые используются для информационной поддержки основной
деятельности, и не предполагают внесение изменений в уже существующие записи,
например, по результатам этой деятельности. Операционные БД предназначены для
управления различными технологическими процессами. В этом случае данные не
только извлекаются из БД, но и изменяются (в том числе добавляются) в том числе
в результате этого использования. По сфере возможного применения можно
различать универсальные и специализированные (или проблемно-ориентированные)
системы. По степени доступности можно выделить общедоступные и БД
с ограниченным доступом пользователей. В последнем случае говорят об
управляемом доступе, индивидуально определяющем не только набор доступных
данных, но и характер операций которые доступны пользователю. Следует отметить, что представленная классификация не является полной и
исчерпывающей. Она в большей степени отражает исторически сложившееся состояние
дел в сфере деятельности, связанной с разработкой и применением баз данных. Типология баз данных с точки зрения
информационных процессов БД могут соотноситься с различными уровнями информационных
процессов: уровень информационных технологий (ИТ), уровень системы (ИС),
уровень информационных ресурсов (ИР). (слайд
3) На уровне информационных технологий БД определяется
как взаимосвязанная совокупность файлов ОС, содержащих данные о предметной
области решаемой задачи. При этом основное внимание уделяется физической
структуре БД. На
уровне информационных систем БД рассматривается как компонент, представляющий
собой информационную модель предметной области. Здесь наиболее важной является
проблема логической структуры БД. При
рассмотрении БД на уровне информационных ресурсов БД трактуется как элемент
мировых ИР. Основной характеристикой здесь является содержание БД, хотя
и структуры данных также немаловажны. 2.2. Фактографические и документальные БД Главное отличие фактографических и документальных БД
состоит в структуре единицы хранения информации. Под единицей хранения информации будем понимать
совокупность данных, которая с точки зрения информационной системы представляет
собой единое целое. Единица хранения определяет свойства целостности и
непротиворечивости данных. С точки зрения структуры единицы хранения принято
различать хорошо структурированные данные и слабо структурированные данные. Хорошо структурированные данные – это данные, в которых каждую
единицу хранения информации можно представить в качестве конечного набора
атрибутов. При этом каждый из них будет принимать точно определенное значение. Слабоструктурированные данные – это данные, в которых каждую
единицу хранения также представляют конечным числом атрибутов, но значение
атрибута точно не определено, зависит от контекста использования и может иметь
в свою очередь сложную структуру. Фактографические БД – БД, ориентированные на хранение
хорошо структурированных данных. Единицей хранения в таких БД служит описание
«факта» конечным четко определенным множеством характеристических свойств. При построении концептуальной модели таких БД
предметная область (ПрО) естественно декомпозируется на объекты и связи между
ними. Каждое характеристическое свойство объекта имеет атомарное значение,
которое не зависит от контекста использования. Документальные БД – предназначены для хранения слабо
структурированных данных. Единицей хранения при этом является документ,
заданный конечным (но не фиксированным) набором полей в общем случае
произвольной длины. При построении документальных БД обычно ПрО
представляется как совокупность в общем случае не взаимодействующих объектов.
Набор характеристических свойств объекта конечен, но не фиксирован. Значение
характеристического свойства может быть множественным и может зависеть от
контекста использования (слайд 4). С точки зрения методов и алгоритмов поиска
фактографические БД рассматривают как информационное обеспечение поиска данных,
а документальные БД – как информационное обеспечение поиска информации. Отличия этих двух видов поиска представлены на слайде
(слайд 5). При поиске данных обычно ищут полное совпадение
запроса с элементом данных. При поиске данных результаты выводятся простой
индукцией, например, если A и B, то C. Поиск информации намного ближе к методам дедукции:
отношения описываются только степенью уверенности или неуверенности. В
информационном поиске, как правило, стратегия поиска построена по принципу
усечения первоначальных результатов поиска, что и приводит к логике «от общего
к частному». Из этого следует детерминистское описание модели поиска данных и
вероятностная модель информационного поиска. При информационном поиске наличие атрибута не всегда
является необходимым и достаточным для отнесения записей к множеству
отыскиваемых. Это означает, что каждая из записей (документов) относится к
некоторой части информационной потребности пользователя. Это свойство
соответствия документов потребности называется релевантностью. Различают
формальную и истинную релевантность. Первая имеет обычно численное выражение и
рассчитывается поисковой системой, вторая – это оценка пользователя в части
соответствия реальной потребности, порожденной проблемной ситуацией в основной
деятельности пользователя. При поиске данных все найденные данные, которые
совпали с запросом, выдаются пользователю. При информационном поиске, возможна
ситуация, что практически все документы БД в той или иной мере могут считаться
релевантными запросу и уже поэтому документы будут упорядочены, например, по
степени формальной релевантности, и будут выданы только несколько первых. Язык запросов для поиска данных, как правило,
искусственный, имеющий строгий синтаксис и ограниченный словарь, при поиске
информации же предпочтительнее естественный язык, хотя и с некоторыми
исключениями, а в настоящее время «естественный язык» сводится к списку
ключевых слов. При поиске данных запрос обычно является полной спецификацией
того, что нужно найти и в каком виде показать, при информационном поиске –
неполной, кроме того, многие действия совершаются информационно-поисковой
системой по умолчанию. 2.3. БД оперативной и ретроспективной информации. Хранилища данных С точки зрения
основных особенностей ПрО и решаемых задач можно выделить два основных класса
БД – оперативной и ретроспективной информации. БД оперативной информации являются основой
так называемых OLTP-приложений (Оп-Line Transactions Processing). Типичными
примерами OLTP-приложений
являются системы складского учета, системы заказов билетов,
банковские системы, выполняющие операции по переводу денег, и т.
п. Основная функция подобных систем заключается в одновременном выполнении
большого количеств коротких транзакций – завершенных блоков операций
манипулирования данными, например:
"снять некоторую сумму денег со
счета А и добавить эту сумму на счет В", "продать пассажиру билет на заданный поезд на
заданное место на определенную дату". Завершенность транзакции означает, что при возникновении ошибки
транзакция должна целиком откатиться и вернуть БД к состоянию, которое было до
начала транзакции (не должно быть ситуации, когда деньги сняты со счета А,
но не поступили на счет В). Основные особенности
OLTP-приложений: 1.
В единицу времени одновременно выполняется
большое число транзакций (к системе может быть подключено
несколько тысяч пользователей, работающих в одно и то же время). 2.
Практически все запросы к базе данных, которые
должны выполняться в реальном времени, состоят из команд
вставки, обновления, удаления. 3.
Запросы на выборку в основном предназначены
для предоставления пользователям возможности выбора из различных
справочников, и большая часть этих запросов известна заранее
еще на этапе проектирования. Таким
образом, критическими для OLTP-приложений
является скорость и надежность выполнения коротких операций
обновления данных. БД ретроспективной
информации входят в состав документальных ИС, ориентированных на задачи
информационного поиска, а также в OLAP-приложения (Оп-Line Analitical Processing, оперативная аналитическая
обработка данных). Это обобщенный термин, характеризующий принципы построения систем
поддержки принятия решений (DSS, Decision Support System), а также хранилищ данных
(data warehouse) и
систем интеллектуального анализа данных (data mining). Такие системы предназначены для
установления зависимостей между данными (например, можно попытаться
определить, как связан объем продаж товаров с характеристиками
потенциальных покупателей) или для проведения анализа,
отвечающего на вопросы "что если...". БД ретроспективной информации характеризуются следующими особенностями: 1.
Добавление в БД новых данных происходит
относительно редко крупными блоками. 2.
Данные из БД обычно никогда не удаляются. 3.
Запросы к данным являются
нерегламентированными и, как правило, достаточно сложными. Очень часто новый запрос
формулируется аналитиком для уточнения результата, полученного при
выполнении предыдущего запроса. 4.
Скорость выполнения запросов важна, но не критична. Для OLAP-приложений характерно, что
перед загрузкой данные проходят различные процедуры "очистки", связанные
с тем, что в одну базу могут поступать данные из многих источников,
имеющих различные форматы представления для одних и тех же
данных, данные могут быть некорректны, ошибочны и т.п.. Хранилища данных Огромное
количество информации, накопленной в оперативных базах данных,
позволяет, например, поставить задачу применения систем поддержки
принятия решений. Однако системы оперативной обработки
чаще всего проектируются без учета какой-либо поддержки подобных
требований, поэтому преобразование обычных систем OLTP в системы поддержки принятия
решений оказывается чрезвычайно сложной задачей. Как правило,
типичная организация имеет множество различных систем операционной обработки с
перекрывающимися, а иногда и противоречивыми определениями, например с
разными типами, выбранными для представления одних и тех же данных.
Основной задачей является преобразование накопленных архивов данных
в источник новых знаний, причем таким образом, чтобы пользователю было предоставлено единое
интегрированное и консолидированное представление
о данных организации. Концепция хранилища
данных была задумана как технология, способная удовлетворить требования систем поддержки принятия решений и
базирующаяся на информации,
поступающей из нескольких различных источников оперативных данных. Концепция хранилища
данных первоначально была предложена как
решение, обеспечивающее доступ к данным, накопленным в
нереляционных системах. Предполагалось, что такое хранилище информации позволит
организациям использовать свои архивы данных для эффективного решения
деловых задач. Однако из-за чрезвычайной сложности и невысокой
производительности подобных систем, созданных на начальных этапах, первые попытки
создания хранилищ информации в целом оказались неудачными. С тех пор к
концепции хранилищ информации возвращались вновь и вновь, но только в
последние годы технология хранилищ данных стала рассматриваться как ценное
и жизнеспособное решение. Хранилище
данных - предметно-ориентированный, интегрированный, привязанный
ко времени и неизменяемый набор данных, предназначенный для поддержки
принятия решений. В приведенном
определении указанные характеристики данных рассматриваются следующим
образом. (слайд 6) • Предметная
ориентированность. Хранилище данных организовано вокруг основных
предметов (или субъектов) организации (например, клиенты, товары
и сбыт), а не вокруг прикладных областей деятельности (выставление счета
клиенту, контроль запасов и продажа товаров). Это свойство отражает
необходимость хранения данных, предназначенных для поддержки принятия решений,
а не обычных оперативно-прикладных данных. • Интегрированность.
Смысл этой характеристики состоит в том, что оперативно-прикладные данные
обычно поступают из разных источников, которые часто имеют несогласованное представление одних и тех же данных,
например, используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо
создать интегрированный источник, обеспечивающий согласованность
хранимой информации. •
Привязка ко времени.
Данные в хранилище точны и действительны только в том
случае, если они привязаны к некоторому моменту или промежутку времени: хранимая информация фактически представляет собой набор снимков состояния данных. • Неизменяемость. Это означает,
что данные не обновляются в оперативном режиме, а лишь регулярно
пополняются за счет информации из оперативных систем обработки. При
этом новые данные никогда не заменяют, а лишь дополняют прежние. Таким
образом, база данных хранилища постоянно пополняется новыми
данными, последовательно интегрируемыми с уже накопленной информацией. Конечной
целью создания хранилища данных является интеграция корпоративных данных в едином
репозитории, обращаясь к которому
пользователи могут выполнять запросы, подготавливать отчеты и проводить анализ
данных. Подводя итог, можно сказать, что технология хранилищ данных – это технология управления данными и их анализа. Сравнение систем OLTP и хранилищ данных СУБД, созданная для
поддержки оперативной обработки транзакций (OLTP), обычно рассматривается как
непригодная для организации хранилищ данных, поскольку к этим двум типам систем
предъявляются совершенно разные требования. Например, системы OLTP проектируются с целью
обеспечения максимально интенсивной обработки фиксированных
транзакций, тогда как хранилища данных – прежде всего для обработки
единичных произвольных запросов. На слайде (слайд 7)
для сравнения приведены основные характеристики типичных систем OLTP и хранилищ данных. Проблемы разработки и
сопровождения хранилищ данных Перечислим
потенциальные проблемы, связанные с разработкой и сопровождением
хранилищ данных (слайд 8). ·
Недооценка ресурсов, необходимых для
загрузки данных: многие разработчики склонны
недооценивать время, необходимое для извлечения, очистки и загрузки
данных в хранилище. · Скрытые
проблемы источников данных: проблемы, связанные с
источниками данных, поставляющими информацию в хранилище, могут
быть обнаружены только спустя несколько лет после начала их эксплуатации. · Отсутствие
требуемых данных в имеющихся архивах: в
хранилищах данных часто возникает потребность получить сведения,
которые не учитывались в оперативных системах, служащих источниками
данных. В таком случае организация должна решить, стоит ей модифицировать
существующие системы OLTP
или же создать новую систему по сбору недостающих данных · Повышение
требований конечных пользователей · Унификация
данных: создание крупномасштабного хранилища данных может быть
связано с решением серьезной задачи унификации данных, но унификация способна
уменьшить
ценность собранной информации · Высокие
требования к ресурсам: может потребоваться огромный объем дискового пространства. · Владение
данными: создание хранилища данных может потребовать изменения
статуса конечных пользователей в отношении прав владения
данными · Сложное
сопровождение: любая реорганизация деловых процессов или
источников данных может отразиться на работе хранилища данных · Долговременный
характер проектов · Сложности
интеграции Локальные и распределенные БД В общем случае режимы работы с БД можно
классифицировать по следующим признакам: -
многозадачность - однопользовательский или
многопользовательский; -
правило
обслуживания запросов – последовательное или параллельное; -
схема
размещение данных – централизованная или распределенная БД. Следует отметить, что общая тенденция развития технологий
обработки данных вполне соответствует этапам развития средств вычислительной
техники и информационных технологий, и в первую очередь – сетевых. В этом смысле следует выделить два класса: системы
распределенной обработки данных и системы распределенных баз данных. Системы распределенной обработки данных в основном отражают
структуру и свойства многопользовательских операционных систем с базой данных,
размещенной на большом центральном компьютере (мэйнфрейме). Еще до недавнего
времени это был единственно возможный вариант вычислительной среды для
реализации больших баз данных. Клиентские места в этом случае реализовались
либо в виде терминалов или мини-ЭВМ, обеспечивающих в основном ввод-вывод
данных и не имеющих собственных вычислительных ресурсов для
функционально-ориентированной обработки получаемых данных. Развитие сетевых технологий в сочетании с широким
распространением персональных ЭВМ и внедрением стандартов открытых систем
привело к появлению систем баз данных размещенных в сети разнотипных
компьютеров. Такие системы распределенных баз данных обеспечивают обработку
распределенных запросов, когда при обработке одного запроса используются
ресурсы базы, размещенные на различных ЭВМ сети. Система распределенных баз
данных состоит из узлов, каждый из которых является СУБД, а узлы взаимодействуют
между собой так, что база данных любого узла будет доступна пользователю, так
как если бы она была локальной. Архитектура распределенной БД приведена на
слайде (слайд 9). Соотношение основных требований и свойств СУБД: система компромиссов (слайд 10) В общем случае можно сказать, что основные задачи обработки данных, решаемые
на основе концепций баз данных, сводятся к следующим вопросам: 1). Каким образом сложные нелинейные структуры данных представить в виде
линейных – наиболее соответствующих принципу последовательного представления
(хранения) в машинной памяти. 2). Каким образом организовать данные, чтобы была возможность эффективного внесения, удаления и редактирования данных. 3). Как организовать данные, чтобы использование пространства памяти (плотность
данных) было достаточно рациональным, а скорость доступа к записям данных
высокой. 4). Каким образом организовать данные, чтобы поиск был эффективным и позволял отыскивать записи по нескольким ключам. Создание базы данных - это по существу попытка найти компромисс сразу по
нескольким направлениям и сочетаниям нескольких взаимообратных факторов (с
точки зрения их влияния на показатель общей эффективности системы), в том
числе, следующих (слайд 11): 1)
Эффективность
– простота; 2)
Скорость
выборки – стоимость (сложность) аппаратных средств; 3)
Скорость
выборки – сложность процедур доступа; 4)
Плотность
данных – время доступа и сложность процедур; 5)
Независимость
данных – производительность; 6)
Гибкость
средств поиска – избыточность данных или 7)
Гибкость
поиска – скорость поиска; 8)
Сложность
процедур доступа – простота обслуживания. |
| |