В начало
Лекция 1Введение в АИС и БД. Определение БД и банков данных (БнД). Компоненты банка данных. Цели, задачи и структура
курса 1.1. Введение в АИС и базы данных Развитие вычислительной техники и появление емких внешних запоминающих устройств прямого доступа предопределило интенсивное развитие автоматических и автоматизированных систем разного
назначения и масштаба, в первую очередь заметное в области
бизнес-приложений. Такие системы работают с большими объемами информации,
которая обычно имеет достаточно сложную структуру, требует оперативности в
обработке, часто обновляется и в то же время требует длительного хранения.
Примерами таких систем являются автоматизированные системы управления
предприятием, банковские системы, системы резервирования и продажи билетов и
т.д. Другими направлениям, стимулировавшим развитие, стали с одной стороны,
системы управления физическими экспериментами, реализующими сверхоперативную
обработку в реальном масштабе времени огромных потоков данных от датчиков, а с
другой - автоматизированные библиотечные информационно-поисковые системы (Слайд
2). Это привело к появлению новой
информационной технологии интегрированного хранения и обработки данных – концепции баз данных, в основе
которой лежит механизм предоставления обрабатывающей программе из всех хранимых
данных только тех, которые ей необходимы, и в форме, требуемой именно этой программе.
При этом сама форма (структура данных и форматы полей, входящих в эту
структуру) описывается на логическом, т.е. «видимом» из программы, уровне. Более того, поскольку различные программы могут по-разному «видеть»
(а, следовательно, и использовать) одни и те же данные, то система должна
сделать невидимыми - «прозрачными» для
программы все данные, кроме тех, которые для нее являются «своими». Банк данных (БнД) - это система специально
организованных данных, программных, языковых, организационных и технических
средств, предназначенных для централизованного накопления и коллективного
многоцелевого использования данных. Термин
«банк данных» используется сравнительно редко, а некоторыми авторами признается
даже архаичным. В современной, в основном переводной литературе понятию банк
данных соответствует понятие системы баз данных, хотя «банк данных»
вполне адекватное и более широкое понятие. Под базой данных (БД) обычно понимается именованная совокупность
данных, отображающая состояние объектов и их отношений в рассматриваемой предметной области. Характерной чертой баз данных
является постоянство: данные постоянно накапливаются и используются;
состав и структура данных, необходимых для решения тех или иных прикладных
задач обычно постоянны и стабильны во времени; отдельные или даже все
элементы данных могут меняться – но и это есть проявление постоянства – постоянная
актуальность. Система управления базами данных (СУБД) - это совокупность языковых и программных средств, предназначенных
для создания, ведения и совместного использования БД многими пользователями. Иногда в составе банка данных выделяют архивы. Основанием для
этого является особый режим использования данных, когда только часть данных
находится под оперативным управлением СУБД. Все остальные данные (собственно
архивы) обычно располагаются на носителях, оперативно не управляемых СУБД. Одни
и те же данные в разные моменты времени могут входить как в базы данных, так и
в архивы. Банки данных могут не иметь архивов, но если они есть, то в состав
банка данных может входить и система
управления архивами. Проблемы совместного использования данных и периферийных устройств
компьютеров и рабочих станций быстро породили модель вычислений, основанную на
концепции файлового сервера - сеть создает основу для коллективной обработки,
сохраняя простоту использования персонального компьютера, позволяет совместно
использовать данные и периферию. В этом смысле главной отличительной чертой баз данных является использование
централизованной системы управления данными, причем как на уровне файлов, так и
на уровне элементов данных. Централизованное хранение совместно используемых
данных приводит не только к сокращению затрат на создание и поддержание данных
в актуальном состоянии, но и к сокращению избыточности информации, упрощению
процедур поддержания непротиворечивости и целостности данных. Эффективное управление внешней памятью является основной функцией СУБД.
Эти, обычно специализированные, средства настолько важны с точки зрения эффективности,
что при их отсутствии система просто не сможет выполнять некоторые задачи уже
потому, что их выполнение будет занимать слишком много времени. При этом, ни одна из таких специализированных функций, как
построение индексов, буферизация данных, организация доступа и оптимизация
запросов, не являются видимыми для пользователя и обеспечивают независимость
между логическим и физическим уровнями системы: прикладной программист не должен
писать программы индексирования, распределять память на диске и т.д. Основные требования, предъявляемые к банкам данных, можно сформулировать
следующим образом.
(слайд 3) 1.2. Компоненты банка данных Определение банка данных предполагает, что с функционально-организационной
точки зрения банк данных является сложной человеко-машинной системой,
включающей в себя все подсистемы, необходимые для надежного, эффективного и
продолжительного во времени функционирования. В структуре банка данных выделяют следующие компоненты (подсистемы): -
информационная
база; -
лингвистические
средства; -
программные
средства; -
технические
средства; -
организационно-административные
подсистемы и нормативно-методическое обеспечение. (Слайд 4) Информационная база Данные, отражающие состояние определенной
предметной области и используемые информационной системой, принято называть
информационной базой. Информационная база состоит из двух
компонент: 1) коллекции записей
собственно данных и 2) описания этих данных
– метаданных. Данные отделены от описаний, но в то же время данные
не могут использоваться без обращения к соответствующим описаниям. Уже из
определения базы данных и приведенных ранее основных требований следует, что
данные могут использоваться (т.е., представляться) по-разному. С одной стороны,
разные прикладные задачи требуют разных наборов данных, в совокупности
обеспечивающих функциональную полноту информации, а с другой – они должны быть
различны для различных категорий субъектов (разработчиков или пользователей).
Также должны быть различными и способы описания самих данных, их природы, формы
хранения, условий взаимной непротиворечивости. В литературе по базам данных упоминаются три уровня
представления данных – концептуальный, внутренний и внешний (Слайд
5). Эти уровни представлений введены исходя из различного
рассмотрения БД. Например, прикладному программисту требуются не все данные БД, а только некоторая их
часть, используемая в его программе. Внешний
уровень представления обеспечивает именно эту форму обмена данными. Внутренний уровень - глобальное представление БД,
определяет необходимые условия для организации хранения данных на внешних запоминающих
устройствах. Описание БД на концептуальном уровне представляет собой
обобщенный взгляд на данные с позиций предметной области (разработчика
приложений, пользователя или внешней информационной системы). Внешний уровень представления данных не затрагивает
физической организации (размещения) данных во внешней памяти, поэтому его
называют иногда логическим уровнем. Соответственно внутренний уровень называют
физическим уровнем (слайд 6).. Лингвистические средства Многоуровневое представление БД предполагает
соответствующие
описания данных на каждом уровне и согласование одних и тех же данных на разных уровнях. С этой целью в состав СУБД включаются
специальные языки для описания представлений внутреннего и внешнего уровней. Кроме того, СУБД должна включать
в себя язык манипулирования данными (ЯМД). Желательно, также наличие тех или
иных дополнительных сервисных средств, например, средств генерации отчетов. Работа с базами данных предполагает несколько этапов: описание БД; описание частей БД, необходимых для
конкретных приложений (задач, групп
задач); программирование задач или описание запросов в соответствии с правилами конкретного языка и использованием
языковых конструкций для обращения к БД; загрузка БД и т. д. (Слайд
7) Для выражения обобщенного взгляда на данные
применяют язык описания данных (ЯОД) внутреннего уровня,
включаемый в состав СУБД (отсюда следует, что одна и та же БД может описываться
по-разному на ЯОД различных СУБД). Описание представляет собой модель данных и их
отношений, т. е. структур, из которых образуется БД. ЯОД позволяет определять схемы базы
данных, характеристики хранимых и временных данных, параметры организации их
хранения в памяти, а также может включать в себя средства поддержки целостности
базы данных, ограничения доступа, секретности. ЯМД обычно включает в себя средства запросов к базе данных и поддержания
базы данных (добавление, удаление, обновление данных, создание и уничтожение
БД, изменение определений БД, обеспечение запросов к справочнику БД). Исторически первым типом структур данных, который
был включен
в языки программирования, была иерархическая структура. Некоторые ранние СУБД также предполагали использование в качестве основной модели
иерархические структуры типа дерева. Основанием для такого выбора было удобство представления (моделирования) естественных
иерархических структур данных,
существующих, например, в организациях.
В ряде предметных областей структура данных имеет более сложный вид, в котором
поддерживаются связи типа «многие к одному»,
и которые могут быть представлены ориентированным графом. Такие структуры называют сетевыми. Для управления БД сетевой структуры международной
ассоциацией Кодасил была предложена
обобщенная архитектура системы с ЯОД схемы (модели БД) и подсхемы
(модели части БД для конкретного приложения), а также ЯМД для оперирования с данными БД в прикладных программах. Функциональные характеристики языков отражают возможности описания данных, средств представления запроса, обновления, поддержки целостности и секретности, включения в языки программирования, управления форматом ответов, средств запроса к словарю данных БД и т.д. Качественные характеристики языков запросов могут определяться такими
свойствами, как полнота, селективная мощность, простота изучения и
использования, степень процедурности и модульности, унифицированность, производительность и эффективность. Рассмотрим
некоторые из этих понятий. Селективная мощность языков запросов характеризует
возможность выбора данных по разным критериям. Данное понятие плохо поддается
формализации: можно сказать, что язык с большей селективной мощностью
позволяет сформулировать большинство запросов так, что ответ на них содержит
меньше ненужных данных. Языки, обладающие малой селективной мощностью, в общем
случае уже требуют привлечения дополнительных средств для
анализа ответов на запросы (например, оценки пользователя). Простота изучения является во многом субъективной оценкой и может быть в некоторой мере
охарактеризована степенью его близости к естественному языку, требуемым для
его освоения временем и необходимым уровнем подготовки пользователя. Высокий уровень процедурности,
свойственный реляционным языкам, определяется присущими реляционной модели
свойствами, в частности, полным отделением логической структуры данных от
структур хранения и стратегий доступа. Снижение уровня процедурности
увеличивает свободу в выборе способов реализации
языка, что позволяет осуществить его реализацию более оптимальным способом. Но необходимо отметить, что меньшая степень процедурности
еще не означает автоматически меньшую сложность написания запросов. Некоторые
сложные запросы можно более просто
сформулировать в виде алгоритма поиска ответа,
в то время как его формулировка в декларативном виде может оказаться достаточно трудной. Модульность построения языка характеризует
возможность существования нескольких уровней языка и зависит от специфических свойств
математической теории, лежащей в его основе. Минимальный уровень языка,
обычно легко понимаемый пользователем, бывает достаточным для формулирования
большинства запросов, и лишь
формулировка сложных запросов может потребовать
использования всех выразительных средств языка, о существовании которых
пользователи начального уровня могут и не
знать. Языки, не обладающие модульностью, требуют от пользователя знания почти
всего объема средств языка, что усложняет процесс их изучения. Наиболее распространенным языком для работы с базами данных является SQL (Structured Query Language), в своих последних реализациях предоставляющий не только средства для спецификации и
обработки запросов на выборку данных, но так же и функции по созданию,
обновлению, управлению доступом и т.д. По существу SQL уже соединяет в себе и язык описания данных
и язык манипулирования данными. Он не является полноценным языком
программирования и, в случае его использования для организации доступа к БД из
прикладных программ, SQL-выражения встраиваются в конструкции базового языка. Являясь внутренним языком баз данных, SQL естественно отражает особенности конкретной
СУБД. Сегодня это единственный стандартизованный язык фактографических баз
данных, достаточно мощный и в тоже время, простой для понимания и использования
язык. Сегодня, благодаря независимости от конкретных СУБД и межплатформенной
переносимости, SQL стал языком распределенных баз данных и языком шлюзов,
позволяющим совместно использовать СУБД разного типа. Программные средства Обработка данных и управление этой обработкой в вычислительной среде, а
также взаимодействие с операционной системой и прикладными программами осуществляется
комплексом программных средств (Слайд 8).
В составе комплекса обычно выделяют следующие компоненты: ·
ядро, обеспечивающее управление данными во внешней и оперативной
памяти, а также протоколирование изменений; ·
процессор языка базы данных, обеспечивающий обработку (трансляцию или
компиляцию) и оптимизацию запросов на выборку и изменение данных; ·
подсистему (библиотеку) поддержки программных вызовов, которая обслуживает
прикладные программы управления данными, взаимодействующие с СУБД через
средства пользовательского интерфейса; ·
сервисные программы (системные и внешние утилиты), обеспечивающие настройку
СУБД, восстановление после сбоев и ряд дополнительных возможностей по
обслуживанию. Большинство СУБД работают в среде
операционной системы и тесно с ней связаны. Многопользовательские приложения,
обработка распределенных запросов, защита данных требуют эффективно
использовать ресурсы, управление которыми обычно является функцией ОС.
Использование многопроцессорных систем и мультипоточных
технологий обработки данных позволяет эффективно обслуживать параллельно выполняемые
запросы, но требует координации использования ресурсов между ОС и СУБД.
Соответственно, управление доступом и обеспечение защиты также обычно интегрируются
с соответствующими средствами операционной системы. Именно централизованное управление данными обеспечивает: -
сокращение избыточности хранимых данных; -
совместное использование хранимых данных; -
стандартизацию представления данных, упрощающую эксплуатацию
БД; -
разграничение доступа к данным; -
целостность данных, обеспечиваемую процедурами,
предотвращающими включение в БД неверных данных и ее
восстановление после отказов системы. Технические средства (Слайд 9) Большинство
банков данных создается и функционирует на основе универсальных вычислительных
машин. Следует упомянуть и достаточно интенсивно развивавшееся в 80-90гг.
направление создания машин баз данных – аппаратной реализации «нечисловой» обработки,
в том числе параллельной и конвейерной обработки, ассоциативных процессоров и
памяти. Сегодня для
реализации промышленных БД используются специализированные серверы баз
данных – машины с повышенной отказоустойчивостью, высокопроизводительными
подсистемами ввода-вывода и развитой периферией. Однако, для больших баз
данных, функционирующих в промышленном режиме, обеспечение эффективной и
бесперебойной работы должно основываться на использовании адекватных аппаратных
средств. Устройства ввода-вывода и накопители внешней памяти - традиционно узкое
место любой базы данных. Объем и быстродействие накопителей являются, очевидно,
важными параметрами. Однако, столь же значима и отказоустойчивость. Здесь
следует отметить необходимость согласованных решений при распределении ролей
между аппаратными и программными компонентами управления операциями
ввода-вывода. Например, наличие буферной памяти в накопителе ускоряющей
ввод-вывод (аппаратное кэширование) при сбоях системы во время выполнения
операции записи в БД может привести к потере данных: переданные для записи данные еще будут находиться в буфере, а т.к. СУБД уже
отметит операцию записи как уже завершившуюся и откат для восстановления данных
станет невозможен. Для повышения надежности хранения часто используют специализированные
дисковые подсистемы – RAID (Redundant Array of Inexpensive Disk). Один логический RAID-диск - это несколько физических
дисков, объединенных в одно устройство, управляемое специализированным
контроллером, что позволяет распределять основные и системные данные между
несколькими носителями (дисками), в том числе дублировать данные. Не менее значима роль центрального процессора. Многие промышленные СУБД
поддерживают многопроцессорную обработку. Использование еще одного процессора
позволит ускорить обработку, однако следует учитывать, что на практике
многопроцессорные системы требуют повышенного внимания при приобретении
оборудования: надежно работают только сертифицированные системы, использующие
соответствующие периферийные устройства. Для распределенных и удаленных баз данных также важно сетевое окружение:
связное оборудование и сетевые протоколы. Здесь важны не только показатели
быстродействия, но и поддерживаемые ими возможности обеспечения безопасности. Организационно-административные подсистемы Организационно-методические средства не являются технической компонентой
системы, однако трудно рассчитывать на устойчивое и долговременное
функционирование банка данных, если будут отсутствовать необходимые
методические и инструктивные материалы, регламентирующие работу пользователей,
различных по своему статусу и уровню подготовленности. Пользователи баз данных В информационных системах, создаваемых на основе
СУБД, способы организации
данных и методы доступа к ним перестали
играть решающую роль, поскольку оказались скрытыми внутри СУБД.
Массовый, так называемый конечный пользователь, как правило, имеет дело
только с внешним интерфейсом,
поддерживаемым СУБД (Слайд 10). Эти преимущества, как уже понятно, не могут быть
реализованы путем механического объединения данных в БД. Предполагается,
что в
системе существует (как неотъемлемая составная часть) специальное
должностное лицо (группа лиц) – администратор базы данных (АБД), который несет
ответственность за проектирование и общее управление базой данных. АБД
определяет информационное содержание БД. С этой целью он идентифицирует
объекты БД и моделирует базу, используя язык описания данных.
Получаемая модель служит в дальнейшем справочным документом для
администраторов приложений и пользователей. Администратор решает также все
вопросы, связанные с
размещением БД в памяти, выбором стратегии и ограничений доступа к данным. В функции АБД входят также
организация загрузки, ведения и восстановления БД и многие другие действия,
которые не могут быть полностью формализованы
и автоматизированы. Администратор приложений (или, если
таковой специально не выделяется - администратор БД) определяет для приложений
подмодели данных. Тем самым разные приложения обеспечиваются собственным «взглядом» но не на всю БД, а только
на требуемую для конкретного приложения
(«видимую») ее часть. Вся остальная часть БД для данного приложения
будет «прозрачна». Прикладные программисты имеют, как
правило, в своем распоряжении один или несколько языков программирования, с помощью которых генерируются прикладные
программы. 1.3. Цель, задачи и структура курса
(Слайд 11) Цель курса – понимание общесистемных и прикладных основ баз данных,
практическое изучение средств моделирования, разработки и администрирования БД,
а также разработки приложений управления доступом к информационным массивам. Образовательными задачами общесистемного уровня являются: -
понимание
принципа независимости – разделения объектов логического и физического уровня -
в качестве универсальной основы формализованного представления информации в
системах обработки; -
понимание
действенности правила рациональности (целесообразности решений) организации
информационной системы: эффективность обработки данных достигается путем
специализации системы, в том числе сведением прикладных задач к типовым
решениям, базирующимся на типовых моделях данных. При этом типология моделей
данных отражает эволюцию взглядов человека на разделение между человеком и системой
задач по управлению процессами обработки информации. Задачами методологического и прикладного уровня являются изучение: -
принципов
и типовых подходов к организации баз данных в вычислительных системах; - методологических основ и моделей
данных, используемых для проектирования и разработки БД; - основ и средств управления и
администрирования СУБД. Место курса в системе образования (Слайд 12) Курс базируется на материале курсов «Основы
программирования», «Информатика», «Дискретная математика» и служит методологической
основой для курсов «Информационные системы», «Проектирование информационных
систем», «Интеллектуальные информационные системы», «Информационная
безопасность». Требования к уровню
освоения содержания курса В результате изучения курса студенты должны: -
знать
типологию и методологию проектирования баз данных, уметь классифицировать
информационные задачи, решаемые с использованием баз данных; -
владеть
системным подходом как методологической основой проектирования информационных
систем, использующих базы данных; -
знать
особенности моделирования и проектирования фактографических и документальных
баз данных; -
иметь
практические навыки разработки баз данных; -
иметь
представление о целях и средствах разработки и администрирования баз данных. В составе курса 4 раздела (Слайд
13): -
введение
в базы данных и автоматизированные информационные системы (введение в базы
данных; понятие предметной области; определение и типология БД; методологические
основы БД); -
моделирование
и проектирование БД (инфологическое моделирование ПО; даталогическое
моделирование; управление реляционными базами данных); -
управление
базами данных (языки управления данными; физические модели БД; модели
организации доступа к БД; модели транзакций); -
эксплуатация
и разработка приложений БД (управление доступом и целостность БД;
администрирование СУБД; разработка приложений в среде Delphi). |
| |