Содержание
-
4. Хранилища данных
1
-
4.1. Основные понятия
Системы оперативной обработки транзакций – Online Transaction Processing (OLTP) Системы поддержки принятия решений – Decision Support System (DSS) Усовершенствованная технология баз данных: специальные средства управления процессом хранения информации мощные инструменты анализа накопленных данных 2
-
4.2. Определение
Bill Inmon, 1993 г. Хранилище данных (Data Warehouse) – это предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений 3
-
4.3. Сравнение систем
1. Характер данных 4 OLTP + базы данных DSS + хранилища данных Текущие данные Исторические данные Подробные сведения Обобщенные данные Динамические данные Статические данные
-
4.3. Сравнение систем(продолжение)
2. Обработка данных 5 Повторяющийся способ обработки Нерегламентированный, неструктурированный, эвристический способ Высокая интенсивность обработки транзакций Средняя и низкая интенсивность обработки транзакций Предсказуемый Непредсказуемый способ использования способ использования
-
3. Назначение системы 6 Обработка транзакций Проведение анализа Ориентирована на прикладную область Ориентирована на предметную область Поддержка принятия Поддержка принятия повседневных стратегических решений решений
-
4. Пользователи 7 Обслуживает большое количество пользователей исполнительного звена Обслуживает относительно небольшое количество работников руководящего звена
-
4.4. Конфигурация хранилища данных
8 OLTP-системы Загрузочная секция Хранилище данных источники данных
-
4.5. Архитектура хранилища данных
9 . . . Источники Архив и Средства DW L M Q M WM WM оперативных данных резервные копии доступа конечного пользователя
-
4.5. Архитектура хранилища данных(продолжение)
10 Мета данные Детальные данные Частично обобщенные данные Глубоко обобщенные данные извлечение и загрузка данных обслуживание хранилища обслуживание запросов Постоянные данные Временные данные
-
Менеджер загрузки – Load Manager (LM): внешний (front-end) компонент; извлечение данных, загрузка данных в хранилище инструменты репликации информации генераторы кода механизмы динамического преобразования 11
-
Менеджер хранилища – Warehouse Manager (WM): управление информацией, помещенной в хранилище данных анализ непротиворечивости данных создание необходимых индексов денормализация обобщение резервное копирование 12
-
Менеджер запросов – Query Manager (QM): внутренний (back-end) компонент; управление запросами пользователей. Создается на базе предоставляемых СУБД инструментов доступа к данным и инструментов мониторинга хранилища 13
-
4.6. Средства доступа к данным
Инструменты информационной системы руководителя – Executive Information System (EIS; сейчас – EverybodyInformation System); предоставление поддержки управляющему персоналу всех уровней. Предопределенный набор сценариев обработки данных и составления отчетов Express Analyzer фирмы Oracle 14
-
4.6. Средства доступа к данным(продолжение)
2. Инструменты оперативной аналитической обработки – Online Analytical Processing (OLAP); оценка эффективности деятельности предприятия, предсказание объемов продаж и планирование товарных запасов. Построение и выполнение нерегламентированных запросов Express Server фирмы Oracle 15
-
3. Инструменты разработки данных – Data mining; открытие новых осмысленных корреляций, распределений и тенденций, создание предсказательных, а не ретроспективных моделей. Создание предсказательных моделей Intelligent Miner фирмы IBM 16
-
4.7. Витрины данных
Data Mart– витрины (магазины) данных доступ к данным, которые приходится анализировать чаще других предоставление данных в форме, соответствующей коллективному представлению подразделения сокращение времени ответа на вопрос 17
-
4.9. Витрины данных(продолжение)
18 Хранили-ще данных Витрина данных архив
-
4.7. Витрины данных(продолжение)
Отличие от хранилища данных: отвечает требованиям только одного из подразделений организации или некоторой ее деловой сферы обычно не содержит детальных оперативных сведений структура информации более понятна и проста в управлении 19
-
Создание: хранилище данных витрины данных витрины данных хранилище данных хранилище данных + витрины данных 20
-
4.8. Проектирование хранилища данных
21
-
4.8. Проектирование хранилища данных(продолжение)
22
-
4.9. Схема типа «звезда»
23 Таблица фактов 1 2 n Таблицы измерений
-
4.9. Схема типа «звезда»(продолжение)
Категории измерений 24 Таблица фактов Люди Время Места Вещи
-
4.10. Пример проектирования
25
-
4.10. Пример проектирования(продолжение)
26
-
4.11. Особенности проектирования
Таблица фактов: использование суррогатного ключа вычисляемые колонки (объем продаж, стоимость в . . . ) секционирование вертикальное (восстановление – через join) горизонтальное (восстановление – через union) 27
-
4.11. Особенности проектирования(продолжение)
Таблицы измерений: существующие таблицы OLTP базы данных (Товар, Магазин) новые измерения (из других таблиц базы данных – Район или из элементов таблиц базы данных – Время) денормализация таблицы измерений развертывание измерений – схема типа «снежинка» 28
-
29
-
4.12. Технология OLAP
Термин OLAP был предложен Коддом в 1993 г. и определяет архитектуру, которая поддерживает сложные аналитические приложения Назначение OLAP (Online AnalyticalProcessing) инструментов: предоставить средства извлечения большого количества записей и вычисления на их основе некоторых итоговых значений 30
-
4.13. Правила для OLAP систем
E. Codd, 1993 г. Многомерное концептуальное представление данных Доступность Неизменная производительность подготовки отчетов 31
-
4.13. Правила для OLAP систем(продолжение)
Неограниченные перекрестные операции между размерностями Неограниченное число измерений и уровней обобщения Гибкость средств формирования отчетов Универсальность измерений 32
-
Прозрачность Динамическое управление разреженностью матриц Архитектура клиент-сервер Многопользовательская поддержка Поддержка интуитивно понятного манипулирования данными 33
-
4.14. Критерий FASMI
Fast – время отклика: среднее ~ 5 сек; для простых запросов - ~ 1 сек; для самых сложных - ~ 20 сек; более30 сек – недопустимо 34
-
4.14. Критерий FASMI(продолжение)
Analysis – система должна справляться с любым логическим и статистическим анализом, характерным для данного приложения; пользователь может определять новые вычисления как часть анализа и формировать нужные отчеты без необходимости программирования 35
-
Shared – широкие возможности разграничения доступа к данным и одновременной работы многих пользователей 36
-
Multidimensional – должно быть обеспечено многомерное концептуальное представление данных Information – необходимая информация должна быть получена там, где она необходима 37
-
4.15. Многомерное представление
Анализ изменения объема продаж и дохода торговых предприятий во времени 38 Номер записи Tid (FK1) Sid (FK2) Объем продаж Доход (руб) . . . Продажи Tid Месяц Квартал Год Время Sid Название Адрес Регион Предприятие
-
4.15. Многомерное представление(продолжение)
Таблица РБД («плоская») 39
-
Двухмерное представление 40
-
41 Товар Предприятие Время
-
Достоинства многомерных структур: очень компактны обеспечивают простые средства просмотра и манипулирования элементами данных, обладающих многими взаимосвязями 42
-
Достоинства многомерных структур: легко расширяются при включении новой размерности допускают выполнение операций матричной арифметики, позволяющих легко вычислять средние и общие значения 43
-
«Типичная реляционная СУБД способна сканировать всего несколько сотен строк в секунду, тогда как типичная многомерная СУБД способна выполнять обобщающие операции со скоростью до 10000 строк в секунду и даже выше.» [Коннолли Т. и др.] 44
-
4.16. Аналитические операции
Консолидация – обобщающие операции, такие как простое суммирование значений (свертка), или расчет с использованием сложных выражений, включающих другие связанные данные 45
-
4.16. Аналитические операции(продолжение)
Нисходящий анализ (drill-down) – операция, обратная консолидации; включает возможность отображения подробных сведений для рассматриваемых консолидированных данных 46
-
Разбиение с поворотом (slicing and dicing) – также называется созданием сводной таблицы; позволяет получить представление данных с разных точек зрения 47
-
4.17. Категории OLAP инструментов
Berson and Smith, 1997 г. Многомерные OLAP инструменты – Multidimensional OLAP, MOLAP Реляционные OLAP инструменты – Relational OLAP, ROLAP Управляемая среда запросов – Managed Query Environment, MQE 48
-
4.18. Многомерный OLAP
Специализированные структуры данных и многомерные СУБД Данные обобщаются и хранятся в соответствии с их предполагаемым использованием Высокая производительность Тесное взаимодействие с уровнем приложения и уровнем отображения 49
-
4.18. Многомерный OLAP(продолжение)
50 Источники данных Многомер-ные кубы загрузка запрос результат Логический уровень базы данных и приложения Уровень отображения
-
Особенности: Используемые структуры данных обладают ограниченной способностью поддержки нескольких предметных областей и осуществления доступа к подробным сведениям 51
-
Просмотр и анализ данных ограничен процессом проектирования структуры данных в соответствии с заранее определенными требованиями Необходимы особый набор навыков и знаний, использование специальных инструментов создания и сопровождения базы данных 52
-
4.19. Реляционный OLAP
Взаимодействие с СУБД – уровень метаданных Нет необходимости создания статичной многомерной структуры данных Дополнительные средства поддержки функций многомерного анализа Создание сильно денормализованной базы данных 53
-
4.19. Реляционный OLAP(продолжение)
54 Источники данных результат запрос результат Уровень базы данных Уровень отображения Уровень логики приложения SQL Сервер ROLAP
-
Особенности: Необходима разработка промежуточного ПО для многомерных приложений (преобразование отношений РБД в многомерную структуру) 55
-
Требуется разработка инструментов, предназначенных для создания устойчивых многомерных структур со вспомогательными компонентами администрирования этих структур 56
-
4.20. Дополнительные возможности SQL
Предложение SELECT: SELECT . . . FROM . . . GROUP BY . . . WITH ROLLUP | WITH CUBE 57
-
4.20. Дополнительные возможности SQL(продолжение)
Пример: 58 Sid SName . . . S Pid PName . . . P SELECT . . . WITH CUBE | WITH ROLLUP SP Sid (FK1) Pid (FK2) Date Qty SPid
-
Пример: SELECT SName, PName, sum(qty) as sum FROM S join SP on S.Sid = SP.Sid join P on SP.Pid = P.Pid GROUP BY SName, PName 59
-
60
-
Пример: SELECT SName, PName, sum(qty) as sum FROM S join SP on S.Sid = SP.Sid join P on SP.Pid = P.Pid GROUP BY SName, Pname WITH ROLLUP 61
-
62
-
63
-
Пример: SELECT SName, PName, sum(qty) as sum FROM S join SP on S.Sid = SP.Sid join P on SP.Pid = P.Pid GROUP BY SName, Pname WITH CUBE 64
-
65
-
66
-
5. Платформа EMC Documentum
67
-
Области применения ИС
Управление повседневными бизнес процессами (OLTP) Поддержка принятия стратегических решений(OLAP, Data mining) Управление информационным содержанием 68
-
Управление повседневными бизнес процессами (OLTP) 69
-
Поддержка принятия стратегических решений(OLAP, Data mining) 70
-
Enterprise Content Management (ECM) – стратегии, методы и инструментальные средства, используемые для ввода/сбора, управления, хранения, архивирования и доставки информационного содержания (контента) и документов, относящихся к ключевым процессам организации 71
-
Информационное содержание
Информационное содержание (контент) – информационные объекты, хранящиеся в различных форматах, которые можно извлекать, повторно использовать публиковать (Коммерческие документы, сообщения электронной почты, образы документов, мультимедийные файлы, …) 72
-
Управление контентом
Создание и сохранение документов Обработка документов – поиск, управление версиями, . . . Получение доступа к содержимому – управление доступом, аудит, . . . Управление бизнес процессами – автоматизация, жизненный цикл контента, . . . 73
-
Системы управления контентом (CMS, Content Management System) – управление неструктурированными данными Элемент контента Метаданные 74
-
Репозиторий – управляемый блок хранения контента и метаданных Инфраструктура репозитория Компоненты репозитория Сервисы репозитория Сервисы безопасности 75
-
Компоненты репозитория
76 метаданные контент Полнотекстовый индекс Сервисы каталогов
-
Сервисы репозитория
Объектная модель данным Управление связями объектов Словарь данных Сервисы хранения Поиск / запросы Жизненный цикл Распределенные / федеративные сервисы 77
-
Сервисы безопасности
Управление доступом Управление правами Разрешения Аудит Шифрование 78
-
Управление процессами
Workflow – представляет бизнес процессы и приложения, ориентированные на события. Может быть определен для документов, папок и виртуальных документов Lifecycle – последовательность состояний, в которых в которых может находиться отдельный документ 79
-
Workflow
Бизнес процесс – набор связанных действий, которые создают некоторый результат, преобразуя исходные данные в более значимые выходные данные 80 workflow Исходные данные – документ Выходные данные – документ
-
Описание процесса Задача (activity) Исполнитель (performer) Поток информации (flow) Конкретное выполнение работ – процесс (workflow) 81 начало
-
Lifecycle
Строго последовательное переключение состояний Состояния жизненного цикла Стартовое – создание документа, ввод содержимого Промежуточные состояния – различные стадии документа Конечное состояние – передача документа в архив 82
-
Пример
Workflow Lifecycle 83 согласо-вание согласо-вание согласо-вание согласо-вание создание архив чер-но-вик согла-сован акти-вен отме-нен
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.