Хранилища данных (курс лекций)



страница1/16
Дата29.10.2016
Размер0.88 Mb.
ТипТехническое задание
  1   2   3   4   5   6   7   8   9   ...   16
Хранилища данных

(курс лекций)


СОДЕРЖАНИЕ


Введение 3

Эволюция корпоративных информационных систем 4

Что такое OLAP 6

Общие свойства хранилищ 10

Ориентированность на предметную область 10

Интегрированность 11

Зависимость от времени 11

Постоянство 12

Данные хранилища 13

Источники данных 13

Хранилище данных (в узком смысле) 13

Оперативный склад данных (Operational Data Store - ODS) 13

Витрины данных (Data mart) 14

Метаданные 14

Компоненты хранилища 15

Подсистема загрузки данных 15

Подсистема обработки запросов и представления данных 15

Подсистема администрирования хранилища 16

Методика (методология) построения хранилищ данных 16

Постановка задачи 17

Системно-аналитическое обследование 17

Техническое задание 18

Проектирование 18

Автоматизируемые процессы и функции 18

Информационное обеспечение 19

Компонентная архитектура 21

Техническая архитектура 21

Реализация 22

Внедрение 22

Выбор метода реализации Хранилищ данных 22

Продукция Microsoft 24

Продукция Sybase 26

Продукция Oracle 30

Oracle BI Suite EE - самая «интеллектуальная» из аналитических платформ 32

Архитектура 33

Рис.1.Архитектура Oracle BI Suite EE 33

Клиентские приложения 34

Метаданные 35

36

Рис. 2. Слои корпоративной семантической модели 36



Выбор продукта 37

Многомерные кубы 38

Некоторые термины и понятия 42

Типичная структура хранилищ данных 44

Таблица фактов 45

Таблицы измерений 47

OLAP на клиенте и на сервере 51

Технические аспекты многомерного хранения данных 52

Data mining 54

Условные сокращения и обозначения 60

Словарь 60

Список использованных источников 62




Введение


Эффективное управление крупным и средним бизнесом сегодня немыслимо без применения передовых информационных технологий — систем поддержки принятия решений (СППР).

Процесс управления сводится к решению 3 задач:



  • Где мы находимся?

  • Куда мы хотим прийти?

  • Как мы туда попадем?

Процесс управления — итерационный характер (принятие решения — применение управляющего воздействия — оценка состояния системы — оценка правильности выбранного решения — при наличии отклонений снова принятие решения).

Современные информационные технологии позволяют аналитику формулировать и решать следующие классы:



  • Аналитические (вычисление заданных показателей и статистических характеристик).

  • Визуализация данных

  • Добыча знаний (data mining —проверка статистических гипотез, кластеризация, нахождение ассоциаций и временных шаблонов и т.п.)

  • Имитационные (проведение на ЭВМ экспериментов на моделях, описывающих поведение сложных систем, например, в интервалы времени для анализа возможных последствий принятия того или иного решения)

  • Синтез управления (для определения допустимых управляющих воздействий, обеспечивающих достижение заданной цели, оценка достижимости цели, определение множества возможных управляющих воздействий)

  • Оптимизационные (интеграция имитационных, управленческих, оптимизационных и статистических методов моделирования и прогнозирования, выбор наиболее эффективного решения).

Однако в настоящее время нет информационных средств для решения всех задач в комплексе.

Бизнес — это сложный объект, который состоит из множества различных по свойствам подсистем, между которыми действует большое число разнородных связей. В кибернетике такие объекты получили название сложных систем, а методы их изучения — системным анализом (эта наука развивается с начала 40-х гг. в период 2-й мировой войны).

Общая с точки зрения теории познания триада имеет вид:

Гипотеза — модель — решение.

Гипотеза — это открытие, которое является новым положением, осуществляется на основе интуиции (из глубин человеческого подсознания, сформированного на основе личного опыта).

По гипотезе строится модель — формальное математическое описание — и находится решение. Полученное решение проверяется в эксперименте (отвергается или принимается). В результате получается знание, которым можно руководствоваться в практике.


Проблемы (в бизнесе):

  1. динамичное изменение экономической ситуации, что мешает применять накопленный опыт, не успевает вырабатываться интуиция.

  2. в условиях свободного рынка нет возможности проводить целенаправленные эксперименты.

В настоящее время актуальна разработка и использование комплексного ПО, реализующего задачи 1, 2 и 3-го классов. Сейчас стремительно развиваются OLAP- технологии.

Сейчас более 100 крупных производителей программ включились в конкуренцию.

OLAP — это инструменты оперативного анализа данных, содержащихся в хранилище, которые предназначены для общения аналитика с проблемой, а не с компьютером.

Эволюция корпоративных информационных систем


Развитие предприятий происходило без стратегического плана, снизу вверх по мере осознания необходимости автоматизации того или иного участка производства.

Условия для автоматизации — появление:



  • информационных технологий

  • аппаратно-программных средств

  • людских ресурсов

  • бюджетных средств.

В большинстве компаний имеются информационные системы (ИС) на базе СУБД и обслуживают повседневную деятельность отделов компании.

Такие ИС получили название транзакционных или OLТP (On-Line Transactions Processing).


Накопление больших объемов данных в последнее время сделали актуальными прикладные задачи, предназначенные для извлечения, сбора и представления конечному пользователю информации, необходимой для анализа текущего состояния дел и прогноза будущего решения. Такие ИС получили название систем поддержки принятия решений. Исторически первыми такими системами стали ИС руководителя (EIS — Executive Information Systems).
Существует два подхода к интеграции корпоративной информации:

  • децентрализованное объединение источников (схема спагетти) (рис.1а)

  • централизованное объединение источников (рис.1б)

(рис.1а) (рис.1б)

Второй подход стимулировал появление технологии хранилищ данных, позволяющей извлекать, преобразовывать и представлять информацию из общей кучи данных.
Хранилища данных (Datawarehouse) и оперативный анализ данных (On-LineAnalyticalProcessing, OLAP) – новые информационные технологии, которые обеспечивают аналитикам, управленцам и руководителям высшего звена возможность изучать большие объемы взаимосвязанных данных при помощи быстрого интерактивного отображения информации на разных уровнях детализации с различных точек зрения в соответствии с представлениями пользователя о предметном пространстве.
Основная цель хранилищ — создание единого логического представления данных, содержащихся в разнотипных БД или в единой модели корпоративных данных.

Другими словами:

Хранилище данных создается с целью:

Интеграции в одном месте, согласования и, возможно, агрегации ранее разъединенных детализированных данных:



Разделения наборов данных, используемых для оперативной обработки, и наборов данных, используемых для решения задач поддержки принятия решений.

Обеспечения всесторонней информационной поддержки максимальному кругу пользователей.

Еще лет пять назад мало, кто слышал об этих технологиях. Сегодня хранилища данных и OLAP становятся неотъемлемой частью современных корпоративных систем поддержки принятия решений. Это одно из наиболее динамично развивающихся направлений индустрии создания программного обеспечения.

Концепция информационных хранилищ, зародилась в 80-х годах в недрах IBM. Идея хранилищ данных обязана своим развитием многим людям. Хотя эту идею предвосхищали в своих работах многие исследователи, можно смело утверждать, что первой публикацией, посвященной именно хранилищам данных, была статья Девлина (Devlin) и Мэрфи(Murphy) , вышедшая в 1988 году. В 1992 году Уильям Г.Инмон(William H. Inmon), который был техническим директором компании Prism и написал монументальную монографию «Building the Data Warehouse» («Построение хранилищ данных»), в которой дал определение хранилища данных:


Опр.: Хранилище данных — это предметно-ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений.
Имеются 2 определения хранилищ данных:

В узком смысле: по Инмону.

В широком:

Хранилище данных — ориентированная на поддержку управленческих решений автоматизированная система, состоящая из организационной структуры, технических средств, базы или совокупности базы данных (БД) и ПО, которое выполняет, как правило, следующие функции:


  • извлечение данных из разрозненных источников, их трансформация и загрузка в хранилище;

  • администрирование данных и хранилища;

  • извлечение данных из хранилища, аналитическая обработка и представление данных конечным пользователям.

Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным» (см., например, Ralph Kimball, «The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses», John Wiley & Sons, 1996 и «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», John Wiley & Sons, 2000). Он же сформулировал и основные требования к хранилищам данных:



  • поддержка высокой скорости получения данных из хранилища;

  • поддержка внутренней непротиворечивости данных;

  • возможность получения и сравнения так называемых срезов данных (slice and dice);

  • наличие удобных утилит просмотра данных в хранилище;

  • полнота и достоверность хранимых данных;

  • поддержка качественного процесса пополнения данных.




Каталог: netcat files
netcat files -> Учебное пособие для школьников Москва 2012 Содержание Методы исследований в экологии 3 Растения, растущие вокруг 20
netcat files -> По Мероприятию 22 Приложение 1
netcat files -> Программа по географии составлена на основе примерной программы для среднего (полного) общего образования
netcat files -> Роль антимонопольного регулирования в условиях продовольственной нестабильности (на примере Республики Казахстан) Мажит Тулеубекович Есенбаев
netcat files -> Доклад «О состоянии конкуренции и ценообразовании на рынках нефти и нефтепродуктов»
netcat files -> Бюллетень №23 2015 год г. Майкоп 2016 год
netcat files -> Для студентов высших учебных заведений гуманитарного профиля
netcat files -> Программа конференции (проект) : 24. 10. 2016 Заезд, регистрация, расселение участников


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7   8   9   ...   16


База данных защищена авторским правом ©grazit.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал