Проектирование
многомерных моделей (схема "звезда")
В этом разделе собраны ссылки на многочисленные статьи по проектированию
многомерных моделей с использованием подхода "схема звезда".
Исследование
схемы «звезда» (на русском
языке) - в этой короткой статье приводится несколько
характеристик модели данных "звезда" на примере учебной
базы данных из поставки Microsoft SQL Server.
Особенности построения
информационных хранилищ (на
русском языке) - при реализации проектов построения
хранилищ данных возникает ряд общих задач, независящих от предметной
области: проектирование структуры, актуализация агрегатных значений.
В статье рассмотрены возможные пути решения этих задач и способы
реализации иерархических измерений.
A Dimensional
Modeling Manifesto - статья Ральфа Кимбала, призванная повысить
популярность подхода Dimensional Modeling для моделирования хранилищ
данных. Ральф Кимбал является самым известным поуляризатором данного
подхода, который прочно укрепился в мире хранилищ данных. В своей
статье Кимбал обсуждает преимущества своего подхода перед традиционным
способом моделирования данных (ER-диаграммы). Рекомендую почитать
на эту тему книги Ральфа Кимбала.
Star Schema
101: A Pictorial Introduction to Dimensional Modeling (48
килобайт, архив в формате WinZIP) - в данной
презентации обсуждаются проблемы многомерного моделирования в
присутствии агрегированных данных. Сравниваются классическая схема
"звезда" с хранением детальных и агрегированных данных
в одной таблице и использованием индикатора уровня, схема "созвездие"
(использование отдельных таблиц фактов для хранения агрегированных
данных) и схема "снежинка" (нормализация таблиц размерностей
и использование отдельных таблиц фактов для хранения агрегированных
данных).
Data Warehouse
Role Models - Ральф Кимбал делится опытом по поводу того,
что делать когда одно измерение должно несколько раз использоваться
в таблице фактов. В этот раз Кимбал отходит от своей принципиальной
борьбы с нормализацией и допускает превращение схемы "звезды"
в схему "снежинка".
A
Trio of Interesting Snowflakes - Ральф Кимбал обсуждает
классические случаи многомерного моделирования, в которых целесообразно
применять схему "снежинка", а не схему "звезда"
(которую он консервативно отстаивал в течение нескольких лет).
Многомерное моделирование подробно обсуждается в книгах
по моделированию.
Retyping
Slowly Changing Dimensions - интересная статья, позволяющая
взглянуть по-новому на принципы медленно изменяющихся размерностей,
введенные Ральфом Кимбалом. Оказывается, не все так просто, как
казалось в начале.
Fact
Tables for Text Document Searching - в данной статье речь
идёт об использовании показателей похожести текстов для проведения
поиска в больших массивах документов.
The
Keyword Dimension - рассматриваются вопросы проектирования
измерения КЛЮЧЕВОЕ СЛОВО для архива исторических писем.
Mystery
Dimensions - как разобраться с источником, представляющим
собой плоскую таблицу с большим количеством полей и построить
на его основе многомерную модель.
Many
Alternate Realities - в статье идёт речь о комбинировании
типов 2 и 3 медленно изменяющихся измерений.
Clicking
with Your Customer - Ральф Кимбал рассматривает вопросы проектирования
витрины данных для анализа веб-трафика.
The
Market Basket Data Mart - в статье обсуждается проектирование
витрины данных для проведения анализа потребительской корзины.
Think
Globally, Act Locally - Ральф Кимбал рассматривает вопросы
проектирования хранилилища данных, поддерживающего различные часовые
пояса, различные календари и различные валюты.
Human Resources
Data Marts - Ральф Кимбал рассматривает вопросы проектаирования
витрины данных для анализа данных о персонале организации.
It's Time for
Time - Ральф Кимбал рассуждает о важности измерения ВРЕМЯ
в хранилище данных.
Factless Fact
Tables - Ральф Кимбал обсуждает таблицы покрытия - таблицы
фактов, в которых факты отсутствуют.
Data Warehouse
Insurance - учебный пример проектирования хранилища данных
для страховой компании.
What
Not to Do - Ральф Кимбал обсуждает ошибки, которых нужно избегать
при проектировании хранилищ данных.
The
Unity Dimension - автор рассказывает о концепции unity dimension,
объединении различных измерений, которые выполняют одну и ту же
роль в таблице фактов.
What
Changed? - автор рассказывает о том, как усилить измерение
типа SCD 2 чтобы иметь возможность отвечать на вопросы, на которые
изначально нельзя ответить при использовании схемы SCD 2.
Tricky
Time Spans - Ральф Кимбал обсуждает особенности измерения
ВРЕМЯ, связанные с интервалами времени.
Если вы нашли в сети интересные ссылки на ресурсы по технологиям
хранилищ данных, OLAP, CRM или data mining, и хотите поделиться
ими с другими, присылайте их.
Я с удовольствием размещу их на этом сайте.