Многие из вас уже знакомы с тем, какую важную роль играют шина
хранилища данных (the data warehouse bus architecture) и матрица
шины при построении витрин данных. Статья
Ральфа в Intelligent Enterprise еще раз подчеркивает важность
использования шины хранилища данных. Матрица шины определяет ключевые
бизнес-процессы организации и связанные с ними измерения. Бизнес-процессы
(обычно соответствующие основным системам-источникам) перечислены
в строках матрицы, а измерения представлены столбцами. Затем ячейки
матрицы помечаются для указания того, какие измерения применяются
к каким процессам.
В одном документе команда разработчиков получает инструмент для
общего планирования хранилища данных, определения общих измерений,
координации усилий отдельных команд разработчиков, и донесения мысли
о важности совместно используемых измерений для всех и каждого в
организации. Мы твердо уверены в том, что составление матрицы хранилища
данных – это первая задача, которую нужно выполнить после выяснения
бизнес-требований.
Матрица шины дает общее представление о «кусочках пазла», из которых
складывается презентационный уровень хранилища данных, а также об
основных связях между этими кусочками. Но часто полезно наполнять
матрицу детальной информацией по мере реализации каждой строки.
Возможно, для представления результатов одного бизнес-процесса потребуется
комбинация транзакционных таблиц фактов, накопительных и периодических
снимков. Или требуется несколько таблиц фактов, как для детальных,
так и для агрегированных данных, или для более глубокого анализа
в случае использования набора различных инструментов.
Мы можем видоизменить нашу матрицу таким образом, чтобы одна строка
представляла одну таблицу фактов (или один куб) относящийся к бизнес-процессу.
Как только мы определили таблицу фактов, мы можем дополнить матрицу
столбцами с указанием гранулярности таблицы и относящихся к ней
показателей (реальных, вычисляемых или предполагаемых). Вместо простого
указания используемых в каждой таблице фактов измерений, мы можем
указать уровень детализации измерений (в колонке, соответствующей
измерению «товар» указать уровень «бренд» или «категория»).
Получающаяся в итоге матрица, «украшенная» новыми деталями, служит
путеводителем по множеству таблиц фактов вашего хранилища. Хотя
многие из нас изначально предрасположены к усложнению и большому
количеству деталей, мы советуем начинать с более простой, общей
матрицы, а затем погружаться в детали по мере реализации. Наконец
для тех, кто поддерживает готовое хранилище данных, детальная матрица
является полезным инструментом для документирования текущего состояния
сформировавшегося хранилища.
Если вы нашли в сети интересные ссылки на ресурсы по технологиям
хранилищ данных, OLAP, CRM или data mining, и хотите поделиться
ими с другими, присылайте их.
Я с удовольствием размещу их на этом сайте.