Хранилища данных,
OLAP, CRM: информация
 
 На главную | Книги | Ссылки | Рассылка | Письмо автору | RSS

Совет №48
Наводим порядок с помощью «мусорных» измерений

Материал опубликован с разрешения компании Ralph Kimball Associates
Автор оригинала: Margy Ross (все статьи)
Перевод на русский язык: Егор Демьянов
Оригинальный документ располагается здесь.

 

При проектировании многомерных моделей мы часто сталкиваемся с различными индикаторами или флагами, не являющимися атрибутами основных измерений. Обычно эти несвязанные атрибуты достаточно важны, и мы не можем их просто проигнорировать или исключить. Проектировщики иногда трактуют их как текстовые факты, либо загромождают модель множеством маленьких измерений. Третий, менее очевидный, но более предпочтительный способ заключается в том, чтобы использовать «мусорное» измерение (junk dimension) для хранения этих флагов и индикаторов.

Мусорное измерение весьма удобно для группировки флагов и индикаторов, особенно в случае значительной корреляции между их значениями. Преимущества от использования мусорных измерений следующие:

  • Обеспечивается логичное, интуитивно понятное хранение соотносящихся друг с другом атрибутов в рамках многомерной модели.
  • Упрощается дизайн, в котором излишнее количество измерений. Например, в таблице фактов пять и более индикаторов можно свернуть в один 4-байтный суррогатный ключ.
  • Обеспечивается маленькая и быстрая точка входа для запросов, в сравнении с накладыванием ограничений напрямую на атрибуты в таблице фактов. Правда, если ваша СУБД поддерживает индексы на основе битовых карт, то это потенциальное преимущество для вас неважно.

Интересным применением для мусорных измерений является хранение контекста транзакции. Наши согласованные измерения хранят основные, наиболее интересные атрибуты, но при этом с большой вероятностью существуют атрибуты транзакции, которые неизвестны до момента её обработки. К примеру, компания, страхующая здоровье, хочет хранить контекст для каждого требования о страховом возмещении. Гранулярность бизнес-процесса в данном случае такая - одна строка для каждого пункта в требовании. Из-за большой сложности индустрии здравоохранения, похожие требования о страховом возмещении могут обрабатываться абсолютно разным способом. Может потребоваться спроектировать несколько мусорных измерений для описания того, как требование было рассмотрено, оплачено, о договорных отношениях с медицинскими учреждениями на момент выплаты страхового возмещения и т.п.

Существует два подхода к созданию мусорных измерений. Можно заполнить измерение заранее: каждая допустимая уникальная комбинация атрибутов генерирует строку в таблице мусорного измерения. Другой подход заключается в создании записей в измерении на лету, по ходу ETL-процесса. Как только встречается новая комбинация атрибутов, сразу в таблицу измерения вставляется запись с новым суррогатным ключом.

Если максимальное число возможных строк в мусорном измерении невелико, то вероятно лучше создать эти строки заранее. С другой стороны, если общее число строк в мусорном измерении достаточно большое, предпочтительнее создавать новые записи по мере необходимости. Одно из мусорных измерений, которое я недавно наблюдал, работая в сфере здравоохранения, имело порядка триллиона теоретически возможных строк, в то время как реально использовались лишь десятки тысяч. Очевидно, что в данном случае нет никакого смысла создавать все теоретически возможные записи заранее. Если число строк в вашем мусорном измерении приближается или превышает число строк в таблице фактов, то вам нужно пересмотреть дизайн.

Так как мусорное измерение включает в себя все допустимые комбинации атрибутов, то в нем автоматически отслеживаются изменения в атрибутах измерения. Таким образом, для мусорных измерений не нужно применять стратегии, которые мы применяем для медленно меняющихся измерений.

Для дополнительной информации читайте статью Ральфа Кимбала в Intelligent Enterprise. Мусорные измерения в этой статье называются «загадочными измерениями» (mystery dimensions).

 

 

По этой теме можно также почитать:

 

Для удобства отслеживания новых публикаций на сайте рекомендую подписаться на рассылку или подписаться на канал RSS.

 

Если вы нашли в сети интересные ссылки на ресурсы по технологиям хранилищ данных, OLAP, CRM или data mining, и хотите поделиться ими с другими, присылайте их. Я с удовольствием размещу их на этом сайте.

Популярные страницы:

Советы разработчику хранилищ данных

OLAP

Моделирование

Книги

Книги на русском языке

Бесплатные книги

Производители OLAP

CRM

Производители CRM

Управление метаданными

Коллекция ссылок


[AD]

Найти: на

[ На главную | Книги | Ссылки | Рассылка | Письмо автору | Реклама на сайте ]

© Константин Лисянский, 2001-2008.

[AD] [AD] [AD]

Используются технологии uCoz