Хранилища данных,
OLAP, CRM: информация
 
 На главную | Книги | Ссылки | Рассылка | Письмо автору | RSS

Подсистема сопоставления записей в хранилище данных (часть 5)

Автор: Дмитрий Орлов

Повышение эффективности подсистемы за счет использования доменных знаний

До сих пор речь шла о сопоставлении линейных наборов, сущности рассматривались без учета возможных иерархических отношений – доменных знаний. Однако, можно значительно улучшить эффективность подсистемы, если в процессе связывания записей использовать эти доменные знания. Этот подход применим в случае, если сравниваемые сущности принадлежат некоторой иерархии, что делает возможным использование косвенной идентификации [9].
Так, сравнивая рабочий набор со справочником ОКАТО10 , где есть некая иерархия, можно использовать знания о принадлежности некоторого подмножества административно-территориальных единиц какому-либо административному центру.

Рассмотрим это на примере Московской области:

Таблица 4. Сравнение рабочего набора с ОКАТО

Эталон
Рабочий образец
Администра-тивный центр Подчиненные объекты Администра-тивный центр Подчиненные объекты
МОСКОВ-СКАЯ ОБЛАСТЬ РЕУТОВ Г.
ЗЕЛЕНОГРАД Г.
МЫТИЩИ Г.
КЛИН Г.
ВОЛОКО-ЛАМСК Г.
и т.д.
МОСК. ОБЛ. Г. РЕУТОВ
ЗЕЛЕНО-ГРАД Г.
Г. МЫТИЩИ
КЛИН Г.
ВОЛОКО-ЛАМСК Г.
и т.д

Очевидно, что попытавшись сравнить непосредственно наименования административного центра, мы получим отрицательный результат, в то время, как сравнив подчиненные объекты можно с большой долей вероятности говорить о том, что это – один и тот же административный центр, т.к. в обоих случаях набор подчиненных объектов схож.

Варианты применения подсистемы

Теперь вкратце о том, как может использоваться подобная подсистема в ХД.

Самой очевидной и, безусловно, важной областью применения подсистемы является, конечно же, интеграция данных из разных подсистем. Можно долго говорить о важности правильного сопоставления записей из различных источников - в конце концов, все сведется к следующему: «В хранилище данных недопустимо наличие логических дубликатов записей». И это – так.

Однако есть и некоторые другие аспекты применения данной подсистемы:

  • Восстановление значений отсутствующих атрибутов (например, восстановление адреса по почтовому индексу)
  • Очистка данных от «мусора»
  • Синтаксический контроль и исправление текстовых данных.

Все эти задачи достаточно актуальны, так что стоит приложить усилия для их решения.

Кроме того, очевидно, что подсистема в том виде, как она описана выше, предназначена для сравнения каждого атрибута сущности по отдельности, т.е. вырванного из контекста. Во многих случаях этого достаточно, однако, для полноценного сопоставления сложных сущностей (сущностей, для идентификации которых необходимо использовать несколько атрибутов) необходим дополнительный анализ и доработка подсистемы, которые планируется обсудить в следующей статье.

Глоссарий

Логическая идентичность экземпляров сущности – экземпляры сущности, описывающие один и то же объект реального мира.

Эталонный набор (эталон) – набор записей, однозначно трактуемых и синтаксически верных, покрывающий все пространство значений соответствующей предметной области, предназначенный для передачи этих свойств рабочим наборам. Эталонным набором может быть, как стандартный справочник (ISO, ОК *), так и некий набор записей, полученный из информационной системы и обладающий вышеперечисленными свойствами.

Набор синонимов – набор записей, являющихся установленными (подтвержденными) синонимами эталонного набора.

Рабочий набор - набор записей, требующий сопоставления эталонному набору. Как правило, является входным набором данных, получаемых из внешней информационной системы.

Набор связанных записей – набор записей, содержащий информацию о принадлежности конкретной записи рабочего набора определенной записи эталонного набора. Данный набор является результатом удачного сопоставления.

Набор несвязанных записей – подмножество записей рабочего набора, в котором не удалось сопоставить ни одной записи эталонному набору.

Набор выявленных синонимов – набор синонимов эталонного набора, сформированный в результате нечеткого сравнения и ручного связывания записей. Данный набор предназначается для расширения набора синонимов эталона.

Критерий идентичности – формальное условие схожести двух строк (записей), которое может быть выражено в виде аддитивной величины.

Предметная область – множество объектов, рассматриваемых в пределах данного контекста. Под контекстом, в данном случае, понимается множество всех возможных значений (терминов).

Доменные знания – знания об иерархических отношениях сущностей и правилах формирования значений их атрибутов.

Нормализация строки – трансформация строки, включающая в себя удаление символов, не входящих в алфавит, замену групп пустых символов на один пустой символ, приведение к общему регистру. Данная трансформация позволяет повысить инвариантность представления строки.


Источники информации

  1. Э. Спирли, Корпоративные хранилища данных. Планирование, разработка и реализация. т. 1, «Вильямс», 2001 г
  2. Д. Кнут, Искусство программирования, т.3, «Вильямс», 2000 г
  3. Э. Сигел, Практическая бизнес-статистика, «Вильямс», 2002 г
  4. С. Рубцов, Опыт использования стандарта IDEF0, журнал «Открытые системы» №1, 2003 г
  5. Л. Бойцов, Современные поисковые системы: структуры данных и стратегии поиска
  6. П. Каньковски, «Как ваша фамилия?», или русский MetaPhone, журнал «Программист» №8, 2002г
  7. Graham A. Stephen, String Search, Technical Report TR-92-gas-01 School of Electronic Engineering Science University College of North Wales Dean Street, Bangor, Gwynedd, UK LL57 1UT, October 1992 , русский перевод
  8. Proceedings of the Workshop on Exact Matching Methodologies, Arlington, Virginia, Record linkage techniques 1985, May 9-10, 1985
  9. R. Ananthakrishna, S.Chaudhuri, V.Ganti, Eliminating Fuzzy Duplicates in Data Warehouses
  10. L.G. Panagiotis, G. Ipeirotis, H. V. Jagadish, Using q-grams in a DBMS for Approximate String Processing

10) ОКАТО – Общероссийский классификатор объектов административно-территориального деления.

 

 

Для удобства отслеживания новых публикаций на сайте рекомендую подписаться на рассылку или подписаться на канал RSS.

 

Если вы нашли в сети интересные ссылки на ресурсы по технологиям хранилищ данных, OLAP, CRM или data mining, и хотите поделиться ими с другими, присылайте их. Я с удовольствием размещу их на этом сайте.

 

Популярные страницы:

Советы разработчику хранилищ данных

OLAP

Моделирование

Книги

Книги на русском языке

Бесплатные книги

Производители OLAP

CRM

Производители CRM

Управление метаданными

Коллекция ссылок


Найти: на

[ На главную | Книги | Ссылки | Рассылка | Письмо автору | Реклама на сайте ]

© Константин Лисянский, 2001-2008.

SpyLOG Rambler's Top100 Rambler's Top100

Используются технологии uCoz