Дата-центричная архитектура организации

Данные являются основным активом компании, на котором строятся продукты, сервисы и процессы. Одним из перспективных подходов к управлению данными рассматривают построение дата-центричной архитектуры информационной системы, в центре которой находятся данные, а не используемые компанией приложения (код). Эта концепция радикально отличается от привычной ситуации, когда у каждого бизнес-приложения имеется собственная базы данных, что автоматически порождает необходимость в сложных интеграционных решениях при развитии бизнеса компаний и появления новых технологий и требований пользователей.

Дэйв Маккомб как крёстный отец дата-центричности

Одним из ведущих популяризаторов этой концепции по праву считается Дэйв Маккомб.

Дейв МакКомб


Дейв МакКомб
/ Dave McComb
Президент и соучредитель Semantic Arts, практикующий специалист и идейный лидер в области применения семантических технологий в архитектуре предприятия и приложениях, автор книг «Семантика в бизнес-системах», «Программная пустошь» и «Революция, ориентированная на данные».

В течение 20 лет Semantic Arts помогала в этом начинании фирмам всех размеров, включая Procter & Gamble, Goldman Sachs, Schneider-Electric, Lexis Nexis, Dun & Bradstreet и Morgan Stanley. До Semantic Arts Дэйв был соучредителем Velocity Healthcare, где он разработал и запатентовал первую архитектуру, полностью управляемую моделями.

Маккомб известен своими научными и публицистическими трудами о дата-центричных архитектурах, в том числе Software Wastelands или The Data-Centric Revolution: Restoring Sanity to Enterprise Information Systems. И если вы интересуетесь принципами построения архитектуры работы с данными, вы не могли не знать о его Манифесте дата-центричности (The Data-Centric Manifesto), к которому уже присоединились более 1,5 тысяч специалистов и компаний по всему миру.

В Манифесте Маккомб говорится о зависимости большинства организаций от приложений, которые десятилетиями «вырабатывали привычку» хранить информацию в базах данных бизнес-приложений. Поэтому на сегодняшний день компании имеют «зоопарк» из информационных систем и баз данных с разрозненными массивами информации, и огромную проблему в связи с реализацией любых проектов изменений или интеграций. Сделать этобез огромных усилий и существенных финансовых ресурсов невозможно.

Поставив в центр системы корпоративные данные, компании перестанут быть зависимыми от прикладного ПО и его разработчиков. Появится возможность включать в систему предприятия любые новые приложения и исключать старые.

Так просто и гениально была раскрыта основная причина беспорядка в информационных системах крупных организаций: ориентация на приложения, которая придает софту приоритет над данными. Выход состоит в том, чтобы перевернуть ситуацию с ног на голову: данные – это центр вселенной, а приложения вторичны и могут быть в любой момент заменены другими.

Почему зависимость от приложений существует?

Дэйв Маккомб говорит о нескольких причинах ориентации компаний и ИТ-руководителей на приложения.

  • Это привычно. Когда-то давно ваша компания начала решать свои задачи с помощью приложений, не учитывая при этом истинную значимость данных, и спустя годы преобразование системы либо вызывает страх своей глобальностью, либо попросту кажется ненужным, ведь все и так работает.
  • Это незнакомо. Не всем известно, что такой путь существует, и Манифест призван побороть это незнание. Он популяризирует дата-центричность за счет того, что в нем сжато и ясно изложена суть концепции. На сайте Data-Centric Manifesto формируется сообщество, к которому присоединяются люди со всего мира. Среди участников сообщества множество представителей крупнейших компаний, таких как Johnson&Johnson и IBM. Комментарии специалистов, убедившихся в потенциале дата-центричности, привлекают новых сторонников.

Мы также считаем, что основным препятствием для изменения этой парадигмы являются не технические, а ментальные факторы.

— Из Манифеста

Переход к дата-центричной архитектуре

Переход к дата-центричной архитектуре можно провести практически незаметно, потому что такие решения не тормозят деятельность компании. Важно и то, что такая трансформация очень быстро окупается, потому что у вас возникает экономия на интеграции приложений и хранении данных и связанных с этими процессами расходах, в том числе на дорогой ИТ-персонал.

Сравните возможности нового подхода со старым:

СЕЙЧАС: Ориентированность на приложенияБУДУЩЕЕ: Ориентированное на данные
Непомерная, зачастую запредельно высокая стоимость изменений.Разумная стоимость замены.
Данные связаны с приложениями, поскольку приложения владеют данными.Данные — это открытый ресурс, который переживет любое приложение.
Каждый новый проект сопровождается проектом преобразования больших данных.Каждый новый проект использует существующие хранилища данных.
Данные существуют в самых разных форматах, структурах, значениях и терминологии.Данные глобально интегрированы, имеют общее значение и экспортируются из общего источника в любой необходимый формат.
Интеграция данных занимает 35–65 % ИТ-бюджета.Интеграция данных будет практически бесплатной.
Трудно или невозможно интегрировать внешние данные с внутренними данными.Внутренние и внешние данные легко интегрируются.
Из Манифеста дата-центричности

Вопрос о том, требуется ли вашей компании новая IT-архитектура, каждая команда решает исходя из текущих условий и стратегии развития организации. Важно то, что вы учтёте или обратите внимание на объективные преимущества дата-центричного подхода, которые являются продолжением недостатков подхода с ориентацией на приложения.

Подход, при котором приложения принимаются в качестве важнейшей части корпоративной системы, выгоден прежде всего для крупных разработчиков ПО и компаний, обслуживающих такие архитектуры.

Это звучит как вызов или обвинение, но Маккомб предъявляет доказательства, факты и примеры:

  • Существует огромное количество случаев, когда системы стоят более чем в 1000 раз дороже, чем должны.
  • Есть скандально известный проект правительства США — Healthcare.gov (направлен на оптимизацию оформления медстраховки), затраты на разработку которого составили 2,1 миллиарда долларов (вместо первоначального бюджета в 93,7 млн.долл.)
  • Оказалось, что его аналог HealthSherpa (он даже гораздо лучше) создали как стартап независимых разработчиков менее чем за 1 млн. долл.
  • В итоге в Healthcare.gov были заимствованы многие элементы дизайна из HealthSherpa вместе с разработчиками.

Мы понимаем, что на создании, внедрении и интеграции приложений зарабатываются огромные деньги, и именно это поддерживает ориентацию на приложения. Команды разработчиков отвергают решения, которые работали в от 10 до 100 раз лучше с меньшим количеством кода и меньшими ресурсами, и все это из-за догмы ориентации на приложения.

— Из Манифеста дата-центричности

Решение интеграционных проблем

Любой корпоративный ИТ-ландшафт состоит из множества приложений, большинство из которых имеет собственные базы данных.

В этих базах хранятся информационные объекты, представляющие бизнес-объекты, события и фазы бизнес-процессов.

Многие объекты бизнес-процессов записаны (отражены) в нескольких базах данных и часто с разными именами, ID и описаниями. Например, насос высокого давления будет по разному записан в системе бухучета, в проектной документации, в реестре управления ремонтами и обслуживанием, в складской программе, в программе управления производством и др.

Чтобы бизнес-приложения, автоматизирующие разные бизнес-процессы, могли как-то работать вместе, их необходимо интегрировать. Для этого запускаются проекты по созданию единого источника правды: внедряются системы управления мастер-данным MDM (Master Data Management) и корпоративная сервисная шина ESB (Enterprise Service Bus), позволяющие хоть как-то управлять обменом информацией между множеством разно-платформенных решений. Хорошо известно, что это очень дорогие и сложные проекты с непредсказуемым результатом.

Как можно решить такие проблемы в дата-центричном подходе?

Представьте, что у вас в компании существует единое виртуальное хранилище данных, в котором каждый объект или событие существует в единственном экземпляре, и ваше хранилище мастер-данных MDM является хранилищем всех корпоративных данных. А вот все бизнес-приложения (CRM, Склад, Сайт) не имеют собственных СУБД и работают только с объектами данных из MDM.

Преимущества такой архитектуры очевидны:

  • сложность интеграционных процедур резко снижается и сводится к процессу интеграции API;
  • вы избавляетесь от множества копий и дублирования ваших бизнес-объектов в разных системах и СУБД, поэтому снижаются затраты на хранение данных;
  • общая картина по всем аналитическим метрикам видна сразу, и больше не нужно месяцами добывать и склеивать данные из разных систем, они уже есть «из коробки»;
  • качество данных резко повышается за счет избавления от дублей, неполных и не актуальных данных о бизнес-объектов, что сразу повысит качество ваших выводов о реальности бизнеса, а значит и ваших решений;
  • вы получите доступ к специализированным и самым лучшим приложениям на рынке в данный момент, а не тогда, когда это может быть сделают ваши разработчики. И все потому, что процесс замены одних бизнес-приложений на другие станет легким и бесшовным, потому что все они работают с одними и теми же данными.

Реализацию такого решения можно обеспечить, если думать о корпоративной платформе управления данными как о логической витрине данных, которая извлекает информацию о нужных по запросу объектах из любых хранилищ, в том числе баз данных и сервисов унаследованных бизнес-приложений.

Вам как пользователю платформы будет безразлично, где находятся нужные данные — в одном из множества хранилищ, спрятанных внутри платформы, или в СУБД какого-либо бизнес-приложения. Нужный объект данных будет собран платформой в момент выполнения запроса из нескольких источников.

На первом этапе ваша платформа-витрина данных способна предоставить «прозрачный» доступ ко всем данным из существующих корпоративных систем, а затем постепенно перемещать эти данные в виртуальное корпоративное облако. Так будет обеспечен плавный переход к дата-центрической архитектуре, и уже на первом этапе у вас появится возможность получить результаты, экономию и возможность создавать новые, дата-центрические приложения.

Отличие дата-центричного подхода от обычных подходов к управлению данными

Дата-центричный подход имеет принципиально иную методологию построения структур данных, чем «обычные» корпоративные облака данных (corporate data cloud) или озера данных (data lake).

Обычный data lake часто представляет собой коллекцию наборов данных, созданных кем-то для решения конкретных задач и заведомо содержащих копию уже существующей где-то информации.

Для дата-центрической архитектуры принципиально соблюдение принципа «один объект в реальном мире — один объект данных».

Задача описания структуры всей информации, с которой работает предприятие, может показаться настолько сложной, что никто и не думает ее решать; вместо этого создается множество структур данных под конкретные бизнес-задачи, что влечет сложности в управлении и масштабировании этой структуры при любом изменении.

Для решения таких задач сегодня используют более подходящие для этого технологии, когда описание структуры корпоративной информации проводят с помощью онтологий.

Особенностью такого подхода является технологическая однородность самих данных и описания их структуры:

  • Отсутствует разрыв между данными и описанием их структуры (их иногда называют метаданными), привычный в реляционном мире;
  • Есть возможность управлять данными и их структурой с помощью одних и тех же инструментов;
  • Обеспечивается нужный уровень гибкости и независимости от разработчика, необходимый в обычном случае для создания и поддержки моделей данных, включающих десятки тысяч типов сущностей и свойств.
  • Существует множество разработанных сообществом и утвержденных стандартами паттернов и методик онтологического моделирования, использование онтологий верхнего уровня, переиспользование и расширение стандартных онтологий.

Когда вся корпоративная информация становится структурированной и логически связной, она приобретает свойства корпоративного графа знаний, который откроет организации новый уровень аналитических возможностей и позволит капитализировать знания, превратив их из ресурса в актив при многократном повторном использовании.

Свойства платформы дата-центричной архитектуры

Платформы могут и должны:

  • Хранить и актуализировать статусы-состояния любого объекта данных на любой момент времени. Объекты данных — это 4D описания всех состояний объекта на протяжении всего времени жизни объекта в определенном пространстве.
  • Хранить всю историю модели (структуры) данных. Мир и реальность бизнеса постоянно меняется, поэтому модель (структура) данных должна изменяться, чтобы оставаться адекватной (релевантной) изменившемся представлениям о мире. Платформа представит объекты данных в соответствии с любой версией структуры. Структура должна формально описывать смысл каждого элемента данных.
  • Поддерживать множество API для работы с данными, включая REST, GraphQL, SPARQL.
  • Предоставлять возможности обнаружения и поиска данных.
  • Иметь развитые инструменты управления доступом к данным и защиты конфиденциальной информации.
  • Поддерживать инструменты прослеживания происхождения данных (data provenance), контроля их качества (data quality), описания степени доверия к данным.
  • Описанные с использованием онтологических моделей данные будут машиночитаемыми, что открывает потрясающие возможности в использовании ИИ для создания новых цифровых сервисов и продуктов.
  • В онтологической модели можно описать в машинно-читаемой и автоматически исполняемой форме не только структуру данных, но и алгоритмы их обработки — правила контроля целостности, арифметических вычислений, дополнения информации (спецификации SHACL и SHACL Advanced Functions).

Это позволяет по-новому взглянуть и на принцип low code: если в единой корпоративной платформе управления данными хранятся не только данные и описание их структуры, но и машинно-читаемое описание алгоритмов обработки данных, то новые бизнес-приложения, ориентированные на использование таких описаний, станут еще гибче и смогут изменять свое поведение «на лету» без вмешательства не только в код, но и в настройки приложений.

Платформы, отвечающие таким требованиям, уже существуют и применяются не только за рубежом, но и на российском рынке.

Например, платформа АрхиГраф и OSAwl предоставляет весь необходимый инструментарий и обладает всеми характеристиками, необходимыми для построения дата-центричной ИТ-архитектуры в вашей организации. Создание такой архитектуры может стать секретным ингредиентом, решающим шагом на пути цифровой трансформации предприятия, перехода к управлению, основанному на данных.

Вы дочитали статью до конца, видимо вас так же интересует эта тема. Пожалуйста, поставьте оценку пользы для вас этого материала.
Если у вас есть свои идеи по теме, напишите в комментариях — мы с радостью возьмем на вооружение и улучшим этот материал с пользой для других читателей.

Оцените автора
Онтограф
Добавить комментарий

  1. Книппер

    Датацентричность… Это сплошная экономия)

    Ответить
    1. Онтограф автор

      Датацентричность — это экономия в чистом виде и сейчас это мейнстрим в информационной архитектуре, потому что позволяет избежать огромных затрат на последующих интеграциях.

      Ответить