Ландшафт корпоративных данных фрагментирован. Согласно отчету Flexera о состоянии облачных вычислений за 2022 год, 89 процентов респондентов придерживаются мультиоблачной стратегии, а 80 процентов используют гибридный облачный подход. Организации имеют данные, хранящиеся в общедоступных и частных облаках, а также в различных локальных хранилищах данных.
Эти смешанные среды привели к сложностям управления разрозненными данными и бизнес-процессами. Gartner утверждает, что решение этой проблемы существует и оно называется ткань данных data fabric. Его внедрение позволит компаниям получить расширенное, гибкое и многократно используемое управление данными во всех средах с помощью технологии машинного обучения и искусственного интеллекта.
Gartner представил эту технологию как одну из главных стратегических технологических трендов на 2022 год и ожидает, что к 2024 году внедрение data fabric повысит эффективность использования данных при одновременном сокращении вдвое задач управления данными, управляемых человеком.
Ниже рассмотрим идею, которая лежит в основе структуры данных, ее строительные блоки, преимущества и подхода к ее использованию в практике компаний.
- Что такое ткань данных?
- Ключевые характеристики Data fabric
- Ткань данных, сеть данных, виртуализация данных, озеро данных
- Ткань данных против сети данных
- Ткань данных против виртуализации данных
- Ткань данных против озера данных
- Стандартные блоки архитектуры фабрики данных
- Данные и метаданные
- Каталог данных
- Граф знаний
- Активация метаданных
- Система рекомендаций
- Доставка данных
- Оркестрация и DataOps
- Как подойти к реализации ткани данных
Что такое ткань данных?
Data Fabric — это система на уровне всей вашей организации, где всё подчиненно данным и выводам на их основе. Иногда Data Fabric переводят как «фабрику данных», но этот термин никакого отношения к производству не имеет.
Это ткань данных, целостная архитектура управления информацией упорядочивает данные там, где они находятся, обеспечивают полный и гибкий доступ для ее использования всеми заинтересованными лицами:
- в любом процессе преобразования информации используется машинное обучение: от поиска и анализа данных до оптимизации обработки данных;
- все потребители, приложения и источники данных интегрированы друг с другом через API.
- вместо единой информационной системы от одного поставщика (например SAP, Oracle, 1С) используется микро-сервисная архитектура многочисленных поставщиков;
- ИТ-инфраструктура располагается в корпоративном облаке, информационные потоки оркестрируются, а качество информации контролируется семантическими и онтологическими моделями, графами знаний;
- к данным легко получить доступ и обеспечивается безопасность этого доступа для каждой из групп пользователей.
Data fabric (ткань данных) — это не единая программная среда, которая устанавливается в компании. Это общий подход к проектированию, который использует принципы виртуализации данных с активным использованием искусственного интеллекта (ИИ) и машинного обучения (ML).
В результате внедрения такого подхода все ваши данные превращаются в постоянно используемый актив, который самостоятельно используется различным потребителям, включая бизнес-пользователей, аналитиков, специалистов по обработке данных и т.д.
Ключевые характеристики Data fabric
- Единый доступ к данным. Любая ткань данных создает единую точку доступа к нескольким исходным системам компании через набор готовых коннекторов и компонентов. Так решается проблему хранилища данных, когда информация хранится в разных местах, к которым имеют доступ только определенные пользователи.
- Самостоятельное потребление данных и совместная работа. Ткань данных быстро направляет данные тем, кто в них нуждается. Функция самообслуживания позволяет всей организации быстрее находить нужные данные и получать ценную информацию.
- Поддержка различных типов данных и вариантов использования. Data fabric поддерживает структурированные, неструктурированные и частично структурированные данные независимо от того, поступают ли они в режиме реального времени или генерируются пакетами. Он также опирается на метаданные, которые использует для распознавания шаблонов, сопоставления данных и выполнения непрерывного анализа.
- Использование искусственного интеллекта и машинного обучения. Ткань данных выбирает возможности машинного обучения в своем модуле механизма рекомендаций, чтобы улучшить поиск релевантных данных для пользователей, предоставляя рекомендации. Кроме того, машинное обучение помогает организациям систематически обнаруживать закономерности между элементами данных в каталоге данных, автоматизировать процесс сопоставления существующих бизнес-терминов с новыми входными данными и устанавливать связи между данными, которые в противном случае могли бы быть упущены.
- Консолидированная защита данных. Data fabric обеспечивает встроенное качество данных, гарантирует целостность данных, обеспечивает соблюдение политик данных и предлагает высокий уровень защиты данных и соответствия требованиям на основе машинного обучения.
- Совместимость с различными средами развертывания. Ткань данных управляет несколькими средами, включая локальные, облачные, мультиоблачные, гибридные облачные или пограничные платформы, как в качестве источников данных, так и в качестве потребителей данных.
- Устойчивость инфраструктуры. Data fabric отделяет управление данными от конкретных технологий и помещает его в единую выделенную среду. Такая система более устойчива при добавлении новых технологий или источников данных.
- Поддержка API. Data fabric позволяет обмениваться данными с внутренними и внешними пользователями через API .
Из-за существования различных платформ и подходов, используемых для хранения и обработки данных, легко спутать некоторые термины с Data fabric, поскольку они могут иметь схожие идеи.
Ткань данных, сеть данных, виртуализация данных, озеро данных
Концепции сети данных и виртуализации данных иногда ошибочно принимают за Data fabric и наоборот. В чем разница?
Ткань данных против сети данных
В целом Data Mesh (сеть данных) больше связана с организационными и культурными принципами создания распределенной архитектуры, ориентированной на предметную область, которая рассматривает данные как продукт. С другой стороны, ткань данных больше связана с технологией, которая может помочь создать уровень интеграции с доступом ко всем данным компании.
Кроме того, подход Data Fabric оставляет в организации централизованную команду, которая отвечает за все данные, а Data Mesh подразумевает распределенное владение данными — каждая команда имеет свои собственные продукты данных, и они несут ответственность за их распространение среди других команд.
Ткань данных против виртуализации данных
Здесь все становится немного сложнее, поскольку виртуализация данных является одной из фундаментальных частей архитектуры фабрики данных. Таким образом, эти понятия не дополняют друг друга.
Идея виртуализации данных заключается в том, что данные физически не перемещаются из различных локальных и облачных источников с использованием стандартных процессов ETL (извлечение, преобразование, загрузка).
Вместо этого существует виртуальный (логический) уровень, который подключается ко всем источникам и создает единое представление данных независимо от их местоположения и исходного формата. В результате конечные пользователи могут использовать информацию, собранную из многочисленных систем, в виде отчетов, информационных панелей и других удобных представлений.
Фабрика данных использует подход к виртуализации данных, но выводит его на совершенно новый уровень, добавляя к нему каталоги данных с поддержкой машинного обучения, графы знаний и системы рекомендаций.
Ткань данных против озера данных
Между понятиями ткани данных и озера данных различие простое.
Озера данных — это центральные репозитории, которые могут принимать и хранить огромные объемы как структурированных, так и неструктурированных данных, как правило, для будущего анализа, обработки больших данных и машинного обучения.
Ткань данных, наоборот, не хранит данные. Это уровень интеграции метаданных, который можно построить поверх озера данных или архитектурного ансамбля, включающего его.
Проблема с озерами данных заключается в том, что там может быть сложно найти определенную информацию. Чем больше данных туда помещается, тем выше вероятность того, что озеро данных превратится в болото данных.
Ткань данных позволяет справляться с технологическими сложностями, связанными с перемещением, преобразованием и интеграцией данных, создавая единое представление всех данных на вашем предприятии. Это также помогает развертывать и масштабировать новые приложения и службы, сохраняя при этом требования безопасности.
Стандартные блоки архитектуры фабрики данных
Поскольку фабрика данных — это концепция проектирования с довольно абстрактным характером, понимание того, как она работает, может оказаться сложной задачей. Чтобы облегчить эту задачу, мы предлагаем вам ознакомиться с основными строительными блоками типичной архитектуры фабрики данных.
Данные и метаданные
Сердцем и душой всей архитектуры являются данные, которые поступают во всех формах и размерах и живут во многих разрозненных системах. Но что отличает концепцию ткани данных от других вариантов, так это использование метаданных или сведения о данных, которые обеспечивают сортировку и идентификацию атрибутов в каждом элементе данных (файл, изображение, схема, процесс), которую он описывает.
Основные метаданные могут быть структурными, описательными и административными.
- Структурные метаданные описывают отношения между различными частями исходных данных, такими как номера страниц или контекстные таблицы в книге.
- Описательные метаданные включают такие элементы, как название, автор и темы, и позволяют обнаруживать, идентифицировать и выбирать ресурсы.
- Административные метаданные включают технические элементы, версии, права и использование для облегчения управления системами.
Каталог данных
Отправной точкой в проектировании любой структуры данных является каталог данных, который упорядочивает данные путем профилирования, маркировки, классификации и сопоставления их с бизнес-терминами (таксономиями) в вашей компании, чтобы конечные пользователи могли легко найти то, что им нужно.
Эффективные каталоги данных должны
- развертываться в масштабе,
- охватывать все источники данных, в которых хранятся конфиденциальные и личные данные,
- автоматически заполняться нужными данными
- распространять теги бизнес-терминов
- иметь возможность предоставлять контекст, необходимый для управления данными с учетом конфиденциальности.
Поскольку метаданные во многом помогают обеспечить автоматизацию, каталог данных является обязательной частью фабрики данных.
Возможно, у вас уже есть каталог данных с ключевыми бизнес-терминами и их взаимосвязями. Но должно быть автоматизированное обнаружение и прием метаданных. При подключении нового источника данных к вашему каталогу данных алгоритмы ИИ должны иметь возможность повторно использовать знания существующих источников данных для вывода метаданных о новом источнике. Например, они должны автоматически сопоставлять новые информационные атрибуты с существующими бизнес-определениями, с которыми пользователи уже знакомы.
Включение классификаторов машинного обучения помогает организациям систематически обнаруживать связи между элементами данных, автоматизировать процесс связывания метаданных с элементами данных для таких действий, как защита конфиденциальности и оценка качества данных, а также устанавливать связи между данными, которые в противном случае могли бы быть упущены.
Граф знаний
Граф знаний — это семантическая сеть, которая также собирает метаданные — описания сущностей реального мира (объектов, событий, ситуаций или концепций) и иллюстрирует взаимосвязь между ними. Описания, предоставляемые графом знаний, имеют формальную семантику, которая позволяет как людям, так и компьютерам (например, механизму рекомендаций) обрабатывать их эффективно и однозначно. Информация обычно хранится в базе данных графа и визуализируется в виде структуры графа, отсюда и название.
И каталог данных, и граф знаний объединяют и хранят основные метаданные (схемы, типы данных, модели и т. д.), которые необходимо активировать.
Активация метаданных
Метаданные могут быть пассивными и активными.
- Пассивные (статические) метаданные охватывают некоторую базовую техническую информацию, такую как типы данных, схемы, модели и т. д. Их можно рассматривать как способ сбора и хранения метаданных в их обычном смысле в каталоге статических данных, который не фиксирует, как эти активы метаданных были изменены или использованы.
- Активные (динамические) метаданные более сложны, поскольку они связывают операционные, деловые и социальные метаданные с базовой технической информацией. В отличие от статического характера пассивных метаданных, активный тип может фиксировать изменения в метаданных. Это означает, что для каждого актива, такого как столбец таблицы или информационная панель, включается дополнительная информация — например, кто его использовал, когда и как часто.
Затем эта информация передается всем инструментам в пуле фабрик данных, чтобы, когда пользователь обращается к данным таблицы, он мог видеть расширенные метаданные этой таблицы.
Переход от ручных (пассивных) метаданных к автоматическим (активным) метаданным необходим для обработки данных и непрерывного анализа в больших масштабах, а также для более продвинутого управления данными и безопасности.
Система рекомендаций
Поддерживаемый алгоритмами машинного обучения механизм рекомендаций является еще одним важным компонентом, который делает фабрику данных такой привлекательной структурой данных. Он анализирует все метаданные (активные метаданные, технические метаданные, метаданные каталога и т. д.), чтобы вывести дополнительные метаданные или дать рекомендации по обработке ваших данных.
Механизм рекомендаций:
- оптимизирует доставку, включая предложения о том, как следует преобразовать данные перед доставкой;
- интерпретирует метаданные — находит новые отношения в данных, выполняет классификацию данных и применяет правила качества данных; и
- обнаруживает аномалии в структуре данных и доставке, чтобы пользователи знали, когда что-то пойдет не так.
Чтобы определить шаблоны, отношения и аномалии в данных, вы можете выбрать классификацию машинного обучения и алгоритмы кластеризации для анализа существующих и новых данных.
Доставка данных
Подход с использованием структуры данных позволяет пользователям и системам использовать данные и метаданные. Пользователи могут находить активы данных в каталоге данных и преобразовывать (подготавливать) данные в режиме самообслуживания. Программные приложения могут обмениваться данными через API.
Благодаря метаданным в графе знаний и предложениям по доставке от механизма рекомендаций структура данных понимает структуру данных и различные намерения потребителей данных. Таким образом, он может предлагать различные типы подготовки или доставки данных. Например, он может предоставить денормализованные данные для отчета, но сделать их одинаковыми для всех записей и полей для хранилища данных.
Оркестрация и DataOps
Этот критический уровень выполняет некоторые из наиболее важных задач для структуры данных — преобразование, интеграцию и очистку данных, близких к источникам данных, что делает их пригодными для использования разными командами по всей компании. Чтобы предоставлять высококачественные продукты данных как можно быстрее, подход к фабрике данных следует за DataOps — относительно новой методологией, которая связывает воедино проектирование данных, анализ данных и принципы DevOps .
Общий процесс управления данными и обеспечения безопасности централизован и согласован во всей структуре и во всех средах.
Как подойти к реализации ткани данных
При планировании структуры ткани данных помните, что единого инструмента для реализации фабрики данных не существует. Он состоит из нескольких технических компонентов, уровень зрелости которых различается в каждой организации. В зависимости от ваших целей и бюджета, потребности вашей компании могут существенно отличаться от потребностей других организаций. Поэтому дизайн структуры данных должен быть адаптирован к вашим конкретным потребностям и задачам.
Прежде чем приступить к реализации инициативы по созданию структуры данных, важно наметить стратегию реализации. Вот несколько рекомендаций, которые могут пригодиться, когда вы начнете проектировать структуру данных.
- Оцените свои возможности. Сравните свой существующий стек управления данными с технологическими столпами структуры данных. Как только вы узнаете свой уровень зрелости в каждом компоненте, вы сможете соответствующим образом спланировать свой дизайн и выбрать технологического партнера, который наилучшим образом соответствует вашим техническим потребностям.
- Определитесь с источниками данных и метаданных. Выполните «обнаружение метаданных», чтобы определить шаблоны и ассоциации между пользователями, данными, местоположениями, переходами и счетчиками использования. Понимание этих шаблонов поможет вам заложить основу для внедрения структуры структуры данных.
- Начните с малого. Начните с базового пути вашей структуры данных, охватывая известные данные и варианты использования, а также технические компоненты. Позже вы можете перейти к более продвинутому пути, расширяя структуру инфраструктуры управления данными и доставку данных.
Концепция data fabric данных все еще находится в стадии разработки, поэтому может возникнуть много путаницы и предположений относительно того, что это такое и как его реализовать. Некоторые люди думают о фабрике данных как о еще одном модном слове, а не о зрелом технологическом решении. Так что окончательное решение о том, стоит ли оно вашего внимания, остается за вами.