Когда-то в городских библиотеках для подбора книг использовали картотеку в виде большого шкафа с маленькими ящичками, где в строгом порядке хранились тысячи бумажных карточек. Каждая карточка содержала важную информацию об одной книге, чтобы ее можно было быстро идентифицировать и найти для читателя. В карточку заносили такие данные, как: название, имя автора, дату создания, тему или категорию, номер классификатора.
Это пример использования метаданных задолго до появления компьютеров. Примерно так же маркировали и классифицировали объекты в любой научной области: археологические находки, химические образцы или виды природного мира в биологии. Еще пример — информация о питательных свойствах на упаковке пищевых продуктов: там перечислены характеристики состава продукта и его количество.
Все эти примеры говорят нам о том, что определенные метки (атрибуты) помогали людям описывать и классифицировать вещи в разных сферах жизни с самого начала письменности. Сейчас это называется метаданными.
- Что такое метаданные?
- Примеры метаданных
- Типы метаданных
- Что такое управление метаданными?
- Основные процессы управления метаданными
- Создание политики метаданных
- Политика методанных описывает
- Выбор схемы метаданных и стандарта метаданных
- Обнаружение и захват метаданных
- Создание метаданных
- Обеспечение качества метаданных
- Хранение метаданных
- Форма хранения метаданных
- Места хранения метаданных
- Каталогизация данных
- Инструменты управления метаданными
- Список общих функций решений для управления метаданными
- Оптимальные способы управления метаданными
- Управление рисками и соблюдение требований
- Управление данными
- Анализ данных
- Лучшие практики управления метаданными
- Разработайте стратегию метаданных
- Создайте команду для управления метаданными
- Выберите стандарты и ПО
- Внедрение ПО
- Поддерживайте согласованность всей компании
- Используйте конкретные метаданные
- Создайте каталог метаданных
Что такое метаданные?
Метаданные — это информация, которая описывает другие данные, что помогает понять происхождение, структуру, природу и контекст данных.
В результате появляется возможность легко оперировать этими данными — классифицировать, упорядочивать, извлекать информацию.
Примеры метаданных
Метаданные документа:
- автор,
- размер файла,
- дата создания и
- дата изменения.
Метаданные трека:
- исполнитель,
- альбом,
- длительность трека,
- скорость передачи данных
Метаданные изображения:
- разрешение,
- измерения,
- фокусное расстояние,
- цветовой профиль
Метаданные веб-страниц часто представлены в виде мета-тегов (например, элементов <Title> (Название) и <description> Описание), которые описывают их содержимое и связанные ключевые слова.
Они важны для целей SEO, потому что поисковые системы используют их, чтобы «понять», о чем эта страница, как она должна отображаться и ранжироваться в результатах поиска. Кроме того, они должны привлекать пользователей к посещению веб-сайта, поэтому это мощный маркетинговый инструмент.
В науке о данных метаданные являются одним из центральных аспектов: они описывают данные (включая неструктурированные потоки данных), загружаемые в аналитическую платформу больших данных, включая, например, форматы, размеры файлов, источник информации, сведения о разрешениях и т.д.
Типы метаданных
Существует несколько способов категоризации метаданных. Три основных группы метаданных:
- Описательные метаданные включают атрибуты, которые помогают идентифицировать и находить информацию, например, название, автора, аннотацию и ключевые слова.
- Структурные метаданные описывают, как организованы составные объекты, например, как упорядочены страницы для формирования глав. Он также документирует взаимосвязь между активами.
- Административные метаданные помогают управлять цифровыми объектами и включают информацию о типе, формате, разрешениях доступа, а также о том, когда и как они были созданы.
Конечно, существует гораздо больше типов метаданных, различаемых по различным критериям, пусть это будет темой другой нашей статьи.
Что такое управление метаданными?
Управление метаданными — это набор действий, технологий и политик, направленных на сбор, хранение и организацию метаданных.
Его цель — сделать активы данных понятными и доступными для пользователей. В библиотеке управление метаданными будет включать создание каталога книг и описание руководства пользователя, чтобы направлять посетителей библиотеки между полками и стеллажами с книгами.
Управление метаданными является частью процесса управления данными, который, в свою очередь, является элементом общей стратегии управления данными.
Например, платформы управления данными типа DataOps, в значительной степени полагаются на эффективный сбор метаданных и управление ими для упорядочения хаотичных потоков данных. Подход к проектированию архитектуры Data Fabric также основан на метаданных как одном из основных строительных блоков.
Основные процессы управления метаданными
- Создание политики метаданных определяет критерии и цели управления процессом.
- Выбор стандарта метаданных / схемы позволяет обеспечить единообразие ваших метаданных.
- Обнаружение и захват метаданных относится к извлечению метаданных из ваших активов данных.
- Создание метаданных, тегирование или обогащение добавляет недостающие метаданные к цифровым активам.
- Обеспечение качества метаданных — это проверка соответствия метаданных требованиям к качеству.
- Хранение метаданных подразумевает разработку специализированного хранилища.
- Каталогизация метаданных — это организация метаданных в виде списка с возможностью поиска.
Эффективное управление метаданными обеспечивает целостность, согласованность, надежность и соответствие данных. Что еще более важно, это облегчает взаимодействие потребителей данных с информацией.
Ваши сотрудники всегда будут знать, какие данные есть у компании, где они находятся и как их найти и многократно использовать, чтобы извлечь максимальную выгоду для бизнеса из цифровых активов и повысить капитализацию ваших знаний как актива.
В настоящее время растёт популярность концепции активного управления метаданными. Можно выделить пассивные и активные метаданные:
- Пассивные (статические) метаданные относятся к базовым техническим характеристикам продуктов и каталогам.
- Активные (динамические) метаданные включают поведенческие или социальные атрибуты, которые отражают их изменение с течением времени (например, логирование — кто взаимодействовал с данными и как они были изменены).
Активное управление метаданными подразумевает сбор метаданных в реальном времени, поддержание актуального каталога данных и создание точной цепочки данных. Во многих случаях это включает применение искусственного интеллекта для улучшения процессов управления, составления рекомендаций по метаданным и пометки недействительных или отсутствующих данных.
Создание политики метаданных
Политика метаданных — это документ для руководства всеми действиями по управлению метаданными и определения ключевых принципов работы с данными.
Политика методанных описывает
- основные понятия и определения,
- основные процедуры управления метаданными,
- случаи нарушения политики и последствия,
- таксономии,
- роли и обязанности персонала
- схемы метаданных и / или стандарты домена.
Схема метаданных имеет решающее значение для эффективного управления метаданными, рассмотрим ее подробнее.
Выбор схемы метаданных и стандарта метаданных
Схема метаданных — это представление общей структуры метаданных, которая включает список и синтаксис атрибутов, отражающих информацию о цифровом активе.
Некоторые схемы были разработаны национальными и международными сообществами и приняты для более широкого использования. В этом случае они становятся стандартами.
Стандарт метаданных — это требование, которое определяет общее понимание элементов данных, описывающих информацию, и правил использования этих элементов.
Стандарты метаданных подразумевают согласование языка, правописания, форматов и других характеристик. Такое единообразное использование обеспечивает интероперабельность и интеграцию между разрозненными системами.
Существуют общие стандарты метаданных, такие как Дублинский базовый набор элементов метаданных или схема описания объектов метаданных на основе XML, которые изначально были разработаны для библиотечных каталогов.
Такие стандарты обычно включают основные элементы, которые могут описывать практически любые данные. В результате они просты в использовании, но в них отсутствуют элементы, характерные для разных дисциплин.
Предметные или предметно-ориентированные стандарты метаданных отвечают уникальным требованиям определенных отраслей, областей и дисциплин. Например, стандарт ISO 19115 предназначен для геопространственного сообщества, в то время как Darwin Core хорошо подходит для описания информации о биологических образцах.
Сравним 2 группы стандартов:
- ядро Dublin Core включает 15 элементов (название, язык, создатель, формат и т. д.),
- ядро Darwin Core включает 169 терминов (научное название, королевство, местность, возникновение и т. д.).
При управлении метаданными вы можете оценить, какие стандарты лучше всего подходят для ваших вариантов использования и остановиться на наиболее подходящем.
Обнаружение и захват метаданных
Метаданные появляются всякий раз, когда документ, файл или другой цифровой информационный ресурс создается, изменяется или даже удаляется. Некоторые метаданные генерируются автоматически (иногда с помощью специализированных инструментов обработки данных), в то время как другие записи должны выполняться вручную.
Захват или извлечение метаданных — это сбор метаданных по всему ландшафту ваших активов, включая внутренние и внешние источники данных, такие как бизнес-приложения, базы данных, хранилища данных, озера данных, инструменты BI, веб-страницы и т.д.
Создание метаданных
Иногда захваченные метаданные являются неполными или имеют некоторые отсутствующие или недопустимые атрибуты. Вы можете обнаружить, что этого недостаточно для ваших аналитических потребностей. Или вы можете добавить определенные теги или ключевые слова в свои ресурсы данных для облегчения поиска (особенно для бизнес-пользователей). В этом случае вы создаете дополнительные метаданные (вручную или автоматически) и привязываете их к своим цифровым ресурсам.
Обеспечение качества метаданных
При работе с метаданными вы должны убедиться, что они соответствуют ряду требований, которые характеризуют их качество.
- Точность включает проверку достоверности и точности записанных метаданных.
- Полнота означает, что все возможные атрибуты метаданных должны быть записаны.
- Совместимость заключается в выборе стандартов метаданных, чтобы сделать ваши данные сопоставимыми и интегрируемыми в разных системах.
- Согласованность связана с соблюдением выбранных схем или стандартов метаданных во всех наборах данных.
Для обеспечения качества метаданных, а также правильного применения политик метаданных и надлежащего соответствия требованиям и стандартам, ваши контролеры данных должны регулярно проводить аудит метаданных.
Когда вы выбрали схему метаданных или стандарт, создали или записали метаданные и обеспечили их качество, нужно подумать о том, где и как их хранить.
Хранение метаданных
Форма хранения метаданных
- Удобный для чтения или текстовый формат (например, XML) понятен людям и алгоритмам.
- Двоичная форма не может быть прочитана человеком, но она требует меньше места и скорости обработки.
Места хранения метаданных
Метаданные могут храниться внутри цифрового объекта будучи встроеным в него (например, в HTML-документы или заголовки файлов изображений). В этом случае метаданные изменяются всякий раз, когда изменяется цифровой объект, и перемещаются вместе с ним, если он перемещается.
Метаданные могут храниться вне цифрового объекта, в отдельном файле со ссылкой на исходный ресурс. Обычно такие файлы хранятся в системе баз данных — хранилищах метаданных. Метаданные, собранные в одном месте, облегчают управление и поиск информации. Недостатком этого подхода является то, что если ссылочная ссылка создана неправильно, всякий раз, когда исходный ресурс данных перемещается или изменяется, метаданные не обновляются и, следовательно, больше не актуальны.
Каталогизация данных
Каталогизация данных — это создание полной, подробной, организованной инвентаризации ваших цифровых активов путем сбора и упорядочивания описаний метаданных.
Такие каталоги необходимы, чтобы помочь пользователям информационных систем искать и извлекать данные, поскольку они связывают бизнес-контекст с фактическими данными и их местоположением.
Каталогизация данных часто связана с двумя другими важными процессами управления данными: профилированием данных и построением данных.
Профилирование данных — это анализ исходных цифровых активов на предмет содержания, структуры, качества и взаимосвязей. Это включает в себя организацию метаданных в удобно-читаемых таблицах или панелях мониторинга для обобщения и удобного просмотра всех характеристик набора данных.
Затем метаданные можно проанализировать, чтобы определить, насколько хорошо структурированы ваши данные, есть ли какие-либо отсутствующие или недопустимые элементы или как они связаны с другими данными. Например, такой анализ может обнаружить, что не все обязательные поля содержат данные или что некоторые записи имеют неправильный формат.
Происхождение данных предполагает использование технических метаданных для отслеживания эволюции и перемещения данных в организации. Это помогает понять жизненный цикл данных, обеспечивает полную видимость использования данных и позволяет отслеживать (например, ошибки вплоть до основной причины).
С метаданными можно выполнять множество различных действий, но выполнять их вручную неэффективно. Существуют специализированные инструменты, которые автоматизируют управление метаданными.
Инструменты управления метаданными
Инструменты управления метаданными (также называемые системами управления метаданными предприятия или EMM) — это программные решения, которые помогают собирать метаданные и управлять ими. Обычно они поставляются в виде модулей управления данными, управления цифровыми активами или платформ управления данными.
Список общих функций решений для управления метаданными
Обнаружение и сбор метаданных относится к автоматическому сбору метаданных (включая технические, деловые и пользовательские метаданные) из нескольких источников.
Разметка метаданных — это процесс присвоения метаданных цифровым активам. ПО автоматически генерируют метатеги и преобразуют метаданные в соответствии с выбранной схемой / стандартом. Например, приложения компьютерного зрения помогают анализировать содержимое изображений и могут точно генерировать мета-описания.
Мониторинг ключевых показателей качества данных помогает обеспечить качество данных путем отслеживания основных показателей.
Хранилище метаданных — это универсальное хранилище ваших агрегированных метаданных. Часто поставляется в виде metadata lake (озера метаданных), который может хранить все виды метаданных и позволяет выполнять дальнейшие действия по обнаружению и управлению.
Каталог данных помогает пользователям извлекать данные. Надежные решения для каталогизации данных предоставляют инструменты для профилирования и обогащения метаданных (с помощью тегов, аннотаций или любого другого контекста). Для создания полного цифрового каталога крайне важно подключить ПО для каталогизации данных ко всем вашим информационным ресурсам. Кроме того, каталог данных должен иметь расширенные возможности поиска, включая поддержку запросов на естественном языке для пользователей данных, не связанных с ИТ.
Каталоги данных часто поставляются в виде отдельных модулей, дополненных возможностями искусственного интеллекта, чтобы они не только упорядочивали информацию, но и предоставляли рекомендации и строили графики знаний метаданных для облегчения взаимодействия пользователя с данными.
Таксономии — это список цифровых активов с соответствующим бизнес-контекстом, определениями и взаимосвязями между разрозненными наборами данных.
Происхождение данных (Data lineage) часто реализуется как отдельный инструмент, который регистрирует преобразование данных с течением времени, предоставляя сквозную карту перемещения данных и любые изменения, которые произошли из-за взаимодействия пользователя с цифровым активом.
Профилирование данных — это автоматическое создание профилей метаданных, которые помогают понять структуру данных, контент и его связь с другими цифровыми активами.
Анализ воздействия помогает определить потенциальные последствия взаимодействия с вашими метаданными. В нем показано, как изменение определенных активов повлияет на другие данные, и, таким образом, определяется взаимозависимость цифровых активов.
Сотрудничество с метаданными предполагает наличие каналов связи и совместного использования для поддержки взаимодействия между различными отделами или командами. Совместные процессы могут включать рабочие процессы, управление, контроль версий и журналы аудита.
Для управления метаданными можно использовать различные программные средства. Возможно, вам захочется внедрить комплексную платформу для управления всем процессом управления данными или внедрить специализированный модуль для охвата одного или нескольких рабочих процессов (например, каталогизации данных). Мы рассмотрим несколько популярных вариантов, на которые вы можете обратить внимание, чтобы получить представление о том, что есть на рынке, сравнить функциональность и, возможно, решить, что лучше всего подходит для вашей компании.
Оптимальные способы управления метаданными
Существует несколько основных вариантов управления метаданными, которые являются общими для организаций, ориентированных на данные.
Управление рисками и соблюдение требований
Всякий раз, когда компании имеют дело с личными или конфиденциальными данными, они должны обеспечивать безопасность данных и соблюдать множество нормативных актов. Управление метаданными необходимо для идентификации конфиденциальных данных, регулирования доступа пользователей, аудита соблюдения требований и т.д.
Управление данными
Управление метаданными является важнейшим элементом управления данными, который контролирует весь жизненный цикл информации, регулирует использование, обеспечивает качество, доступность, безопасность и многое другое. Управление метаданными играет важную роль в этом процессе, поскольку только хорошо организованные метаданные дают целостное представление о данных компании.
Анализ данных
Помимо помощи в контроле цифровых активов, метаданные позволяют анализировать данные, поскольку они обеспечивают качество и соответствие данных. Кроме того, хорошо управляемые метаданные поддерживают аналитику самообслуживания и бизнес-аналитику, делая цифровые активы более доступными и доступными для бизнес-пользователей.
Другие варианты использования включают оценку качества данных, сопоставление данных, идентификацию связей между наборами данных и т.д.
Лучшие практики управления метаданными
Управление метаданными в современном мире, переполненном данными очень непросто. Многие компании сейчас осознают его важность, но затрудняются с отправной точкой. Мы изложили несколько шагов, которые вы можете рассмотреть.
Разработайте стратегию метаданных
Очень важно определить, каковы ваши цели управления метаданными, и привести их в соответствие с бизнес-целями. Комплексная стратегия также должна определять ваши варианты использования, оценивать ресурсы и требования, оценивать объем и масштаб проекта и определять ключевые показатели эффективности.
Создайте команду для управления метаданными
Привлекайте квалифицированных, опытных специалистов, обладающих знаниями в области управления данными, для руководства и контроля ваших действий с метаданными.
Выберите стандарты и ПО
Как мы уже говорили, выбор правильных схем / стандартов жизненно важен для единообразия и совместимости метаданных и должен основываться на домене, в котором вы работаете, и ваших вариантах использования. Подберите ПО, которое поддержит ваши стандарты управления.
Внедрение ПО
Сегодняшними объемами метаданных невозможно управлять вручную, поэтому оцените свои потребности и выберите инструмент, который наилучшим образом соответствует вашим рабочим процессам и обеспечит масштабируемость и интегрируемость. Рассмотрите возможность использования платформ на основе AI / ML, которые обеспечивают активное управление метаданными и предлагают более широкие возможности, включая прогнозную аналитику.
Поддерживайте согласованность всей компании
Когда вы уже начали процесс внедрения, добавляйте метаданные последовательно в соответствии с вашей политикой и выбранными стандартами. Это позволит вам иметь полные метаданные для всех ваших активов. Донести важность метаданных до всех пользователей данных и заинтересованных сторон и обеспечить их приверженность.
Используйте конкретные метаданные
Сделайте ваши данные еще более удобными для использования и поиска с помощью метаданных, относящихся к домену, компании или отделу.
Создайте каталог метаданных
Помните о своих неIT-пользователях данных и разработайте удобный для них каталог (FAQ, база знаний), чтобы помочь им использовать ваш каталог данных.
Метаданные делают информацию доступной для обнаружения, измерения, организации и анализа. Цифровые активы можно рассматривать как верхушку айсберга, под которым скрыта огромная ценность метаданных, которая часто недооценивается. Эти ценные метаданные должны тщательно обрабатываться, чтобы приносить максимальную пользу и повышать капитализацию ваших знаний.