Демистификация семантических стандартов и графов знаний

Граф знаний — это маркетинговый термин, популяризированный Google в 2012 году и описывающий набор стандартов для выражения личности, местоположения и детального значения данных. Помните, что данные — это просто представление реальных вещей. Они представляют наших клиентов, продукты, людей и процессы.

Майкл Аткин
Аналитик и сторонник управления данными с 1985 года. Его опыт простирается от основ информационной индустрии до внедрения семантических технологий. Он работал советником финансовых учреждений, глобальных регулирующих органов, издателей, консалтинговых фирм и технологических компаний.

Навигация по статье

Проблема данных
4 концепции семантических стандартов
Разрешение идентификации (IRI)
Понимание данных (онтология)
Бизнес-правила (SBVR, SHACL)
Хранилище триплетов (RDF, OWL)
8 возможностей графа знаний для бизнеса
Математическая точность
Концепция повторного использования знаний (модели и данных)
Учёт контекста
Управление доступом
Отслеживание происхождения
Упрощение управления
Машиночитаемый язык
Непрерывное тестирование и аудит
Права на данные
Факторы ценности и примеры использования
Заключение

Проблема данных

Данные представляют обязательства, которые берут на себя компании и люди. Это существенный фактор участия в абсолютно каждом аспекте операций, и есть очень мало организаций, которые не сталкиваются с проблемой данных.

Проблема основана на двух реальностях, которые вытекают из технологической фрагментации.

Первая реальность заключается в том, что мы позволили данным иметь разные значения в разных системах, базах данных и операционных границах. Мы сделали это, потому что преобразовали и независимо переименовали данные, чтобы они соответствовали программному обеспечению, управляющему нашими приложениями.
Мы создали это «несоответствие данных», потому что стремимся управлять контекстом между действиями фронт-офиса (связанными с транзакциями или диагностикой) и действиями бэк-офиса для удовлетворения юридических, договорных, процедурных и аналитических требований.
Вторая реальность: мы страдаем не только от несоответствия данных, но и от ограничений проприетарной технологии, которая два поколения назад была передовой. Это наследие реляционных баз данных, в которых данные организованы в столбцы и хранятся в таблицах, связанных друг с другом с помощью внутренних ключей.
Мы знаем, что организации поддерживают многие тысячи таблиц, многие из которых имеют конфликтующие имена столбцов, и все со связями, которые должны быть явно структурированы, а определения должны управляться отдельно от содержимого. В результате мы тратим значительные усилия на перемещение данных из одного места в другое и бесчисленное количество человеко-часов на согласование данных и их значений.

Суть всего этого в том, что мы позволили данным стать изолированными, несовместимыми и негибкими из-за технологической фрагментации и жесткой технологической среды:

Эти проблемы в настоящее время признаны серьезными обязательствами, т.к.
отвлекает ресурсы от бизнес-целей;
увеличивает время окупаемости и ограничивает аналитическую гибкость;
приводит к разочарованию в бизнесе и
способствует недоверию через организационные границы.

Чтобы решить эти проблемы, мы должны исправить данные. И можно однозначно сказать, что это решаемая проблема. И это не требует больших инвестиций в новые технологии или необходимость «разорвать и заменить» существующую инфраструктуру.

Путь прост и понятен: примите принципы гигиены данных и воспользуйтесь преимуществами семантических стандартов для идентификации, значения и бизнес-правил. Это основная цель
управления данными — обеспечить согласованность, точность и детализацию значений данных по мере того, как они проходят через процессы и между объектами. Как только вы это сделаете (используя язык интернета), вы сможете превратить данные из «проблемы, которой нужно управлять», в данные как «ресурс для эксплуатации».

Наша цель в этой статье состоит в том, чтобы демистифицировать эти концепции для руководителей и продемонстрировать, что эта новая форма «информационной грамотности» является способностью, которая одновременно проста для понимания и достойна того, чтобы стать «высшим приоритетом».

4 концепции семантических стандартов

Основные строительные блоки

Подход к поиску, интерпретации и связыванию данных теперь доступен для использования компаниями и организациями для гармонизации данных, устранения рисков и извлечения выгоды из деловых возможностей.

Применение этих стандартов (называемых графом знаний) решает проблему гармонизации данных. Это выводит нас из бизнеса обработки данных и позволяет нам использовать данные для инноваций. И делает это экономичным, ненавязчивым способом, основанным на стандартах с открытым исходным кодом и управляемым доверенными процессами. Ниже приведены четыре понятия о семантических стандартах, которые необходимо знать заинтересованным сторонам:

Разрешение идентификации (IRI)

управление знаниями начинается с идентификации. В графе знаний все объекты идентифицируются по крайней мере одним универсальным, уникальным, постоянным и разрешаемым в Интернете идентификатором в форме интернационализированного идентификатора ресурса (IRI). IRI — это бессмысленный «идентификатор» (что что-то представляет), а также «локатор» (где он находится).

Вместо того, чтобы загружать копии базы данных, управлять таблицами перекрестных ссылок,
обновлять API и управлять всем набором тестов, вы просто указываете на IRI. Это устраняет
задачу перемещения и сопоставления данных. Думайте о IRI как о Розеттском камне для гармонизации данных, потому что весь контент в вашей организации связан с собственным уникальным (никогда не меняющимся) идентификатором.

Понимание данных (онтология)

Мы знаем, что одной из причин «проблемы данных» является то, что данные многократно модифицировались, преобразовывались и переименовывались в течение своего жизненного цикла. Мы также знаем, что обеспечение единого представления данных является сложной задачей, поскольку они могут иметь различные структуры данных, определения и контекстуальные значения.

Все это делает интеграцию сложной и дорогостоящей, особенно при наличии десятков систем учета, обслуживающих различные операционные процессы и независимые направления бизнеса.

Этот процесс согласования глоссариев, отражающих местный «бизнес-язык» специализированных приложений, сложен и лучше всего выполняется с использованием
процессов моделирования и стандартов контента, которые описывают, что означают термины, данные, а также как связаны понятия. Для этого и существует онтология.

Онтология — это просто процесс моделирования и обмена данными, который используется для обеспечения общего понимания требований между заинтересованными сторонами бизнеса и разработчиками приложений. Он начинается со способности фиксировать концепции и отношения, определенные экспертами в предметной области.

Стандарт Semantic Web использует концептуальные модели данных для точного описания того, что означают данные, а также того, как понятия связаны между собой. Значение каждой точки данных напрямую преобразуется в машиночитаемое определение. Онтологии связаны с бизнес-глоссариями, которые можно напрямую преобразовать в физические структуры данных.

Свойства в каждой точке данных связаны с их определением, поэтому значение никогда не вызывает сомнений. Выражение данных на детальном уровне обеспечивает максимальную гибкость для их нарезки, разделения на кубики, объединения и агрегирования.

Бизнес-правила (SBVR, SHACL)

Бизнес-правила необходимы для того, чтобы данные соответствовали назначению. Эти «условные выражения» устанавливаются в соответствии с критериями, установленными экспертами в предметной области, и преобразуются в:

правила проверки,
правила расчета,
правила классификации,
правила преобразования,
правила рабочего процесса,
правила бизнес-определения,
множество типов правил, от простых до сложных.

Эти правила могут быть выражены на стандартном языке и сохранены в графе знаний. Они связаны с качеством данных и процессов, а также с онтологиями, чтобы гарантировать, что значение разделяется (не затемняется расплывчатыми терминами или загадочными кодами). Логика фиксируется и выражается в виде исполняемых моделей и последовательно
применяется во всех системах и процессах.

Хранилище триплетов (RDF, OWL)

Большим вкладом DARPA стал переход от данных, которые «основаны на местоположении» в виде связанной пары, хранящейся в таблицах, к данным, которые «основаны на значении» на языке хранилища триплетов в Интернете.

Чтобы понять ценность троек, поймите, что данные организованы в группы по три элемента, которые содержат субъекты и объекты, связанные друг с другом предикатами и глаголами. Это просто структура предложения.

Все эти понятия точно определены на основе знаний экспертов в предметной области в форме онтологии. И как только вы определите эти понятия на самом атомарном уровне, вы сможете связать их вместе.

Эти онтологии связывают значение данных с бизнес-глоссариями, которые могут быть непосредственно переведены в физические структуры данных, которые управляют нашими приложениями. Таким образом, данные основаны не на местоположении, а на значении.

8 возможностей графа знаний для бизнеса

Используя 4 строительных блока, описанных выше, граф знаний предоставляет 8 основных возможностей, которые вместе создают ценность для бизнеса.

Математическая точность

В графе знаний данные приведены в соответствие с точным значением и встроены в структуру самого контента, чтобы пользователи всегда знали, что представляют собой данные, даже когда они перемещаются за пределы организации. Это означает, что ошибки и конфликты определений проверяются в источнике, прежде чем они будут введены в операционные системы.

Качество данных основаны на правилах и не привязаны как к схемам, так и к моделям данных, которые часто адаптируют под конкретные приложения. Правила связаны со структурированными словарями и привязаны к уникальному IRI, чтобы гарантировать, что значение может быть обнаружено и доступно для совместного использования.

Целью является автоматизированный контроль качества. Это делается на детальном уровне, чтобы пользователи были уверены, что получают информацию, необходимую им для понимания контекста и изучения специальных бизнес-вопросов. А с точки зрения соответствия, данные на графе неизменяемы, потому что можно проследить их историю изменений, и ничего нельзя удалить, кроме как с помощью политики.

Концепция повторного использования знаний (модели и данных)

Одной из проблем, связанных с традиционным проектированием базы данных, является проблема «жестко закодированных предположений» (т.е. выполнение одних и тех же действий немного другим способом на основе какой-либо цели проектирования).

Инженеры и информационные архитекторы часто делают явные предположения о своей предметной области и кодируют их непосредственно в своих приложениях. Жесткое кодирование этих вариантов модели на языке программирования затрудняет их поиск и изменение, особенно при отсутствии документации или опыта программирования.

Использование веб-стандартов и онтологий для моделирования устраняет эту проблему жесткого кодирования, поскольку оно фокусируется на концепциях, а не на конкретных приложениях.

Пользователи всегда понимают, что представляют собой данные в самой детализированной
форме. Это позволяет эффективно повторно использовать важные концепции в системах и
процессах.

Рассмотрим пример времени. В разных предметных областях требуются разные способы моделирования времени, включая понятия временных интервалов, моментов времени и
относительных мер времени. В подробной онтологии фиксируются все концепции времени, так что подходящее измерение может быть выбрано по мере необходимости (а не заново изобретаться) для конкретного приложения.

Учёт контекста

Семантические стандарты позволяют информационным архитекторам отделить бизнес-логику от кода. А бизнес-логику можно выразить, просто взглянув на то, что представляет собой
элемент данных. Это достигается ссылкой на онтологию и ее единственной идентичностью.
Такая реализация точности может быть смягчена отметкой времени, чтобы точно указать,
когда это произошло, и по источнику, чтобы вы знали, откуда пришли данные. Время
важно для анализа, а источник важен, когда вы пытаетесь определить, можно ли доверять
данным. С семантическими стандартами мы можем понимать все данные в контексте,
исследуя эти 4 измерения: идентичности, значения, времени и источника.

Управление доступом

Технология, которая предоставляет и обеспечивает права доступа к данным, должна управляться на уровне данных, платформы, приложений и ролей.

Правила предоставления прав и контроля доступа должны быть связаны с процессами
происхождения и преобразования, отслеживаться и проверяться. Это обязательно для
управления безопасностью и обеспечения конфиденциальности и должно синхронизироваться по мере того, как сотрудники перемещаются между отделами и выполняют различные роли.

Проблема в том, что многие системы объединяются на корпоративном уровне, каждая со
своим собственным выражением полномочий. Связывание контроля доступа с этой
проприетарной технологией ограничивает организации определенными подходами. Это
становится огромным, сложным и беспорядочным административным бременем при
попытке воспроизвести права в технологических средах.

Граф знаний способен решить эту дилемму, моделируя бизнес-правила (в контексте) для всех обстоятельств. Возможность предоставления прав в графе автоматически выполняет эти модели, назначая управление доступом на уровне данных и приложений. Безопасность встроена в структуру данных и не ограничивается ни системами, ни административными сложностями.

Отслеживание происхождения

В графе знаний все данные связаны с одним идентификатором. Это означает, что организации могут отслеживать данные по мере их прохождения через системы. Специалисты по данным и бизнес-пользователи знают, что представляют собой данные, а также как они используются в процессе производства данных. Данные можно многократно преобразовывать и переименовывать по мере их передачи между системами, не теряя сведений о том, откуда они пришли, что представляют и куда направляются. Цели по происхождению являются автоматическими и полностью проверяемыми, а также постоянно проверяются.

Граф знаний становится логической точкой распространения, поскольку он отслеживает поток данных и полностью поддается аудиту по источнику, цели и ответственной стороне.

Упрощение управления

Граф знаний использует возможности разрешимой идентификации, точного значения, структурной проверки и отслеживания происхождения, чтобы сместить фокус управления с согласования данных с интенсивным использованием людей на более автоматизированные приложения для обработки данных.

С помощью семантических стандартов компании могут создавать связанный перечень данных (то есть, что существует, как они классифицируются, где находятся, кто несет ответственность, как они используются и как они перемещаются по системам).

Данные прослеживаются для всех приложений, что позволяет пользователям выполнять
гибкие запросы и выполнять контекстный поиск.
Качество данных обеспечивается структурно, поэтому обеспечивается согласованность между репозиториями.
Проблемы идентифицируются онтологией и могут быть решены, когда и где они возникают.
Граф знаний изменяет операционную модель управления, упрощая операции, автоматизируя управление проблемами и облегчая совместную среду для интеграционного
тестирования.

Машиночитаемый язык

Семантические стандарты написаны на языке, понятном как людям, так и машинам. Значение данных стандартизировано на детальном уровне. Данные связаны с машинно-исполняемыми правилами с контрольными журналами. Политики могут быть смоделированы как машинно-исполняемые правила. Семантические стандарты основаны на правилах и не связаны с данными модели, предназначенной для конкретных приложений. Использование машиночитаемых стандартов облегчает автоматическую проверку и обеспечивает гарантию качества данных.

Непрерывное тестирование и аудит

На графе знаний требования, варианты использования и индивидуальные цели пользователей связаны с автоматизированными процедурами тестирования и управлением проблемами.

Все конвейеры данных имеют полное и структурированное тестовое покрытие для каждого изменения. Без автоматизации стоимость внедрения новых компонентов и новых функций высока. С семантическими стандартами каждое изменение в онтологии связано с процессом тестирования как логики, так и кругового рассуждения. Существует определенный и автоматизированный процесс управления изменениями. Если в авторитетные источники вносятся изменения, отслеживаются и проверяются последующие последствия и зависимости.

Права на данные

Эти четыре открытых стандарта приводят к восьми основополагающим возможностям, которые можно описать как «Билль о правах на данные». Вы имеете право:

ожидать, что данные будут соответствовать первоначальным намерениям;
на его определение на детальном уровне, самоописание и возможность повторного использования;
чтобы данные были доступны всегда, когда это необходимо, как часть инвентаризации вашего имущества;
чтобы данные были в гибком для использования формате, а не в жестких схемах;
чтобы данные можно было отслеживать по мере их прохождения между процессами и тестировать по назначению.

С семантическими стандартами все эти права достижимы без огромных инвестиций в
технологии или серьезных изменений в том, как работает ваша организация.

Факторы ценности и примеры использования

Давайте обобщим всё это вместе. 4 важнейших стандарта идентичности, значения, бизнес-правил и выражения для предоставления данных Билля о правах. И это всего лишь короткий переход от понимания этих строительных блоков и возможностей к формулированию общего ценностного предложения.

Лучший способ подумать об этом — обратиться к трем показателям: стоимости, возможностям и контролю. Это стандартные KPI, которые находят отклик:

у заинтересованных лиц (которые думают о росте и скорости),
у руководителей по технологиям (которые думают об отказоустойчивости и масштабируемости),
у руководителей бизнеса (которые думают о вариантах использования и времени выхода на рынок) и
у руководителей по соблюдению требований (которые думают о прозрачности и отслеживаемости).

Со стороны затрат мы начинаем с фактической определенности. Это необходимое условие для интеграции данных — мы упрощаем, стандартизируя значение, разрешая идентичность и отслеживая поток данных. С фактической уверенностью мы точно знаем, что представляют данные, в контексте. Это позволяет нам создавать связанные реестры активов, чтобы лучше распределять их.

Ресурсы. Это позволяет нам автоматизировать процессы за счет сокращения согласования и уменьшения сбоев процессов, помогает нам проще интегрировать и масштабировать системы, поддерживая усилия по упрощению управления данными. По скромным подсчетам, такая экономия затрат может составить не менее 30% от общего объема операций.

С точки зрения возможностей, речь идет о понимании отношений для лучшего профилирования клиентов и предиктивного маркетинга. Речь идет о гибких исследованиях, предоставляющих бизнес-аналитикам инструменты, необходимые им для того, чтобы следовать своей интуиции.

Принятие семантических стандартов позволяет пользователям выполнять основанный на сценариях анализ («что, если»), задавая вопросы к данным, а не реструктурируя их и согласовывая их значение. Гибкость и способность как строить отношения, так и управлять ими — лучший инструмент, который у нас есть для конкурентного анализа, для управления цепочкой поставок, для целевых продаж и для определения рентабельности инвестиций как для клиентов, так и для продукта.

А с точки зрения контроля принятие семантических стандартов поддерживает нашу способность последовательно агрегировать данные по направлениям бизнеса. Это ключ к управлению системным риском и обеспечению соблюдения наших юридических обязательств. Речь идет о возможности взглянуть на взаимосвязи с разных точек зрения, будь то соблюдение нормативных требований, возможность отслеживания изменений, защита конфиденциальности, контроль доступа или управление правами интеллектуальной собственности. И (конечно) это поддерживает цель безопасности. Мы можем контролировать доступ на уровне данных, а не только на уровне систем или процессов. Мы можем проследить поток данных. Мы можем распутать наши бизнес-расчеты. Мы можем предотвратить мошенничество и обезопасить
конфиденциальные данные от попадания в чужие руки.

Независимо от того, как вы его исследуете, ценностное предложение потрясающее. Независимо от того, какие у вас первоначальные драйверы варианта использования, вы получаете все эти возможности.

Семантические стандарты — это механизм решения проблем с данными, вызванных фрагментацией технологий. И это не только решает проблему с данными, но и добавляет операционные возможности, которые ранее были невозможны. И это происходит без огромных инвестиций в новые технологии и таким образом, чтобы полностью интегрироваться с вашей существующей средой.

Заключение

Информационная грамотность и организация знаний — это новая способность.

Большинство наших организаций достигли совершеннолетия в мире, где доминируют технологии. Мы были свидетелями многочисленных технологических революций, когда новые возможности приходили к нам все быстрее и быстрее.

Мы стремились наверстать упущенное и в процессе создали большие организационные отделы, чтобы все это работало. В разгар всей этой деятельности мы не осознавали, что парадигма данных на самом деле не сильно изменилась. Мы по-прежнему управляем данными как связанной парой, хранящейся в таблицах с несовпадающими именами столбцов, где отношения определены явно, а значение управляется отдельно от структуры.

Проблема в том, что у нас есть тысячи (иногда десятки тысяч) местоположений, существующих на пересечении столбца и строки в реляционной среде. У нас есть специальные люди (программисты) для объяснения значений данных, чтобы проприетарное ПО, управляющее приложениями, работало в контексте. И с каждым годом эти люди сами понимают всё меньше, а зарплату хотят всё выше. Мы стали жертвами собственных инноваций. Мы пренебрегли заботой о том, что на самом деле представляют собой данные, особенно когда они агрегируются по направлениям бизнеса и рассчитываются по сложным правилам.

Информационная грамотность заключается в понимании этой фундаментальной истины. Речь идет о понимании того, что:

цель недвусмысленного общего смысла является инструментом преобразования бизнеса.
причины, последствия и недостатки данных, структурированных в жесткой среде обработки,
являются ужасным наследием;
чтобы избавить наших аналитиков от уборки данных;
мы не собираемся решать проблемы фрагментации технологий, используя те же традиционные подходы, которые изначально создали проблему.

Существует экономическое обоснование, над которым мы все должны работать. Неспособность автоматизировать процессы, исследовать вопросы «что, если», надежно агрегировать данные, защищать конфиденциальные данные, реагировать на потребности клиентов и претворять аналитические идеи в жизнь, усугубит конкурентное положение в нашем сложном и взаимозависимом мире.

Выход из трясины прост: внедрите принципы гигиены данных и примите семантические стандарты для идентификации, значения и бизнес-правил. Это решаемая проблема. Думайте об этом как о создании инфраструктуры данных для цифрового мира.

Курирование и адаптация: Онтограф