Что такое граф знаний (knowledge graph)?

Граф знаний представляет собой базу знаний, в которой используется модель данных с графической структурой. Граф знаний — это что-то вроде связанных данных и семантической технологии, своего рода графическое представление знаний? Но неясно, что это такое и как это можно использовать. Давайте разбираться, существует много определений этого понятия.

Навигация по статье

Разбираемся с определениями графа знаний
Это граф
Граф семантический
Граф умный
Граф живой
История развития графов знаний
Основа графа: модель знаний
Пример использования графа знаний
Онтологии и формальная семантика
Что НЕ является графом знаний?
Не каждый граф RDF является графом знаний
Не всякая база знаний является графом знаний
Примеры графов больших знаний
Граф знаний Google
Граф знаний DBPedia
Графы знаний и базы данных RDF
Как вы можете использовать графы знаний в своей деятельности?
Графы знаний могут помочь в анализе текста
Графы знаний используют в бизнесе
Граф знаний делает применение искусственного интеллекта предсказуемым

Разбираемся с определениями графа знаний

Граф знаний или knowledge graph — это маркетинговый термин, популяризированный Google в 2012 году и используются для хранения взаимосвязанных описаний различных сущностей (объекты, события, ситуации или абстрактные концепции с семантикой произвольной формы).

Нет единственно правильного определения термина Граф знаний. Тем не менее можно описать характеристики, которые направлены на слово «знание». Это позволяет нам более точно указать, как эти знания могут быть извлечены из базы данных графов, придавая легитимность словосочетанию «знание» и «граф».

Граф знаний собирает и интегрирует информацию в онтологию и применяет механизм рассуждения для получения новых знаний. Можно ли сделать это определение более ясным? Давайте посмотрим на общие факторы, чтобы увидеть, приведет ли это к более глубокому пониманию «графа знаний».

Это граф

В этом основное различие между терминами «граф знаний» и «база знаний». Эти термины используются взаимозаменяемо, но они не обязательно являются синонимами. Хотя каждый граф знаний является базой знаний или использует базу знаний, ключ находится в слове «граф».

Граф знаний организован в виде графа, что не всегда справедливо для баз знаний. Основные преимущества графа заключаются в том, что соединения (отношения) в данных являются первоклассными элементами, вы можете легко подключать новые элементы данных по мере их добавления в пул данных и, наконец, вы можете легко перемещаться по ссылкам, чтобы обнаружить, насколько удалены части домена связаны друг с другом (связывание информации имеет огромную ценность). Граф — одна из наиболее гибких формальных структур данных, поэтому вы можете легко сопоставить другие форматы данных с графами, используя универсальные инструменты.

Граф семантический

Терминологическое внимание! Под «семантикой» подразумеваем, что значение данных закодировано вместе с данными в графе в форме онтологии. Граф знаний самоописателен или, проще говоря, предоставляет единое место для поиска данных и понимания их сути.

Дополнительным преимуществом является то, что вы можете отправлять запросы в стиле, который намного ближе к естественному языку, используя знакомый словарь предметной области. То есть значение данных обычно выражается в терминах имен сущностей и отношений, которые знакомы тем, кто интересуется данной областью. Это обеспечивает более разумный поиск, более эффективное обнаружение и сокращает разрыв в общении между поставщиками данных и потребителями.

Граф умный

Основой графа знаний является онтология, которая определяет семантику данных. Онтология обычно основана на логических формализмах, которые поддерживают некоторую форму вывода: позволяют получать неявную информацию из явно заявленных данных. Некоторую из полученной информации может быть трудно обнаружить иначе.

Графы знаний, являющиеся реальными графами в собственном математическом смысле, позволяют применять различные методы и алгоритмы графовых вычислений (например, вычисление кратчайшего пути или сетевой анализ), которые добавляют дополнительный интеллект к хранимым данным.

Их легко расширить со временем, поскольку схема не является строгой или запретительной, как в случае с SQL, что подводит нас к финальной точке.

Граф живой

Как было сказано выше, графы знаний имеют гибкую структуру: онтологию можно расширять и пересматривать по мере поступления новых данных. Это позволяет удобно хранить данные и управлять ими в графе знаний, если у вас есть случаи использования, когда важны регулярные обновления и рост данных, особенно когда данные поступают из разнообразных гетерогенных источников.

Граф знаний может поддерживать постоянно работающий конвейер данных, который постоянно добавляет в граф новые знания, уточняя их по мере поступления новой информации.

Графы знаний также могут фиксировать различные аннотации метаданных, такие как информация о происхождении или версии, что делает их идеальными для работы с динамическим набором данных. Растет необходимость учитывать происхождение данных и включать их, чтобы потребители могли оценить знания с точки зрения достоверности и актуальности. Граф знаний может ответить на вопрос, что он знает, а также как и почему он это знает.

Технология, на которой строится Knowledge Graph, представляет собой графовую базу данных, поэтому данные располагаются в сетевой структуре. Это делает соответствующую модель данных и, следовательно, взаимосвязь данных друг с другом интуитивно понятной как для машин, так и для людей.

Реальные сущности – это однозначно определенные объекты, которые могут быть материальными (ресторан) или нематериальными (оценка). Эти сущности можно связать в базе данных отношениями, которые опишут наше понимание (знание) о них в реальном мире. Таким образом, диаграмма знаний отражает сложность мира в цифровом пространстве, после чего знания будут понятны как машинам, так и людям.

Граф знаний описывается семантически. Это означает, что значение приписывается данным через онтологию (например, Schema.org). Это позволяет машинам понимать, какая конкретная информация имеется в виду в каждом случае, и сразу становится понятен смысл данных.

Граф знаний умен, поскольку маркировка данных в соответствии с онтологией в сочетании с данными, созданными в графе, позволяет получать новую (неявную) информацию. Запросы по графу можно использовать для установления связей с другими данными, а их взаимосвязь также можно отслеживать автоматически.

Граф знаний актуален в том смысле, что онтология, а также взаимосвязь данных друг с другом могут быть гибко адаптированы и расширены. Данные могут быть динамически обновлены и/или исправлены при любом изменении среды без программирования.

Данные — это просто представление реальных вещей, объектах в реальном мире, которые вы помещаете в своем сознании в свой контекст, связываете эти объекты между собой различными отношениями. Граф знаний всего лишь помогает вам в этом, он хранит и представляет бизнес-модели, клиентов, продукты, персонал, процессы и контролирует обязательства.

История развития графов знаний

С момента развития семантической сети, графы знаний широко используются в поисковых системах (Google, Bing, Яндекс и Yahoo), базами знаний для голосовых помощников (Вольфрам Альфа, Apple Siri, и Amazon Алекса) и социальными сетями (LinkedIn и Facebook). В последнее десятилетие различия между семантическими сетями и графами знаний сильно размыты.

Иллюстрация графа знаний от разных компаний

В 2007 году оба DBpedia и Freebase были созданы как хранилища знаний общего назначения на основе графов. DBpedia сосредоточилась исключительно на данных, извлеченных из Википедии, в то время как Freebase также включала ряд общедоступных наборов данных. Ни те, ни другие не называли себя «графом знаний», но разработали и описали связанные концепции.

В 2012 году Google представила свой граф знаний, опираясь на DBpedia и Freebase, а так же собственные источники данных. Позже они стали использовать RDFa, метаданные, JSON-LD контент, извлеченный из проиндексированных веб-страниц, включая Википедию.

Типы сущностей и отношений, связанные с этим графом знаний, были дополнены терминами из стандарта разметки schema.org. Граф знаний Google стал успешным дополнением к выдаче обычного поиск в Google, а его популярность привела к более широкому использованию этого термина.

С тех пор несколько крупных технологических компаний (Facebook, LinkedIn, Airbnb, Microsoft, Amazon, Uber и eBay) продвигали использование графов знаний, что еще больше популяризировало этот термин.

Основа графа: модель знаний

В основе графа знаний лежит модель знаний: набор взаимосвязанных описаний понятий, сущностей, отношений и событий. Графы знаний помещают данные в контекст посредством связывания семантических метаданных, что обеспечивает основу для интеграции, унификации, аналитики и обмена данными:

Описания имеют формальную семантику, которая позволяет людям и компьютерам обрабатывать их эффективно и однозначно;
Описания дополняют друг друга, образуя сеть, где каждый объект представляет собой часть описания объектов, связанных с ним;
Разнообразные данные связываются и описываются семантическими метаданными в соответствии с моделью знаний.
Ключевые характеристики. Графы знаний сочетают в себе характеристики нескольких парадигм управления данными:
- База данных, потому что данные можно исследовать с помощью структурированных запросов;
- Graph, потому что их можно анализировать как любую другую сетевую структуру данных;
- База знаний, поскольку они несут формальную семантику, которую можно использовать для интерпретации данных и вывода новых фактов.

Граф знаний собирает и интегрирует информацию в онтологию и применяет алгоритм рассуждений для получения «новых знаний». В мире данных информация является валютой. Иногда эта информация должна быть защищена из-за правил и законов. Однако большая часть данных остается скрытой и распространяется по множеству различных каналов и носителей, что затрудняет выполнение каких-либо действий без ссылки на разные хранилища, компании, курсы и книги. То, что должно быть простым, например соответствие требованиям, становится трудным для понимания и исследования.

Решением этой проблемы является граф знаний, который предназначен для управления данными и сбора абсолютно любых знаний о чем-либо в одном месте. Хотя это кажется несбыточной мечтой, поскольку виртуализация всей информации еще не произошла, в идеальном мире графы знаний сделали бы данные общедоступными.

Пример использования графа знаний

Возможно, это потому, что Google отдает предпочтение своим собственным продуктам, но самый простой и полный граф знаний — это результат выдачи Google или Яндекса, который появляется, когда вы ищете человека, место или вещь. Например, мы провели поверхностный поиск по Антону Чехову. Это было впервые реализовано в 2012 году, и хотя оно было основано на предыдущих графах знаний, в нем использовались уникальные алгоритмы, которые вносят изменения в определение графа знаний.

Что такое граф знаний (knowledge graph)? — Граф знаний Google в качестве результатов поиска показывает структурированную информацию о писателе.

Графы знаний, представленные в RDF , обеспечивают наилучшую основу для интеграции, унификации, связывания и повторного использования данных, поскольку они сочетают в себе:

Выразительность. Стандарты стека Semantic Web — RDF(S) и OWL — позволяют свободно представлять различные типы данных и контента: схемы данных, таксономии и словари, всевозможные метаданные , справочные и основные данные. Расширение RDF* упрощает моделирование происхождения и других структурированных метаданных.
Производительность: все спецификации были продуманы и проверены на практике, чтобы обеспечить эффективное управление графами из миллиардов фактов и свойств.
Совместимость: существует ряд спецификаций для сериализации данных, доступа (протокол SPARQL для конечных точек), управления (хранилище графов SPARQL) и объединения. Использование глобальных уникальных идентификаторов облегчает интеграцию и публикацию данных.
Стандартизация: все вышеперечисленное стандартизировано в рамках процесса сообщества W3C, чтобы гарантировать удовлетворение требований различных участников — от логиков до специалистов по управлению корпоративными данными и групп системных операций.

Онтологии и формальная семантика

Онтологии представляют собой основу формальной семантики графа знаний. Их можно рассматривать как схему данных графа . Они служат формальным договором между разработчиками графа знаний и его пользователями относительно значения данных в нем. Пользователь может быть другим человеком или программным приложением, которое хочет интерпретировать данные надежным и точным способом. Онтологии обеспечивают общее понимание данных и их значений.

Когда формальная семантика используется для выражения и интерпретации данных графа знаний, существует ряд инструментов представления и моделирования:

Классы. Чаще всего описание объекта содержит классификацию объекта по отношению к иерархии классов. Например, при работе с бизнес-информацией могут быть классы Люди, Организации и Места. У людей и организаций может быть общий агент суперкласса. Расположение обычно имеет множество подклассов, например, Страны, Населенные пункты, Города и т. д. Понятие класса заимствовано объектно-ориентированным программированием, где каждый объект обычно принадлежит ровно одному классу.
Типы отношений. Отношения между сущностями обычно помечаются типами, которые предоставляют информацию о характере отношения, например, друзья, родственники, конкуренты и т. д. Типы отношений также могут иметь формальные определения, например, родитель — это отношение, обратное дочернему, они оба являются частными случаями относительного отношения, которое является симметричным отношением. Или определение того, что субрегион и дочерняя компания являются транзитивными отношениями.
Категории. Сущность может быть связана с категориями, описывающими некоторые аспекты ее семантики, например, «Сеть супермаркетов» или «Художники соцреализма» . Книга может относиться одновременно ко всем этим категориям: «Книги о бизнесе» , «Бестселлер» , «Книги российских авторов» , «Книги для детей» и т. д. Категории описываются и упорядочиваются в таксономию.
Свободные текстовые описания. Часто предоставляется «удобное для человека» текстовое описание для дальнейшего уточнения замыслов дизайна объекта и улучшения поиска.

Что НЕ является графом знаний?

Не каждый граф RDF является графом знаний

Например, набор статистических данных о ВВП для стран, представленных в RDF, не является графом знаний. Представление данных в виде графа часто полезно, но может быть ненужным фиксировать семантическое знание данных. Для приложения может быть достаточно просто иметь строку «Италия», связанную со строкой «ВВП» и числом «1,95 триллиона», без необходимости определять, что такое страны или каков «Валовой внутренний продукт» страны. Граф знаний составляют связи и граф, а не язык, используемый для представления данных.

Не всякая база знаний является графом знаний

Ключевой особенностью графа знаний является то, что описания сущностей должны быть взаимосвязаны друг с другом. Определение одного объекта включает в себя другой объект. Эта связь и есть то, как формируется граф. (например, A есть B. B есть C. C имеет D. A имеет D). Базы знаний без формальной структуры и семантики, например, «база знаний» вопросов и ответов о программном продукте, также не представляют собой граф знаний. Можно иметь экспертную систему, имеющую набор данных, организованный в формате, который не является графиком, но использует автоматизированные дедуктивные процессы, такие как набор правил «если-то», для облегчения анализа.

Примеры графов больших знаний

Граф знаний Google

Google сделал этот термин популярным, объявив о своем графе знаний в 2012 году. Однако очень мало технических подробностей о его организации, охвате и размере. Существуют также очень ограниченные средства для использования этого графа знаний вне собственных проектов Google.

Граф знаний DBPedia

Этот проект использует структуру, присущую инфобоксам Википедии, для создания огромного набора данных из 4,58 вещей и онтологии, которая имеет энциклопедический охват таких сущностей, как люди, места, фильмы, книги, организации, виды, болезни и т. д. Этот набор данных лежит в основе движения открытых связанных данных. Для организаций было неоценимо загружать свои внутренние графы знаний миллионами краудсорсинговых сущностей.

Графы знаний и базы данных RDF

Не так давно стали переходить от понятия BigData «большие данные» к «умным данным». Наличие беспрецедентных объемов данных подтолкнуло к необходимости иметь модель данных, которая отражала бы наше собственное сложное понимание информации.

Чтобы сделать данные интеллектуальными, машины больше не должны были быть связаны негибкими схемами данных, определенными «априори». Необходимы хранилища данных, которые могли бы представлять «реальный мир» и связанные с ним запутанные отношения. Все это нужно было сделать машино-читаемым способом и иметь формальную семантику, позволяющую автоматизировать рассуждения, дополняющие и облегчающие наши собственные.

Базы данных RDF (также называемые хранилищами триплетов RDF) могут беспрепятственно интегрировать разнородные данные из нескольких источников и хранить сотни миллиардов фактов о любой мыслимой концепции.

Структура графа RDF очень надежна (она может обрабатывать огромные объемы данных всех видов и из различных источников) и гибка (ей не нужно переопределять свою схему каждый раз, когда мы добавляем новые данные).

Как мы уже видели, существует множество свободно доступных взаимосвязанных фактов из таких источников, как DBpedia, GeoNames, Wikidata и так далее, и их количество продолжает расти с каждым днем. Однако реальная сила графов знаний проявляется, когда мы преобразуем наши собственные данные в триплеты RDF, а затем соединяем наши собственные знания с открытыми глобальными знаниями.

Еще одной важной особенностью баз данных RDF является их способность делать выводы, когда новые знания могут быть созданы из уже существующих фактов. Когда такие новые факты материализуются и сохраняются в базе данных RDF, наши результаты поиска становятся гораздо более релевантными, открывая новые пути для получения практических идей.

Но если мы хотим добавить еще больше мощности нашим данным, мы можем использовать методы интеллектуального анализа текста, чтобы извлечь важные факты из свободно текущих текстов, а затем добавить их к фактам в нашей базе данных.

Как вы можете использовать графы знаний в своей деятельности?

Графы знаний могут помочь в анализе текста

Неудивительно, что современная технология анализа текста широко использует графы знаний:

Большие графы предоставляют базовые знания, человекоподобные концепции и понимание сущностей, чтобы обеспечить более точную интерпретацию текста;
Результатами анализа являются семантические теги (аннотации), связывающие упоминания в тексте с конкретными понятиями на графе. Эти теги представляют собой структурированные метаданные, которые обеспечивают лучший поиск и дополнительную аналитику;
Факты, извлеченные из текста, могут быть добавлены для обогащения графа знаний, что делает его гораздо более ценным для анализа, визуализации и отчетности.

Платформы графов знаний реализуют все варианты этого взаимодействия, связывая текст и большие графы знаний, чтобы обеспечить решения для тегов, классификации и рекомендаций контента. Такие платформы для преобразования корпоративных знаний в графы знаний, обычно включают набор баз данных, алгоритмы машинного обучения, API и инструменты для построения различных решений для конкретных нужд предприятия.

Графы знаний используют в бизнесе

Ряд конкретных применений и приложений опирается на графы знаний. Примеры включают услуги с большими объемами данных и информации, такие как интеллектуальное повторное использование контента и пакетов, отзывчивые и контекстно-зависимые рекомендации контента, поиск лекарств на основе графа знаний, семантический поиск, аналитика инвестиционного рынка, поиск информации в нормативных документах, расширенная аналитика безопасности лекарств и т. д.

Граф знаний делает применение искусственного интеллекта предсказуемым

Графы знаний умны. Они полагаются на онтологию, которая определяет семантику набора данных. Обычно онтология поддерживает вывод и позволяет извлекать неявную информацию из явных данных. Эти графики гибки по своей природе, и их можно пересматривать, расширять и изменять по мере сбора дополнительных данных. В некоторых случаях данные вводятся в ИИ, а в других он учится на возникающих ситуациях и сам по себе дополняет сопутствующие знания. Правильно очищенный граф знаний может не только ответить на вопрос правильным ответом, он может проследить весь путь назад к истокам того, как и почему он это знает. В некотором смысле этот ИИ уже является ядром многих сервисов, которые мы видим каждый день, таких как чат-боты, анализ рисков и даже обнаружение мошенничества.