Связанные данные — это набор принципов проектирования для обмена машино-читаемыми взаимосвязанными данными в Интернете. В сочетании с открытыми данными (данными, которые можно свободно использовать и распространять) они называются связанными открытыми данными (LOD). Графовые базы данных RDF может обрабатывать огромные наборы данных, поступающие из разрозненных источников, и связывать их с открытыми данными. Это ускоряет поиск знаний и эффективную аналитику на основе данных.

Связанные данные являются одним из основных столпов семантической сети, также известной как сеть данных или семантическая паутина. Она предназначена для создания связей между наборами данных, понятных не только людям, но и машинам, а связанные данные предоставляют передовой опыт для создания таких связей. Другими словами, связанные данные — это набор принципов проектирования для обмена человеко-машино-читаемыми взаимосвязанными данными в Интернете между людьми и алгоритмами.

Правила игры со связанными данными
Чем больше разных объектов (вещей, событий, людей, мест и т. д.) связано вместе, тем мощнее сеть данных. Но для того, чтобы связать, объединить и интегрировать огромные наборы данных из разрозненных источников, необходимо следовать некоторым основным правилам.
Изобретатель Всемирной паутины, создатель и сторонник семантической сети и связанных данных сэр Тим Бернерс-Ли сформулировал четыре принципа проектирования связанных данных еще в 2006 году.
- Используйте URI в качестве имен для объектов.
Унифицированный идентификатор ресурса (URI) — это единая глобальная система идентификации, используемая для присвоения уникальных имен чему угодно — от цифрового контента, доступного в Интернете, до объектов реального мира и абстрактных понятий. С помощью URI мы можем различать разные объекты или знать, что одна вещь из одного набора данных такая же, как другая в другом наборе данных. - Используйте HTTP URI, чтобы люди могли искать эти имена.
Протокол HTTP предоставляет простой механизм для извлечения ресурсов. Если объекты можно идентифицировать по URI в сочетании с этим протоколом, то их становится легче найти. Это ускоряет публикацию любых данных и добавление их в глобальную сеть. - Когда кто-то ищет URI, предоставьте полезную информацию, используя стандарты (RDF, SPARQL). Чтобы иметь возможность эффективно использовать URI, мы должны использовать RDF или SPARQL для запросов.
- Включите ссылки на другие URI, чтобы они могли узнать больше. Как и в гипертекстовой сети, ссылки на другие URI делают данные взаимосвязанными и позволяют нам находить разные объекты. Связывая новую информацию с существующими ресурсами, мы максимизируем повторное использование и взаимосвязь между существующими данными и создаем сильно взаимосвязанную сеть человеко-машинно-обрабатываемого значения.
Связанные данные и открытые данные
Когда данные могут свободно использоваться и распространяться кем угодно (при условии соблюдения только требований атрибутировать и совместно использовать), это называется открытыми данными.
Но открытые данные не равны связанным данным. Открытые данные могут быть доступны всем без ссылок на другие данные. В то же время данные могут быть связаны, но не могут быть свободно доступны для повторного использования и распространения.
Поэтому сообщество W3C прикладывает много усилий для обогащения облака связанных открытых данных (LOD) .

Связанные открытые данные (LOD)
Связанные открытые данные — это мощное сочетание связанных данных и открытых данных: они связаны и используют открытые источники. Одним из примечательных примеров набора LOD является DBpedia — коллективная попытка сообщества извлечь структурированную информацию из Википедии и сделать ее доступной в Интернете.
База данных семантических графов различных поставщиков способна обрабатывать огромные наборы данных, поступающие из разрозненных источников, и связывать их с открытыми данными. Это обеспечивает более подробные запросы, ускоряя обнаружение неиспользованных знаний и эффективную аналитику на основе данных.
В 2010 году сэр Тим Бернерс-Ли предложил 5-звездочную схему развертывания для связанных открытых данных. Рейтинг начинается с одной звезды, и чем больше проприетарных форматов удалено и добавлено ссылок, тем больше звезд получает данные.
Преимущества связанных (открытых) данных
Подводя итог, можно сказать, что связанные данные разрушают информационные хранилища, существующие между различными форматами, и разрушают барьеры между различными источниками. Это облегчает расширение моделей данных и позволяет легко обновлять их. В результате интеграция данных и просмотр сложных данных становятся проще и эффективнее.
В базах данных семантических графов связывание разрозненных источников и форматов позволяет делать выводы о новых знаниях на основе существующих фактов. Таким образом, связанные данные позволяют организациям использовать собственные знания в контексте знаний открытого мира и/или коммерческих специализированных знаний, а также способствуют инновациям в когнитивных и семантических технологиях .