На конференции Connected Data London (CDL), которая проходила в Лондоне в средине декабря 2024 года, онтологии в шутку называли словом на букву «О».
Идея заключалась в том, что до недавнего времени эксперты предпочитали не упоминать «онтологию», чтобы не оттолкнуть свою аудиторию, клиентов или заинтересованных лиц. Слово кажется слишком техническим. В конце концов, это термин из философии, и не помогает то, что он звучит очень похоже на «онкологию» (поскольку «таксономию» путают с «таксидермией»).
Онтологии, граф знаний и LLM
Термин «граф знаний», с другой стороны, более удобен для пользователя, и даже если он не совсем понятен, его общее значение можно угадать. Таким образом, люди будут ссылаться на графы знаний независимо от того, имели ли они в виду граф знаний или онтологию.
Однако на конференции обсуждалось, что растет признание слова «онтология» не только среди экспертов, но и среди различных заинтересованных сторон, которым необходимо их внедрять. Это отметили несколько докладчиков конференции, особенно на итоговой панельной сессии для трека моделирования данных, которая называлась «Слово на букву «О»: как онтологии управляют интероперабельными данными и бизнес-инновациями».
Модератор панели Катарина Кари объяснила, что этот недавний сдвиг произошел из-за LLM, объяснив:
Нам нужен надежный репозиторий естественного языка. LLM работает в сети имитирующего языка, LLM подготовлены к языку.
— Катарина Кари, модератор панели LLM-технологий
Таким образом, теперь использование слова «онтология» может даже помочь стартапу получить финансирование от венчурных капиталистов, заметила она.
Однако остается некоторая путаница в отношении того, что такое онтология. С одной стороны, существует разница между онтологиями и таксономиями, а с другой — разница между онтологиями и графами знаний. Разницу между таксономиями и онтологиями описана в статье «Таксономии против онтологий». Хотя графы знаний — это относительно новая концепция, а онтологии существуют гораздо дольше, именно разное понимание онтологий привело к путанице.
Онтология определяется как модель области знаний, которая включает классы (наборы вещей), атрибуты (типы характеристик вещей) и отношения между классами.
Согласно этому определению, онтология является в некоторой степени общей моделью области знаний (домена), и она не включает в себя все отдельные члены или экземпляры каждого класса (например, названия отдельных компаний в классе, называемом Company), а также конкретные атрибуты каждого типа атрибута (например, адрес каждой конкретной компании для типа атрибута, называемого Address).
Онтологии как семантическая модель
Однако рекомендация W3C для онтологий, OWL (Web Ontology Language) включает обозначение «индивидуумы», а программные инструменты онтологии, такие как Protégé, поддерживают включение индивидуумов и их конкретных атрибутов. Таким образом, легко подумать, что онтология по определению включает всех конкретных индивидуумов. Но только потому, что OWL охватывает рекомендацию о том, как включать экземпляры класса, а программное обеспечение поддерживает включение экземпляров классов, не обязательно означает, что экземпляры или индивидуумы на самом деле являются компонентом онтологии. Эксперты по онтологии на этой панели конференции CDL подтвердили, что онтология является семантической моделью верхнего уровня.
Тогда что мы называем онтологией плюс все отдельные члены (экземпляры) классов и их конкретные атрибуты? Это по сути то, чем является граф знаний. Это особенно верно, когда индивиды специфичны для организации или предприятия, например, имена отдельных клиентов, продуктов, сотрудников и т. д., и мы называем это «графом знаний предприятия».
Применение онтологий и графов знаний
Первые применения онтологий в науке об информации/данных были в биомедицине, где индивиды включали такие вещи, как названия организмов (включая бактерии и вирусы) и химикатов и т. д. Таким образом, понятие индивида в науке не совсем то же самое, что в бизнесе, что также было источником путаницы относительно того, что такое индивид и включения индивидов в онтологию. В графах корпоративных знаний экземпляры могут быть очень многочисленными и конкретными, включая отдельные «события», такие как взаимодействия или транзакции.
Выводы
В заключение, онтология, как правило, является определяющей чертой и компонентом графа знаний, но это не все, что входит в граф знаний.
Граф знаний также включает в себя индивидов, которые могут быть именованными экземплярами сущностей или они могут быть конкретными концепциями таксономии (абстрактные вещи, которые не являются уникальными именованными сущностями, такими как концепции «Этика данных» или «Измерение производительности»), и граф знаний также включает в себя конкретные атрибуты индивидов.
Можно сказать, что граф знаний является способом представления онтологии, а онтология — это модель знаний. Катарина далее пояснила: «графы знаний, которые фактически следуют онтологии, позволят LLM работать лучше, чем просто KG, который не согласован и не соответствует четкой онтологии как непротиворечивой моделью причинно-следственных связей».
Курирование и адаптация: Онтограф