Часто возникает вопрос: чем таксономии и онтологии отличаются? Хотя есть несколько коротких простых ответов (например, таксономии — это иерархии, а онтологии — это семантические сети), понятно, что различие не столь очевидно. Существует значительное совпадение. Онтологии могут содержать таксономии, и таксономии могут быть семантически обогащены, чтобы стать похожими на онтологии. Одни и те же программные инструменты, например PoolParty, поддерживают создание обоих.
Одна из тенденций в управлении данными / информацией / знаниями в конвергенции систем, методов и технологий, включая конвергенцию таксономий и онтологий. Дошло до того, что некоторые люди будут называть таксономии и онтологии почти взаимозаменяемыми, как будто это по сути одно и то же. Это не так, хотя они все чаще объединяются. Интересно, что один из самых активных каналов для обсуждения в сообществе Taxonomy Talk на Discord посвящен онтологиям.
Основы методов
Хотя и таксономии, и онтологии являются видами систем организации знаний, которые поддерживают доступ к информации, их конкретные применения, как правило, различаются.
Основное применение информационных таксономий — для последовательной маркировки и точного и всестороннего поиска элементов контента. Это могут быть документы, компоненты (разделы) документов, веб-страницы или страницы интрасети или цифровые активы (изображения, аудио, видеофайлы и т. д.).
Онтологии с их включением или связями с экземплярами/индивидуумами, с их различными атрибутами, больше ориентированы на специфику данных: поиск данных, сравнение данных и анализ данных.
Таксономии в первую очередь предназначены для классификации информации, того, о чем элемент контента (хотя типы контента/документов также могут быть частью таксономии), например, «покажи мне все информационные ресурсы о сельском хозяйстве» или «покажи мне список продуктов с глютеном» и указания набора характеристик и ценового диапазона в качестве фильтров.
С другой стороны, онтологии могут поддерживать более сложные, многоступенчатые запросы, такие как «предоставьте мне список продуктов с…» набором характеристик и диапазоном цен, поставщики которых находятся в Крыму и имеют минимальный годовой доход в размере 500 миллионов рублей.
Например, при сравнении извлечения контента и данных таксономии могут извлекать файл электронной таблицы, тогда как онтологии могут извлекать данные из отдельных ячеек в электронной таблице. Онтологии могут перемещаться по данным в базе данных. Хотя это может быть реляционная база данных, все чаще онтологии используются с графовыми базами данных, поскольку онтологии также структурированы как графы.
Происхождение методов
Еще одним важным различием между таксономиями и онтологиями является их происхождение.
Информационные таксономии (не биологические таксономии) возникли в дисциплине библиотечного дела. Таксономии развивались как гибкий гибрид систем классификации и тезаурусов.
С другой стороны, онтологии (если они не в философии) обычно преподаются и исследуются как часть компьютерной науки. Наблюдалось сближение (пересечение) доменов библиотечного дела и компьютерных наук в области информационной науки. Тем не менее, библиотечно-информационная наука и компьютерная/информационная наука — это разные подходы.
Таксономии также стали областью интересов в информационной архитектуре, проектировании пользовательского опыта, управлении контентом и управлении цифровыми активами. Таксономии также связаны с управлением терминологией и поиском и извлечением информации.
Онтологии, с другой стороны, стали областью интересов в науке о данных, инженерии данных и управлении графовыми данными. Онтологии также заимствуют концепции из теории множеств в математике и логики из философии.
Таксономии и онтологии следуют разным стандартам, но стандарты также в некотором роде сблизились. Таксономии не имеют собственного стандарта, но следуют стандартам тезауруса (ANSI/NISO Z.39.19 и ISO 25964) для рекомендуемых лучших практик.
Онтологии основаны на стандартах W3C RDF, RDF-Schema и формальном языке OWL (Web Ontology Language). Затем W3C опубликовал рекомендацию для таксономий, тезаурусов и других систем организации знаний под названием SKOS (Simple Knowledge Organization System) в 2009 году, и с тех пор она стала широко принятой. SKOS основана на RDF, как и стандарты онтологий RSF-S. В результате утверждения или пространства имен SKOS и RDF-S могут быть объединены в одной системе организации знаний, и таксономии и онтологии, таким образом, могут быть объединены.
Функции
И таксономии, и онтологии нацелены на описание области знаний с коллекциями сущностей, структурированных в группы или типы, с отношениями между ними. Онтологии идут дальше в описании отношений более подробно. Атрибуты также более обширны в онтологиях. Оба поддерживают опции для заметок или определений.
Концепции или сущности
Таксономии состоят из концепций (иногда называемых терминами), которые являются вещами. Концепции могут быть общими или конкретными и могут даже включать именованные сущности (уникальные собственные имена). Таксономии не различают общие концепции и именованные сущности, которые соответствуют «индивидуумам» в онтологии.
С другой стороны, онтологии различают два типа сущностей: классы и индивидуумы (экземпляры). Классы могут быть широкими или конкретными, но, как следует из названия, они предназначены для того, чтобы содержать что-то, либо подклассы, либо индивидуумы. Напротив, конечные узлы (самые узкие концепции в иерархии) в таксономии на самом деле могут иметь довольно широкое значение.
Индивидуумы, как они определены онтологией, как правило, являются именованными сущностями (именами собственными), и они должны быть уникально индивидуальными. Это может быть неочевидно. Товар с фирменным наименованием является именем собственным, но технически это не индивидуум, поскольку существует множество конкретных экземпляров продукта, принадлежащих разным людям. Могут быть некоторые различия во мнениях относительно того, как определять индивидуумов.
Отношения
Таксономии следуют стандартам тезауруса для отношений. Иерархические отношения тезауруса включают три типа:
- родовые-специфические или «является» видом отношений,
- родовой-экземпляр (где экземпляр является именованной сущностью или собственным именем) и
- целое-часть.
Онтологии имеют только родовые-специфические иерархические отношения «является», которые существуют между классами и подклассами. Отношения между индивидом и классом не считаются иерархическими в онтологии, а скорее отношениями класс-член. Кроме того, отношения целое-часть не считаются иерархическими в онтологиях (но могут быть созданы как семантические отношения).
Хотя generic-instance является разрешенным иерархическим типом отношений в таксономии, именованные концепции сущностей (имена собственные) не так часто сужаются до соответствующей общей концепции, а скорее, как правило, группируются в свою собственную отдельную схему концепций, чтобы служить отдельным поисковым фасетом или фильтром.
В таксономиях может существовать общая ассоциативная связь, хотя это скорее особенность тезаурусов. Она дву-направленная и взаимная, и она, как правило, используется между концепциями в пределах одной и той же схемы концептов, которая часто соответствует классу в онтологии. Онтологии не имеют общей ассоциативной связи. Вместо этого онтологии имеют семантические связи, которые назначаются создателем онтологии, так же как назначаются классы, и они используются не внутри классов, а через указанную пару классов. Предложения о том, что может представлять связанный интерес для конечного пользователя, не входят в сферу назначения онтологии, которая более структурирована и основана на правилах. Онтологии могут иметь другие двунаправленные взаимные связи, такие как «сопутствует», «имеет родственный элемент», «сопровождает» и т. д.
Эквивалентность и альтернативные ярлыки
В таксономии каждое понятие имеет одну предпочтительную метку в каждом языке для отображения и любое количество альтернативных меток и скрытых меток на язык для помощи в сопоставлении при поиске или тегировании. В традиционной модели тезауруса «непредпочтительные» термины перенаправляют на «предпочтительные» термины.
Альтернативные метки достаточно эквивалентны в контексте таксономии и контента, чтобы использоваться для данного понятия, и, таким образом, могут не быть точными синонимами. Альтернативные метки включают синонимы, почти синонимы и, возможно, даже более узкие термины, не считающиеся необходимыми в качестве концепций с предпочтительными метками.
В онтологиях элемент OWL sameAs предназначен для эквивалентности индивидов, а equalClass — для эквивалентности классов, и они означают точную эквивалентность. Но нет обозначения того, что одно имя является предпочтительным, а другое — альтернативным. Они все являются предпочтительными. Использование sameAs и equalClass не предназначено для использования в одной онтологии, а скорее в разных онтологиях. Таким образом, эти элементы OWL аналогичны отношению SKOS exactMatch, которое используется в схемах концепций или таксономиях. Они не поддерживают поиск в одном и том же наборе данных, как альтернативные метки.
Обеспечение соблюдения правил
SKOS — это модель данных для таксономий и тезаурусов, но она не определяет никаких правил использования. Вместо этого создатель таксономии должен попытаться следовать рекомендациям, а не точным правилам, в стандартах тезауруса (ANSI/NISO Z39.19 и ISO 25964-1).
Стандарты качества включают непересекающиеся метки (метка может использоваться только один раз для концепции, предпочтительной или альтернативной, и только для одной концепции), отдельные отношения (пара концепций может иметь иерархические или ассоциативные отношения между собой, но не оба) и отсутствие иерархических циклов. С другой стороны, стандарт для онтологий, OWL, имеет множество встроенных правил. Это делает онтологии OWL более мощными, поддерживая вывод и рассуждение.
Выводы
Таксономии и онтологии имеют некоторые общие черты, но каждая из них имеет свои собственные характеристики и свойства. Таким образом, сочетание таксономии SKOS с онтологией OWL объединяет черты обеих. Более того, сочетание таксономии с онтологией также позволяет комбинировать использование, а именно поиск и извлечение как контента, так и данных вместе. Вместо конвергенции таксономий и онтологий они тщательно и преднамеренно объединяются для максимизации своих преимуществ.
Курирование и адаптация: Онтограф