Краткая история онтологии данных

Можно сказать, что история онтологии данных начинается с развития онтологии как концепции в Греции, еще в IV веке до н. э. Она была разработана Аристотелем, знаменитым философом. Онтология — это раздел философии, который используется для классификации и объяснения «того, что существует» или ответа на вопрос «Что реально или что есть?» Она опирается на язык как на инструмент для мышления и для коммуникации, и включает в себя вопросы о том, какие вещи существуют, как они связаны друг с другом (обеспечивая контекст) и как классифицировать эти вещи в соответствии с их сходствами и различиями.

Перевод и адаптация оригинальной статьи Кейт Д. Фут.

Примерами вопросов онтологии могут быть:

  • Что такое велосипед?
  • Существуют ли души?
  • Реальны ли эмоции?
  • Что такое ничто?
  • Если числа не имеют массы, являются ли они интеллектуальной иллюзией?

Онтология задает вопросы, похожие на те, которые иногда задают дети, часто замыкая мозг взрослого человека. Аристотель создал структуру, позволяющую логически отвечать на такие вопросы.

«Онтология данных» применяет философские концепции онтологии к современным системам обработки данных. Проще говоря, онтология данных — это формальная система, используемая для организации и обработки данных.

Теперь онтологии как раздел древней философии, которая занимается природой существования, объединяется с компьютерной наукой в ​​попытке описать все, что полезно для конкретного проекта или бизнес-транзакции. Попытки представить все вещи во вселенной и их отношения были бы бесконечной задачей, поэтому пределы и ограничения являются необходимостью в онтологии данных.

Идеи, сущности, события и их отношения используются в аналитике данных для прогнозирования будущих событий. Чем точнее и содержательнее представления реальности, тем точнее прогнозы.

1960-е и онтология данных

В 1960-х годах компьютерные системы начали хранить и управлять большими объемами данных, что было проблемой, поскольку они еще не были рассчитаны на обработку тех объемов данных, которые им предоставлялись. Извлечение определенных данных из больших объемов, хранящихся в этих старинных компьютерах, требовало от людей продвинутого, почти интуитивного понимания их уникальной компьютерной системы.

Мейнфреймы были относительно новыми в своей эволюции — катушки магнитной ленты использовались для хранения данных в 1960-х годах. Они также стоили сотни долларов за каждую минуту работы, в первую очередь потому, что управление базой данных в то время было настолько сложным. Эти старинные базы данных работали, используя запутанные системы и жесткие иерархические структуры для поиска определенных данных на магнитных лентах. В результате специалисты по компьютерам часто должны были писать целую программу просто для того, чтобы получить доступ к определенному биту информации.

Концепция онтологии данных возникла из-за необходимости в более эффективном и функциональном способе доступа к данным, хранящимся в компьютерной системе.

1970-е и онтология данных

Реляционные базы данных появились как высоко-функциональное решение для постоянно растущих объемов данных, которые должны были обрабатывать компьютерные системы. Они предоставляют компаниям и частным лицам простой и эффективный способ записи и обработки финансовых записей, данных о персонале и маркетинговой информации. Реляционные базы данных необходимы для беспрепятственного доступа к банковским счетам, совершения покупок в Интернете и проведения современных исследований.

Онтология данных заложила основу реляционных баз данных.

В 1970 году в статье доктора Эдгара Ф. «Теда» Кодда «Реляционная модель данных для больших общих банков данных» была представлена ​​теория управления базами данных, которая сделала использование компьютеров эффективным и недорогим. Его реляционная модель (в сочетании с SQL — структурированным языком запросов) значительно облегчила поиск данных. В статье описывается система хранения и доступа к данным в больших базах данных без использования жесткой, негибкой внутренней структуры данных. В настоящее время большинство предприятий используют базы данных, основанные на этой парадигме, и связанный с ней SQL.

Тед Кодд представил себе программное обеспечение, которое позволит пользователям получать доступ к данным/информации, не будучи компьютерным гением. Люди без технических знаний о том, как работает компьютерная система, могли получить доступ к необходимым данным, просто введя несколько ключевых слов.

Кодд представил идею о том, что база данных может организовывать данные в связываемые — или соотносимые — таблицы с общими характеристиками. Этот метод организации данных позволил людям получить доступ ко всей таблице связанных данных из системы данных, содержащей несколько таблиц, с помощью всего лишь одного запроса. Этот процесс также имел дополнительный, непреднамеренный эффект предоставления компаниям лучшего понимания взаимосвязей, существующих в их данных. Новая система обеспечивала бизнес-аналитику и поддерживала лучшее принятие решений.

Основная идея Теда заключалась в том, что отношения между элементами данных должны основываться на значениях элементов, а не на отдельно указанных связях или вложениях. Это значительно упростило спецификацию запросов и обеспечило беспрецедентную гибкость в использовании существующих наборов данных новыми способами. Он считал, что пользователи компьютеров должны иметь возможность работать на более естественном уровне языка и не беспокоиться о деталях того, где или как хранятся данные.

Дон Чемберлин, соавтор оригинального SQL (языка структурированных запросов)

Дональд Чемберлин и Рэймонд Бойс разработали структурированный язык запросов в середине 1970-х годов. Он быстро стал самым популярным языком баз данных в мире и был первым коммерчески стандартизированным, успешным компьютерным языком, доступным для реляционных баз данных.

Концепция онтологии данных развилась для поддержки связывания данных путем определения и уточнения отношений и определений.

1990-е и онтология данных

Рост всемирной паутины, интернета и поисковых систем произошел в 1990-х годах. Это, в свою очередь, привело к значительному увеличению объема хранимых и обрабатываемых данных по всему миру, при этом поисковые системы использовались для поиска нужных данных. С использованием поисковых систем онтология данных стала все более важной как способ организации данных и предоставления им смысла и контекста.

В 1990-х годах исследователи ИИ начали использовать термин «онтология», описывая его как полезную систему для организации систем знаний, необходимых для обучения искусственного интеллекта.

В философии можно говорить об онтологии как теории природы существования (например, онтология Аристотеля предлагает примитивные категории, такие как субстанция и качество, которые, как предполагалось, объясняют Все Сущее). В компьютерной и информационной науке онтология — это технический термин, обозначающий артефакт, предназначенный для определенной цели, которая заключается в том, чтобы обеспечить моделирование знаний о некоторой области, реальной или воображаемой.

Том Грубер, первопроходец в области машинного обучения, искусственного интеллекта и технологий семантической паутины

Том Грубер также написал две статьи в 1993 году, которые расширили онтологию данных до принципов проектирования онтологий, используемых для обмена знаниями и формирования подхода к переводу спецификаций переносимых онтологий.

В 1994 году была создана Инициатива метаданных Дублинского ядра (DCMI) для предложения «основных словарей метаданных в поддержку совместимых решений для обнаружения и управления ресурсами». Эта организация продвигает открытое построение консенсуса в разработке и поддержке словарей метаданных и поощряет всемирное участие в принятии и использовании стандартизированных метаданных. Согласно DCMI, с точки зрения использования Semantic Web, слово «словарь» по сути имеет то же значение, что и онтология.

DCMI разработал Dublin Core и использует 15 терминов метаданных для поддержки очень функционального каталога, который описывает веб-ресурсы, улучшает SEO (поисковую оптимизацию) и объединяет метаданные с использованием различных стандартов.

2000-е и онтология данных

В начале 2000-х годов лидеры отрасли обработки данных, такие как Тим Бернерс-Ли начали выступать за то, что они называли «связанными данными». Бернерс-Ли и другие продвигали идею о том, что данные следует распознавать по тому, что они представляют — идеи, людей, места, события, действия и т. д. — и связывать их таким образом, чтобы люди могли их читать.

В 2001 году Консорциум Всемирной паутины (W3C) создал Рабочую группу по веб-онтологии, а затем в 2005 году официально преобразовал ее в Рабочую группу OWL. OWL означает «язык веб-онтологии» и представляет собой семантический веб-язык, предназначенный для передачи богатых и сложных знаний о различных вещах, группах вещей и отношениях между этими вещами.

Онтология является одним из основных строительных блоков семантической сети.

2010-е и Онтология

В середине 2010-х годов представители Google, Microsoft, Yahoo и российского поисковика Yandex обсуждали разработку централизованного репозитория для хранения онтологий и моделей данных. Эта группа решила использовать schema.org как место их нового репозитория схем. Они также решили, что место хранения будет построено органически, предоставляя модели и примеры для работы с другими организациями.

Первоначально их система онтологии данных рассматривалась как диковинка, почти игрушка, и не воспринималась всерьез. Однако идея иметь последовательный стандартизированный метод описания и распознавания «вещей» в сети начала привлекать все большее число организаций.

В 2017 году Google объявили, что начнут использовать schema.org в качестве основы для своих процессов поисковой оптимизации, что привлекло еще больший интерес. Были разработаны онтологические модели для потребительских товаров, медицины, автомобилей и т. д., и чем больше schema.org использовался для моделирования, тем больше других организаций проявляли интерес. Schema.org становится стандартом для поиска данных и использования метаданных.

2020-е годы и будущее онтологии данных

В мае 2023 года Центр исследований системной инженерии, университетский филиал Министерства обороны США и МИТРА, провел исследовательский семинар по информационным моделям и онтологиям. 66 экспертов и ключевых заинтересованных лиц из финансируемых из федерального бюджета научно-исследовательских центров и академических кругов посетили этот семинар, чтобы обсудить различные подходы к проектированию и внедрению новых онтологий.

Участники пришли к выводу, что им нужны новые модели и политики онтологии данных. Кроме того, им нужно было «найти способы справедливого стимулирования разработки и использования в критических проблемных областях, где нужны онтологии».

Выводы, к которым пришли 66 экспертов и ключевые заинтересованные стороны, убедительно свидетельствуют о том, что область онтологии данных все еще развивается и эволюционирует. Следует отметить, что онтология данных стала важной частью инфраструктуры обмена данными. Это означает, что в большинстве случаев крупные организации будут контролировать направление, в котором развиваются онтологии данных (если, конечно, в чью-то голову не придет какая-то блестящая идея и не нарушит текущие тенденции).

ChatGPT использовался в разработке онтологий и вполне предсказуемо, что в будущем он будет использоваться для разработки новых форм онтологий данных.

Вы дочитали статью до конца, видимо вас так же интересует эта тема. Пожалуйста, поставьте оценку пользы для вас этого материала.
Если у вас есть свои идеи по теме, напишите в комментариях — мы с радостью возьмем на вооружение и улучшим этот материал с пользой для других читателей.

Оцените автора
Онтограф
Добавить комментарий