Книга о таксономиях и таксономистах

Организация электронного контента с помощью полей метаданных и контролируемыми словарями имеет по меньшей мере 50-летнюю историю о том, как мы прошли путь от дорогих, редко используемых баз данных с оплатой по времени до почти вездесущего Интернета, где каждый может «поискать что-то» в любом месте и в любое время.

Хизер Хедден

Heather Hedden (Хизер Хедден)
Автор книги «Случайный таксономист», специалист по управлению информацией, специализирующийся на таксономиях, онтологиях, метаданных и индексировании.

В этой статье сделан обзор нескольких глав книги Хизер Хедден «Случайный таксономист». Посмотреть все содержание книги можно здесь.

О таксономиях и специальности таксономиста

История использования таксономии в информационных науках

Работа по маркировке контента всегда выполнялась армией индексаторов, скорее гиков, чем библиотекарей, работающих скорее в кустарных условиях, чем на фабрике. Все они были случайными «информационщиками» с образованием в области бизнеса, медицины, права, гуманитарных наук и библиотечного дела, но редко компьютерных наук.

Библиотекари занимаются каталогизацией, классификацией и предметным индексированием уже давно, задолго до того, как цифровой контент стал форматом, которым нужно управлять. Сейчас возникла необходимость адаптировать лучшие практики из библиотечной науки к работе с растущим объемом цифрового контента. Таксономии для поддержки индексирования и поиска контента можно связать с историей систем баз данных, которые содержали обрабатываемую текстовую информацию.

Сначала эти базы данных были электронными версиями служб реферирования и индексирования, работающие как базы данных на CD-ROM по подписке, а в последнее время — как различные виды веб-услуг со специализацией по медицине и правовой информации.
Медицинские «темы» вообще являются одним из золотых стандартов таксономии. Они включают таксономии для человеческого тела, таксономии для заболеваний и методов лечения, таксономии для условий медицинской практики и т.д.

Изменения цифровой среды за последние 50 лет оказали значительное влияние на то, что можно считать эффективными и действенными стратегиями организации информации. В эпоху дорогих онлайновых сервисов, работающих по принципу оплаты по времени времени, таксономии должны были обеспечивать особенно точный поиск, поскольку каждая минута и каждая ссылка на источник информации требовали дополнительных затрат.

Конечным пользователям обычно не разрешалось выполнять собственный поиск. Это была эпоха опосредованного поиска. Специалист по поиску в Интернете (часто библиотекарь) был высококвалифицированным привратником и часто сам являлся экспертом в предметной области.
С появлением баз данных на CD-ROM эти затраты исчезли. Но сами схемы организации контента нужно было изменить, чтобы работать в новых информационных каналах.

Интернет снова изменил ситуацию, сначала заменив организацию контента мощью поисковых систем (Google, Yahoo!, Яндекс и т.д.), глобальными таксономиями, такими как DMOZ Open Directory Project, и, что очень важно, интернет-торговлей и крупными интернет-магазинами.
Поисковые системы привили нам культуру «ищи сам». Покупки в Интернете научили всех нас делать подбор по фильтрам, который в наши дни называют уточнением поиска.

Примеры современного использования таксономий

Современная эпоха семантического веба становится еще одним переломным моментом, поскольку в его основе лежит идентификация именованных сущностей — людей, организаций, мест, событий, продуктов, тем и тому подобного — когда они встречаются в контенте в сети.

  • Веб первого поколения позволял наблюдать и повышать релевантность контента просто на основе доступа и использования.
  • Семантический веб позволяет выявлять взаимосвязи между всеми типами именованных сущностей и представлять информацию на основе этих взаимосвязей. Проще говоря, семантический веб основан на организующей силе фасетной таксономии.

Внутри организаций стали появляться условия, что информация должна быть такой же доступной для поиска и ссылок, как и в общедоступном Интернете. Корпоративные приложения все больше и больше превращаются в веб-сервисы, которые находятся внутри организационного периметра. Теперь сотрудники ожидают, что им будет предоставлено:

  • единое место для доступа к корпоративным данным;
  • просмотр данных в различных информационных хранилищах;
  • легкий доступ к информации различных подразделений для развития сотрудничества;
  • надежное место для ведения своей повседневной деятельности

Поэтому неудивительно, что с каждым годом таксономия становится повсеместной частью информационной экосистемы организации, а в компаниях растет спрос на людей, обладающих навыками интеграции таксономии в корпоративные приложения.

Но что именно подразумевает создание и поддержка таксономий, и где вы найдете специалистов, способных компетентно справиться с этими задачами?

Хотя сейчас прекрасное время для работы консультантом по таксономии, одним из показателей успеха ваших проектов является подбор специалиста как редактора таксономии в качестве центрального контактного лица по сопровождению корпоративной таксономии, и он может оказаться «случайным таксономистом».

Если вам поручили разобраться с таксономией и организовать деятельность по созданию и поддержке таксономии в компании, то эта статья для вас. Она отвечает на ключевые вопросы по корпоративной таксономии:

  • Что такое таксономия?
  • Кто такие таксономисты?
  • Как создавать, поддерживать и использовать таксономию?
  • Где можно найти ПО и другие инструменты для работы с таксономией?
  • Что важно знать о стандартах таксономии: ISO 25964 (Тезаурусы и взаимодействие с другими словарями) и SKOS (Простая система организации знаний), одобренных W3C, и ПО для управления таксономией довольно часто следует спецификациям SKOS для концептуального моделирования и вывода таксономии.
  • Почему происходит конвергенция метаданных и таксономии

Таксономии интересны тем, что в них есть фундаментальные и неизменные элементы, как, например, понятие концепта, его разнообразные имена, его иерархические и неиерархические отношения с другими понятиями. Но, как и все, что связано с информационными технологиями, в таксономиях есть вещи, которые действительно меняются, например, как они управляются, внедряются и используются в новом ПО.

Как появился термин таксономия

Сегодня существует множество значений понятия таксономия, которые может усложнить любое исследование этого термина.
Термин таксономия продолжает использоваться для обозначения систем классификации различных вещей, как использовался первоначально в биологии для классификации организмов в природе, а потом распространился из естественных наук в социальные науки и сегодня стал использоваться для классификации понятий.

Наиболее известным примером такой таксономии является «Таксономия целей образования», известные как таксономия Бенджамина Блума, которую он сформулировал в 1956 году как систему учебных целей, которые классифицированы по принципу «от простого к сложному». На практике его таксономия служила своеобразным навигатором для педагогов и методистов: с ее помощью им удобно было выстраивать как отдельные занятия, так и целые программы, находить нужные задачи и инструменты оценивания под каждый этап обучения. Сам термин «таксономия» использовался по настоянию этого учёного как синоним классификации, просто Блум посчитал его наиболее удачным. И хотя большинство коллег сочли, что можно использовать слова и попроще, но название сохранилось до наших дней.

Несмотря на недавнюю популярность термина таксономия для организации родовых знаний, большинство книг и научных статей по таксономии сегодня по-прежнему относятся к весьма специфичным системам классификации в науке. Таксономисты этих систем являются экспертами в своих академических дисциплинах, а не библиотекарями или информационными архитекторами.
Даже в качестве общей системы организации знаний термин таксономия в настоящее время имеет два различных общих использования:

  • Одно значение таксономии, отражающее более раннее использование классификации живых организмов, представляет собой иерархическую классификацию вещей или понятий в виде древовидной структуры, где обозначение имеет «родительский» (более широкий термин) и «дочерний» (более узкий термин). Так биолог именует и классифицирует организмы.
  • Другое, еще более недавнее употребление термина таксономия относится к системам организации знаний и не ограничивается иерархическими деревьями терминов, которые могут быть в более сложных отношениях между собой.

Сегодня таксономии определяются как любая система организации знаний для обеспечения возможности поиска, обнаружения и доступа к информации/контенту. Так термин таксономия приобрел более широкое значение и используется для создания:

  • тезаурусов
  • автоматизированного индексирования и поиска,
  • систем метаданных,
  • иерархических деревьев терминов,
  • тематических глоссариев,
  • колец синонимов,
  • контролируемых словарей,
  • информационных тезаурусов,
  • схем метаданных,
  • систем категоризации каталогов и веб-сайтов,
  • онтологий предметных областей.

Кто такой таксономист?

Есть много людей, которые занимаются таксономией, например корпоративные библиотекари, информационные архитекторы или менеджеры знаний. В каком-то смысле все они являются таксономистами — людьми, которые создают или редактируют таксономии самостоятельно или в составе команды. Эта работа по таксономии может быть как постоянной работой, так и временным проектом, основной или дополнительной должностной функцией.

В таксономии пока нет специальности бакалавра или магистра, а также нет кафедры, программы обучения или сертификата в области таксономии.
Получается, что сейчас люди не выбирают быть таксономистами, когда они поступают в ВУЗ.
Кроме того, большинство аспирантур и программ информатики или библиотечного дела не имеют ни одного курса, посвященного созданию таксономий. Поэтому даже люди с образованием в области информатики и не думают о работе таксономистом (систематиком), и многие таксономисты становятся таковыми абсолютно случайно.

В отличие от работы библиотекарем или корпоративным библиотекарем, работа систематиком обычно не требует библиотечного образования или диплома в области информатики (хотя это бывает предпочтительнее).

Информационные таксономии относительно новая область специализации и она постоянно расширяется за счет новых приложений. Веб-технологии становятся более удобными для пользователя не только за счет UX и UI, но и за счет продуманной навигации и таксономии. А экспоненциальный рост электронных данных все больше требует новых средств организации и доступа к информации.

Что такое таксономии?

Даже если у вас уже есть некоторые понимание этой концепции, есть несколько значений и различные типы таксономий, которые требуют дальнейшего объяснения. Описания, приведенные ниже, не являются строгими определениями, рассматривайте это как некоторые отправные точки по организации системы управления знаниями.

Определения и типы таксономий

Слово «таксономия» происходит от греческого «таксис», что означает расположение или порядок, и «номос», что означает закон или наука. В управлении информацией термин таксономия используется как

  • в узком смысле, чтобы обозначить иерархическую систему классификации или категоризации, так и
  • в широком смысле, в отношении любых средств систематизация понятий знания.

Термин приобрел достаточную популярность, и практического альтернативного термина, похоже, не существует.

В более широком смысле таксономию можно также назвать система (структура) организации знаний.
Термин «системы организации знаний» охватывают все типы схем организации информации и управления знаниями и включают в себя

  1. Списки терминов (авторитетные файлы, глоссарии, словари и справочники);
  2. Классификации и категории (предметные рубрики, схемы классификации, таксономии и категоризации);
  3. Списки отношений (тезаурусы, семантические сети и онтологии).

Название Система организации знаний как-то не прижилось, возможно из-за его длины. Поэтому мы вряд ли услышим о менеджере/редакторе системы организации знаний, а скорее всего компания будет искать таксономиста или систематика.

Тем не менее, система организации знаний может получить более широкое признание благодаря более активному внедрению рекомендованной W3C (Консорциум всемирной паутины) структуры для представления этих различных контролируемых словарей или SKOS (Simple Knowledge Organization System, простая система организации знаний).

Контролируемые словари

Термин контролируемый словарь может охватывать любой вид системы организации знаний, с возможным исключением высоко-структурированных семантических сетей или онтологий.

Как минимум контролируемый словарь — это просто ограниченный список слов или терминов для некоторых специальных целей, обычно для индексации, маркировки или категоризации. Этот словарь «контролируется», потому что вы можете использовать для работы только термины из списка для рассматриваемой предметной области. Так же контролируются (регламентируются) условия и порядок добавления терминов в словарь, кто и когда может это сделать.

Цель контролируемого словаря — обеспечить согласованность в применении индексных терминов, тегов или меток, чтобы избежать двусмысленности, дублирования или упущения информации, если будет использоваться «неправильный» поисковый термин. При использовании в системах поиска или просмотра контролируемый словарь может помочь пользователям найти то, что они ищут.

Контролируемые словари чаще всего используются при индексировании и разметке контента (тегировании), а так же при создании технической документации и обеспечении контроля за точным смыслом текстов.

Большинство контролируемых словарей имеют тип «смотри и используй», где применяется система перекрестных ссылок, направляющая пользователя от одного или нескольких «неудачных» терминов к назначенному «предпочтительному» термину.

В некоторых контролируемых словарях может существовать набор синонимов для каждого понятия, при этом ни один из них не обозначается как основной или предпочтительный термин (подобно тому, чтобы иметь эквивалентные двойные сообщения в указателе задней части книги вместо ссылки). Этот тип расположения известен как кольцо синонимов или синсет, потому что все синонимы равны и могут быть выражены в круговом кольце взаимосвязей.

Пример кольца синонимов
Пример кольца синонимов

Пример кольца синонимов, как показано на рисунке, представляет собой ряд терминов: приложения, программное обеспечение, компьютерные программы, инструменты, софт, ПО. Кольца синонимов могут использоваться, когда просматриваемый список терминов или записей не отображается пользователю, и пользователь просто получает доступ к терминам через выпадающий список.

Если эти синонимы используются «под капотом» поисковой системой и никогда не отображаются как просматриваемый список для пользователя, различие между предпочтительными и непредпочтительными терминами становятся спорными.

Хотя эти типы контролируемых словарей довольно распространены, они часто невидимы пользователю, поэтому эти термины (кольцо синонимов или синсет) не слишком известна.

Иногда контролируемые словари называют авторитетными, особенно если они содержат только именованные сущности. Именованные сущности — это имена собственные, такие как имена конкретных людей, названия мест, компаний, организаций, продуктов, произведений. Они также требуют контроля за согласованными форматами, использованием сокращений, орфографией и т. д.

Иерархические таксономии

Когда мы думаем о таксономии, первыми приходят на ум иерархические системы классификации. Однако мы используем более широкое определение таксономии, которое охватывает все виды систем организации знаний. Таксономии, которые структурированы как иерархии, будут называться иерархическими таксономиями.

Иерархическая таксономия — это контролируемый словарь, где каждый термин связан с обозначенным более широким термином верхнего уровня, и одним или несколькими более узкими терминами нижнего уровня, а все термины организованы в одну крупную иерархическую структуру.

Таксономия в этом случае может применяться к единой иерархии или ограниченному набору иерархий. Этот тип структуры часто называют деревом со стволом, основными ветвями и более мелкими ответвлениями от основных ветвей, потому что на экране такая таксономия отображается в виде перевернутого дерева с несколькими более мелкими ветвями для более узких терминов внизу на странице.

Другим способом описания такой структуры является таксономия с вложенными категориями, по которым может перемещаться пользователь, как по ветвям.

Пример уровней таксономий

Бизнес и промышленность
Экономика и финансы
Образование и навыки
Занятость, работа и карьера
Правительство, политика и общественность
Здоровье, благополучие и забота
Информация и коммуникация
Международные отношения и оборона
Досуг и культура
Жизнь в сообществе
Люди и организации
Общественный порядок, правосудие и право
Наука, технологии и инновации
Транспорт и инфраструктура
Досуг и культура

Досуг и культура
. Культурно-развлекательные центры
. . Музеи и галереи
. Детские мероприятия
. Культура и творчество
. . Литература
. . Музыка
. . Изобразительное искусство
. Спорт и отдых
. . Командные виды спорта
. . . Футбол
. . . Хоккей
. . Водные виды спорта
. . Зимние виды спорта
. Спортивно-развлекательные комплексы

Классическим примером иерархической таксономии является система Карла Линнея. Это таксономия биологических организмов с иерархической структурой сверху вниз: царство, тип, класс, порядок, семейство, род и вид.

Иерархические таксономии используются в гео-пространственной классификации для упорядочивания информации о регионах, странах, областей, городов. Хотя иерархические таксономии, как правило, используются в основном для общих вещей или понятий, они также могут использоваться для имен собственных, которые естественным образом попадают в иерархию, например названия продуктов, названия государственных учреждений или названия отделов в компании.

Подводя итог, можно сказать, что иерархическая таксономия это собрание необходимых для работы терминов в контролируемый словарь и организация их в иерархическую структуру. И это тот тип таксономии, который случайный таксономист скорее всего и будет создавать в самом начале своей деятельности.

Буквенно-цифровые системы классификации

Системы классификации, использующие числовой, алфавитный или буквенно-цифровой код вместе с описательными терминами являются подтипом иерархической таксономии.

Например, система десятичной классификации Дьюи и систему классификации библиотек для каталогизации книг, стандартная отраслевая классификация (SIC) или коды ОКПО для классификации отраслей и очень много других видов справочников.

Однако системы классификации не используются как чисто тематические таксономии. Концептуальная идея состоит в том, чтобы «классифицировать» документы или поместить их в «классы», предпочтительно только в одно место (в один класс или множество), как в случае с расстановкой книг или других физических объектов, у которых в конкретный момент времени может быть только одно место размещения на полке.

Классы подобны метаданным документа: они сообщают, к какому классу относится конкретный документ. Они не относятся к темам, обсуждаемым в документах, или к тому, о чем документ. Это цель индексации. Документ может получить тематическое индексирование из таксономии, которая дополняет его классификацию.

Кроме того, в цифровых системах классификации много жесткости и их трудно корректировать.
Эти системы относительно стабильны, их не нужно часто обновлять, но их применение довольно ограничено, ведь все течет и все меняется.

Тезаурусы

Классическое значение тезауруса — это своего рода словарь, который содержит синонимы или альтернативные выражения (и, возможно, даже антонимы) для каждого термина.

Тезаурус для управления информацией и поиска имеет ту же характеристику, что и список похожих терминов в каждой записи термина контролируемого словаря.

Отличие состоит в том, что словарь-тезаурус включает в себя все связанные термины, которые потенциально могут быть использованы вместо термина в различные контексты. Пользователю (часто писателю) необходимо учитывать конкретный контекст в каждом случае, потому что в определенных контекстах некоторые из альтернативные термины были бы неуместны.

Информационно-поисковый тезаурус, с другой стороны, предназначен для использования во всех контекстах в пределах охватываемого домена контента, независимо от каких-либо использование конкретного термина или документа. Поэтому синонимы должны быть надлежащим образом эквивалентны во всех обстоятельствах.

Информационно-поисковый тезаурус должен четко указывать, какие термины могут использоваться как синонимы, которые являются более подходящими (более узкие термины), более широкими терминами или просто родственные термины.

Таким образом, тезаурус представляет собой более структурированный тип контролируемого словаря, который содержит информацию о каждом термине и его связи с другими терминами в том же тезаурусе.

Ведущие стандарты, обеспечивающие руководство по созданию таких тезаурусов:

Хотя стандарт ANSI/NISO относится к «контролируемым словарям», словарь, созданный в соответствии с этими рекомендациями, обычно называется тезаурусом.

Стандарты подробно объясняют три типа отношений в тезаурусе:

  • иерархические (более широкий термин/более узкий термин),
  • ассоциативные (родственный термин) и
  • эквивалентные (использование/используется для).

Дополнительная информация о термине, например примечание о сфере применения, может быть включены для уточнения использования.

При сравнении тезауруса с иерархической таксономией тезаурус обычно включает признаки таксономии плюс дополнительный признак ассоциативных отношений для большей степени достоверности при структурной сложности.

И хотя все термины должны принадлежать ограниченному количеству иерархий в иерархической таксономии, это не является строгим требованием для тезауруса. В большинстве статей тезауруса будет указан более широкий и/или более узкий термин, и такие связи не обязательно требуются для каждого термина. Если нет соответствующего более широкого термина, эта взаимосвязь просто может быть опущена.

В тезаурусе основное внимание уделяется отдельным терминам, а не структуре «сверху-вниз». Таким образом, тезаурус может включать несколько небольших иерархий, включающие всего два-три члена, без всеобъемлющей древовидной структуры, типичной для иерархической таксономии.
Если бы вам пришлось объединить все термины тезауруса в единое иерархическое дерево, некоторые иерархические связи, вероятно, были бы несовершенными.

Однако руководящие принципы тезауруса требуют, чтобы каждый вид иерархических отношений термина был точным и действительным. Кроме того, наличие нескольких более широких терминов для записи никогда не является проблемой в тезаурусе, тогда как такие «полииерархии» могут быть запрещены в иерархических таксономиях.

Некоторые тезаурусы на самом деле имеют значительную иерархическую структуру, поэтому различие между иерархической таксономией и тезаурусом могут быть размыты. Чем больше подробностей и информации содержится в тезаурусе по сравнению с простым контролируемым словарем или иерархической таксономией, тем легче найти наиболее подходящий термин. Структура тезауруса особенно полезна для относительно большого контролируемого словаря,
который включает в себя индексирование человеком и/или поддерживает отображение списка терминов, которые конечный пользователь (искатель) может просматривать.

В отличие от иерархической таксономии, которая предназначена для навигации пользователя сверху вниз, тезаурус с несколькими средствами доступа может предоставить более простой интерфейс для поиска большего количества терминов, а значит будет поддерживать более детальную и обширную индексацию, чем простая иерархическая таксономия, особенно если в иерархической таксономии отсутствуют нежелательные термины.

Поскольку тезаурусы описывают отношения между терминами, они чаще встречаются в специализированных предметных областях, где цель состоит не только в том, чтобы помочь пользователю найти информацию, но и помочь пользователю лучше понять терминологию. В некоторых случаях тезаурусы даже были изданы и напечатаны как самостоятельные произведения, отдельно от контент, например Тезаурус Гетти по искусству и архитектуре

Онтологии

Онтологию можно рассматривать как разновидность таксономии с еще более сложными отношениями между терминами, чем в тезаурусе. Конечно, это упрощенный взгляд, на самом деле онтология это нечто большее. Она направлена на описание домена знания, или предметной область, как в терминах (называемых индивидуумами или экземплярами), так и в их отношениях и, таким образом, поддерживает логику и непротиворечивость вывода.
Эта цель более сложного и полного представления знания вытекает из этимологии слова онтология, которое первоначально означало изучение природы бытия или существования.

Онтология определяет набор репрезентативных примитивов, с помощью которых можно моделировать область знаний, или дискурс. … онтологию можно рассматривать как уровень абстракция моделей данных, аналогично иерархической и реляционной модели.

— Том Грубер

Отношения между терминами внутри онтологии не ограничивается более широкими/ узкими связями. Напротив, может быть любое количество специфичных для предметной области типов пар отношений, таких как владеет/принадлежит, производит/производится и имеет членов/является членом.

Создатель онтологии также создает эти типы отношений. Таким образом, не только термины имеют значения, но и сами отношения имеют значение. Отношения со значениями называются семантическими отношениями.

Термины внутри онтологии не только имеют простые описания, как примечания по объему в тезаурусе, но также сопровождаются определенными атрибутами в более структурированном формате, такие как свойства, функции, характеристики или параметры. Условия также имеют
заданные классы, которые онтолог определяет как дополнительный вид классификации. Все эти компоненты онтологии — семантические отношения, атрибуты (для каждого из терминов/экземпляров) и классы — способствуют превращению онтологии в более богатый источник информации, чем простая иерархическая таксономия или тезаурус.

Хотя это и не считается стандартом, существуют рекомендации по спецификациям для построения онтологий в машиночитаемом формате для Интернета, который стал наиболее распространенной реализацией этого типа таксономии. Консорциум всемирной паутины (W3C)
опубликовал схему RDF (структура описания ресурсов) и рекомендации по языку веб-онтологий (OWL). Есть также формат представления онтологий под названием «Тематические карты», который представляет собой набор стандартов ISO 13250 (шесть частей).

Более свободную структуру организации знаний, которая не пытается придерживаться таких рекомендаций, можно было бы назвать семантической сетью, а не актуальной ныне онтологией.

Онтологии подходят для любой предметной области, но существенно бОльший процент опубликованных работ в настоящее время относится к биологическим наукам (онтология генов, онтология белков, онтология Пердью для фармацевтической инженерии).

Ирония в том, что таксономии, получившие начало в биологической классификации, в настоящее время широко используются для любой формы знания, а онтологии, которые первоначально относились к широкому контексту знаний о сущем, в настоящее время используются чаще всего в области биологии.

Признаем рост важности онтологий для развертывании семантической поисковой системы в специализированных отраслях и индустриях. В 2009 году возникла новая организация для поддержка онтологий, Международная ассоциация онтологий и приложений IAOA.

Обозначение, данное системе организации знаний: контролируемая лексика, таксономия, тезаурус, онтология и т. д. — во многом зависит от сложности конструкции, но сложность не единственный фактор, который следует учитывать. Как и все эти термины имеют неоднозначное значение, выбор того, как назвать набор терминов также зависит от того, что является наиболее ясным и понятным для участников, заинтересованных сторон или конечных пользователей. В зависимости от отображения системы организации знаний, конечным пользователям даже нужно знать, как это называется. И чтобы избежать путаницы в терминологии, мы по умолчанию используем единое обозначение таксономии в большинстве контекстов.

Таксономии и метаданные

Существует значительное совпадение между таксономией и метаданными. Метаданные иногда называют «данными о данных», — это вся структурированная информация об элементе контента, таком как документ, цифровой актив (например, файл видео или изображения) или веб-страница.

Таксономии (или, в более общем смысле, контролируемые словари) часто, но не всегда, — это метаданные. И многие, но не все, метаданные используют контролируемые словари. Репозиторий контента имеет схему метаданных, которая может следовать стандарту, например Dublin Core Metadata Elements или MARC (машиночитаемая каталогизация), которая полезна, если контент используется в разных организациях, или он может иметь настраиваемую схему метаданных, которая более удобна для управления метаданные внутри организации.

Схема метаданных

Включает как определенный набор элементов или полей метаданных, так и правила для каждого из этих полей.

Поля заполняются автоматически или «вручную» конкретными соответствующими значениями для каждого отдельного элемента содержимого, как из справочника.

Разные типы метаданных служат разным целям

Национальная организация информационных стандартов (NISO) определяет три вида метаданных: описательные, структурные и административные.

  • Описательные метаданные включают информацию о том, какой это ресурс и что выражается в ключевых словах или кратких описаниях, а также включает другую описательную информацию, которая может быть использована для просмотра и получить данные о названии, авторе и типе документа.
  • Структурные метаданные описывают характеристики ресурса, такие как пагинация или размер.
  • Административные метаданные описывают информацию, необходимую для управления ресурсом, такую как дата его создания, права доступа, права на интеллектуальную собственность и информацию об архивном сохранении.

Помимо NISO, существуют и другие методы классификации типов метаданных, но большинство методов различают метаданные для управления контентом и метаданными для помощи в поиске или обнаружении и извлечении контента.

Таксономия как часть метаданных

Таксономии или контролируемые словари в целом связаны с описательным типом метаданных по двум причинам.

  1. Систематики по роду своей деятельности ориентированы на цель описательных метаданных, которые должны помочь пользователям найти контент.
  2. Описательные метаданные, как правило, используют контролируемые словари больше, чем другие типы метаданных.

В то время как административные или структурные метаданные могут потребовать контролируемых списков терминов для заполнения некоторых полей, контролируемый «список» не обязательно является контролируемым «словарём».

Независимо от типа метаданных (описательные, структурные или административные), конкретное поле метаданных может либо разрешать свободный ввод текста, либо потребовать от пользователя выбора из контролируемого списка параметров. Контролируемый словарь — это, конечно, тип контролируемого списка.

Однако неправильно называть все контролируемые списки «контролируемыми словарями». Например, контролируемый список для поля метаданных может состоят только из пары значений, таких как да/нет, мужчина/женщина, новые/б.у., или может состоять всего из трех или четырех значений, например как маленькие, средние и большие. Эти типы списков не являются контролируемыми словарями, потому что часть определения контролируемого словаря состоит в том, что термин обозначает понятие.

В предыдущих примерах не возникает вопроса о том, какое слово или термин следует использовать для каждого слова из списка. Мы даже не пользуемся словом «термин», скорее это «значение» для краткого обозначения выбора из списка. Однако не существует правила относительно количества значений, которые должен иметь список, прежде чем он будет считаться контролируемым словарем. Скорее, определяющей чертой контролируемого словарного запаса является то, что решения по именованию концепции должны быть приняты при разработке списков.

Поэтому список 50 штатов США сам по себе является не контролируемым словарем, а просто списком, потому что нет вопроса, как назвать штат. Тогда как список всего из 15 «видов деятельности» вероятно, будет контролируемым словарем, потому что имена для действия требуют исследования и рассмотрения, прежде чем можно будет сделан выбор из различных альтернатив.
Контролируемые словари любого размера, включая иерархические таксономии, могут использоваться для поддержки одного или нескольких полей описательных метаданных, например поле Тема или Описание.
Таксономист не обязательно несет ответственность за все метаданные, поэтому нужно работать в сотрудничестве с архитектором метаданных, библиотекарем метаданных или архитектором контента, особенно в размытой зоне ответственности между краткими контролируемыми словарями и большими контролируемыми списками.

В дополнение к определению полей метаданных и их значений, необходимо принять другие решения:

  • требуется ли присвоение/маркировка значений из определенного поля метаданных или это необязательно,
  • может ли поле метаданных содержать только одно значение или можно использовать несколько значений, и
  • будет ли поле отображаться в пользовательском интерфейсе для целей поиска и извлечения данных конечным пользователем.

Таксономия, не являющаяся метаданными

Если таксономия реализована таким образом, что термины, в отличие от других метаданных, не привязаны к элементу контента, то таксономия может не быть частью метаданных.

Если таксономия применяется для поддержки динамической автоиндексации или поиска, и выполняется «на лету», вместо того, чтобы постоянно прикрепляться к записи, то это не метаданные.

Хотя мы уже заявляли, что иерархический дизайн навигации не обязательно является таксономией, в некоторых случаях схема навигации может быть таксономией, а не метаданными. Если бы навигационная схема была разработана как таксономия, а термины таксономии были бы гиперссылками на содержание, а некоторые термины косвенно связаны с более чем одним элементом контента (например, через промежуточную навигацию на странице), то термины таксономии не обязательно будут метаданными.

Приложения и цели таксономий

Как мы видим из различных определений, существуют разные виды таксономий или контролируемых словарей, основанных на их сложности. Однако сложность — это только один из способов классификации таксономий. Более практичный подход состоит в том, чтобы классифицировать их по контексту применения и использования. Каждая таксономия выполняет в первую очередь одну из следующих трех функций, хотя, безусловно, могут быть комбинации различных типов:

  1. Поддержка индексации
  2. Поисковая поддержка
  3. Организация и поддержка навигации

Поддержка индексации

Для поддержки индексирования или каталогизации используется таксономия, более известная как контролируемый словарь, что в этом контексте представляет собой список согласованных терминов для индексирования человеком или каталогизации нескольких документов и/или
для индексации, выполняемой несколькими индексаторами, для обеспечения согласованности.

Если несколько документов, особенно от разных авторов, будут проиндексированы с течением времени, индексатор склонен забывать, какие именно индексные термины были назначены и, возможно, непреднамеренно используют разные синонимы, когда одна и та же тема поднимается в другом документе.

Точно так же разные индексаторы могут выбирать разные индексные термины для той же темы, если не вынуждены использовать контролируемую лексику.

Таким образом, первоначальная цель таксономии — служить людям, занимающимся
индексацией контента, хотя второй, не менее важной целью является обслуживание конечных пользователей, которые, конечно же, получают выгоду от проиндексированного контента, а также может иметь доступ к таксономии.

Этот тип контролируемой лексики используется для каталогизации целых произведений
и для указателей к периодическим статьям, файлам изображений, записям базы данных,
многотомным печатным изданиям, веб-страницам и т.д.

Поскольку индексаторы всегда должны выбирать наиболее точные термины, они часто используют более структурированный тезаурус типа контролируемой лексики. Более широкие, более узкие и связанные отношения терминов направляют индексатора к наилучшему термину, а примечания по объему дополнительно разъясняют неоднозначные термины.

Именованные объекты также часто индексируются, и они управляются из авторитетного файла. В авторитетном файле отсутствуют тезаурус межтерминальных отношений, но может иметь много синонимичных непредпочтительных терминов для каждого предпочтительного термина, такого как варианты имени человека.

Контролируемые словари для поддержки индексации самые длинные, и их формат может быть электронным или печатным. Такие контролируемые словари используются в справочных и периодических статьях, издателях баз данных, в том числе Gale (часть Cengage Learning),
EBSCO и ProQuest, в более специализированных тематических базах данных, таких как
как Chemical Abstracts и PsycINFO. И они также используются во внутренних документах крупных компаний и в научных организациях.

Тот факт, что некоторые из этих контролируемых словарей лицензируются и предлагаются для продажи, иллюстрируют их назначение для индексации, а не только для поиска конкретного контента.

Контролируемые словари для индексирования довольно широко распространены и в сети, хотя доступ к ним может быть платным, за исключением тех, что публикуются государственными агентствами. Вы можете искать или просматривать их, а в некоторых случаях вы также можете получить доступ к связанному контенту.

Примером таких словарей могут послужить предметные рубрики Библиотеки Конгресса и медицинские предметные рубрики.

Библиотека предметных рубрик Конгресса США (LCSH) содержит все темы и имена этой области. Первоначально LCSH был создан для каталогизации библиотечных материалов, но также был принят различными издателями для индексации статей.

Термины называются авторитетами, как и в авторитетном файле, даже те, которые не являются именованными сущностями. Целью веб-сайта является чтобы помочь каталогизаторам библиотечных материалов найти утвержденный предметный заголовок в словаре, контролируемом Библиотекой Конгресса. Это не нацелено на конечного пользователя, ищущего книгу, хотя последовательно каталогизированные книги, конечно, принесут пользу пользователю. Тему и заголовки можно искать, а результаты просматривать в алфавитном порядке. Непредпочтительные термины включены в алфавитный список с предпочтительными по условиям. Непредпочтительные термины предваряются кнопкой с пометкой «Ссылки», которая дает перекрестную ссылку на предпочтительный термин. Предпочтительные термины называются авторизованными заголовками

Медицинские предметные рубрики (MeSH) — это тезаурус Национальной библиотеки США по медицине, который считается авторитетом в области медицинских терминов. Пользователи могут выполнять поиск по терминам или просматривать их. Отображение просмотра является иерархическим, не по алфавиту. Однократный щелчок по термину разворачивает дерево и раскрывает его более узкие термины, двойной щелчок по термину отображает его детали.

Поисковая поддержка

Таксономия, которая служит для индексации, также служит для поддержки поиска конечным пользователем.
Пользователи, выполняющие поиск, извлекают выгоду из непредпочтительных терминов, поскольку их поисковые запросы могут отличаться от терминов, используемых для индексации документа. Например, пользователь может ввести слово «врачи» для поиска статей о врачах. Пользователи также могут воспользоваться более широкими и более узкими отношениями термина или иерархии, чтобы расширить или сузить их поиск. Эти отношения терминов могут предлагать пользователям другие возможные условия в их интересах. В таких случаях пользователь увидит явное представление таксономии для навигации по теме.

Существуют также таксономии, предназначенные для облегчения поиска без поддержки индексации человеком. Эти таксономии обычно генерируются путем сопоставление таблиц терминов и их синонимов/вариантов, предназначенных для помощи при поиске в сети. Это могут быть кольца синонимов или синсеты, особенно если термины даже не отображаются для пользователя или если есть дисплей, он может подсказывать предпочтительные термины.

В зависимости от пользовательского интерфейса может быть настроена иерархическая структура таксономии. Иерархическое расположение позволяет пользователям просматривать и находить более узкие (более конкретные) предметы интереса. Таким пользователи узнают, что входит в таксономию, а что нет, избавляя себя от необходимости многократный ввод терминов, которые не дают никаких результатов. Пользователи также могут найти похожие темы интереса, просматривая иерархии.

Эти типы контролируемых словарей часто используются с поисковыми системами веб-сайтов, корпоративными поисковыми системами внутри компании, справочные базы данных и крупные коммерческие каталоги (например, онлайновые «желтые страницы» или частные объявления), где обычно производится автоматическое индексирование. В то время, как иерархия может быть выбрана для просмотра в каждом из сеансов поиска, синонимы и ссылки на связанные темы не отображаются пользователю, хотя эти ссылки видны в отображении результатов.

Фасетные таксономии для поддержки поиска

Один из способов улучшить поиск данных — создать контролируемый словарь, разделенный на несколько подмножеств, — списки терминов разных типов, представляющих разные аспекты информации. Эти аспекты часто называют гранями, а контролируемая лексика называется фасетной таксономией. Примерами аспектов могут быть люди, места, события, продукты и законы. Аспекты также могут отражать метаданные, отличные от предметных категорий, например тип документа, автор и аудитория. Интерфейс поиска для фасетной таксономии предназначена для поиска пользователем по выбранному сочетанию нескольких аспектов.
Фасетные таксономии обычно используются для онлайн-баз данных и сайты электронной коммерции. Например, в расширенном поиске Shoebuy можно выбрать аспекты Категория, Размер, Ширина, Марка, Цвет, Ценовой диапазон и, дополнительно для женской обуви, Каблук (его высота).

Фасетные таксономии или фасетные системы просмотра используют электронный формат. В зависимости от размера словарного запаса в каждом аспекте, эти таксономии могут использовать или не использовать синонимы и могут иметь или не иметь иерархии внутри них. Некоторые грани могут быть довольно маленькими.

Организация и поддержка навигации

Таксономия как иерархия может обеспечить систему категоризации или классификации вещей или информации. Для организации информации, мы часто видим, что таксономии применяются для управления контентом на веб-сайте, в информационной архитектуре (структурный дизайн), для информационных онлайн-сервисов, организации контента в корпоративных системах управления контентом.
На таких веб-сайтах или корпоративных таксономиях упор делается на классификацию и управляемую пользователем навигацию, а не на поиск конкретной информации. Навигация означает найти свой путь среди неизвестных элементов, тогда как поиск ищет конкретную информацию.

Таксономия веб-сайта очень похожа на оглавление, организованное по теме. Это может быть отражено в навигационном меню и на карте сайта. Таким образом, это можно назвать навигационной таксономией. Эти типы таксономий имеют тенденцию быть относительно небольшими и могут сосуществовать с дополнительными, более подробными таксономиями в других местах на веб-сайте, где категории верхнего уровня таксономии могут быть и пунктами главного навигационного меню.
Таксономии могут использоваться для навигации по корпоративным таксономиям. Таксономии предприятия могут быть очень большими, но верхние уровни обычно демонстрируют ту или иную форму организации информации для предприятия. Целью этой иерархической организации является не только быстрый поиск документов, но и для того, чтобы помочь пользователям лучше понимать орг. структуру предприятия и устройства его информационной сети, чтобы лучше использовать его.

Можно спорить о том, может ли структура навигации веб-сайта на самом деле можно назвать «таксономией», даже если она хорошо разработана. Таксономия как форма контролируемого словаря служит цели индексации, классификации или категоризации.

Это система, в которой один термин может быть повторно использован для индексации или классификации более чем одного элемента, документа или веб-страницы.

В структуре навигации веб-сайта метка меню или карта сайта указывают/ссылаются только на одну веб-страницу. Это существенная разница. Метка навигации веб-сайта должна соответствовать только определенной странице. Таксономия как термин, с другой стороны, может быть применим к нескольким, слегка различным элементам контента. Кроме того, навигационные метки веб-сайта иногда преднамеренно сформулированы так, чтобы заинтриговать или побудить пользователя посетить определенную страницу на сайте, а не просто для информирования или навигации пользователей.

Наконец, иерархические отношения и структура навигации отражает пользовательский опыт и не делает попытки следовать стандартным соглашениям для иерархических таксономических отношений. Вместо того, чтобы рассматривать каждую многоуровневую навигацию по веб-сайту как своего рода таксономии, было бы более уместно изучить, как сделать корпоративные таксономии, способные структурировать всю корпоративную информацию как в закрытой системе управления документами, так и на общедоступном веб-сайте для клиентов, поставщиков и партнеров.

Лицензирование таксономии

Чтобы не строить таксономию с нуля для предприятия или системы управления контентом, можно приобрести уже готовую и наиболее подходящую для вас. Такие готовые таксономии будут построены с учетом всех стандартов, обеспечат не только индексирование и поиск контента, но и предоставят набор базовых понятий из вашей области знаний.

Многие предметные области уже описаны таксономиями. Существуют общие таксономии для географических мест, типов отраслей и продуктов и т. д. Кроме того, списки именованных сущностей доступны из различных источников. Вы можете рассмотреть возможность лицензирования внешней таксономии, если подходящая таксономия уже существует, а создание ее с нуля было бы слишком сложной задачей из-за объема, специализации предметной области и ограниченного времени и ресурсов. Лицензированный контролируемый словарь может использоваться как для одного аспекта, так и для большего набора таксономий.

Таксономии или контролируемые словари, доступные для лицензии, поступают из самых разных источников: государственных учреждений, профессиональных ассоциаций, специализированных компаний. Государственные опубликованные таксономии доступны по лицензии (или даже бесплатно без лицензии) включают LCSH, Тезаурус графических материалов Библиотеки Конгресса, MeSH, USDA Тезаурус Национальной сельскохозяйственной библиотеки и Интегрированный словарь государственного сектора.

Исследовательский институт Гетти (J. Paul Getty Trust) является авторитетным некоммерческим поставщиком контролируемых словарей, в том числе Тезаурус искусства и архитектуры, Тезаурус географических названий Гетти и Объединенный список имен художников.

Ведущий коммерческий поставщик готовых таксономий, WAND Inc. специализируется на таксономии товаров и услуг. Самый большой каталог таксономий и тезаурусов, доступный для использования, есть у Taxonomy Warehouse.
База данных включает сотни таксономий, некоторые из них представляют собой простые управляемые словари или глоссарии, а другие представляют собой полнофункциональные тезаурусы. Хотя некоторые из них размещены в Интернете, файлы данных (обычно в формате CSV или XML) можно получить для большинства из них. Один издатель может предлагать многочисленные таксономии по разным предметным областям.

Растет спрос на маркировку изображений и увеличение количества «списков ключевых слов» для фотографов. Многие из них это, по сути, иерархические и многогранные таксономии. Из-за того, что они обычно не включают нежелательные термины, то скорее это простые таксономии, несмотря на то, что некоторые из них очень большие (10 000 или 20 000 терминов). Цены на эти списки относительно невысокие по сравнению с некоторыми коммерческими тезаурусами, а часть из небольших списков ключевых слов бесплатны. Каталог под названием «Списки ключевых слов для фотографии и бесплатные ресурсы по ключевым словам для Lightroom» был доступен на веб-сайте одного поставщик списка ключевых слов, Photo-Keywords, который специально предназначен для профессиональных фотографов-фрилансеров.

Форматы могут различаться, но, как правило, таксономии или тезаурусы, доступные для разных целей, отформатированы в той или иной форме XML. При этом все термины, отношения, непривилегированные термины, примечания к сфере применения и т. д. сохраняются, когда они импортируются в другие системы управления таксономиями.
Использование XML и других интероперабельных форматов таксономии, позволяют просматривать списки ключевых слов в Excel или текстовых файлах, а так же легко импортировать их в программное обеспечение для управления фотографиями, особенно Adobe Lightroom, сохраняя при этом иерархию. Однако, если вы изучаете таксономию, вы, вероятно, захотите изменять или улучшать его для собственных нужд, в любом случае он будет требовать некоторого обслуживания с течением времени.

Иногда исходная таксономия, взятая как есть, может не обеспечивать требуемого качества управления информацией. Масштабный исторический проект оцифровки, который закодировал результаты американских выборов, использовал Тезаурус географических названий Гетти. Несмотря на то, что тезаурус включает исторические географические названия, его все равно оказалось недостаточно для целей проекта, потому что он не включал все города и районы, которые были названы позднее, т.к. там не было указано, когда различные исторические названия или границы были изменены.

Лицензионные соглашения могут разрешать использование таксономии безплатно в некоторых случаях, но может запрещать коммерческое использование или требовать заявления со ссылкой на первоначального владельца авторских прав. Если таксономия рассматриваться как опубликованное произведение, защищенное авторским правом, бесплатно или за плату, тогда также будут ограничения на внесение в него изменений.

Ряд свободно контролируемых словарей, таких как Getty, следует модели связанных открытых данных (LOD) и лицензии Open Data Commons Attribution License, которая позволяет изменение словарного запаса, но требуют отнесения к первоисточник. Веб-сайт со словарями Getty предоставляет образец форм заявлений об атрибуции, таких как: «Это [название или отчет или статья или набор данных] содержит информацию из Art & Architecture Тезаурус (AAT), доступный по лицензии ODC Attribution License».

Политика использования и модификации MeSH следующая:
Если использование не является личным, (1) Национальная библиотека США должна быть идентифицирована как создатель, поддерживающий и поставляющий данные; (2) версия данных должен быть четко указан год MeSH, например, 1997 MeSH; и (3) в файле должно быть указано описание модификации.

Часто вам потребуется внести изменения в приобретенную таксономию, поэтому убедитесь, что лицензия разрешает изменения. Также имейте в виду что вы несете ответственность за постоянное обновление. Лицензированные таксономии, как запрещающие, так и разрешающие изменения, обычно предлагают обновления через годовую подписку. Твердое понимание того, как создавать термины и отношения, по-прежнему необходимо для управления готовыми таксономии. Таким образом, получение таксономии из внешнего источника облегчает задачу, но не устраняет необходимость в таксономисте. Начиная с предварительно созданной таксономии, вы может сэкономить время и сделать задачу гораздо проще для вашего менее опытного систематика. Вы можете следить за примерами форматов терминов и отношений по мере того, как вы строите свою таксономию дальше.

История таксономий

Таксономии бывают как новые, так и старые.

И библиотекари, и индексаторы занимались «таксономией» задолго до того, как она стала горячей темой в 1990-х

— Джин Греф, тренер по таксономии из Montague институт

Таксономии в каталогизации и индексации

Самые ранние таксономии предназначались для классификации, например организмов или книг, но каждый элемент мог находиться только в одном месте в таксономия. Например, книга получает единый номер для своего расположение на полке. В области библиотечного дела к концу 19 века появились более практичные таксономии, поддерживающие дополнительную описательную каталогизацию, которая не ограничивается одним описательным термином на книгу. Ведущими контролируемыми словарями для каталогизации книг были Американская библиотека. Тематические рубрики ассоциации (1895 г.), Библиотека Конгресса (LCSH) (1898 г.) и список Sears List, первоначально опубликованные как Список предметных рубрик для небольших публичных библиотек (1923 г.).

Это были простые контролируемые словари, которым не хватало более широких и более узких, а так же родственных терминологических отношений. Ссылки для каждого вида отношений более широкий термин, более узкий термин и ссылки на связанные термины в 1985 году.
Это было принято на вооружение различными издательствами периодических указателей для индексации статей из газет и журналов, а профессиональные сообщества разработали свои собственные управляемые словари для индексации периодической литературы в своих странах.
К ним относятся Служба химических рефератов Американского химического общества, основанная в 1907 году.

Слово тезаурус впервые было использовано для обозначения контролируемого словаря для целей поиска информации Питером Луном в IBM в 1957 году. Ранние опубликованные тезаурусы включали отдел дескрипторов ASTIA Министерства обороны в 1960 году и Тезауруса химического машиностроения Американского института инженеров-химиков в 1961 году.
Стандартные отношения тезауруса появились со временем, и были разработаны как руководящие принципы, которые их подкрепляли, в том числе руководящие принципы ЮНЕСКО 1967 г., которые легли в основу стандарта ISO 2788 в 1986 году, который был заменен на ныне действующий стандарт ISO 25964 в 2011 году.
С 1960-х годов различные компании, государственные учреждения и профессиональные ассоциации опубликовали десятки специализированных тезаурусов. В 1972 году новая компания «Диалог» начала предлагать первый общедоступный исследовательский онлайн-сервис, обеспечивающий доступ к нескольким библиографическим базам данных цитирования, проиндексированным контролируемыми словарями.

Корпоративные таксономии

Однако вплоть до 1980-х годов разработка таксономии (тезауруса) в основном ограничивалась издателями крупных указателей или литературно-поисковых баз данных, несколькими крупными компаниями, особенно в области естественных наук, например, DuPont, и правительственными учреждениями. Компании и правительственные учреждения, которые разрабатывали таксономии, делали это в основном в рамках конкретных предметных областей.

Таксономии для всего предприятия впервые начали появляться в конце 1970-х годов, но их принятие было ограниченным. По словам консультанта по таксономии и управлению знаниями Линды Моултон, это было не столько отсутствие интереса, сколько просто ограниченность программных инструментов, что препятствовало более широкому внедрению корпоративных таксономий. Моултон вспоминает, как преподавал ряд тезаурусов строительные мастерские в 1982–1984 гг., на которых присутствовали библиотекари и индексаторы таких компаний, как Liberty Mutual, John Hancock, Fidelity, MITRE и Digital Equipment Corp.

Современная автоматизация библиотек начала появляться с конца 1970-х, а системы для «специальных библиотек» (корпоративных библиотек) и управление информацией с 1980х. Хотя специализированных систем управления таксономией тогда еще не появились на рынке, эти более ранние системы включали функции управления таксономией. К ним относятся BiblioTech от Comstow Information Services (приобретенная Inmagic в 1999 г., а с 2014 г. Lucidea), который впервые был установлен на Polaroid в 1981 году, и TechLib, выпущенная в 1984 году, построенная на базе BASIS (приобретена OpenText в 1998 г.). Комстоу провел ряд семинаров, которые были посвящены разработке тезаурусов для корпоративных библиотек в начало 1980-х. Только в конце 1990-х годов возник более широкий интерес к таксономиям и соответствующим инструментам для их поддержки. Консультационная компания по таксономии Earley Information Science начал работать над классификацией, категоризацией и метаданными проектов (по сути, таксономия, но еще не так называемая), чтобы помочь своим клиентам получить максимальную отдачу от приложения Lotus Notes, создавая структуры классификации, формы и навигацию.

В 1998 году IBM представила свой Lotus Discovery Service, который «действительно вызвал потребность в таксономии», по словам Сета Эрли, поэтому он и другие консультанты в свое время оказывали услуги по созданию таксономий для Lotus Notes.

Рост корпоративных и веб-таксономий

Появление и рост Интернета в 1990-х годах стало основным фактором, способствовавшим росту интереса к таксономиям по нескольким причинам. Сеть позволила небольшим издателям предлагать онлайн информационные услуги. Компании начали развивать свой внутренний интранет, которые быстро увеличивался в размерах и требовал лучшей навигации и поиска. «С развитием Интернета возник интерес к созданию инструмента для улучшения результатов поиска», — пояснила соучредитель Триш Янси о запуске компании Synapse Corp. (теперь Synaptica LLC).

Распространение поисковых систем, а затем поиск по сайту или корпоративный поиск также вызвал интерес к таксономии, поскольку стало очевидно, что одного поиска недостаточно.
По словам Жана Грефа, «таксономия стала популярной, когда ИТ-специалисты поняли, что поисковые системы сами по себе не могут решить проблему поиска».

Большое внимание к дизайну сайта и навигации привело к развитию информационной архитектуры, которая опирается на сетку понятий и таксономии.

Поскольку роль информационной архитектуры и влияние Луи Розенфельда и Питера Морвилля на Всемирную паутину росла, знание библиотечного дела, многогранные классификации просмотра и использование колец синонимов в качестве усовершенствований поиска, распространяются более широко…

— Фред Лейз, индексатор, информационный архитектор и таксономист

Растущий интерес к таксономии в 1980-х и 1990-х гг. также отражается в росте программного обеспечения для управления таксономией. Программное обеспечение для создания и ведения таксономий изначально разрабатывались внутри нескольких крупных организаций, которые использовали для себя уже разработанные таксономии. В 1980 году Comstow выпустил BiblioTech, свою полностью интегрированную библиотечную систему для корпоративных и государственных библиотек, которая включала модуль для создания тезауруса, полностью интегрированый с модулем каталогизации и индексации. Лаборатория Колумбуса выпустила аналогичный функционал в TechLib вскоре после этого.

В середине 1980-х коммерческое программное обеспечение для ПК для создания тезауруса стало доступно многим компаниям, в том числе настольные инструменты MultiTes, Term Tree, и TCS (позже часть WebChoir). Из них пока только МультиТес работает сегодня. В 1990-х годах стали доступны более масштабные клиент-серверные системы, отражающие растущий спрос.

Компания «Синапс» разработала программное обеспечение для поддержки таксономий, которые она создавала для поддержки своих консультационных услуг, но вскоре вышли на рынок для самого программного обеспечения и начали продавать управление таксономией Synaptica как систему веб-управления тезаурусом в 1999 году.

Точно так же Access Innovations предлагала услуги индексирования с 1978 года, но затем обнаружила спрос на свой инструмент управления таксономией и с 1998 года на коммерческой основе предлагает Data Harmony Thesaurus Master.

Wordmap, еще один поставщик ПО для таксономии, был основан в 1998 году. Системы управления контентом и корпоративные поисковые решения, которые только что вышли на рынок в 1990-х годах, начали предлагать компоненты или функции управления таксономией. В 1990-е годы также были созданы коммерческие поставщики таксономий, включая Synapse Corp. и WAND, обе из которых были основаны в 1995 году, а автоматический генератор таксономий компания Intellisophic появилась в 1999 году.

Появление термина таксономия происходило параллельно с этим растущим интересом к таксономии. Бывший консультант по таксономии Рон Дэниел начал свою карьеру в полевых условиях, работая в Министерстве энергетики над его тезаурусом. Он рассказывает, как примерно в 1997 году при нем начали использовать слово таксономия как синоним тезауруса, термином, который не стал таким популярным как таксономия.
Эрли вспоминает, как начинал использовать слово таксономия в работе с клиентами примерно в 1996 или 1997 году.

Моултон вспоминает использование термина таксономия следующим образом:
«На протяжении всей моей профессиональной карьеры, сначала в качестве технического библиотекаря, затем разработчика программного обеспечения и консультанта, оперативной терминологией для моей работы был тезаурус. Я впервые услышал термин таксономия применительно к «картам организаций» в начале 1990-х годов. В конце 1990-х я слышал термин «таксономия» в контексте использования для описания «терминологических карт», «тематических иерархий» и «терминологических отношений». Вскоре таксономия стала де-факто ярлыком для тематических навигационных схем для коммерческих веб-сайтов, ориентированных на поиск и навигацию по текстовому контенту. В какой-то момент я понял, что термин «тезаурус» не был понят профессионалами в области информационных технологий и управления бизнесом. Итак, примерно в 2000 году я принял таксономию, чтобы охватить любой разрабатываемый контролируемый словарь, или использовать в любом индексировании, управлении метаданными или поисковых кейсов. По сей день я использую тезаурус и таксономию взаимозаменяемо в зависимости от того, какое слово будет скорее всего резонировать с моей аудиторией».

В мае 2015 г. мы провели онлайн-опрос, в котором приняли участие 148 таксономистов. Они также подтвердил относительно позднее принятие термина таксономия вместе с другими терминами (контролируемые словари, метаданные для классификации или тегирования, тезаурусы или авторитетные файлы).

Еще один способ отследить рост популярности таксономий — проследить упоминание таксономий в периодической литературе, особенно в деловых и торговых журналах. В то время как многие из этих статьи могут быть посвящены конкретным предметным таксономиям, а не информационной таксономии в целом, поиск по множественному числу слова таксономии фокусирует результаты больше на создание общих информационных таксономий.

Глядя на Базу данных подписки Гейла Business Collection на InfoTrac (охватывает 3000–4000 журналов, журналов, информационных бюллетеней, отраслевых отчетов и новостных лент) для таксономии слов в заголовках и полном тексте показывают заметное увеличение с 1998 по 2002 год, а затем более устойчивое явление в последующие годы, за исключением всплеска в 2010 г. Не «Таксономии» является лидером в базах данных Гейла, а несколько более широкое «контролируемые словари».

Переломный момент наступил примерно в 2000 году. На Европейской конференции по деловой информации (EBIC) в 2000 году Том Кулопулос, президент Delphi Group и известный писатель и оратор по вопросам управления знаниями, заявил: «Таксономии — это шикарно». С тех пор таксономии была популярной темой на конференциях и семинарах.

Институт Монтегю провел свой первый круглый стол по таксономии в 2000 году. Значительное количество таксономий стало общедоступным (обычно для лицензирования), поэтому в 2001 году Synapse Corp. (теперь Synaptica, LLC) запустила свой каталог веб-сайтов по таксономиям Taxonomy Warehouse.

Консультант по таксономии Марсия Моранте вспоминает следующее: «2000 год был, вероятно, самым началом волнs коммерческой таксономии. Это был год, когда Я начал с Sageware, и нам еще предстояло многое сделать. Но к тому времени точно были несколько компаний, чей бизнес был построен вокруг таксономии. Хотя новые модные словечки, такие как фолксономия, социальные сети и Web 2.0, вытеснили таксономию в своем употреблении в 2000-х годах, устойчивый интерес к таксономии и систематикам продолжается.

Отраслевой аналитик Стив Арнольд проанализировал веб-трафик в Google с с 2002 по 2008 год по термину таксономия и обнаружили, что он продолжает остаются сильными, сильнее, чем CMS (системы управления контентом). Он пришел к выводу, что «таксономия — это специальная концепция, которая, по-видимому, продолжает двигаться в мейнстрим».

Содержание всей книги

Определения и типы таксономий
Таксономии и метаданные
Приложения и цели таксономий
Таксономии для лицензии
История таксономий

История таксономистов
Навыки таксономиста
Сопутствующие обязанности
Работа систематиков

Понятия и термины
Определение понятий
Выбор предпочтительного термина
Формат термина
Предварительно согласованные условия
Примечания и атрибуты

Отношения эквивалентности и непредпочтительные термины
Иерархические отношения
Ассоциативные отношения
Иерархические/ассоциативные неоднозначности
Семантические варианты отношений

Создание и управление
Программное обеспечение, не предназначенное для создания таксономий
Специальное программное обеспечение для управления таксономией
Однопользовательский настольный тезаурус
Многопользовательское программное обеспечение для управления таксономией
Бесплатное программное обеспечение с открытым исходным кодом
Другое программное обеспечение с управлением таксономией
Компоненты ПО

Индексация
Что такое индексация человека?
Условия, отношения и примечания для индексаторов
Структура таксономии и интерфейс индексирования
Обновления таксономии и контроль качества
Управление фольксономиями

Автоматическое индексирование, поиск и таксономии
Технологии автоматического индексирования
Программное обеспечение для автоматической категоризации
Создание таксономий для автоматического индексирования

Иерархии
Грани
Несколько словарей и категорий

Отображение и вывод тезауруса
Отображение иерархической таксономии
Полевой поиск и многогранные дисплеи

Планирование таксономии
Таксономии предприятий
Процесс создания таксономии
Управление таксономией

Обмен таксономиями и интероперабельность
Обновление таксономии
Объединение таксономий
Многоязычные таксономии

Природа таксономической работы
Таксономисты как подрядчики
Образование и обучение
Организации, сети и ресурсы

Термины в кольце синонимов
Термины в расширяемой иерархической таксономия
Термин в тезаурусе ASIS&T
Онтология предметной области, связанная с управлением розничной торговлей
Тематические рубрики библиотеки
Медицинские предметные рубрики
Пример таксономии верхнего уровня крупнейшего онлайн-ритейлера
Сайт поиска образовательных ресурсов, карта сайта, навигационная таксономия
Типы нежелательных терминов
Характеристики иерархических отношений
Полииерархия термина
Ассоциативная связь между терминами в разных иерархиях
Типы ассоциативных связей
Ассоциативные отношения
Термины с пересекающимся значением
Термины, не пересекающиеся по смыслу
Мастер тезауруса гармонии данных
Корпоративная словарная сеть
Банк терминов
Кольцо синонимов, поддерживающее поиск концепций
Фасетные индикаторы типов
Простой алфавитный список
Плоский алфавитный порядок терминов
Отображение полной иерархии терминов
Расширяемая древовидная иерархия контента и подкатегории на сайте
Фасеты для библиотечных материалов
Извлечение вывода XML
Извлечение выходных данных из Тезауруса
Извлечение выходных данных OWL из Тезауруса
Выходные данные SKOS из Тезауруса
Автоматическое сопоставление терминов, требующее рассмотрение систематиком

Перевод, адаптация и курирование: Онтограф

Вы дочитали статью до конца, видимо вас так же интересует эта тема. Пожалуйста, поставьте оценку пользы для вас этого материала.
Если у вас есть свои идеи по теме, напишите в комментариях — мы с радостью возьмем на вооружение и улучшим этот материал с пользой для других читателей.

Оцените автора
Онтограф
Добавить комментарий