Возрождение простого текста в эпоху ИИ

Обычный текст победил. Как lingua franca для взаимодействия с LLM, Markdown теперь вездесущ. А именно: Microsoft недавно выпустила MarkItDown, инструмент с открытым исходным кодом, который преобразует различные типы файлов (включая DOCX, PPTX и PDF) в Markdown.

Хорхе Аранго

Автор: Хорхе Аранго
Информационный архитектор, консультант, автор и педагог. Последние 25 лет он использовал архитектурное мышление, чтобы внести ясность и согласованность в цифровые продукты и услуги. Хорхе также преподает в программе интерактивного дизайна для выпускников Калифорнийского колледжа искусств.

Если вы увлекаетесь ИИ, это просто находка. Для LLM проще обработать текстовую строку, чем двоичный объект. Многое из того, что имеет наибольшее значение во многих из этих файлов, в любом случае можно отобразить как простой текст.

MarkItDown — это только последняя версия. Множество других инструментов теперь импортируют и экспортируют Markdown. Для некоторых классов приложений это стало почти ожидаемой функцией. Есть даже приложения, такие как Obsidian, которые используют простой текст Markdown в качестве стандартного формата данных.

Это очень важно, если вы работаете с LLM. Одним из ограничений подхода по использованию GraphRAG для работы с информационной архитектурой является то, что корпус для построения графа знаний должен состоять из простого текста (веб-страницы и файлы PDF, которые можно легко преобразовать в обычный текст). Но большая часть контента в современном корпоративном мире находится в презентациях PowerPoint, документах Word и файлах Excel. Чтобы сделать их доступными для LLM, потребовались дополнительные шаги.

MarkItDown автоматизирует преобразование таких файлов в простой текст. Это делает построение полного корпуса информации более рабочим проектом. Это открывает такие инструменты, как GraphRAG, для таких случаев использования, которые были бы непрактичны ранее.

Это уже само по себе захватывающе, но важнее всего общая картина: обычный текст — самый простой из цифровых форматов! — вернулся.

Было время, когда закрытые, проприетарные форматы, казалось, были обречены на господство. В рабочем мире информация передавалась в форматах DOC, XLS и т. д. Дизайн-работа происходила в файлах PSD и AI. (Это Adobe Illustrator, а не искусственный интеллект).

Конечно, эти форматы предоставляют возможности, с которыми не может сравниться простой текст. Они также, вероятно, являются наиболее эффективным способом сохранения такого типа данных. Но у них также есть недостатки.

Самое главное, что их сложно переносить и использовать в других приложениях (чаще всего по замыслу самих разработчиков). Это большое дело, особенно если вы собираетесь сохранять данные на долгие годы. Хотя, вероятно, будут приложения, которые открывают PSD и DOC, в течение многих лет, есть более малоизвестные фирменные форматы, которые не так широко поддерживаются. Если у вас много данных, хранящихся в таких форматах, вы можете застрять на несколько десятилетий, поскольку компьютерный мир движется вперед.

Теперь большая часть моей компьютерной жизни вращается вокруг трех приложений: веб-браузера, текстового редактора и терминала. Это дает мне душевное спокойствие и беспрецедентный контроль. Помимо долгосрочной совместимости, хранение данных в виде простого текста упрощает их обработку, интеграцию с другими приложениями, резервное копирование и т. д.

Текущая ситуация — это значительное улучшение по сравнению с тем, куда компьютерный мир направлялся десятилетия назад. Простой текст — это стандарт и открытость, насколько это возможно. Это тот формат, который, скорее всего, будет поддерживаться дольше и шире всего. За его возрождение мы должны поблагодарить LLM.

Источник: Хорхе Аранго

Курирование и адаптация: Онтограф

Вы дочитали статью до конца, видимо вас так же интересует эта тема. Пожалуйста, поставьте оценку пользы для вас этого материала.
Если у вас есть свои идеи по теме, напишите в комментариях — мы с радостью возьмем на вооружение и улучшим этот материал с пользой для других читателей.

Оцените автора
Онтограф
Добавить комментарий