Связанные данные как образ мышления

Блог

При создании любых цифровых продуктов, от простого сайта гостиницы до платформ-агрегаторов, основное внимание нужно уделять архитектуре данных с точки зрения их дальнейшего многократного использования в разных контекстах. Данные должны отвечать требованиям читаемости, интерпритируемости и удобству использования как людьми, так и машинами.

Данные для людей, а не для машин

Идея структурирования данных для семантической сети возникла около 30 лет назад у Тима Бернерс-Ли, который изобрел Всемирную паутину (WWW, сокращенно Интернет). Чтобы сортировать и связывать контент любого типа (текст, изображения, аудио, видеофайлы и т. д.), он разработал систему, которая идентифицирует его с помощью URL-адресов. Эти URL-адреса до сих пор используются для ссылки из одного документа на любое количество других. Это создает сеть документов или веб-сайтов — Всемирную паутину.

Данные могут храниться и публиковаться в различных формах. Различают неструктурированные, полуструктурированные и структурированные данные.

Неструктурированные данные — это данные, которые существуют таким образом, что люди могут их прочитать, но саму структуру можно понять только через человеческий опыт. Примерами являются простые описательные тексты, в которых агрегирована вся информация по определенной теме.

Данные являются полуструктурированными, когда информация разделена на отдельные поля, но они не соответствуют стандарту де-факто. В переносном смысле у них нет общеизвестного «языка», поэтому значение отдельных полей не может быть сразу понятно посторонним, а информация также может быть сгруппирована в сплошной текст, который в других языках разметки был бы разделен.

Структурированные данные, предназначенные для понимания не только людьми, но и алгоритмами Семантической сети, если они размечены в соответствии с онтологией. Это означает, что чья-то конкретная информация структурируется на основе стандарта де-факто. Широко используемой онтологией для описания контента в сети является Schema.org.

Связанные данные как образ мышления
Связанные данные в виде графа

Контент в Интернете, как правило, легко читается людьми. Однако у алгоритмов по-прежнему имеются свои ограничения, когда дело доходит до интерпретации контента. В основном это связано с тем, что они не могут качественно интерпретировать неструктурированные или полу-структурированные данные. Например, описание вело-тура можно «разбить» на отдельные части и учесть в списке такие аспекты, как: маршрут, продолжительность, высота, уровень сложности и т. д. Однако все это информация также может быть описана и представлена ​​в виде единого связного текста.

Преодоление разрозненности данных

Данные могут быть структурированы очень неоднородно, как это обычно бывает при анализе ресурсов по туризму в России. Алгоритмы не могут легко расшифровать эти различия. Если данные должны быть подготовлены для машин, обязательным условием является их единая маркировка: каждый велосипедный маршрут должен быть описан одинаково.

Тогда логика маркировки станет сразу понятной, и информацию о разных велосипедных маршрутах можно будет объединить из разных источников данных (хранилищ данных).

Эта идея единообразного описания структуры данных и последующего их соединения называется связанными данными. Тим Бернерс-Ли очень ясно объяснил это дальнейшее развитие Интернета в выступлении на TED, которое до сих пор остается новаторским:

Используя связанные данные, можно объединить информацию из разных контекстов. Описания велосипедных туров больше не должны заканчиваться на административных границах, а могут быть продолжены посредством единой структуры данных для гостя.

Связанные данные — это ключ к капитализации через многократное повторное использование

В настоящее время при обработке данных в сфере туризма по-прежнему уделяется большое внимание людям. Информация о велосипедной дорожке сохраняется, как правило, с целью ее публикации в конкретном приложении или на веб-сайте для ваших гостей. В принципе, ничего страшного в этом нет.

Однако в будущем станет все более важным предоставлять данные таким образом, чтобы их можно было использовать универсально, за пределами конкретного варианта использования. Важно, чтобы они описывались единообразно с помощью онтологии. В туризме это Schema.org. В настоящее время рабочей группой TODA этот стандарт адаптируется для особенностей туризма в России.

Чтобы структурировать данные для семантической сети, необходимо достичь консенсуса относительно языка разметки. Установленным стандартом описания данных (также называемым онтологией) является «schema.org».

Schema.org — это инициатива крупнейших поисковых систем Bing, Google, Yahoo! и Яндекс. Он предоставляет систему описания для предоставления данных в определенной структуре. Это также можно назвать аннотацией или разметкой данных.

На сайте Schema.org есть схемы, которые можно использовать для описания различных типов данных (например, отеля, мероприятия, туристического объектаи т. д.). Если эти схемы используются всеми поставщиками данных, то данные могут быть связаны друг с другом и понятны независимо от варианта использования — поскольку существует единая структура. Таким образом, Schema.org можно понимать как язык данных.

Говорят о «взаимодействии»: данные могут обрабатываться людьми и машинами независимо от канала вывода, а также независимо от контекста.

Это имеет две основные причины:

  • По мере развития технологий искусственного интеллекта машины будут все чаще работать независимо с данными и представлять новые связи. Вполне возможно, что велосипедные туры должны быть показаны на предмет того, подходят ли они и зимой. Если набор административных данных содержит информацию об услугах по оформлению, эти два набора данных могут быть связаны. В результате это означает, что вряд ли можно заранее предугадать контекст, в котором данные могут быть использованы. Поэтому они должны предоставляться контекстно-независимым образом.
  • В зависимости от контекста приложения меняются и требования к выходному каналу. Ожидается, что данные больше не будут отображаться только на одном выходном канале, а в будущем везде, где это необходимо пользователю: на смартфоне, на сенсорном экране в туристической информации, посредством вербального вывода с помощью голосового помощника и т. д.
Связанные данные как образ мышления

Управление данными как задача будущего

Из-за различных требований Интернет все больше превращается из сети связанных документов в сеть связанных наборов данных.

Такая адаптация управления данными весьма актуальна на фоне развития Интернета вещей: в будущем будет доступно множество контекстных данных о погоде, времени, состояниях (пусто или полно, светло или темно и т. д.). с помощью датчиков. В сочетании со структурированными данными о туристических объектах, событиях и т. д. может возникнуть широкий спектр приложений. Здесь часто речь идет об автоматических службах, которые в зависимости от контекста праздника (дождь или солнце, утро или вечер, высокий или низкий сезон и т. д.) дают рекомендации, соответствующие как ситуации, так и конкретному гостю.

Современное управление данными может стать центральной будущей задачей РТИЦ (Региональные туристко-информационные центры). Это означает, что основное внимание при управлении данными должно быть уделено читаемости, интерпритируемости и удобству использования данных для машин (и людей).

Оцените статью
( 2 оценки, среднее 5 из 5 )
Туризм | открытые данные