Отраслевой альянс
Часто задаваемые вопросы по открытым данным
Ответы на вопросы об открытых данных
Ответы на самые важные вопросы об открытых данных
Каждое изменение вызывает вопросы, как и тема открытых данных: «Что вообще такое открытые данные и что стоит за Schema.org?»
Чтобы вместе работать над получением доступных и открытых данных о туризме в России, необходимо определить и понять соответствующие термины. Для базового понимания мы собрали ответы на самые важные вопросы.
Открытые данные
Открытые данные — это все наборы данных, которые доступны и могут использоваться без ограничений для дальнейшего распространения и дальнейшего использования в интересах широкой общественности.
Пользователями являются все компании, такие как глобальные игроки, стартапы, организации более высокого уровня, партнеры и все субъекты внутри и за пределами туризма, которые создают продукты и услуги для пользователей на основе данных.
Структурированные данные — это данные, маркированные в соответствии с заданным стандартом де-факто. Schema.org — самый известный стандарт, с которым согласились основные поисковые системы.
Все данные с информационным содержанием во всех форматах контента (изображения, тексты, видео, подкасты и т. д.) представляют интерес:
- точки, например объекты/рестораны,
- линии, например маршруты/тропы,
- области, например регионы/лыжные зоны,
- динамическая информация, например время работы/высота снега,
- статистика, например потоки посетителей/заполняемость,
- а также другой контент, такой как истории, рецепты или люди.
Контент-услуги либо производятся собственными силами, либо приобретаются. В обоих случаях рекомендуется достичь соглашения с авторами о том, что приобретенные услуги (контент или «данные») могут использоваться без ограничений по времени и содержанию.
Соответственно, необходимо позаботиться о том, чтобы обеспечить приоритетность данных с помощью лицензии CC0 или, альтернативно, лицензии CCby.
Существующий контент следует по возможности обновить до лицензии CC0, если это стратегически и оперативно актуально.
Интеллектуальная собственность данных регулируется по-разному в разных национальных законах. По этой причине для цифрового мира были созданы значимые лицензии как ориентация на то, с какими условиями связана обработка соответствующих данных или даже насколько возможно открытое использование.
Самая известная система лицензирования называется Creative Commons. Наиболее полезными типами лицензий, установленными для участников, желающих использовать открытые данные, являются:
CC0: все права отменены, данные можно использовать по своему усмотрению, т.е. полностью открывать.
CC-by: при использовании данных обязательна ссылка на автора.
CC-by-sa: при использовании данных обязательна ссылка на автора. Работа может распространяться только по той же лицензии.
Все остальные типы лицензий слишком ограничены, затрудняют использование и не очень полезны.
Данные и контент могут использоваться в целях, которые невозможно контролировать. Однако опасность, связанная с опубликованным контентом в Интернете, всегда существует, и опыт показывает, что на самом деле она очень мала. На наш взгляд, возможности и возможности, предлагаемые открытыми данными, намного перевешивают риски.
Данные должны быть доступны отдельно в системе управления контентом и описаны в единой онтологии, такой как Schema.org. В качестве примера: списка в текстовом редакторе с указанием дней недели и часов работы недостаточно, поскольку он не может быть четко интерпретирован машиной. Дни недели и время соответственно должны быть отмечены. Таким образом, в зависимости от управления контентом данные вводятся в соответствии с заранее заданными структурами, чтобы затем их можно было вывести в удобной для пользователя форме. Для этого система должна обеспечивать возможность дифференциации соответствующих прав на данные на уровне поля контента в соответствии с форматом.
Поскольку открытые данные доступны каждому через интерфейсы, данные можно использовать для разработки новых цифровых продуктов и услуг, которые могут быть полезны широкой публике в повседневной жизни или на отдыхе.
Существующие ключевые показатели эффективности, такие как посещения и просмотры страниц, больше не применяются, если контент и данные сторонних поставщиков могут использоваться свободно. Здесь необходимо разработать новые KPI.
Поскольку структурированные открытые данные в принципе могут использоваться кем угодно, их охват, как правило, шире. Кроме того, структурированные открытые данные оцениваются поисковыми системами более качественно.
Первые эталонные проекты показывают, что игроки со структурированными открытыми данными получают значительно больше органических результатов в поисковых системах. Таким образом, вы уходите от идеи, что контент должен быть доступен только на вашем собственном веб-сайте. Это особенно актуально для контента, который уже определен в галерее поиска Яндекс или Google справа от общей выдачи. Поисковые системы показывают в таких блоках, как контент может отображаться преимущественно на странице результатов поиска, что является четким сигналом о том, что за счет правильной разметки этих типов контента можно добиться большей, чем меньшей видимости.
Свободно доступные данные являются важной предпосылкой для дальнейшего развития новых технологий, таких как диалоговые интерфейсы, мобильность и Интернет вещей, а также разработки новых туристических предложений и услуг. От этого выиграют пользователь и гость.
Данные должны предоставляться с соответствующими открытыми лицензиями, чтобы каждый участник рынка (например, глобальный игрок, стартап, поставщик услуг) мог использовать эти данные как можно более неограниченно. Для использования данные должны быть доступны в Интернете в виде структурированных и связанных данных. Таким образом, открытые данные можно интерпретировать и использовать автоматически.
Открытые данные создают предпосылки для цифровой трансформации в сторону искусственного интеллекта. Таким образом, мы защищаем Россию как туристическое направление, укрепляем ее конкурентоспособность и продвигаем туристические регионы, в частности, а также цифровые инновации в туризме и за его пределами. И последнее, но не менее важное: мы увеличиваем присутствие бренда Destination Russia в стране и за рубежом, особенно в странах БРИКС.
Граф знаний
Термин «Граф знаний» был придуман Google для обозначения базы знаний, используемой Google и его службами для обогащения результатов поисковой системы информацией, связанной с поисковым запросом, из различных источников. Информация отображается пользователям в информационном окне рядом с результатами поиска или выводится через Google Voice Assistant.
Тем временем термин «Граф знаний» стал использоваться для соответствующих продуктов, в том числе от других авторов. Таким образом, граф знаний представляет собой базу знаний в сетевой форме, аналогичную семантической сети, в которой отдельные точки знаний и их описания помещены в семантические отношения. Графы знаний могут стать основой для многих приложений искусственного интеллекта. Самая известная диаграмма знаний — это Google Knowledge Graph.
Чтобы сделать все структурированные данные о туризме доступными в одном месте, например, для приложений искусственного интеллекта или других туристические ассоциации и большое количество поставщиков туристических услуг в России хотели бы создать свой собственный открытый граф знаний о туризме.
На первом этапе данные из местных и региональных «хранилищ данных» должны быть одинаково маркированы или это единообразие должно быть реализовано через интерфейсы.
На следующем этапе данные становятся доступными через центральную графовую базу данных (Knowledge Graph). Графовая база данных характеризуется тем, что она предоставляет семантически однозначные, структурированные и мощные данные для области применения искусственного интеллекта. Заинтересованные пользователи могут затем использовать данные из Knowledge Graph.
Структурированные данные должны соответствовать стандартному языку разметки для использования в семантическом контексте. Установленной онтологией для этого является «schema.org». Schema.org — это инициатива крупнейших поисковых систем Bing, Google, Yahoo! и Яндекс. Он предоставляет систему описания, позволяющую предоставлять данные в определенной структуре. Таким образом, на сайте Schema.org есть схемы, которые можно использовать для описания различных типов данных (об отеле, событии, туристических объектах и т. д.).
Типы лицензий и права использования
Данные и контент могут использоваться в целях, которые невозможно контролировать. Однако опасность, связанная с опубликованным контентом в Интернете, всегда существует, и опыт показывает, что на самом деле она очень мала. На наш взгляд, возможности работы с открытыми данными намного перевешивают риски.
Существующий контент следует по возможности обновить до лицензии CC0, если это стратегически и оперативно оправдано.
Переход к открытым данным будет означать, что тендеры и контракты на покупку контента придется пересматривать, чтобы получить соответствующие права на использование. Просвещение существующих партнеров об этом нововведении будет иметь важное значение, поскольку до сих пор неограниченное право использования обходилось дорого. Как ожидается, некоторые из существующих партнеров пока воздержатся или предложат более дорогие услуги, но появятся и новые претенденты на условиях, сопоставимых с нынешними. Вполне вероятно, что со временем существующие партнеры вернутся к предложению по первоначальным ценам.