Этот документ является неофициальным переводом Library Linked Data Incubator Group Final Report. Оригинальная версия документа существует только на английском. Данный перевод может содержать неточности и ошибки. Отредактировал и опубликовал Кирилл Топольян, на базе черновика Дениса Савельева.

W3CW3C Incubator Report

Итоговый отчет Группы развития библиотечных связанных данных

Отчет группы развития W3C от 25 октября 2011

Эта версия:
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/
Последняя опубликованная версия:
http://www.w3.org/2005/Incubator/lld/XGR-lld/
Авторы
Thomas Baker, Dublin Core Metadata Initiative, US (Приглашенный W3C эксперт)
Emmanuelle Bermès, Centre Pompidou, France (Приглашенный W3C эксперт)
Karen Coyle, Consultant, US (Приглашенный W3C эксперт)
Gordon Dunsire, Consultant, UK (Приглашенный W3C эксперт)
Antoine Isaac, Europeana and Vrije Universiteit Amsterdam, Netherlands
Peter Murray, LYRASIS, US (Приглашенный W3C эксперт)
Michael Panzer, OCLC Online Computer Library Center, Inc., US
Jodi Schneider, DERI Galway at the National University of Ireland, Galway, Ireland
Ross Singer, Talis Group Ltd, UK
Ed Summers, Library of Congress, US
William Waites, University of Edinburgh (School of Informatics), UK
Jeff Young, OCLC Online Computer Library Center, Inc., US
Marcia Zeng, Kent State University, US (Приглашенный W3C эксперт)

Также смотрите переводы.


Аннотация

Миссия группы развития библиотечных связанных данных W3C, работавшей с мая 2010 года по август 2011 года, состояла в том, чтобы "способствовать улучшению глобальной совместимости библиотечных данных в Интернете, путем объединения людей, вовлеченных в деятельность Семантической Паутины — сконцентрированной на связанных данных — в библиотечном сообществе и за его пределами, на основе существующих инициатив, а также выявить направления сотрудничества на будущее". В связанных данных [LINKEDDATA], данные выражаются с помощью стандартов, таких как Среда описания ресурса Resource Description Framework (RDF) [RDF], который определяет отношения между объектами, и URI (или "веб-адреса"). В настоящем Заключительном докладе Группы развития рассматривается, как стандарты Семантической паутины и принципы связанных данных могут быть использованы, чтобы сделать ценными активами информацию, которую создают и поддерживают библиотеки – ресурсы, такие как библиографические данные, авторитетные записи и схемы концептов — более заметными и доступными для повторного использования за пределами их первоначального библиотечного контекста в более широкой Сети.

Группа развития начала работу со сбора отчетов о соответствующей деятельности участников, начиная с небольших независимых проектов и вплоть до инициатив национальных библиотек (см. отдельный отчет, Группа развития библиотечных связанных данных: примеры использования) [USECASE]. Примеры использования, ставшие отправной точкой для работы, кратко изложены в докладе: анализ преимуществ библиотечных связанных данных, обсуждение актуальных вопросов, касающихся традиционных данных библиотек, существующие инициативы в области библиотечных связанных данных, а также юридические права на библиотечные данные; и рекомендации по дальнейшим действиям. В докладе также обобщаются результаты исследования современных технологий связанных данных и инструментарий доступных сегодня ресурсов по библиотечным связанным данным (см. также более подробный отчет, Группа развития библиотечных связанных данных: Наборы данных, словари значений и наборы элементов метаданных) [VOCABDATASET].

Ключевые рекомендации доклада:

Статус этого документа

Этот раздел описывает статус этого документа на момент его публикации. Другие документы могут заменять этот документ. Список Финальных отчетов Групп развития доступен. См. также Список технических отчетов W3C по адресу http://www.w3.org/TR/.

Этот документ был разработан Группой развития библиотечных связанных данных.

Публикация этого документа (консорциумом) W3C в рамках Групп развития W3C не указывает на одобрение его содержания со стороны W3C, а также не означает, что W3C имеет, выделяет или будет выделять ресурсы для решения любых вопросов, рассматриваемых в нем. Участие в группах развития и публикация отчетов групп развития на сайте W3C является правом членов W3C.

Группы развития имеют целью создание работ, которые могут использоваться на безвозмездной основе, как это определено в Патентной политике W3C. Участники этой группы развития согласились предоставить лицензии в соответствии с лицензионными требованиями Патентных правил W3C на части этого отчета группы развития, которые впоследствии будут включены в рекомендации W3C.

Дискуссии по этому документу приветствуются в публичном списке рассылки public-lld@w3.org (архив).

Содержание

1 Область применения настоящего доклада

Область, рассматриваемую в данном отчете, "Библиотечные связанные данные", можно понимать следующим образом:

Библиотека. Слово "библиотека", в значении, использующемся в настоящем докладе, включает полный спектр учреждений, занимающихся культурным наследием и памятью, включая библиотеки, музеи и архивы. Этот термин относится к трем отдельным, но взаимосвязанным понятиям: коллекция физических или абстрактных (в том числе потенциально включающих «цифровые») объектов, место, где находится коллекция, и лицо, которое курирует сбор коллекции и управляет помещением. Коллекции могут быть общественными или частными, большими или маленькими, и не ограниченными каким-либо конкретным типом ресурсов.

Библиотечные данные. Термин "Библиотечные данные" относится к любому типу цифровой информации, которая производится или курируется библиотеками, описывает ресурсы или помогает их раскрытию. Данные, предусмотренные политикой конфиденциальности библиотеки, как правило, вне области, рассматриваемой в настоящем отчете. В этом отчете для удобства выделено три типа библиотечных данных на основе типичных областей их использования: наборы данных, наборы элементов и словари значений (см. Приложение A).

Связанные данные. Термин "Связанные данные" относится к данным, опубликованным в соответствии с принципами, разработанными для облегчения связи между наборами данных, наборами элементов и словарями значений [LINKEDDATA]. Связанные данные используют Унифицированные идентификаторы ресурсов (URI) как глобально уникальные идентификаторы для любых видов ресурсов, аналогично тому, как идентификаторы используются для авторитетного контроля в традиционном библиотечном [URI]. В связанных данных, URI могут быть Интернационализированными идентификаторами ресурсов (IRI), то есть веб-адресами, которые используют расширенный набор естественно-языковых шрифтов, поддерживаемых Unicode. Связанные данные выражаются с помощью стандартов, таких как среда описания ресурсов (RDF), который определяет отношения между предметами; отношения, которые могут быть использованы для навигации между ними, или интеграции, связи информации из нескольких источников [RDF].

Открытые данные. В то время как термин "связанные данные" относится к технической совместимости данных, термин «Открытые данные» фокусируется на их «правовой совместимости». В соответствии с определением открытых библиографических данных, открытые данные являются по сути свободно используемыми, повторно используемыми и свободно распространяемыми – являющиеся объектом, по крайней мере, права распространения с атрибутами и на тех же условиях (см. условия лицензий Creative Commons Attribution and Share Alike http://creativecommons.org – прим. переводчика). Обратите внимание, что технология связанных данных сама по себе не требует, чтобы данные были открытыми, хотя потенциал технологии лучше всего реализуется, когда данные публикуются как связанные открытые данные.

Библиотечные связанные данные. "Библиотечные связанные данные" – это любой тип библиотечных данных (как определено выше), которые выражаются в виде связанных данных.

2 Преимущества технологии связанных данных

Технология связанных данных обладает значительными преимуществами по сравнению с нынешней практикой создания и предоставления библиотечных данных, обеспечивая естественное расширение моделей взаимного обмена данными, исторически используемых библиотеками. Связанные данные и особенно связанные открытые данные разделяемы, расширяемы, и легко повторно используемы. Технология поддерживает многоязычную функциональность операций с данными и пользовательских услуг, таких как маркировка понятий, идентифицируемых независимыми от языка адресами(URI). Эти характеристики включены в стандарты связанных данных и поддерживаются использованием идентификаторов данных и концептов, удобных для использования во Всемирной паутине. Ресурсы могут быть описаны в сотрудничестве с другими библиотеками и связаны с данными, добавленных другими сообществами или даже частными лицами. Как и связывание, которое практикуется сегодня между веб-документами, связанные данные позволяют любому предоставить всем свои уникальные знания в форме, которая может быть повторно использована и объединить их с опытом других. Использование идентификаторов позволяет создать разнообразные описания одного и того же объекта. Благодаря широким связям с дополнительными данными из надежных источников, библиотеки могут увеличить значимость своих собственных данных, которая будет больше, чем значимость источников, взятых по отдельности.

Используя глобально уникальные идентификаторы для обозначения произведений, мест, людей, событий, субъектов и других объектов или предметов, библиотеки сделают возможным ссылаться на эти ресурсы в широком спектре других источников данных, и таким образом сделают их описания (метаданные) более широко доступными.

Система доменных имен Интернета обеспечит стабильность и достоверность путем помещения их в среду с контролируемыми и прозрачными владельцем и ведением.

Эта идея полностью соответствует долгосрочным целям библиотек. Библиотеки, и институты памяти в целом, находятся в уникальном положении, позволяющем предоставлять во Всемирной паутине достоверные метаданные о ресурсах, представляющих долгосрочное культурное значение.

Другой мощный результат повторного использования этих уникальных идентификаторов в том, что он позволяет поставщикам данных предоставить часть своих данных как выражения (наверное, имеется ввиду выражения в среде описания ресурсов RDF?-прим. переводчика). В нашей нынешней экосистеме, построенной на документе, обмен данными всегда происходит в формате полной записи, каждая из которых, как предполагается, является полным описанием. Напротив, в экосистеме, основанной на графах, организация может предоставлять отдельные утверждения о ресурсе, и все утверждения о каком-нибудь конкретно и однозначно определенном ресурсе могут быть объединены в глобальный граф. Например, одна библиотека может предоставить шифр национальной библиографии своей страны для данного ресурса, в то время как другая может предоставить его переведенное название. Библиотечная информационная система может принять эти данные из внешних источников, так же, как в наши дни используются изображения книжных обложек. В экосистеме связанных данных, буквально нет слишком маленького вклада – каждый атрибут делает возможными важные связи идущие от заранее неизвестных источников.

Библиотечные авторитетные данные по именам и предметным рубрикам помогут уменьшить избыточность библиографических описаний в Интернете путем четкого определения ключевых сущностей, которые являются общими для всех связанных данных. Это также поможет в сокращении избыточности метаданных, представляющих библиотечные фонды.

2.1 Преимущества для исследователей, студентов и читателей

Для пользователей библиотек и учреждений культуры внедрение сервисов связанных данных может быть не очевидным, поскольку изменения будут происходить "под капотом". Однако, когда основополагающие структурированные данные будут лучше связаны между собой, пользователь сможет заметить улучшение возможностей поиска и использования данных. Навигация по ресурсам библиотеки и внебиблиотечным информационным ресурсам станет более совершенной. Результаты объединенного поиска улучшатся за счет использования ссылок на расширенные индексы, и пользователи будут иметь более широкий выбор путей для получения информации.

Связанные данные основаны на фундаментальном принципе Всемирной Паутины: ссылки, по которым можно переходить (URI), составляют единое информационное пространство. Так же, как совокупность веб-страниц и сайтов доступна пользователям и их приложениям как единое целое, совокупность наборов данных, использующих RDF и URI, представляет собой глобальный информационный граф, который пользователи и их приложения могут свободно использовать путем выбора своего пути по ссылкам URI в форме («тURIзма»). Ценность связанных данных для библиотек состоит в этих основных навигационных принципах. Ссылки между библиотечными ресурсами и не библиотечными, такими, как Wikipedia, GeoNames, MusicBrainz, the BBC, и The New York Times, соединят локальные коллекции в общую вселенную информации во Всемирной паутине.

Связанные данные – это не создание альтернативной Паутины, это усовершенствование Всемирной Паутины путем добавления структурированных данных. Эти структурированные данные, выраженные с использованием таких технологий как RDF в атрибутах (RDFa) и микроданных, играют роль в сканировании и алгоритмах определения релевантности поисковых машин интернета и социальных сетей, и позволят библиотекам улучшить их отображение в процессе оптимизации для отображения в поисковых машинах (SEO). Структурированные данные, включенные в HTML – страницы также будут способствовать повторному использованию библиотечных данных в услугах, оказываемых тем, кто ищет информацию: управление цитатами может осуществляться таким простым способом, как вырезание-вставка URI. Автоматизация поиска цитат из Связанных данных или создание ссылок из веб-ресурсов на библиотечные ресурсы будет означать, что библиотечные данные полностью интегрированы в документы исследователей и библиографию. Связанные данные будут способствовать междисциплинарным исследованиям путем обогащения знаний ссылками на базы из других областей знаний.

Перевод существующих библиотечных данных в связанные данные является лишь первым шагом; наборы данных, используемых для экспериментов, о которых пишется, и модель, используемая авторами, чтобы обработать данные, также могут быть опубликованы в виде связанных данных. Представление статьи, набора данных и модели с использованием соответствующих словарей и формализаций делает удобнее другим исследователям повторить эксперимент или повторно использовать данные с различными моделями и в различных целях. В случае, если такая практика будет принята, она может улучшить точность исследований и сделать результаты научных исследований, изложенных в научных отчетах, более прозрачными для облегчения проверки со стороны других ученых. (Смотрите, для примера, пример использования расширенной публикации.)

2.2 Преимущества для организаций

Продвигая подход к публикации данных «снизу вверх», связанные данные создают возможность для библиотек повысить значимость описания своих фондов. Традиционный нисходящий подход к созданию библиотечных данных — то есть, создание каталожных записей в качестве автономных описаний библиотечных материалов — существовал из-за бюджетных ограничений: библиотеки не имеют ресурсов, необходимых для производства информации на более высоком уровне детализации. Со связанными данными, различные виды данных об одном и том же объекте могут создаваться на децентрализованной основе различными участниками, затем агрегироваться в единый граф.

Технология связанных данных может помочь организациям улучшить свои внутренние процессы обработки данных и поддерживать более тесные связи между, например, оцифрованными объектами и их описаниями. Это может улучшить процесс публикации данных в рамках организации даже там, где данные не полностью открыты. В то время как сегодняшние библиотечные технологии являются специфичными в области библиотечных форматов данных и предоставляются библиотечной интегрированной системой как специфичные для библиотечной индустрии, библиотеки смогут использовать массовые решения по управлению связанных данных. Принятие массовой технологии связанных данных может дать библиотекам более широкий выбор поставщиков и использование стандартных форматов связанных данных позволит библиотекам привлекать сотрудников и взаимодействовать с более широким кругом разработчиков.

Связанные данные могут стать первым шагом на пути к "облачным" подходам по управлению культурной информацией, который может быть более экономически эффективным, чем автономные системы в учреждениях. Такой подход может помочь небольшим организациям или отдельным проектам стать более заметными и вовлеченными в общественные связи при одновременном снижении затрат на инфраструктуру.

Со связанными открытыми данными, библиотеки могут увеличить свое присутствие во Всемирной паутине, где можно найти большинство ищущих информацию. Акцент на идентификаторах позволяет адаптировать описания к конкретным сообществам, таким как музеи, архивы, художественные галереи, аудиовизуальные архивы. Открытость данных — это более возможности, чем угроза. Уточнение условий лицензирования описательных метаданных облегчает их повторное использование и улучшает известность организации. Данные опубликованные таким образом, могут использоваться неожиданным образом, как в поговорке: "Лучшая идея, как использовать ваши данные, будет придумана кем-то другим."

2.3 Преимущества для библиотекарей, архивистов и кураторов

Преимущества для учредителей и вышестоящих организаций, также имеют непосредственное влияние на библиотечных специалистов. При использовании связанных открытых данных, библиотеки создают открытый, глобальный пул совместно используемых данных, которые можно использовать и повторно использовать для описания ресурсов, затрачивая небольшие дополнительные усилия по сравнению с нынешним процессом каталогизации.

Использование Всемирной паутины и веб-идентификаторов сделает возможным для каталогизаторов напрямую использовать актуальные описания ресурсов. Использование общих идентификаторов позволит им собрать воедино описания ресурсов за пределами своей предметной среды, по всем наборами данных о культурном наследии, и даже из Всемирной паутины в целом. Каталогизаторы смогут сконцентрировать свои усилия на их области компетенции, вместо того, чтобы заново создать существующие описания, которые уже были разработаны другими.

История показывает, что все технологии являются переходными, и история информационных технологий предполагает, что конкретные форматы данных в особенности недолго используются. Связанные данные описывают значение данных ("семантику"), отдельно от конкретных структур данных ("Синтаксиса" или "форматов»), в результате чего связанные данные сохраняет свое значение независимо от изменения формата. В этом смысле, связанные данные являются более прочными и надежными, чем форматы метаданных, которые зависят от конкретной структуры данных.

2.4 Преимущества для разработчиков и поставщиков

Разработчики и поставщики для библиотек непосредственно получат выгоду, если не будут привязаны к конкретной библиотечным форматам данных. Методы связанных данных поддерживают извлечение и повторное смешивание данных таким образом, чтобы метаданные оставались связными независимо их поставщиков. Вместо того чтобы требовать, чтобы доступ к данным должен осуществляться по библиотечно-ориентированным протоколам (например, протокол извлечения данных Z39.50), связанные данные используют известные стандартные веб-протоколы, такие как протокол передачи гипертекста (HTTP).

Разработчикам также больше не придется работать со специфичными для библиотек конкретными форматами данных, таких как ISO 2709 и машиночитаемой каталогизации (MARC), которые требуют специальных инструментов программного обеспечения и приложений. Методы связанных данных включают передачу данных во Всемирную паутину в форме, которая является понятной всем. Поставщики библиотек, которые поддерживают связанные данные, смогут продавать свою продукцию за пределы библиотечной сферы, в то время как поставщики за пределами библиотечной сферы могут быть в состоянии адаптировать свои продукты более общего назначения к специфическим требованиям библиотек. Используя RDF и HTTP, разработчики библиотек освобождаются от необходимости использовать специфичные библиотечные программы, открывая для себя растущий ассортимент стандартных инструментов, многие из которых поставляются с открытыми исходными кодами. Они будут легче строить новые сервисы на основе своих данных. Это также открывает гораздо большее сообщество разработчиков для оказания поддержки информационных технологий специалистам в библиотеках. В море RDF триплетов, ни один разработчик не является островом.

3 Текущая ситуация

3.1 Проблемы, связанные с традиционными библиотечными данными

3.1.1 Данные библиотек не интегрированы с веб-ресурсами

Библиотечные данные сегодня находится в базах данных, которые, несмотря на то, что они могут иметь веб-ориентированные поисковые интерфейсы, не глубоко интегрированы с другими источниками данных в Интернете. Существует значительное количество библиографических данных и других видов ресурсов в Интернете, которые взаимно используют некоторые точки доступа, такие как даты, географические данные, лица и организации. В будущей среде связанных данных, все эти точки могут быть соединены.

3.1.2 Стандарты библиотек предназначены только для библиотечного сообщества

Многие стандарты библиотек, такие как формат MARC или протокол извлечения информации Z39.50, были (или остаются) разработаны в контексте, специфичном для библиотек. Стандартизация в библиотечном мире часто проводится органами сосредоточенными исключительно на библиотечной сфере, например, Международная федерация библиотечных ассоциаций и учреждений (IFLA) and the Совместного комитета по развитию RDA (JSC). Расширяя сферу своей работы или кооперируясь с инициативами по стандартизации связанных данных, такие органы могут также расширить значимость и применимость созданных ими стандартов для использования в видах данных, созданных и используемых другими сообществами.

3.1.3 Библиотечные данные преимущественно выражаются в виде текста на естественном языке

Большая часть информации в библиотеке данных кодируется как дисплей-ориентированный, естественно-языковой текст. Некоторые поля в записях MARC используют закодированные значения, такие как строки фиксированной длины представляющие языки, но нет четкого стимула, чтобы использовать это во всех записях, так как большинство кодированных полей данных не используются в функционировании библиотечной информационной системы. Некоторые из идентификаторов используемых в MARC записи, такие как номер ISBNs для книг, в принципе могут быть использованы для установки связей, но только после того, как они будут извлечены из текстовых полей, в которых они находятся, и затем нормализованы.

Некоторые поля данных, таких как авторитетно-контролируемые имена и предметы, имеют соотносимые записи в разных файлах, и эти записи имеют идентификаторы, которые могли бы быть быть использованы для представления этих сведений в библиотечных метаданных. Тем не менее, форматы данных, используемые в настоящее время, не всегда поддерживают включение этих идентификаторов в записи, поэтому многие сегодняшние библиотечные системы не способны правильно поддерживать их использование. Эти идентификаторы также, как правило, управляются локально, а не глобально, и, следовательно, не выражены в виде URI, что позволило бы ссылаться на них во Всемирной паутине. Отсутствие связей или недостаточная поддержка их в библиотечных системах поднимает важные вопросы. Изменения в авторитетных записях требуют, чтобы все связанные библиографические описания были найдены для того, чтобы изменить их текстовые строки — разрушительный и дорогостоящий процесс, который часто не позволяет библиотекам внесения изменений в установленные сроки.

3.1.4 Библиотечное сообщество и сообщество Семантической паутины имеют различную терминологию для аналогичных концепций метаданных

Работы по библиотечным связанным данным может быть затруднена из-за различий в понятиях и терминологии между библиотеками и сообществом семантической паутины. Немногие библиотекари говорят о метаданных как "утверждениях", в то время как сообществу семантической паутины не хватает понятий очевидно эквивалентных понятиям "рубрика" или "авторитетный контроль". Каждое сообщество имеет свой собственный словарный запас, и это отражает различия в их точках зрения. Взаимопонимание должно быть обеспечено, так как обе группы представляют существенный опыт и знания в построении паутины данных.

3.1.5 Перемены в библиотечных технологиях зависят от поставщиков систем

Значительная часть технического опыта в области библиотечного дела сосредоточена у небольшого числа поставщиков, которые производят информационные системы и программное обеспечение, которые поддерживают как функции управления библиотекой, такие как комплектование, пользовательские данные и книговыдачу, так и раскрытие фондов. Это означает, что библиотеки должны полагаться на этих поставщиков и их планы развития технологий, а не на собственную инициативу, когда они хотят использовать связанные данные в производственных масштабах.

3.2 Библиотечные связанные данные, доступные сегодня

Успех библиотечных связанных данных будет зависеть от способности практиков по выявлению, повторному использованию, или установке ссылок на другие имеющиеся источники связанных данных. Тем не менее, до сих пор было трудно получить общие сведения о библиотечных наборах данных и словарях, которые доступны в виде связанных данных. Группа развития провела инвентаризацию имеющихся источников библиотечных связанных данных (см. Приложение A), которая приводит к следующим наблюдениям.

3.2.1 Меньшее число наборов библиографических данных было опубликовано в виде связанных данных, большее — данных словарей и наборов элементов

Многие наборы метаданных и словари были опубликованы в виде связанных данных за последние несколько лет, в том числе основные словари, такие как предметные рубрики Библиотеки Конгресса and Десятичная классификация Дьюи. Основные наборы элементов, таких, как словарь метаданных DCMI и справочные структуры, такие как Функциональные требования к библиографическим записям (FRBR) были опубликованы в виде связанных данных или в совместимых со связанными данными формах.

Относительно небольшое число библиографических наборов данных были сделаны доступными как связанные данные, и еще меньше метаданных было подготовлено для журнальных статей, цитат, или библиотечной статистики — информация, которая может эффективно использоваться в сферах, где данные просто интегрируются в зависимости от контекстов. Новаторские инициативы, такие как выпуск британской национальной библиографии показывают, какие усилия необходимы для решения таких проблем, как лицензирование, моделирование данных, обработка накопленных данных, а также сотрудничество с различными сообществами пользователей. Тем не менее, они также демонстрируют значительные преимущества выпуска библиографических баз данных в виде связанных данных. По мере накопления опыта сообщества число наборов данных, выпущенных в виде связанных данных стремительно растет.

3.2.2 Качество и поддержка имеющихся данных значительно варьируется

Уровень завершенности и стабильности имеющихся ресурсов значительно варьируется. Многие существующие ресурсы являются результатом текущей работы над проектами или результатом индивидуальных инициатив, и описываются скорее как прототипы, нежели как готовые предложения. Действительно,большое число таких инициатив является признаком активности в данной сфере и интереса к библиотечным связанным данным, иллюстрирующим процессы быстрого прототипирования и "живого" развития, которое обеспечивается связанными данными. В то же время, потребность в такой творческой, динамично развивающейся работе уравновешивается необходимостью в наличии ресурсов библиотечных связанных данных, которые являются стабильными и доступными в долгосрочной перспективе.

Отрадно, что созданные институты все чаще выделяют ресурсы для проектов связанных данных, от национальных библиотек Швеции, Венгрии, Германии, Франции, Библиотека Конгресса, и Британской библиотеки, до Продовольственной и сельскохозяйственной организации Объединенных Наций и OCLC Онлайновый компьютерный библиотечный центр. Такие учреждения обеспечивают стабильную основу, на которой библиотечные Связанные данные могут расти с течением времени.

3.2.3 Связывание наборов данных началось, но требует дальнейших усилий и координации

Основное преимущество технологии связанных данных возникает при установлении связей между и внутри наборов данных. Создание этих связей будет ключом к успеху этой технологии. Наша библиотека имеющихся данных (см. Приложение A), показывает, что многие семантические связи были созданы между опубликованными значениями словарей — большое достижение для зарождающейся библиотеки сообщества связанных данных в целом. Большее может — и должно — быть сделано, чтобы решить вопрос избыточности различных авторитетных ресурсов, которые ведутся библиотеками. Больше связей необходимо также между наборами данных и между наборами метаданных, которые используются для структурирования описаний связанных данных. Основные узкие места — это сравнительно низкий уровень долгосрочной поддержки словарей, ограниченное взаимодействие между разработчиками словарей, а также отсутствие качественных инструментов, снижающих затраты поставщиков данных для получения большого количества требуемых семантических связей. Начата деятельность по обеспечению обмена знаниями между участниками в этой области, а также производство и обмен соответствующими ссылками (см. Приложение C).

3.3 Вопросы права

3.3.1 Владение правами — комплексная проблема

Некоторые библиотечные данные ограничены в использовании на основе локальных правил, контрактов и условий. Следовательно, могут быть не разрешенные четко правовые проблемы с данными и не проверенные права на них, что препятствует их публикации как открытых данных. Вопросы прав существенно различаются от страны к стране, что затрудняет совместную работу над публикацией открытых данных.

Владение правами на наследие каталожных записей осложняется степенью обмена данными между библиотеками на протяжении последних пятидесяти лет. Записи часто копировались и копии изменялись или совершенствовались для использования местными каталогизаторами. Эти записи могли быть впоследствии вновь объединены в каталоги региональных, национальных и международных консорциумов. Установление юридически обоснованных прав интеллектуальной собственности соответствующих субъектов и организаций сложно, и отсутствие определенности затрудняет обмен данными в сообществе, которое обязательно должно быть осторожным в правовых вопросах.

3.3.2 Права на данные могут рассматриваться как бизнес-активы

Там, где библиотечные данные никогда совместно не использовались с другими сторонами, исключительные права могут охраняться организациями, которые оценивают стоимость своих прошлых, настоящих и будущих инвестиций в создание, поддержание и сбора метаданных. Некоторые агентства рассматривают записи в качестве активов в их бизнес-планах и могут не захотеть публиковать их в виде связанных открытых данных. Другие могут быть готовы опубликовать свои данные только в упрощенной или урезанной форме с потерей семантических деталей, что влияет на полезность метаданных.

4 Рекомендации

Библиотеки должны участвовать во всемирной паутине информации, как сделав свои данные доступными для использования в виде связанных данных, так и путем использования веб-данных в библиотечном обслуживании. В идеале, данные библиотек должны полностью интегрироваться с другими ресурсами в Интернете, что обеспечит большую популярность библиотек и приближение библиотечных услуг к тем, кто ищет информацию. Во взаимодействии с паутиной связанных данных, библиотеки могут взять на себя роль лидера основанную на их традиционных видах деятельности: управление ресурсами для текущего использования и долгосрочного хранения; описания ресурсов на основе согласованных правил и реагирования на потребности тех, кто ищет информацию.

4.1 Руководству библиотек

4.1.1 Определите наборы данных в качестве возможных кандидатов для первоначального опубликования в виде связанных данных

Самым ранним шагом должно стать определение высокоприоритетных, проектов связанных данных, которые можно сделать малыми усилиями. По самой своей природе, связанные данные обеспечивают накопительный подход к публикации их доступными для использования в Интернете. Области библиотечных данных являются сложными, и попытки опубликовать их все сразу во всей этой сложности в виде связанных данных могут иметь мало успеха. Однако некоторые библиотечные ресурсы поддаются публикации в виде связанных данных, не нарушая существующих систем и услуг. Среди них авторитетные файлы (записи которых определяют сущности) и контролируемые перечни наименований. Идентификация таких "низко висящих плодов" позволит библиотекам быстро расширить свое присутствие в облаке связанных данных без изменения их рабочих процессов в других местах.

4.1.2 Начните обсуждение открытых данных и права

При определении прав на данные, правообладатели должны рассмотреть вопрос о последствиях использования ограничений, так как ограничения усложняют повторное использование данных в среде связанных данных. Библиотечным лидерам имеет смысл заключать соглашения о правах и лицензировании на уровне библиотечных консорциумов или даже в национальном или международном масштабе. (Для примера, см. раздел Права и Лицензирование Руководства по открытым библиографическим данным для британских вузовских библиотек.)

4.2 Органам по стандартизации и их участникам

4.2.1 Увеличивайте участие библиотек в стандартизации Семантической паутины

Если стандарты Семантической Паутины не обеспечивают перевод библиотечных данных с достаточной выразительностью, стандарты могут быть расширены. Например, если Простая система организации знаний (SKOS), — стандарт, используемый для публикации систем организации знаний в виде связанных данных, не включает в себя механизмы для представления компонентов предварительно скоординированных предметных рубрик, исполнители должны рассмотреть вопрос о разработке решения, расширяющего его основные элементы, например, с использованием Языка онтологий Паутины OWL. Для того, чтобы гарантировать, что эти новые структуры будут пониматься потребителями связанных данных в целом, исполнители должны сотрудничать с сообществом Семантической паутины и для того, чтобы обеспечить совместимость предлагаемых решений с текущей наилучшей практикой, и чтобы максимизировать применимость их работы за пределами библиотечной среды. Члены мирового библиотечного сообщества должны способствовать работам в области стандартизации, имеющих отношение к библиотекам, такие как работы W3C по расширению RDF с целью включить в нее концепцию происхождения, путем объединения технических рабочих групп, или участия в общественных процессах редактирования. Сообщество W3C также может играть важную роль в этой области.

4.2.2 Развивайте стандарты библиотечных данных, совместимые со Связанными данными

Семантических веб-технологии концептуализируют данные таким образом, который принципиально отличается от концептуализации, лежащей в основе форматов данных ХХ века. Связанные данные — это в первую очередь данные о смыслах и содержательных отношениях между сущностями, в то время как традиционные форматы данных библиотек объединяли смысловые данные и структурированное кодирование данных. Неотделимость смысла от кодирования в форматах данных приводит к меньшей гибкости для получения отдачи от инвестиций в данные. С момента введения формата MARC в 1960-х, цифровые данные в библиотеках управлялись преимущественно в виде «записей», то есть ограниченных наборов информации, хранящихся в файлах с точно заданной структурой. Семантическая паутина и связанные данные в отличие от этого, структурируют данные в виде графов — конструкций, которые, в принципе, могут быть безграничными. Разница между этими двумя подходами означает, что процесс перевода библиотечных стандартов и наборов данных в связанные данные не является тривиальным и должен быть предпринят со знанием новых принципов дизайна данных. Существует необходимость документирования лучшей практики и рецептов для руководства участникам по построению онтологий и структурированных словарей для библиотечных данных.

4.2.3 Разработайте и распространяйте основанные на лучшей практике образцы проектирования, относящиеся к библиотечным связанным данным

Шаблоны разработки позволяют разработчикам строить на опыте предшественников. Традиционные методы каталогизации были документированы с богатым набором шаблонов и примеров, также начинает документироваться и передовой опыт в области связанных данных. Примеры включают публикации по Linked Data: Эволюция Паутины в глобальном пространстве данных и Шаблоны связанных данных. Профили приложений предлагают сообществу методы как документировать и совместно использовать шаблоны и связи для использования словарей для описания отдельных типов ресурсов.

4.3 Разработчикам информационных систем и ресурсов

4.3.1 Разрабатывайте и тестируйте пользовательские сервисы, основываясь на возможностях связанных данных

Использование связанных данных может в результате привести к появлению новых и более качественных услуг для пользователей, а также позволить исполнителям за пределами библиотеки создавать приложения и услуги на основе библиотечных данных. Пока еще слишком рано предсказывать, какие новые виды услуг могут быть разработаны для поиска и использования информации. Экспериментальные услуги с использованием библиотечных связанных данных должны оказываться с целью изучения потенциальных возможностей их использования и с тем, чтобы информировать о направлениях больших работ в области их развития.

4.3.2 Создавайте URI для элементов в библиотечных наборах данных

Библиотечные данные не могут быть использованы в среде связанных данных без Унифицированных идентификаторов ресурсов (URI) как для отдельных ресурсов так и для концептов созданных в соответствии с библиотечными стандартами. Официальные владельцы данных о ресурсах и стандартов должны назначать URI как можно скорее, чтобы разработчики приложений и другие пользователи таких данных не испытывали задержек в их деятельности, и не стали бы назначать URI для себя, вне владеющего данными учреждения. Если владельцы не в состоянии назначить URI своевременно, им следует искать партнеров для этой работы или делегировать задание и поддержание URI другим для того, чтобы не допустить появления новых URI, назначенных на то же самое, и чтобы обеспечить повторное использование URI, которые уже назначены.

Для учреждений, отвечающих за создание каталожных записей и других метаданных, таких как национальные библиографии, является логичным взять на себя ведущую роль в создании URI для их описанных ресурсов.

4.3.3 Разработайте правила управления словарями связанных данных и их URI

Организации и частные лица, которые создают и поддерживают URI в информационных ресурсах и стандартах получат выгоду, если они разработают правила для пространств имен, используемых для получения этих URI. Такие «правила пространства имен" обеспечат целостный, последовательный и стабильный подход, который улучшает эффективность и действенность, обеспечивает уверенность пользователей в качестве их URI и пространств имен. Правила могут включать:

4.3.4 Выражайте библиотечные данные путем повторного использования или адресации к существующим словарям связанных данных

В целях максимизации возможности связывания с другими наборами данных, библиотечные наборы данных должны быть выражены с использованием терминов связанных данных — свойства, классы и экземпляры — которые имеют четко определенные связи с теми терминами, которые используются в более широком пространстве связанных данных. Это может быть сделано двумя способами: с помощью словарей связанных данных на основе существующих стандартов, а также путем определения в явном виде связи ("соответствия") между терминами связанных данных библиотечного мира, и терминами из других сообществ. (См. дальнейшее обсуждение в Приложении C.)

4.4 Для библиотекарей и архивистов

4.4.1 Сохраняйте множества элементов связанных данных и словарей значений

Многие словари связанных данных по существу являются справочниками культуры, предоставляя достоверную информацию о людях, местах, событиях и концептах в региональном, национальном или международном уровнях. Таким образом, сохранение словарей связанных данных является естественным и необходимым расширением деятельности учреждений памяти. Связанные данные останутся полезными через двадцать лет, только если URI сохранятся стабильными и будут указывать на документы, раскрывающие их смысл. В качестве ключа к правильной интерпретации данных, и сейчас, и в будущем, наборы элементов и значений словарей особенно важны, поскольку объекты для сохранения. Эта ситуация представляет библиотекам возможность взять на себя ключевую роль в поддержке экосистемы связанных данных.

4.4.2 Применяйте библиотечный опыт обработки и долгосрочного хранения к наборам связанных данных

Большая часть современных связанных данных в облаке является результатом случайной, одноразовой конвертации общедоступных наборов данных в RDF и она регулярно не проверяется на точность и не проводится обновлений. С их этикой контроля качества и приверженностью к долгосрочному обслуживанию, библиотеки имеют значительные возможности взять на себя ключевую роль в важных (и до сих пор пренебрегаемых) функциях ведения связанных данных как расширение их существующей миссии. Путем ведения и поддержания ресурсов, которые они описывают в наборах данных, как по-настоящему связываемых объектов, библиотеки могут воспользоваться преимуществами открытия своих данных для добавления их ценности вкладом других сообществ. Добавление ссылок на данные биографов или генеалогов, например, могло бы обогатить описания ресурсов библиотеки данными, обычно не предоставляемыми библиотеками, и может значительно улучшить раскрытие и навигацию в библиотечных коллекциях.

Ссылки

[LINKEDDATA]
Linked Data, Tim Berners-Lee, World Wide Web Consortium, проверено 18 октября 2011. Смотрите http://www.w3.org/DesignIssues/LinkedData.html.
[RDF]
Resource Description Framework (RDF), World Wide Web Consortium, проверено 18 октября 2011. Смотрите http://www.w3.org/RDF/.
[URI]
RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax, T. Berners-Lee, R. Fielding, L. Masinter, The Internet Society, январь 2005, проверено 18 октября 2011. Смотрите http://tools.ietf.org/html/rfc3986.
[USECASE]
Library Linked Data Incubator Group: Use Cases, Daniel Vila Suero, Editor, W3C Incubator Group Report, 25 октября 2011. Смотрите http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/. Последняя версия доступна на http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase/.
[VOCABDATASET]
Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, Antoine Isaac, William Waites, Jeff Young, and Marcia Zeng, W3C Incubator Group Report, 25 октября 2011. Смотрите http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/. Последняя версия доступна на http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/.

Благодарности

В дополнение к редакторам, группа библиотечных связанных данных включала следующих участников, без которых этот доклад не мог бы существовать: Alexander Haffner, Alexandru Constantin, András Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford, Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

Отзывы сообщества также помогли нам сформировать этот отчет. Особая благодарность: Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, René van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

Приложение A: инструментарий существующих ресурсов библиотечных связанных данных

Сложность и разнообразие доступных словарей, с их перекрывающимися областями, производным происхождением и сопоставлениями, приводят к неопределенности при повторном использовании или установки связей, которые имеют решающее значение для успеха библиотечных связанных данных. Многие, особенно среди библиотечных специалистов, не знакомы со связанными наборами данных и словарями, которые могут быть полезны в библиотечной сфере, потому что они часто были разработаны в исследовательского сообществе семантической паутины . Актуальный и достоверный взгляд с высоты птичьего полета может помочь как новичкам, которые ищут обзор в сфере библиотечных связанных данных, так и экспертам, нуждающимся в быстром поиске или обновлении знаний для проекта библиотечных связанных данных.

Группа развития поэтому произвела инвентаризацию полезных ресурсов для создания или использования связанных данных в библиотечной области [VOCABDATASET]. Этот перечень, представленный в виде отдельного документа, показывает, что есть много областей, где скорейшее принятие принципов и технологий Семантической сети и связанных данных привело к развитию развитых наборов данных и словарей. Инвентаризация также указывает на области, в которых библиотеки и связанные с ними организации могут сделать важный вклад. Наконец, этот документ призван обеспечить сообществу связанных данных возможность понять конкретные точки зрения, ресурсы и терминологию, используемые библиотечным сообществом для своих данных, помогая библиотечным специалистам и специалистам в области информационной науки понять термины связанных данных, соответствующие их собственным традициям.

Хотя технологии связанных данных отличаются от традиционных концепций данных библиотек, этот отчет классифицирует имеющиеся ресурсы на три невзаимоисключающих категории, которые отражают практику библиотек:

Определенные наборы данных могут повторно использовать элементы из различных словарей значений и быть структурированы в соответствии со спецификациями для наборов элементов метаданных. Например, набор данных Британская национальная библиография повторно использует термины из словаря заголовков Библиотеки Конгресса и Условия метаданных DCMI (Дублинское ядро). Экземпляры из этих категорий, перечислены в инструментарии с краткими описаниями, ссылками на их интернет-адреса, а также опытом использования , которые наша группа собрала в сообществе.

Наш инструментарий предназначен для обеспечения широкого охвата имеющихся ресурсов данных. Тем не менее, мы прекрасно понимаем, что этот доклад не может охватить все разнообразие нынешних наборов данных, особенно учитывая динамичный характер связанных данных: новые ресурсы постоянно делаются доступными, а существующие регулярно обновляются. Чтобы получить репрезентативный обзор, мы намеренно построили нашу работу на тех случаях использования, которые мы получили. Дополнительное покрытие было предоставлено экспертами, которые приняли участие в Группе развития, чтобы основные ресурсы, имеющиеся на момент написания статьи не вышли из поля зрения.

Чтобы сделать наш отчет полезным в будущем мы включили в него некоторое число ссылок на инструменты или веб-сайты, которые как мы считаем, могут обеспечить актуальную информацию после того, как Группа развития завершит свою работу. В частности, мы создали группу библиотечных связанных данных в качестве места для сбора информации о соответствующих библиотечных связанных наборах данных. Этот сайт размещен на сервере Data Hub — репозитории, разработанном, чтобы быть центральным узлом для описания пакетов данных с акцентом на те, которые публикуются в виде открытых данных. Мы надеемся, что эта группа Data Hub будет активно поддерживаться сообществом библиотечных связанных данных после завершения работы Группы развития.

Приложение B: релевантные технологии

Связанные данные являются новой технологией, так что большинство инструментов все еще находятся в развитии. Принципы связанных данных не привязаны к какому-либо конкретному инструменту, скорее, они непосредственно связаны с веб-стандартами. Во многих ситуациях, производство и потребление связанных данных могут быть добавлено как новый уровень или встроено в существующие приложения, не требуя огромных усилий на создание их заново. Этот список инструментов и технологий не является исчерпывающим, но предназначен для иллюстрации несколько широких категорий. С не-технической точки зрения, эти технологии являются подходящими, так как они обеспечивают создание и нахождение повторно используемых словарей и предоставляют способы объединять их термины в повторно используемые (синтаксические) выражения.

B.1 Использование URI для идентификации вещей, не находящихся во Всемирной паутине

На раннем этапе развития Интернета, не было уверенности в том, что "HTTP URI" (также известные как "URL") следует использовать для идентификации сущностей, которые не "расположены" во Всемирной паутине. Эта мысль была основой для определения новых схем URI, таких как URN и "информационных" URI. Неопределенность в конечном итоге была разрешена в отчете группы по интересам Унифицированных указателей ресурсов W3C (RFC 3305) и резолюцией Технической консультативной группы W3C по этому вопросу известной как "HTTPRange-14". В парадигме связанных данных в общем ожидается, что HTTP URI будут также использоваться для идентификации "объектов реального мира." Тем не менее, многие приложения были построены на других схемах идентификаторов. Использование свойства owl:sameAs является хорошим способом для сопоставления этих неразрешимых (неразрешимых — это тех, которые невозможно получить по ссылке URL через интернет-запрос по http — прим. переводчика. ДС) URI схем для эквивалентов HTTP URI. Даже если это отображение не сделано, неразрешимые URI по-прежнему полезны в RDF и SPARQL.

B.2 Дискретный и массовый доступ к информации

Принципы связанных данных были введены около 2006 года, что привело к формализованному понятию "Cool URI" в 2008 году. Что делает идентификаторы связанных данных особенными — это возможность помочь людям и машинам понимать, развивать и связывать информацию в широком диапазоне вариантов использования; ресурс DBpedia о Джейне Остине является хорошим примером. Разрешимые URI прекрасно подходят для повседневного использования, для исследования данных, а также спонтанного просмотра, но дискретные HTTP GET запросы могут быть непрактичными для наборов данных о большом числе людей. К счастью, связанные наборы данных все чаще публикуются как дампы RDF и последовательно описывают, используя словарь взаимосвязанных наборов данных (VoID).

B.3 Интерфейсы для связывания существующих ресурсов данных к связанным данным и RDF

Относящийся к этому кластер опыта использования: Кластер выравнивания словаря

В отличие от информации, представленной иерархически в типичных XML документах, ресурсы опубликованные в виде связанных данных позволяют освободить информацию от иерархий, зависящих от конкретного способа использования и, следовательно, доступной для неизвестных заранее случаев повторного использования. Это не только делает более легким комбинировать информацию, но и делает более легким мэшап инструментов и услуг. Это верно и для производителей, и для потребителей связанных данных. Например, существующая реляционной базы данных может быть использована в виде связанных данных и SPARQL с помощью сервера D2R. Рабочая группа W3C RDB2RDF в настоящее время работает над стандартами для такого связывания. Аналогично, связанные данные могут быть получены из существующих баз данных SRU с несколькими правилами перезаписи. Если ресурсы уже описаны в конечной точке SPARQL, , то внешний интерфейс связанных данных, такой как Pubby может быть использован для автоматизации зависимого от контента поведения Cool URI для каждого запроса. Расширяемый язык преобразования стилей (XSLT) может быть полезным для преобразования обычного XML в RDF/XML.

B.4 Инструменты для разработчиков информационных ресурсов

Относящийся к этому кластер опыта использования: Кластер выравнивания словаря

Профили приложений обеспечивают всеобъемлющий способ документирования того, как сообщество практиков определяет модель предметной области и способ повторного использования словарей с особыми ограничениям в описаниях конкретных видов ресурсов. Текущая версия Языка веб-онтологий OWL, который предоставляет свойства для выравнивания словарей (отображение онтологий), позволяет экспертам (данной предметной области — прим переводчика ДС) описать их предметную область с использованием идиом своего сообщества, при этом оставаясь совместимыми со связанными или более общими идиомами. Различные инструменты, относящиеся к OWL можно найти в RDF wiki и OWL wiki. Инструменты Унифицированного языка моделирования (UML) помогают разработчикам представлять и манипулировать моделями предметной области визуально. Спецификация. The Метамодели определения онтологий (ODM) должна помочь преодолеть некоторые препятствия между UML и OWL.

B.5 SKOS и связанные с ней инструменты

Относящийся к этому кластер опыта использования: Кластер выравнивания словаря

Еще одна ключевая технологическая потребность удовлетворяется в Простой системе организации знаний (SKOS), которая является онтологией OWL для выражения широкого спектра схем и тезаурусов концептов, с поддержкой связей общего и частного, и предпочтительных и альтернативных указателях. Многие связанные со SKOS средства, перечислены в W3C, вики SKOS сообщества.

B.6 Микроформаты, Микроданные и RDFa

Относящийся к этому кластер опыта использования: Социальные и новый кластер

Микроформаты, микроданные и RDFa обеспечивают способы встроить структурированные данные в веб-страницы. Так как исторически публикация информации на веб означала публикацию веб-страниц, эти технологии обеспечивают способы улучшить то, что уже есть, а не неизбежно развертывать дополнительную инфраструктуру. RDFa поддерживает выражение данных RDF встроенных непосредственно на веб-страницах; из этих трех поэтому он самый непосредственно взаимодействующий с остальной инфраструктурой связанных данных.

Микроданные, которые определены в новой спецификации HTML5 находящейся в стадии разработки, предоставляют еще один способ сделать это. Микроданные получили хорошую известность в сфере оптимизации поисковых машин с объявлением Schema.org от Google, Microsoft и Yahoo. Этот особый тип микроданных как представляется не предназначен для представления любых сложных данных и словарь, который они опубликовали особое внимание уделяет торговле и туризму. Хотя в принципе они могут быть расширены, схемы микроданных необходимо будет существенно расширять, чтобы выразить библиотечную информацию, так как большой части необходимой лексики не хватает. Существует определенный уровень взаимодействия со связанными данными благодаря усилиям Schema.RDFS.org, но он в настоящее время кажется, что будет трудно, используя этот подход, развивать высокий уровень взаимосвязанности между библиотечными и другими наборами данных, что возможно со связанными данными.

Следует отметить, что сторонники Schema.org также поддерживают сбор данных RDFa и взяли на себя обязательство продолжать делать это, так что это, кажется, не должно быть так, что, публикуя HTML страницы размеченные с RDFa можно было бы как-то "пропустить" те возможности, которые предоставляют микроданные. Если исключить ошибки в парсерах поисковых систем, то даже можно считать возможным использовать обе технологии метаданных в одной веб-странице. В конечном итоге, можно сделать вывод, что хотя бы какие-то структурированные данные лучше, чем ничего.

B.7 Фреймворки веб-приложений

Относящийся к этому кластер опыта использования: Кластеры архивов и гетерогенных данных

Поскольку популярность Всемирной паутины выросла, сообщество разработчиков программного обеспечения создало множество программных библиотек, которые делают легче создавать, поддерживать и повторно использовать веб-приложения. Эти библиотеки часто называют фреймворками веб-приложений, и обычно реализуют шаблон Model-View-Controller (MVC) в том или ином виде. Кроме того, фреймворки веб-приложений, как правило, программируются с использованием лучшего опыта в отношении REST и ресурсно- ориентированной архитектуры, которые дали информацию для большей части стандартизации по веб-технологиям.

Частым компонентом в рамках веб-приложений является механизм маршрутизации URI, который позволяет разработчикам программного обеспечения для определять шаблоны HTTP URI и сопоставить их с контроллерами, которые, в свою очередь, генерирует HTTP-ответ с использованием соответствующих взглядов и моделей. Эта деятельность способствует лучшей практике в отношении Cool URI, а также заставляет разработчиков думать о ресурсах, которые они делают доступными в Интернете. То, что Связанные данные сфокусированы на наименовании ресурсов с помощью HTTP URI, и на распространении сведений об этих ресурсах — в HTML для людей и в RDF для машин — делает его естественным выбором для фреймоврков веб-приложений, которые уже предоставляют некоторую начальную поддержку для этой деятельности. Широкая доступность фреймворков веб-приложений на различных языках программирования и операционных системах привело к их широкому использованию в сфере культурного наследия.

Веб-разработчики иногда плохо воспринимают технологии семантической паутины (связанных данных), потому что они чувствуют себя вынужденными отказаться от их разрабатываемых в данный момент приложений, заменить свои базы данных на хранилища триплетов, и языки запросов заменить на SPARQL. Это на самом деле не так, поскольку сериализации RDF могут быть созданы на лету так же, как фреймворки веб-приложений создают представления на HTML, XML, JSON. Использование HTTP URI, для идентификации и связывания ресурсов, с помощью модели данных RDF, является естественным выбором для сериализации и обмена сведениями о свойствах объектов независимо от баз данных — цель, традиционно вызывающая большой интерес у сообщества, занимающегося культурным наследием и цифровым сохранением.

B.8 Системы управления контентом

Относящиеся к этому кластеры опыта использования: Социальные и новые виды использования, цифровые объекты, архивы и гетерогенные данные

Так же, как фреймворки веб-приложений развивались, распространяясь во Всемирной паутине, развивался и класс веб-приложений, известных как системы управления контентом (CMS). CMS часто построены с использованием фреймворков веб-приложений, но обеспечивают встроенные «из коробки» функции для легкого создания, редактирования и представления контента, такого как текст, изображения и видео в Интернете, и для управления рабочими процессами, связанными с его содержанием. Поскольку CMS обычно строятся с использованием веб-фреймворков те же лучшие практики для именования ресурсов с помощью HTTP URI естественно могут быть использованы и здесь. Широкая доступность систем управления контентом привела к их интенсивному использованию в сфере культурного наследия. Некоторые системы управления контентом, такие как Drupal начинают публиковать информацию структурированной базы данных для машин-клиентов, прозрачно встраивая это в свои HTML использованием RDFa. Потребители данных, такие как Google Scholar, Google Maps, Facebook и начинают использовать эти структурированные метаданные в своих продуктах и сервисах. Наоборот, Drupal также начинает предоставлять плагины для использования RDF, таких как VARQL и SPARQL Views.

B.9 Веб-сервисы для библиотечных связанных данных

Относящиеся к этому кластеры опыта использования: библиографические данные, авторитетные данные

В теории, большинство возможностей специализированных в той или иной предметной области API веб-сервисов может быть переработано в виде URI связанных данных , OWL, SPARQL и SPARQL / Update. Но даже если должно быть возможно надстроить внешний интерфейс Linked Data URI как слой над существующем конечным хранилищем данных, это может быть не так легко для такого хранилища поддерживать SPARQL и SPARQL /Update. Соображения безопасности, надежности и производительности также могут исключать поддержку SPARQL в промышленной разработке. конечные точки SPARQL и массовые загрузки RDF могут значительно облегчить раскрытие и повторное использование опубликованных связанных данных. Большинство веб-разработчиков, однако, сталкиваются с трудностью обучения (в оригинале -крутой кривой обучения, http://en.wikipedia.org/wiki/Learning_curve — прим. переводчика ДС) прежде чем они смогут воспользоваться этим, и для многих требований разработки это становится слишком тяжелым бременем.

Веб-службы для наиболее распространенных случаев использования должны быть предложены в качестве альтернативы. Однако, большинство API веб-сервисов, как правило, предметно-ориентированные, требуют программирования пользователем агентов. Это означает, что они должны быть хорошо документированы. Более общие подходы к интерфейсам веб-сервисов включают OpenSearch (который может быть документирован с использованием Описания документа), Linked Data API и находящиеся в текущей работе Рабочей группы Веб-приложений RDF. Некоторые связанные наборы данных также могут использовать синдикативный доступ с использованием Atom Syndication Format или RSS.

В нескольких реализациях связанных данных пытались реализовать веб-сервисы для улучшения раскрытия и использования ресурсов, часто предоставляя некоторый вид API.

Сосредоточив внимание на параметрах запроса и ответа форматов чтобы предоставить расширенные возможности поиска,веб-сервис связанных данных уменьшит, если не устранит, то требование, что данные должны храниться в хранилище триплетов или должны находиться через SPARQL. И, поскольку API веб-сервисов являются общеиспользуемыми, веб-сервисы могут снизить барьер для доступа к принятию технологии связанных данных.

Приложение C: Семантическое сопоставление

"Сопоставление" это связи между семантически эквивалентными, похожими, или связанными сущностями в различных словарях значений, наборах элементов метаданных, или наборах данных. Многие семантические связей между значениями словарей уже доступны, некоторые из них получены за счет высокого качества ручной работы, как в проектах MACS или CRISSCROSS. Многие издатели словарей значений стремятся к установлению и поддержанию ссылок на ресурсы, семантически близкие к их собственным. VIAF, например, объединяет авторитетные записи из более чем десятка национальных и региональных учреждений. AGROVOC были опубликованы со ссылками на шесть других основных тезаурусов и списков предметных рубрик. Хотя количественная оценка выходит за рамки наших усилий, мы чувствуем, что еще много таких связей должно быть создано. Многое еще предстоит сделать, чтобы повысить сопоставление среди значимых словарей в "облаке библиотечных данных".

Сопоставления также актуальны для наборов элементов метаданных. Как свидетельствует инструментарий Словарей открытых связанных данных практикующие специалисты в основном следуют практике повторного использования существующих наборов элементов или создания профилей приложений, которые повторно используют элементы из нескольких наборов. Такие проекты, как Фреймворк связи словарей направлены на поддержку сопоставления.

Отсутствие институциональной поддержки для наборов элементов может поставить под угрозу долгосрочное сохранение их разделяемых смыслов. Более того, некоторые образцовые фреймворки, в частности Функциональные требования к библиографическим записям (FRBR), были выражены в ряде разных онтологий, и эти различные выражения не всегда явно сопоставлены — ситуация, которая ограничивает семантическую совместимость наборов данных, в которых используются их RDF словари. Сообщество библиотечных связанных данных должно содействовать согласованному повторному использованию или расширению существующих наборов элементов вместо создания новых наборов с нуля. Сопоставление уже существующих наборов элементов, когда они перекрываются, обычно используя семантические отношения с помощью языка описания словарей RDF (RDF Schema) и языка веб-онтологий OWL, также следует поощрять. Мы надеемся, что лучшая коммуникация между создателями и операторами этих ресурсов, за что выступают инициатива LOD-LAM, Инициатива метаданных Дублинского Ядра и проект FOAF, и наша группа развития, приведет к более четкой концептуальной связи между множествами значений.

Наборы данных могут также быть сопоставлены. Например, Открытая библиотека сопоставляет с номерами OCLC свои библиографические единицы. Повторное использование, возможно, менее важный вопрос для описания отдельных книг и других, связанных с библиотеками ресурсов, чем для наборов метаданных и значений словарей; сводных каталогов, например, уже отмечается значительный уровень объединения данных уровня книг. Тем не менее, очень важно, — на самом деле, одна из ожидаемых выгод применения связанных данных в нашей сфере — в том, что связанные с библиотекой наборы данных, будут опубликованы и взаимосвязаны, а не будут продолжать существовать в своих бункерах. На опыте прошлых обычаев сообщество уже хорошо знают вызовы, такие как "дедупликация."

Отметим также, что ссылки строятся между библиотечными ресурсами и ресурсами, происходящими из других организаций или областей знаний. Например, VIAF собирает авторитетные записи из различных библиотечных учреждений, определяет основные используемые сущности, и, по возможности, связывает их с Dbpedia — выгрузкой связанных данных из Википедии. Семантическое сопоставление для Джейн Остин в VIAF, Википедии и DBpedia, например, иллюстрирует одну из ожидаемых выгод связанных данных, которой является то, что данные могут быть легко соединены в сеть независимо от их происхождения. Таким образом, библиотечная сфера может извлечь выгоду из повторного использования данных из других областей, в то время как данные библиотек могут внести вклад в инициативы, которые не происходят из библиотечного сообщества.

Создание сопоставляющих связей улучшится при наличии более совершенных инструментов для связывания. Много усилий было предпринято в информатике по исследованию таких областей, как сопоставление онтологий. Это приводит к реализациям, основанным например, на сопоставлении строк и статистических методах. Эти усилия, как правило, сосредоточены на множествах элементов метаданных и, как правило, не готовы к применению в более общем плане (часто огромных) наборов данных и значений словарей библиотечной сферы. Последние типовые инструменты для связывания данных включают Silk - Link Discovery Framework, Google Refine, and Google Refine Reconciliation Service API. Тем не менее, сообщество все еще нуждается в получении опыта в их использовании, чтобы поделиться результатами этого опыта, и, возможно, чтобы построить инструменты которые лучше подходят для библиотечных связанных данных.

И последнее замечание: потребители данных должны иметь в виду, что, в отличие от традиционных, закрытых информационных систем, связанные данные следуют предположению об открытости мира: предположение, что данные в целом не могут считаться полными и, что, в принципе, больше данных могут стать доступными о любой сущности. Мы надеемся, что в библиотечной сфере будет больше "связывания данных" в соответствии с проектами, упомянутыми здесь.