Новости
09.05.2023
с Днём Победы!
07.03.2023
Поздравляем с Международным женским днем!
23.02.2023
Поздравляем с Днем защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ОСОБЕННОСТИ ПРИМЕНЕНИЯ МЕЖДУНАРОДНЫХ СТАНДАРТОВ В ОБЛАСТИ ВЕБ-АРХИВИРОВАНИЯ

Авторы:
Город:
Екатеринбург
ВУЗ:
Дата:
20 января 2018г.

В этой работе рассматриваются веб-стандарты; стандарты и руководящие принципы для веб- архивирования; и стандарты для долгосрочного хранения архивной информации в веб-архивах.

HTML и связанные с ним технологии HTML / XML являются основными средствами, на которых основана интероперабельность и, тем самым, успех Интернета. Изначально HTML был исходным языком Интернета. Это привело к разработке нескольких взаимосвязанных технологий, включая XML (расширяемый язык разметки) и семейство XML, включая XSLT (преобразования расширяемых текстовых таблиц стилей), который является языком для преобразования документов XML в другие документы и / или форматы. Все это распространено в Интернете. HTML и XML - это четко определенные веб-стандарты, которые поддерживаются и отлично документируются системой W3C [2]. Самая последняя версия HTML - это HTML5, способный облегчить сбор мультимедийных материалов [4]. Другие стандарты, с которыми могут столкнуться веб-поисковые роботы, включают CSS (каскадные таблицы стилей), Javascript и HTTP. HTTP - это протокол для обмена гипертекстом и необходим для передачи данных через Интернет.

Другим видом веб-стандарта является протокол robots.txt. Он обычно используется веб-мастерами, чтобы указать, разрешают ли они сканирование автоматическими ботами. Протокол robots.txt является рекомендательным, а "искатели", используемые для поиска информации при веб-архивировании, могут быть настроены игнорировать его, чтобы соблюдение протокола не позволяло сканеру захватывать материал, требуемый веб-архивом.

ISO 28500: 2009 и Технический отчет ISO 14873 поддерживают основные операции по архивации в сети. ISO 28500: 2009 более известен как стандарт WARC. WARC был разработан членами IIPC в качестве стандартного метода для упаковки нескольких файлов, сканированных с одного или нескольких веб-сайтов, поддерживая и описывая отношения между ними и позволяя добавлять метаданные [2]. Он основан на формате контейнера ARC для содержимого веб-архива, ранее разработанного в Internet Archive, что в силу возможности максимального сжатия положительно сказывается на долгосрочном хранении архивных данных. WARC является расширяемым, и файлы могут в себя включать связанный вторичный контент, такой как назначенные метаданные, сокращенные события обнаружения дубликатов и последующие преобразования. WARC был утвержден в качестве стандарта ISO в мае 2009 года. Технический отчет ISO 14873 по статистике и вопросам качества для веб-архивации (из-за публикации в 2013 году) определяет ряд значимых статистических данных о сборе и показателей качества, связанных с постоянной доступностью контента.

В Великобритании стандарт Центрального бюро информации (CoI) по архивированию веб-сайтов, написанный Национальным архивом (Великобритания), содержит рекомендации по лучшей практике для веб-мастеров по созданию и обслуживанию веб-сайтов, а также руководящие принципы процесса поддержки Национального архива (Великобритания) в архивировании правительственных веб-сайтов [2]. Это необходимо, чтобы веб-сайты всех центральных правительственных учреждений могли архивироваться Национальным архивом (Великобритания) три раза в год и до того, как сайты прекратили существование [3]. Хотя COI теперь закрыт, стандарты остаются в силе, но теперь управляются Правительственной цифровой службой (GDS). Стандарты для постоянных идентификаторов имеют четкую роль в веб-архивах, поддерживая использование технологий перенаправления [5] и гарантируя постоянное  размещение контента, несмотря на возможные изменения в базовой инфраструктуре архивации. В Великобритании есть как минимум четыре веб-архива, которые предоставляют постоянные идентификаторы для архивированных веб-страниц, используя настраиваемые URI [6].

Стандарт ISO с особой поддержкой для долгосрочного сохранения - ISO 14721: 2012, иначе известный как справочная модель Open Archive Information System (OAIS) [5]. Модель OAIS описывает общую структуру для долгосрочного сохранения цифрового контента в репозитории. Несмотря на то, что он не специфичен для веб-архивов, он обеспечивает полезный идеализированный рабочий процесс для хранения и управления сложным цифровым контентом в масштабе без использования определенного технического решения или инструмента.

Никакая научная работа о стандартах не будет полной без хотя бы краткого упоминания метаданных. Различные стандарты метаданных могут использоваться в профиле метаданных веб-архивации в зависимости от потребностей и требований собирающего учреждения [1]. Marc 21, ISAD (G) и Dublin Core могут использоваться (и были) использованы для записи описательных метаданных о веб-архивах, при этом обнаружение ресурсов еще более усиливается с использованием тематических заголовков Библиотеки Конгресса (LCSH) и / или Десятичной классификации Дьюи (DDC). Аналогично, как METS, так и PREMIS могут и были использованы в контейнерах WARC для записи дополнительной информации о веб-архивах: PREMIS для метаданных сохранения, а METS - как обертка для описательных, административных и структурных метаданных [2].

Список литературы

 

1.       Brown, A. Archiving Websites – A practical guide for information management professionals // Facet Publishing. — 2006. — №1. — С. 49-55.

2.       COI 2008 // TG105 Archiving Websites. URL: http://digitalstandards.cabinetoffice.gov.uk/archiving- websites/ (дата обращения: 19.12.2017).

3.       COI 2009 // TG 125 Managing URLs. URL: http://digitalstandards.cabinetoffice.gov.uk/managing-urls/ (дата обращения: 02.11.2017).

4.       IIPC Future of the Web Workshop: Introduction & Overview // IIPC. URL: http://netpreserve.org/events/dc_ga/04_Thursday/Harvesting%20the%20Future%20Web/Overvie wFutureWebWorkshop.pdf (дата обращения: 09.11.2017).

5.       UK Government Web Continuity: Persisting Access through Aligning Infrastructures (Spencer et al.2008) // IJDC 1:4, 2009. URL: www.ijdc.net/index.php/ijdc/issue/view/7 (дата обращения: 26.11.2017).

6.       Webcite 2012 // About WebCite. URL: http://www.webcitation.org/faq (дата обращения: 29.11.2017).