The website "romip.narod.ru." is not registered with uCoz.
If you are absolutely sure your website must be here,
please contact our Support Team.
If you were searching for something on the Internet and ended up here, try again:

About uCoz web-service

Community

Legal information

 Простой формат представления документов
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Простой формат представления документов

Документы в коллекциях РОМИП представлены в виде XML.

Для каждого документа хранится следующая информация:
  • идентификатор (url для Web коллекции)
  • содержимое (без каких либо модификаций)
  • идентификатор коллекции (метка и дата создания)

Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу (его разметка может быть далека от XHTML, теоретически там вообще могут быть бинарные данные).

Пример документа оформленного в таком формате (XML файл)

<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>

<document>
  <docID>идентификатор (URL для narod.ru)</docID>
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>

<document>
  ... следующий документ ...
</document>

...

</romip:dataset>

Стандартный парсер

Для облегчения процесса обработки набора данных конкретной системой-участником с набором мы предоставляем стандартный парсер (очень простой), реализованный на java. Он может быть расширен для преобразования данных в любой удобный для вашей системы формат.

Отметим, что использование этого парсера не является обязательным и вы можите использовать любой другой инструмент.