The website "romip.narod.ru." is not registered with uCoz.
If you are absolutely sure your website must be here,
please contact our Support Team.
If you were searching for something on the Internet and ended up here, try again:

About uCoz web-service

Community

Legal information

 [РОМИП] Простой формат представления документов

Новости
Правила
Заявка на участие
График
Дорожки:
   Поиск
   Классификация
Участники
Организация
FAQ
Форум

   Простой формат представления документов

Предполагается, что для каждого документа мы хотим сохранить следующую информацию:
  • идентификатор (url для Web коллекции)
  • содержимое (без каких либо модификаций)
  • идентификатор коллекции (метка и дата создания)
Кроме этого много отдельных документов будем описывать в одном и том же xml файле, чтобы уменьшить количество файлов на корпус (и сэкономить место на описании коллекции).

Для того чтобы защититься от некорректного HTML, бинарных данных и других несовместимостей с xml содержимое документа будет кодироваться в что-нибудь нейтральное (например, base64). (NB: Негативным следствием является увеличение физического размера корпуса).

Исходя из вышесказанного формат выглядит так (вот пример реального xml файла):

<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>

<document>
  <docID>идентификатор (URL для narod.ru)</docID>
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>

<document>
  ... следующий документ ...
</document>

...

</romip:dataset>