The website "romip.narod.ru." is not registered with uCoz.
If you are absolutely sure your website must be here,
please contact our Support Team.
If you were searching for something on the Internet and ended up here, try again:

About uCoz web-service

Community

Legal information

 [РОМИП] Дорожка по классификации текстовой информации

Новости
Правила
Заявка на участие
График
Дорожки:
   Поиск
   Классификация
Участники
Организация
FAQ
Форум

   Дорожка по классификации текстовой информации

Рассматривается задача тематической классификации Веб-сайтов.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Системы-участники

Постановка задачи

Задан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов.

Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция narod.ru.

Множество классов сформировано на основе каталога narod.ru, отбирались категории второго уровня в которых встречалось не менее пяти включенных в набор сайтов. Всего было отобрано 164 категории ( список категорий с их численными идентификаторами).

Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП. Информацию о числе обучающих примеров для каждой из категорий можно найти здесь.

В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*.

Процедура оценки

На входе известны:
  • набор данных
  • множество всех категорий
  • результаты участников - отображения "документ->категория" для всех сайтов набора
Алгоритм оценки:
  1. Выбирается (случайным образом) несколько (заранее неизвестных) категорий. Количество проверяемых категорий (2-3-4-5-10) зависит от объёма доступных ресурсов.
  2. Для каждой из этих категорий формируется "общий котёл", в который попадают все сайты, которым хотя бы одна из систем присвоила одну из этих категорий.
    При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для категории примерно 5000/50*sqrt(число участников), то есть 200-300.
  3. Эксперты оценивают все документы из кучи на предмет соответствия конкретной категории.
    (возможные ответы: да/нет/невозможно оценить)
  4. Аппроксимируется точность и полнота классификации по оцениваемым категориям.

Форматы

Затраты

  • Подготовка и распространение данных (носители)
  • Финансирование сбора экспертных оценок