'

Проект общедоступного многопользовательского корпуса

Понравилась презентация – покажи это...





Слайд 0

Проект общедоступного многопользовательского корпуса Проблемы и перспективы Дмитрий Грановский


Слайд 1

Зачем ещё один? У существующих корпусов: Авторские права На текст На разметку Административные ограничения Недоступна сама разметка


Слайд 2

Что будет уметь? Просмотр и редактирование разметки (многопользовательский) Возможность скачивания в разных форматах Встроенный поиск по популярным запросам Обработка «тяжёлых» запросов


Слайд 3

Кто будет делать? Техническая часть – группа разработчиков Наполнение – пользователи


Слайд 4

Откуда брать тексты? Тексты с истекшим авторским правом Тексты, на которые авторское право не распространяется Тексты под свободной лицензией (e.g. Википедия) Остальное – по договорённости с правообладателем


Слайд 5

Задачи инструментария Редактирование Хранение Поиск


Слайд 6

Как можно использовать? Статистические исследования Машинное обучение (как обучающий корпус) Тестовый корпус для других ресурсов


Слайд 7

Проблемы Почему эта модель доступа должна работать? Как обеспечить совместную работу многих людей? (многопользовательский) Как обеспечить целостность данных?


Слайд 8

Проблемы Откуда взять столько квалифицированных редакторов? Как бороться с ошибками редактирования? Как не делать разметку с нуля? Как унифицировать разметку?


Слайд 9

Ваши вопросы


Слайд 10

СПАСИБО! http://mathlingvo.ru Дмитрий Грановский d-granovsky@yandex.ru


×

HTML:





Ссылка: