Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://lcl.srcc.msu.ru/mainstream_pages/project.htm
Дата изменения: Wed Apr 24 15:30:31 2013 Дата индексирования: Thu Feb 27 20:09:55 2014 Кодировка: Поисковые слова: биография |
ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ |
|
English |
Экспедиции Таймыр
Томская область
Карта:
|
Документация и исследование исчезающих языков: Проект РФФИ 2010-2012 |
|||||||||
---|---|---|---|---|---|---|---|---|---|---|
Мультимедийный размеченный корпус текстов на говорах западных эвенков |
||||||||||
Целью проекта являлось построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивалось бы хранение языковой и метаязыковой информации и осуществлялся поиск информации по различным параметрам, а также анализ проблем, возникающих по ходу работы. За три года работы над проектом эта цель была достигнута. На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений. Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь. Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN. Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод. Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). (См. инструкцию по просмотру мультимедийного архива.)В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления. В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.). Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров. Пользователями корпуса могут стать исследователи, представляющие разные нап |