Документ взят из кэша поисковой машины. Адрес оригинального документа : http://lcl.srcc.msu.ru/mainstream_pages/project.htm
Дата изменения: Wed Apr 24 15:30:31 2013
Дата индексирования: Thu Feb 27 20:09:55 2014
Кодировка:

Поисковые слова: биография
ЛАБОРАТОРИЯ  АВТОМАТИЗИРОВАННЫХ
ЛАБОРАТОРИЯ
АВТОМАТИЗИРОВАННЫХ
ЛЕКСИКОГРАФИЧЕСКИХ
СИСТЕМ
  English
Главная
История лаборатории
Основные направления
Публикации
Экспедиции
Семинар
Сотрудники
Контакты

Фотогалерея

ICASS VI: PHOTOS

 

Экспедиции

2011

Таймыр

 

 

 

2010

Томская область

 

Карта:
Территория распространения
говоров западных эвенков

 

Мультимедийный архив: инструкция по просмотру

Документация и исследование исчезающих языков: Проект РФФИ 2010-2012

Мультимедийный размеченный корпус текстов на говорах западных эвенков

   

10-06-00532

Руководитель проекта: О. А. Казакевич, кфн, зав.лаб. НИВЦ МГУ

Исполнители: Т. Б. Багаряцкая (НИВЦ МГУ),
Е. М. Будянская (НИВЦ МГУ),

Д. М. Вахонева (НИВЦ МГУ),
М. И. Воронцова (НИВЦ МГУ),

Ю. Е. Галямина (НИВЦ МГУ),
Е. Н. Дувакин (РГГУ),
Л. М. Захаров (Филологический факультет МГУ),
Е. Л. Клячко (РГГУ),
Н. К. Митрофанова (Институт
языкознания РАН),
Е. А. Ренковская (ООО «Аби Продакшн»),
Т. Е. Реутт (НИВЦ МГУ),
А. В. Чвырев (НИВЦ МГУ).

 

Целью проекта являлось построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивалось бы хранение языковой и метаязыковой информации и осуществлялся поиск информации по различным параметрам, а также анализ проблем, возникающих по ходу работы. За три года работы над проектом эта цель была достигнута.

На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений.

Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь.

Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN.

Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод.

Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). (См. инструкцию по просмотру мультимедийного архива.)

В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления.  

В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.). Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров.

Пользователями корпуса могут стать исследователи, представляющие разные нап