ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ

Äîêóìåíò âçÿò èç êýøà ïîèñêîâîé ìàøèíû. Àäðåñ îðèãèíàëüíîãî äîêóìåíòà : http://lcl.srcc.msu.ru/mainstream_pages/project.htm
Äàòà èçìåíåíèÿ: Wed Apr 24 15:30:31 2013
Äàòà èíäåêñèðîâàíèÿ: Thu Feb 27 20:09:55 2014
Êîäèðîâêà:
Ïîèñêîâûå ñëîâà: áèîãðàôèÿ

ЛАБОРАТОРИЯ АВТОМАТИЗИРОВАННЫХ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ
	English

Главная

Экспедиции

Таймыр

Томская область

Карта:
Территория распространения
говоров западных эвенков

Мультимедийный архив: инструкция по просмотру

Документация и исследование исчезающих языков: Проект РФФИ 2010-2012

Мультимедийный размеченный корпус текстов на говорах западных эвенков

10-06-00532

Руководитель проекта: О. А. Казакевич, кфн, зав.лаб. НИВЦ МГУ

Исполнители: Т. Б. Багаряцкая (НИВЦ МГУ),
Е. М. Будянская (НИВЦ МГУ),
Д. М. Вахонева (НИВЦ МГУ),
М. И. Воронцова (НИВЦ МГУ),
Ю. Е. Галямина (НИВЦ МГУ),
Е. Н. Дувакин (РГГУ),
Л. М. Захаров (Филологический факультет МГУ),
Е. Л. Клячко (РГГУ),
Н. К. Митрофанова (Институт языкознания РАН),
Е. А. Ренковская (ООО «Аби Продакшн»),
Т. Е. Реутт (НИВЦ МГУ),
А. В. Чвырев (НИВЦ МГУ).

Целью проекта являлось построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивалось бы хранение языковой и метаязыковой информации и осуществлялся поиск информации по различным параметрам, а также анализ проблем, возникающих по ходу работы. За три года работы над проектом эта цель была достигнута.

На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений.

Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь.

Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN.

Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод.

Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). (См. инструкцию по просмотру мультимедийного архива.)

В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления.

В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.). Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров.

Пользователями корпуса могут стать исследователи, представляющие разные нап