Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~languedoc/rus/speckurs-intro/speckurs-plan.doc
Дата изменения: Sun Feb 25 01:50:51 2007
Дата индексирования: Sun Apr 13 03:27:15 2008
Кодировка: koi8-r


Технологии обработки языковых данных

и документирование языков


План спецкурса

1. Документирование малых языков как одна из главных задач полевой
лингвистики (Week 1: Feb 12)
1. Что такое документирование языка
2. Зачем нужна языковая документация?
a. Срочность документирования языков, находящихся под угрозой.
b. Какие языки спасать в первую очередь?
c. Ценность первичного материала вне зависимости от теории.
3. Типы языковых материалов, подлежащих документированию.
4. Современные требования к языковому документированию.
5. Организация процесса: участники, задачи, ресурсы, инструменты.
2. Общие технологические проблемы документирования языков

(Week 2: Feb 19)
1. Мультимедийные материалы.
a. Необходимость мультимедийных материалов.
b. Факторы, определяющие их качество: качество оборудования,
условия и методика записи, протоколирование сеансов записи,
разметка носителей.
c. Форматы аудио- и видеофайлов, их объёмы и проблемы хранения.
. ЛАБ: Рассчитать примерный объём корпуса
2. Текстовые (письменные) материалы. Проблемы систем транскрипции,
шрифтов, кодировок, систем глоссирования.
3. Общие вопросы стандартизации. Поддержка «смежных» стандартов.
4. Интеграция ресурсов и инструментов.
3. Компьютерное представление символов. Кодировки. Unicode. Форматирование
текста (Week 3-4: Mar 5, 12)
1. [Повторение основ] Компьютерное представление информации.
Принципиальное единство электронного представления программы и
данных, данных разного вида (текст, изображение, звук, числа.).
2. Представление букв. Кодировки ASCII, ISO-8859, КОИ-8. Совмещение
разных кодировок (кодовые страницы).
. ЛАБ: записать числами в ASCII строку «.»
3. Особые символы: управляющие символы; невидимые символы в MS Word.
4. Нормализация текста: набор символов; пробелы и отступы; регистры.
Использование стилей.
. ЛАБ: Замена n пробелов/табуляций/пустых абзацев; удаление лишних пробелов
в начале/конце абзаца; неразрывные пробелы. Макросы.
. ЛАБ: Написать библиотеку стилей.
5. Проблемы со смешением кодировок. Средства борьбы (Кодировщик
Лебедева, Штирлиц). Самодельные шрифты.
. ЛАБ: Раскодировать фрагмент текста из багвалинской грамматики; e-mail.
6. Unicode.
a. Идеология: «семантическое» кодирование (не начертание, а
функция).
b. Количество символов, диапазоны Юникода. Проблемы Юникода.
c. Системы кодирования: UTF-8, 7, 16, 32; BE/LE.
7. Программы и шрифты, (не) поддерживающие Юникод.
a. Вставка символа: разные инструменты - разные результаты.
Character Map, Insert Symbol, Alt + код (10), код (16) + Alt+X,
назначение клавиш; BabelMap, Uniqoder, Keyman.
. ЛАБ: записать числами в Юникоде строку «.»
8. Шрифты для лингвистов. Самодельные шрифты. Старые (не-юникодовские)
шрифты IPA. Современные шрифты.
9. Преобразования шрифтов. TECKit, ConsistentChanges; SILConverters.
4. Корпус глоссированных текстов (Week 5-6: Mar 19, 26)
1. Метаданные (сопутствующая информация). Стандарты OLAC, IMDI.
2. Разбиение текста на порции (предложения, ЭДЕ). Синхронизация с
аудио и видео: необходимость отдельного слоя записи.
3. Представление глоссированных текстов. Обзор существующих практик.
«Полужесткий» модульный стандарт.
a. Возможные и минимально необходимые слои информации.
b. Поморфемное глоссирование. Система разделителей. Унификация
грамматических глосс.
c. Перевод. Различные версии перевода и их совмещение в одном
поле. Типы комментариев.
d. Дискурсивная транскрипция (полная vs. упрощенная).
e. Особые проблемы: нулевые показатели, скрытые категории,
аналитические словоформы, сложные слова, орфографические знаки.
. ЛАБ: Отглоссировать фрагмент текста на изучаемом языке. Применить разные
стили глоссирования (полный, сокращенный).
4. Оформление глоссированного текста в текстовом редакторе.
5. Представление глоссированного текста в реляционной базе данных.
5. Toolbox: ведение словаря и автоматизация глоссирования

(Week 7: Apr 2)
1. Назначение системы, история разработки Shoebox/Toolbox.
2. Toolbox как инструмент лексикографа. (Денис Паперно)
3. Автоматизация глоссирования.
a. Идеология глоссирования TB: глубинные формы в строке
поморфемного членения. Проблемы с выведением поверхностных
форм, способы борьбы.
b. Способы выбора правильного варианта разбора: задание контекста,
принудительный выбор глоссы, Word Formulas. Проблемы.
. ЛАБ: Отглоссировать фрагмент текста с применением формул.
4. Экспорт данных из TB. Экспорт в RTF. Экспорт структурированных
данных в XML. BoxReader/Writer.
6. Фонетическая база данных (Week 8: Apr 9)
1. Назначение фонетической базы данных. Пример фонетической БД.
2. Язык запросов.
3. Подготовка материалов для БД.
7. Интегрированная среда для документирования

(Week 9-10: Apr 16, 23)
1. Идеология среды: независимость от ОС, Freeware, OpenSource,
открытые форматы данных, обмен данными между приложениями.
2. Компоненты среды, маршруты обмена данными.
|OpenOffice.org |BoxReader/Writer |
|Java Runtime Environment |MannX, ELAN |
|Mozilla Firefox |Tomcat |
|Toolbox |MySQL |


3. OpenOffice.org против Microsoft Office
4. Динамические веб-страницы. JSP, PHP.
8. XML и преобразования структурированных данных

(Week 11-12: May) (ADN / SA)
1. История форматов: HTML, SGML, XML, XHTML.
2. XML как семейство языков. DTD, структура документов.
3. Программы обработки XML: редакторы, парсеры, валидаторы.
4. XML как формат обмена между приложениями.
5. Преобразования XML-структур с помощью XSLT.
9. Базы данных MySQL