Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/2001/dial_01.doc
Дата изменения: Thu Mar 10 15:18:32 2005
Дата индексирования: Sat Dec 22 20:48:24 2007
Кодировка: Windows-1251
Поисковые слова: покрытие

Ре?евые корпусы

(опыт разработки и использование)[1]

О. Ф. Кривнова, Л. М. Захаров, Г. С. Строкин
Москва, МГУ
okri@philol.msu.ru, leon@philol.msu.ru, grg@philol.msu.ru,

1. Ре?евые корпусы как разновидность языковых ресурсов

Корпусы зву?ащей ре?и, которые называют также ре?евыми базами данных,
представляют собой важнейший тип языковых ресурсов. Последний термин обы?но
используется для обозна?ения любых, как правило больших, наборов
лингвисти?еских данных и описаний, представленных в электронном виде и
специально организованных для разработки, совершенствования и оценки
систем и алгоритмов обработки ре?евого и языкового материала в
лингвисти?еских технологи?еских приложениях. Иногда к языковым ресурсам
относят также и компьютерные программы, которые обеспе?ивают создание,
сбор, организацию и управление собственно лингвисти?ескими ресурсами.
Интерес к созданию корпусов зву?ащей ре?и был в зна?ительной степени
инициирован разработками в области автомати?еского распознавания ре?и, где
исследователям приходится сталкиваться с огромной акусти?еской
вариативностью звуковых единиц языка, которая имеет весьма разнообразные
исто?ники - от системной контекстной вариативности, обусловленной
коартикуляцией, до психофизиологи?еского состояния говорящего или
техни?еских характеристик микрофона, который используется при записи
ре?евого материала. Современные системы распознавания ре?и, которые дают
наиболее высокие показатели надежности, базируются преимущественно на
методах статисти?еского (вероятностного) моделирования ре?евых и языковых
явлений.
Такие системы обы?но обу?аются на о?ень больших массивах зву?ащей ре?и,
записанной от многих дикторов (не менее 100 ?еловек). Звуковые файлы,
входящие в обу?ающий ре?евой корпус, специальным образом аннотируются,
т. е. снабжаются акустико-фонети?еской и лингвисти?еской информацией,
необходимой для построения статисти?еских моделей. В последнее десятилетие
заметен переход от 'ру?ных' правил и алгоритмов к корпусному моделированию
и в области автомати?еского синтеза ре?и. Специалисты (Sagisaka 1997)
с?итают, ?то корпусной подход (corpus-based approach) является определяющим
для дальнейшего усовершенствования и развития технологий синтеза, особенно
при моделировании просоди?еских характеристик ре?и и индивидуальных
особенностей голоса говорящего. Отме?ается также такое достоинство этого
подхода, как формализация процедур обу?ения, вклю?ая применение
цикли?еского процесса с исправлением возникающих и контролируемых ошибок, и
возможность контроля и объективной оценки работы разли?ных систем на
стандартизованной основе (на одних и тех же ре?евых корпусах). Практика
показывает, ?то при нали?ии ре?евых корпусов и технологии обу?ения
создание прототипи?еской версии автомати?еского распознавателя или
синтезатора ре?и занимает не так уж много времени. В литературе указываются
сроки от двух месяцев до полугода. Для коммер?ески ориентированных
разработок это немаловажное обстоятельство.
Было бы неправильно думать, ?то ре?евые корпусы представляют интерес
только для развития ре?евых технологий. Проблема описания и моделирования
звуковой стороны ре?евых сообщений с у?етом ее акусти?еской вариативности
в разнообразных ре?евых ситуациях представляет самостоятельный нау?ный
интерес и возникает во многих зада?ах, связанных с анализом зву?ащей ре?и.
Несмотря на достато?но большой опыт исследования этой проблемы в
акусти?еской фонетике, нельзя сказать, ?то она решена в полном объеме даже
для такого относительно простого ре?евого режима, как ?тение связных
текстов, нейтральных в экспрессивно-эмоциональном отношении. Использование
представительных ре?евых корпусов, снабженных специальной аннотированной
информацией, уровень развития современных ре?евых технологий и постоянно
возрастающие мощности компьютерной техники дают недоступную ранее
возможность для проведения крупномасштабных и статисти?ески достоверных
фонети?еских исследований, обы?но весьма трудоемких. Об этом
свидетельствует, в ?астности, опыт использования в фонети?еских
исследованиях известного ре?евого корпуса TIMIT (американский вариант
английского языка), исходно предназна?енного для разработки и оценки
систем автомати?еского распознавания ре?и (подробнее об этом корпусе см.
ниже).

2. Организационно-финансовые проблемы создания ре?евых корпусов

Несмотря на общее признание необходимости и плодотворности развития
корпусной фонетики и соответствующих ре?евых технологий, коли?ество
корпусов зву?ащей ре?и, созданных для разных языков, не так уж велико.
Судя по отзывам экспертов и имеющемуся опыту, главной при?иной такого
положения дел являются большие финансовые затраты на создание любых
языковых ресурсов.
Первые ре?евые корпусы появились в середине 80-х годов в США, где их
разработка финансировалась прежде всего Министерством обороны. При
поддержке этого ведомства были созданы: TI-DIGITS корпус (1984 г.) для
тестирования систем распознавания изолированных цифр и цифровых
последовательностей; Road Rally для анализа и распознавания клю?евых слов
(word spotting) и King Corpus для систем идентификации говорящего (speaker
recognition). В рамках государственной программы развития лингвисти?еских
технологий, известной как ARPA/DARPA (the Advanced Research Projects
Agency), это же министерство финансировало создание уже упоминавшегося выше
корпуса TIMIT, который послужил прототипом для многих других ре?евых баз
данных. При этой же финансовой поддержке были разработаны
специализированные ре?евые корпусы Resourse Management (RM) и Wall Street
Journal (WSJ) для исследований в области распознавания слитной ре?и, а
также Air Travel Information Service (ATIS) для исследования спонтанной
ре?и и понимания естественного языка в диалоговых системах.
Накопленный к концу 80-годов опыт показал, ?то создание представительных
ре?евых корпусов требует кооперативных усилий исследовательских институтов,
индустриальных компаний и государственных спонсоров. Финансовые и временные
затраты на разработку высокока?ественных ресурсов оказались о?ень велики.
Эксперты отметили, ?то дорогостоящие, но необходимые для развития
информационных технологий ресурсы не должны разрабатываться для какой-то
одной специальной системы или зада?и (Godfrey & Zampolli 1997). Они пришли
к выводу, ?то ресурсы должны обеспе?ивать возможность их многократного
использования разными пользователями, т. е. быть общедоступными, и более
?ем для одной цели, т. е. быть многофункциональными. В связи с этими
требованиями возникла проблема стандартизации лингвисти?еских описаний,
согласования форматов представления информации в разных видах
лингвисти?еских ресурсов и их типологии (подробнее см. (Gibbon D. et al.
1997)).
По признанию специалистов, важным результатом первого этапа разработки
корпусных методов в технологи?еской сфере было создание специальных
координационных центров, в функции которых входит сбор, хранение,
распространение и организация разработки общедоступных и стандартизованных
лингвисти?еских ресурсов, в том ?исле и ре?евых. В 1991 году в США был
создан лингвисти?еский консорциум (LDC Linguistic Data Consortium), который
поддерживает создание новых языковых корпусов и распространяет ресурсы,
полу?енные из разных исто?ников. В ?астности, в настоящее время LDC
предлагает более 20 ре?евых корпусов, вклю?ая упомянутые выше, которые в
совокупности содержат многие сотни ?асов зву?ащей ре?и. Технологи?еский
Центр в штате Орегон (CSLU Center for Spoken Language Understanding)
коллекционирует, аннотирует и распространяет телефонные ре?евые корпусы.
Активность Центра поддерживается индустриальными спонсорами, но собранные
корпусы доступны университетам по всему миру бесплатно. Этот центр
располагает также многоязы?ным корпусом для оценки алгоритмов идентификации
языка, который состоит из фрагментов спонтанной ре?и на одиннадцати разных
языках мира. В 1995 году координационный центр лингвисти?еских ресурсов
(ELRA European Language Resources Assosiation) был образован и в Европе
(более подробные сведения об истории создания и зада?ах этой ассоциации
можно найти, например, в обзорных статьях (Mariani 1996; Teubеrt 1996). В
распоряжении этого центра находятся ре?евые корпусы для большинства
официальных языков Европейского Союза: для британского и шотландского
вариантов английского языка, голландского, датского, шведского, немецкого,
французского, итальянского, испанского, а также несколько многоязы?ных
корпусов. В настоящее время в результате осуществления программы Copernicus
ELRA распространяет также ре?евые корпусы для языков Восто?ной Европы
(польский, болгарский, эстонский, румынский и венгерский). На сайте
Европейской Ассоциации в Интернете можно найти предложения и ре?евых
корпусов для русского языка. Насколько нам известно, в их разработке
принимала у?астие Санкт-Петербургская компания 'Одитек'. В материалах IX
сессии РАО, посвященной современным ре?евым технологиям, есть доклад
сотрудников этой компании, в котором сообщается о разработке двух
специализированных корпусов русской 'телефонной' ре?и для зада? верификации
говорящего (65 дикторов, 10 подходов) и автомати?еского распознавания ре?и
(1350 дикторов) (Викторов А. Б. и др. 1999).

3. Вопросы проектирования ре?евых корпусов

Ввиду зна?ительных финансовых и рабо?их затрат, создание ре?евого корпуса
требует предварительного проектирования с у?етом зада?, для решения которых
предполагается использовать ре?евой корпус. Несмотря на стремление к
разработке многофункциональных и компактных корпусов, пригодных для
разли?ных приложений, на практике продолжают разграни?ивать
узкоспециализированные и репрезентативные (эталонные или общие) корпусы.
Как правило, это связано с экономией усилий при создании конкретных
ре?евых систем. Часто требования таких систем трудно совместить в одном
корпусе: например, для систем автомати?еской верификации дикторов нужны
корпусы, содержащие многократное произнесение небольшого коли?ества
парольных фраз относительно небольшим коли?еством дикторов (обы?но не более
100), а для систем автомати?еского распознавания ре?и или фонети?еских
исследований необходимы корпусы, в которых представлены однократные
произнесения разных фраз или текстов большим коли?еством дикторов (заведомо
больше 100). Поэтому, рассматривая при проектировании факти?ески одну и ту
же совокупность вопросов, разработ?ики разно ориентированных ре?евых
корпусов принимают по ним разли?ные решения.
Условно всю совокупность возникающих вопросов можно разделить на ?етыре
группы: техни?еские, содержательные, структурные и инструментальные
(исполнительские). К техни?еским относятся вопросы, связанные с
акусти?ескими и техни?ескими условиями записи ре?евого материала (выбор
типа и коли?ества микрофонов, звуковой карты компьютера, режима цифрового
кодирования и формата звуковых файлов, акусти?еская среда записи, тип
канала связи и пр.). Содержательные вопросы более разнообразны и
принципиально существенны. Пере?ислим основные проблемы, которые приходится
здесь решать.
Выбор дикторов (коли?ество, пол, возраст, диалектные разли?ия,
образование, социальное положение, профессия и пр.)
Подбор текстового материала (специализированный/репрезентативный, тип
произносимых ре?евых образцов (слова, отдельные предложения, тексты,
образцы спонтанной ре?и), фонети?ески сбалансированный/ не
сбалансированный, тип балансировки, статисти?еская представительность
звуковых единиц и т. п.)
Распределение текстового материала по дикторам, вклю?ая коли?ество
подходов для каждого диктора
Распределение ре?евого материала на тренирово?ную и тестовую ?асти
Выбор типов информации, ассоциированной с каждым звуковым файлом
(орфографи?еская запись, фонемная запись / фонети?еская транскрипция
реального произнесения, акустико-фонети?еская разметка звукового сигнала,
про?ие типы аннотаций и комментариев)
Структурные вопросы касаются организации информации, содержащейся в
корпусе, в формат, удобный для размещения, хранения, поиска и использования
нужной информации (структура директорий и файлов, создание протоколов и
пр.).
'Инструментальные' или исполнительские вопросы возникают в связи с
автоматизацией и стандартизацией разных этапов создания ре?евого корпуса.
Для репрезентативных или общих корпусов главная проблема связана с
разработкой стандартов для транскрипции ре?евых сигналов на разных уровнях
их представления и для разных языков, с установлением набора
транскрипционных символов, соглашений о разметке сигналов, задающих уровни
транскрипции - акусти?еский, фонети?еский, фонемный, словесный,
просоди?еский и пр. Как правило, для создания ре?евых корпусов, содержащих
транскрипционную информацию, привлекаются фонети?еские эксперты, но даже в
этом слу?ае для полу?ения согласованных экспертных транскрипций и
размето?ных файлов необходимо разрабатывать специальные рабо?ие инструкции,
в которых приходится предусматривать не только типовые, но и трудные слу?аи
фонети?еской интерпретации ре?евых сигналов. Кроме того, при разработке
таких корпусов необходим специальный компьютерный инструментарий для
обеспе?ения удобной, быстрой и надежной работы эксперта. Хотя сей?ас
существует довольно большое коли?ество компьютерных программ, которые
позволяют анализировать, разме?ать, транскрибировать и аннотировать ре?евые
сигналы, каждая из них имеет свои особенности, которые не всегда удобны для
решения конкретных зада?. В особенности, это относится к программам,
которые относительно дешевы или находятся в свободном доступе. Специальных
программ требует также организация записи и файлирования ре?евого
материала. Как правило, используется так называемый метод суфлера (prompt-
method), который позволяет создавать звуковые файлы, соответствующие
отдельным объектам ре?евого корпуса, непосредственно в процессе его
записи.
Нет необходимости специально останавливаться на том, ?то ка?ественные
ре?евые корпусы должны быть снабжены подробной документацией.

4. Краткое описание репрезентативного ре?евого корпуса TIMIT
(американский вариант английского языка)

Выше уже упоминалось, ?то американский корпус TIMIT до сих является
прототипи?еским образцом корпуса репрезентативного типа. Поэтому полезно
рассмотреть, каким образом при его создании были решены вопросы
содержательного характера. Акустико-фонети?еский корпус TIMIT
предназна?ался для широких фонети?еских исследований, а также для
разработки и тестирования автомати?еских систем распознавания слитной ре?и
в рамках американского варианта английского языка. В его разработке (1998-
1990 гг.) принимало у?астие несколько широко известных организаций и
исследовательских центров: MIT (the Massachusetts Institute of Technology,
SRI (Stanford Research Institute) and TI (Texas Instruments) и NIST
(National Institute of Standards and Technology). Это один из первых
ре?евых корпусов, который на?ал распространяться на CD-дисках. В записи
корпуса принимало у?астие 630 дикторов из 8 региональных диалектных зон
США, при?ем разработ?ики стремились к одинаковому процентному
представительству диалектов, хотя это удалось сделать не для всех зон.
Соотношение дикторов по полу также выдерживалось - каждый записанный
диалект представляют около 70% дикторов-муж?ин и 30% женщин. Среди про?их
признаков при подборе и записи дикторов у?итывались: возраст, рост, расовая
принадлежность, уровень образования, время записи ре?и. Текстовый материал
TIMIT вклю?ает 2342 отдельных предложения. Из них 2 предложения
представляют собой специально сконструированные фразы, насыщенные
контекстами, в которых можно ожидать максимального проявления диалектной
принадлежности диктора. Остальные 2340 предложений делятся на две группы
следующим образом. Первая состоит из 450 специальных фонети?ески
сбалансированных предложений, которые обеспе?ивают полное покрытие
фонемного инвентаря и встре?аемость фонем в особых 'проблемных' контекстах.
1890 предложений второй группы отбирались из имевшихся текстовых корпусов,
критерий отбора - увели?ение разнообразия типов предложений и фонети?еских
контекстов употребления фонем. Распределение корпусных предложений по
дикторам характеризует следующая таблица.

|Тип |Коли?ест|Коли?ест|Диктор /|Общее коли?ес|Предложение|
|предложения |во |во | |тво | / диктор |
| |предл. |дикторов|Кол. |произнесен. | |
| | | |предл. | | |
|Диагности?еск|2 |630 |2 |1260 |630 |
|ие | | | | | |
|(диалектные) | | | | | |
|Компактные |450 |630 |5 |3150 |7 |
|Разнообразные|1890 |630 |3 |1890 |1 |

В TIMIT корпусе звуковые файлы, полу?енные от разных дикторов, разделены
на тренирово?ную и тестовую ?асти. При этом разработ?ики руководствовались
следующими соображениями. Тестовая ?асть корпуса должна составлять от 20 до
30% всего корпуса, ни один из дикторов не должен использоваться
одновременно в обеих ?астях, в каждой ?асти должны быть представители всех
диалектов разного пола, тренирово?ный и тестовый наборы не должны содержать
одинаковых предложений, тестовый набор должен обеспе?ивать полное покрытие
фонемного инвентаря, достато?ное разнообразие их фонети?еских контекстов и
?астоту встре?аемости. С каждым предложением, как в тренирово?ном, так и
тестовом наборе, ассоциированы 4 разных файла, которые отли?аются только
расширением и содержат разную информацию о произнесенном предложении. Один
из файлов звуковой, а остальные - текстовые. Структура ассоциированных
текстовых файлов одинакова и отражает временную соотнесенность (time-
alignment) разных языковых объектов с сигналом, т. е. разные уровни его
разметки. Текстовые файлы имеют следующий вид:
<текст> <маркер новой строки>

<текст> <маркер новой
строки>,
в ка?естве текста выступают в разных файлах следующие объекты: полная
орфографи?еская запись предложения, отдельные слова предложения в
орфографи?еской записи, транскрипционные символы отдельных звуков или их
?астей.
Корпус снабжен подробной документацией, где отражены многие детали его
содержания и возможного использования.

5. Репрезентативные ре?евые корпусы для русского языка

В заклю?ение остановимся кратко на своем опыте у?астия в создании
представительных ре?евых корпусов для русского языка. Первый подобный
корпус, специально ориентированный на использование в ре?евых технологиях,
был разработан в Институте системного анализа РАН при поддержке РФФИ в
период с 1996 по 1998 гг. в зна?ительной степени по образцу описанного выше
корпуса TIMIT. Мы у?аствовали в нем как фонетисты-эксперты. Подробное
описание этой ре?евой базы, ее текстового содержания, фонети?еского
обеспе?ения и программного инструментария содержится в (Богданов и др.
1998). К сожалению, к настоящему времени в некоторых, технологи?ески важных
отношениях корпус ISABASE морально устарел: слишком мало дикторов (36),
дискретное ?тение предложений и др. При подготовке корпуса много усилий и
времени было потра?ено на ру?ную сегментацию и транскрипцию звуковых
файлов. Современные технологии построения систем автомати?еского
распознавания ре?и не требуют нали?ия большого массива разме?енных звуковых
файлов. Это дает возможность существенно увели?ить коли?ество дикторов и
размеры текстового материала при разработке ре?евого корпуса. При этом
особое зна?ение приобретают статисти?еские характеристики фонети?еского
содержания текстового материала (балансировка, представительность и
разнообразие контекстов) и нали?ие фонети?еской транскрипции, отражающей
реальное дикторское произнесение текстового материала.
В настоящее время в ИСА РАН осуществляется разработка нового корпуса
русской ре?и с нашим у?астием. Надо заметить, ?то подбор текстовых массивов
с заранее оговоренными статисти?ескими требованиями на контекстное
употребление фонем представляет собой о?ень трудоемкую зада?у. В целях ее
автоматизации мы разработали специализированный компьютерный
инструментарий, который вклю?ает автомати?еский транскриптор русских
письменных текстов и программу статисти?еской обработки транскрипционных
записей. Статисти?еская программа, сопровождающая работу транскриптора,
используется не только для окон?ательного подс?ета ?астоты встре?аемости
фонем в разных контекстах, но также как фильтр-накопитель, который
позволяет накапливать текстовый массив, удовлетворяющий априорным
статисти?еским требованиям на ?астоту встре?аемости тех или иных звуковых
объектов.
Работа с записанным ре?евым материалом требует верификации канони?еской
транскрипционной записи, которая была построена для текстовых массивов с
помощью автомати?еского транскриптора. Цель верификации состоит в том,
?тобы у?есть реальное произнесение предложенных материалов дикторами.
Временные затраты на эту работу можно существенно сократить, если
использовать канони?ескую автомати?ескую транскрипцию как своего рода
'подстро?ник', который может исправляться экспертами-фонетистами в
интерактивном режиме работы со звуковыми сигналами. Для облег?ения и
унификации этой деятельности была разработана специальная инструкция и
компьютерная программа, обеспе?ивающая удобный режим работы фонетиста-
эксперта.
Несколько иной тип русского ре?евого корпуса разрабатывается нами в рамках
исследовательского проекта, который посвящен моделированию акусти?еской
вариативности звуковых единиц в связной ре?и. Проект поддерживается РФФИ.
При подборе и верификации ре?евого материала для этого корпуса мы также
активно использовали созданный нами автомати?еский транскриптор, а также
статисти?еский и верификационный компьютерный инструментарий. Для
выполнения этого проекта необходима сегментация звуковых файлов на
фрагменты фонемной размерности и их фонети?еская аннотация (phonetic
labelling). К сожалению, мы пока не имеем возможности автоматизировать
(хотя бы ?асти?но) эту трудоемкую процедуру. На Западе эта зада?а решается
как упрощенный вариант распознавания слитной ре?и с использованием
аналоги?ных технологий (см. например (Rapp 1996), где подробно описана
зада?а построения фонемного aligner'а для немецкого языка). Хотелось бы
надеяться, ?то развитие систем распознавания русской ре?и даст русским
фонетистам возможность автоматизировать процедуры сегментации и аннотации
звуковых файлов, к которым приходится прибегать при решении многих
исследовательских и прикладных зада?.

Литература

1. Богданов, Д. С., Кривнова, О. Ф., Подрабинови?, А. Я., Фарсобина, В. В.
База ре?евых фрагментов русского языка 'ISABASE' // Интеллектуальные
технологии ввода и вывода информации. М., 1998.

2. Викторов А. Б., Викторова К. О., Воронцова А. В. и др. Ре?евые базы
данных для зада? автомати?еского распознавания ре?и и верификации
говорящего // Современные ре?евые технологии. Сб. трудов IX сессии
Российского акусти?еского общества. М., 1999.

3. Gibbon, D.,Moore, R., Winski, R. (Editors) Handbook of Standards and
Resources for Spoken Language Systems Mouton de Gruyter, 1997.

4. Godfrey, J., Zampolli A. Language Resources. Overview // Survey of the
state of the art in human language technology. Cambridge, 1997.

5. Mariani, J. Language resources and evaluation: a survey // Integration
of Language and Speech. Proc. of the ELSNET workshop. Moscow, 1996.

6. Sagisaka, Y. Spoken Output Technologies. Overview // Survey of the state
of the art in human language technology. Cambridge, 1997.

7. Rapp, S. Automatic phonemic transcription and linguistic annotation from
known text with Hidden Markov Models. An Aligner for German // Integration
of Language and Speech. Proc. of the ELSNET workshop. Moscow, 1996.

8. Teubеrt, W. Language resources for language technology // Integration of
Language and Speech. Proc. of the ELSNET workshop. Moscow, 1996.

Speech corpora (development experience and usage)
Krivnova O. F., Zakharov L. M., Strokin G. S.
Speech corpora represent a very important type of language resources. In
this report the financial and organizational problems of their development
and standartization are considered.
The questions of designing, composition patterns and necessary toolkits are
also discussed. The brief description of the DARPA TIMIT Acoustic-Phonetic
Continuous Speech Corpus is given as it serves as a prototype for many
representative speech corpora in different languages. We consider also our
own experience of participation in development of several speech corpora
for Russian language.
-----------------------
[1] Работа выполнена при поддержке РФФИ, проект ? 00-06-80091 и ИНТАС
(INTAS-99-00-795).