Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~otipl/SpeechGroup/publications/krivnova-2005-2006/krivnova_rao-18-rus.doc
Дата изменения: Fri Feb 9 19:06:50 2007
Дата индексирования: Sat Dec 22 21:06:08 2007
Кодировка: koi8-r
Поисковые слова: покрытие

УДК 621.391

О.Ф. Кривнова
ОБЛАСТИ ПРИМЕНЕНИЯ РЕЧЕВЫХ КОРПУСОВ И ОПЫТ ИХ РАЗРАБОТКИ

Московский государственный университет им. М.В.Ломоносова, филологический ф-
т
Россия, 119899 Москва, Воробьевы горы, I гум. корпус
Тел.: (495) 939-26-01
E-mail: okri@philol.msu.ru

Корпуса звучащей речи, которые называют также речевыми базами данных,
представляют собой важнейший тип языковых ресурсов. В состав корпуса часто
включают и компьютерные программы, которые обеспечивают создание, сбор,
организацию и управление собственно языковыми, в том числе и фонетическими,
ресурсами. Интерес к созданию речевых корпусов был в значительной степени
инициирован разработками в области автоматического распознавания речи, где
исследователям приходится сталкиваться с огромной акустической
вариативностью звуковых единиц языка, которая имеет весьма разнообразные
источники - от системной контекстной вариативности, обусловленной
коартикуляцией, до психофизиологического состояния говорящего или
технических характеристик микрофона, который используется при записи
речевого материала. Современные распознающие системы обычно обучаются на
очень больших массивах звучащей речи, записанной от многих дикторов (не
менее 100 человек). В последнее десятилетие заметен переход от "ручных"
правил и алгоритмов к корпусному моделированию и в области автоматического
синтеза речи. Это особенно важно для моделирования просодических
характеристик речи, ее эмоционального содержания и выражения, а также
имитации индивидуальных особенностей голоса говорящего. Речевые корпуса
представляют и самостоятельный научный интерес, а потребность в них
возникает во многих научных задачах, связанных с анализом и описанием
звучащей речи на разных языках. В докладе рассмотрены основные области
применения речевых корпусов, а также кратко суммирован опыт их разработки,
в том числе на материале русского языка.

1. Речевой корпус как разновидность языковых ресурсов. Корпуса звучащей
речи, которые называют также речевыми базами данных, представляют собой
важнейший тип языковых ресурсов. Последний термин обычно используется для
обозначения любых, как правило больших, наборов лингвистических данных и
описаний, представленных в электронном виде и специально организованных
для разработки, совершенствования и оценки систем и алгоритмов обработки
речевого и языкового материала в технологических приложениях.
Речевой корпус - это структурированная совокупность речевых фрагментов,
которая обеспечена программными средствами доступа к ним. Речевой фрагмент
как базовая единица корпуса представляет собой оцифрованный фрагмент
речевого сигнала, который сопровождается ассоциированной информацией
определенного типа (типов). В настоящее время задача создания больших,
разнообразных и информационно «богатых» (многоуровневых) речевых корпусов,
а также удобного и надежного инструментария для их разработки и
использования становится все более актуальной как для компьютерных
приложений, так и для фундаментальных фонетических исследований.
Современные системы распознавания речи, которые дают наиболее высокие
показатели надежности, базируются преимущественно на методах
статистического моделирования речевых и языковых явлений и требуют обучения
на больших массивах аннотированной звучащей речи, записанной от многих
дикторов (не менее 100 человек).
Современный подход к синтезу речи по тексту, основанный на конкатенации
акустических фрагментов разной размерности, также предполагает
использование больших речевых корпусов [1] . Специалисты считают, что
корпусной подход (corpus-based approach) является определяющим для
развития технологий синтеза, особенно при моделировании просодических
характеристик речи и индивидуальных особенностей говорящего. Отмечаются
также такие достоинства этого подхода, как формализация процедур обучения,
применение итеративного обучающего процесса с исправлением возникающих и
контролируемых ошибок, возможность контроля и объективной оценки работы
различных прикладных систем на стандартизованной основе (на одних и тех же
речевых корпусах). Практика показывает, что при наличии речевых корпусов и
технологии обучения создание прототипической версии автоматического
распознавателя или синтезатора речи занимает не так уж много времени. В
литературе указываются сроки от двух месяцев до полугода. Для коммерчески
ориентированных разработок это немаловажное обстоятельство.
Было бы неправильно думать, что речевые корпуса представляют интерес
только для развития речевых технологий. Использование представительных
речевых корпусов, снабженных специальной информацией, уровень развития
современных речевых технологий и постоянно возрастающие мощности
компьютерной техники дают ученым недоступную ранее возможность для
проведения крупномасштабных и статистически достоверных фонетических
исследований на разнообразном речевом материале.
2. Из истории разработок. Первые речевые корпусы появились в середине 80-
х годов прошлого века в США, где их разработка финансировалась прежде всего
Министерством обороны. При поддержке этого ведомства были созданы: TI-
DIGITS корпус (1984) для тестирования систем распознавания изолированных
цифр и цифровых последовательностей; Road Rally для анализа и распознавания
ключевых слов (word spotting) и King Corpus для систем идентификации
говорящего (speaker recognition). В рамках государственной программы
развития лингвистических технологий, известной как ARPA/DARPA (the Advanced
Research Projects Agency), это же министерство финансировало создание
известного американского корпуса TIMIT (1980-1990), который послужил
прототипом для многих других речевых корпусов. При этой же финансовой
поддержке были разработаны специализированные речевые корпус Resourse
Management (RM) и Wall Street Journal (WSJ) для исследований в области
распознавания слитной речи, а также Air Travel Information Service (ATIS)
для исследования спонтанной речи и понимания естественного языка в
диалоговых системах.
Практика показала, что создание хорошего речевого корпуса представляет
собой довольно сложную технологическую задачу, требующую значительных
финансовых и кадровых вложений. Горячими точками в этом процессе до сих пор
являются финансовое обеспечение, необходимость кооперативных усилий,
обеспечение общедоступности и многопрофильности речевых корпусов,
стандартизация и создание компьютерного инструментария для накопления,
обработки и верификации речевых баз данных [2]. Для решения этих задач в 90-
е годы ХХ в. были созданы специальные координационные центры по сбору,
хранению, распространению и созданию общедоступных и стандартизованных
языковых ресурсов, в том числе речевых. Среди них:
o LDC (Linguistic Data Consorcium, http://www.ldc.upenn.edu)
o CSLU (Center for Spoken Language Understanding, Oregon Graduate
Institute
o http://www. CSLU.ogi.edu)
o ELRA (European Language Resources Association, http://www.elra.info)
Коллекция речевых корпусов, которые предлагаются указанными центрами с
каждым годом увеличивается, и все большее количество специалистов
участвуют в их разработке. Одновременно растет мощность, разнообразие и
компьютерное оснащение самих корпусов. (более подробные сведения о центрах
речевых ресурсов можно найти в [3].
3. Классификация речевых корпусов. Опыт, накопленный в области создания и
использования речевых корпусов, позволяет выделить ряд признаков, которые
могут быть положены в основу классификации речевых баз данных и учитываться
при проектировании нового корпуса. Укажем наиболее важные характеристики
(см. также [4-6] ).
целевое использование корпуса: специализированные, общие
(репрезентативные), учебно-иллюстративные;

1 тип речевого материала: дискретная речь, непрерывная речь-чтение,
спонтанная речь, специальные диалоги;

2 тип текстового материала: списки слов/слогов, наборы отдельных
предложений, связные тексты; монотематические или политематические;

3 тип речевого сигнала: лабораторная речь, офисная речь, публичная речь,
телефонная речь (обычная или через мобильный телефон; радио-, теле-речь.

2 тип информации, ассоциированной с речевым сигналом(аннотации):
орфографическая запись, фонемная / фонетическая транскрипция, просодическая
транскрипция, акустико-фонетическая разметка сигнала: «событийная»,
сегментная, просодическая, наличие других типов лингвистических аннотаций
и комментариев, например, об индивидуальных особенностях произношения
говорящего или эмоциональной окраске речевых фрагментов;

3 тип статистической балансировки звуковых единиц языка: естественная,
равномерная, репрезентативная, по специальной статистической схеме;

4 наличие и тип дополнительной сигнальной информации, включённой в корпус
наряду с речевым сигналом: простые, мультимодальные и специальные корпуса.

4. Речевые корпуса для русского языка. Как правило, речевые базы данных
являются моноязычными. Речевые корпуса созданы не только для всех
технологически важных языков (американского англ., немецкого, японского,
китайского и др.), но и для большинства официальных языков Европейского
Союза : для британского и шотландского вариантов английского языка,
голландского, датского, шведского, немецкого, французского, итальянского,
испанского, есть также несколько многоязычных корпусов. В результате
осуществления программы Copernicus ELRA распространяет также речевые
корпуса для языков Восточной Европы (польский, болгарский, эстонский,
румынский и венгерский). На сайте Европейской Ассоциации в Интернете можно
найти предложения и речевых корпусов для русского языка. Насколько нам
известно, в их разработке принимала участие Санкт-Петербургская компания
"Одитек".
4.1. Речевой корпус ISABASE. В конце 90-х годов в Институте системного
анализа РАН при участии специалистов речевой группы филологического ф-та
МГУ был создан первый представительный речевой корпус для русского языка с
разметкой речевых фрагментов на звуковые единицы, который использовался не
только в исследовательских целях, но и для построения автоматической
системы распознавания дискретной речи [4]. Корпус моносигнальный, остальные
характеристики см. ниже в таблице 1.

|тип речевого |Дискретная речь |Дикторы/речевые |Общий |
|материала | |фрагменты-редложени|объем |
| | |я | |
|Текстовый|1 |Фонетически |5 дикторов-мужчин и|4653 реч. |
|материал | |сбалансированный |4 диктора-женщины; |Фрагмента;|
| | |набор из 500 |1863 фрагмента | |
| | |коротких | |3713 |
| | |предложений, | |различных |
| | |монотематический | |слов; |
| |2 |Фонетически |15 дикторов-мужчин | |
| | |репрезентативный |и 14 | |
| | |набор предложений,|дикторов-женщин | |
| | |взятых из |3280 фрагмента | |
| | |литературных | | |
| | |текстов; | | |
| | |политематический | | |
|Типы аннотаций |Текст речевого |Транскрипционная | |
| |фрагмента, |система из 110 | |
| |фонетическая |монофонов | |
| |транскрипция, | | |
| |результаты ручной | | |
| |сегментации | | |
| |сигнала на слова и| | |
| |фонемы | | |

Табл.1. Характеристики русского речевого корпуса ISABASE.

4.2. Речевой корпус RuSpeech. В 2000-2001 гг. в ИСА РАН заказу корпорации
Intel был создан также самый представительный на сегодняшний день речевой
корпус русского языка RuSpeech, который может быть использован для
разработки систем распознавания русской речи [5]. Общие характеристики
корпуса приведены в ниже в таблице 2.
Помимо самой речевой базы, важным результатом проекта Ruspeech явились
отлаженная технология создания речевых корпусов и комплекс программных
средств для обеспечения этой технологии [4-6]. Среди последних необходимо
отметить - отладку автоматического транскриптора русской речи; создание
программы для подготовки текстового материала с нужными фонетическими и
статистическими характеристиками; создание автоматизированного
|Общая |Тип речевого |Состав |Дикторы |
|характер|материала |фрагментов/предложени|/фрагменты |
|истика | |й | |
| |Непрерывная речь; |50 часов записи; 30 |237 дикторов: |
| |моносигнальный |CD, более 15 Gb; |127 мужчин и |
| | |; более 50000 |110 женщин; |
| | |фрагментов- |разного |
| | |предложений |возраста |
|Тексто|1|Фонетически |70 предложений, |203 диктора: |
|вый | |сбалансированный |обеспечивающих полное|111-м и 92-ж; |
|матери| |набор; |(™3 раз) монофонное |каждое |
|ал | |политематический |покрытие; |предложение |
| | | | |произнесено |
| | | | |всеми |
| | | | |дикторами; |
| |2|Фонетически |3060 предложений, |203 диктора: |
| | |репрезентативный (на|обеспечивающих полное|111-м и 92-ж |
| | |аллофоном уровне) |покрытие аллофонов из|по 180 |
| | |набор предложений, |репрезентативного |предложений |
| | |взятых из газетных |набора, |выборочно; |
| | |и новостных текстов | |каждое |
| | |на интернет-сайтах; | |предложение |
| | |политематический | |роизнесено 14 |
| | | | |дикторами; |
| | | |2000 фонетически |20 дикторов: |
| | | |разнообразных |10-м и 10-ж по |
| | | |предложений; |200 предложений|
| | | | |выборочно; |
| | | | |каждое |
| | | | |предложение |
| | | | |произнесено 1 |
| | | | |диктором |
|Аннотаци|Текст речевого |Транскрипционная | |
|и |фрагмента, |система из 114 | |
| |каноническая и |монофонов; | |
| |фактическая | | |
| |транскрипция, | | |
| |выверенная | | |
| |экспертами;данные о | | |
| |дикторе и | | |
| |эксперте-фонетисте | | |

рабочего места эксперта-фонетиста; программы пакетной записи дикторов;
нескольких программ для верификации результатов основных этапов разработки
[6].
Табл.2. Характеристики русского речевого корпуса Ruspeech.

Л И Т Е Р А Т У Р А

1. Hunt A. , Black A.W. Unit selection in a concatenative speech
synthesis system using a large speech database // ICASSP-96, vol. 1, pp.
373-376, 1996.
2. Gibbon, D.,Moore, R., Winski, R. (Editors) Handbook of Standards and
Resources for Spoken Language Systems Mouton de Gruyter, 1997.

3. Кривнова О.Ф., Захаров Л.М., Строкин Г.С. Речевые корпусы (опыт
разработки и использование) // Труды семинара Диалог'2001 по компьютерной
лингвистике и ее приложениям. M., , 2001.
4. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я., Фарсобина В.В. База
речевых фрагментов русского языка ISABASE // Cб. «Интеллектуальные
технологии ввода и обработки информации». М., Эдиториал УРСС, 1998.
5. Богданов Д.С., Брухтий А.В., Кривнова О.Ф., Подрабинович А.Я., Строкин
Г.С. Технология формирования речевых баз данных // Cб. «Организационное
управление и искусственный интеллект». М., Эдиториал УРСС, 2003.
6. Arlazarov V.L., Bogdanov D.S. Krivnova O. F., Podrabinovitch A. Ya.
. Creation of Russian Speech Databases: Design, Processing, Development
Tools // International Conference SPECOM'2004. Proceedings. S-Pb. Russia,
2004. Pp: 650-656.