Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.philol.msu.ru/~rlc2001/abstract/files/komp_lingv.doc
Дата изменения: Mon Mar 26 00:00:00 2001
Дата индексирования: Sat Dec 22 12:38:50 2007
Кодировка: Windows-1251


Русская компьютерная

и квантитативная лингвистика

Способы разли?ения простого и сложного предложения

при автомати?еском анализе текстов1
Т. Б. Агранат
ИПМ РАН

автомати?еский анализ текстов, сложное и простое предложения,
неоднозна?ность
Summary. There are some cases of ambiguity of simple and complex sentences
in parsing. The formal methods of its overcoming are proposed.


При автомати?еском анализе текстов возможны слу?аи, когда возникают
трудности в определении, является ли то или иное предложение сложным или
простым с однородными ?ленами. Для ?еловека разли?ительным критерием здесь
выступает семантика ?ленов предложения (мы не принимаем во внимание слу?аи,
омоними?ные как для ?еловека, так и для машины). Так как для
автомати?еского анализа семанти?еский критерий практи?ески неприемлем,
необходимы поиски других способов разли?ения простых и сложных предложений.
1. (.) 1N1 + 1Vf и 2N1 + 2Vf
По правилам пунктуации, при нали?ии какой-либо общей ?асти у двух простых
предложений в составе сложного при едини?ном соединительном союзе запятая
отсутствует. Если каждому N1 соответствует согласованный с ним Vf, то
машина должна разбирать такую конструкцию как сложное предложение.
2. (.) 1Vf и N1 + 2Vf
При такой схеме не будет вызывать трудностей слу?ай несовпадения 1Vf и 2Vf
по форме (т. е. согласования одного из них и несогласования другого с N1),
будет однозна?но пониматься как сложное предложение. Сделаем оговорку
относительно того, ?то с?итать несовпадением глаголов по форме: а) если оба
стоят в настоящем или будущем времени и у них не совпадает лицо и / или
?исло; б) если оба стоят в прошедшем времени и у них не совпадает род
и / или ?исло; в) если один стоит в настоящем или будущем времени, а другой
в прошедшем и у них не совпадает ?исло. Если в последнем слу?ае совпадает
?исло, то такая конструкция может представлять трудность для
автомати?еского анализа.
Возможным вариантом реализации представленной выше схемы является такой,
когда один из Vf - безли?ный глагол. Если такой глагол может выступать
только в функции безли?ного, то здесь не возникнет проблем при
автомати?еском анализе, в противном слу?аи для машины понимание не будет
однозна?ным.
3. (.) 1N1 и 2N1 + Vf
Если оба N1 в единственном ?исле, а Vf - во множественном, то это -
простое предложение. Если одно из существительных в единственном ?исле, а
другое - во множественном, то и имеет зна?ение порядок слов:

(.) 1N1pl и 2N1sg + Vf pl - простое предложение;

(.) 1N1sg и 2N1pl + Vf pl - сложное, если одно из существительных
одушевленное, а другое - неодушевленное; если оба - одушевленные или оба -
неодушевленные возникает неоднозна?ность, при их одушевленности вероятность
простого предложения увели?ивается. Все сказанное о конструкции 1N1sg и
2N1pl + Vf pl верно и для 1N1pl и 2N1pl + Vf pl.
Программа 'Истори?еская память России'

в науке и образовании
Т. А. Богатова
Институт русского языка им. В. В. Виноградова РАН

истори?ексая лексикография, картотеки, компьютеризация


1. Период интеграции академи?еской науки и образования пришел в наши
аудитории. В Институте русского языка им. В. В. Виноградова создана
межведомственная программа 'Истори?еская память России', каждый пункт
которой связан с этим направлением и нау?ной школой 'Русская истори?еская
лексикография'.
Центральным пректом программы является составление фундаментального
'Словаря русского языка XI-XVII вв.', 25-летие с на?ала издания которого
отме?алось весной 2000 года (руководителем проекта является д. ф. н. М. И.
Чернышева). В конференции у?аствовало 18 студентов и аспирантов
Государственной Академии славянской культуры, МГТУ им. Н. Баумана, Академии
пе?ати. Знаковыми ?ертами этого периода в составлении фундаментального
истори?еского словаря (1975-2000 гг., издание продолжается) и его нау?ного
сопровождения являются интеграция и информатизация.
2. Второй проект программы касается двухмиллионной 'Древнерусской
рукописной картотеки XI-XVII вв.' (руководитель проекта кфн
Л. Ю. Астахина). На осенней конференции (которые по у?астию в ней студентов
и аспирантов мы называем сессиями) отме?алось 75-летие каротеки, зна?имость
ее в науке и образовании (до 500 исследований основывается на ее
материалах). Отме?алось и траги?еская ситуация с состоянием КДРС, ибо жизни
бумаги XX века отведено всего 70 лет по подс?етам специалистов. И сей?ас
?исло умирающих картотек, степень зараженности ее бумажным клещом растет с
каждым днем. У нас в стране только два таких собрания: 'Шахматовское' в
Санкт-Петербурге (РАН) - ему более 100 лет, и собрание, на?атое академиком
А. И. Соболевским и М. Н. Сперанским. В самые траги?ные годы, 20-е годы,
когда было уни?тожено Отделение русского языка и словесности (1925 г.), а
многие создатели картотеки были репрессированы. Наше поколение, которое
тоже пополняло и пополняет эту картотеку выполнило свой нравственный долг
перед создателями КДРС (вклю?ая студентов, проходив-
___________________________________
[?] При поддержке РФФИ, грант ? 99-01-01191.
ших летнюю практику в те?ение 18 лет): в составе Справо?ного тома, который
в на?але лета выйдет из пе?ати, входит О?ерк истории КДРС и
Биобиблиографи?еский словарь создателей картотеки. С помощью РГНФ и РФФИ
продолжается перевод картотеки на безбумажные носители, сделана база данных
к Указателю исто?ников КДРС-2000 (эта его самая полная версия входит в
Справо?ный том).
3. Проект 'Славянский мир: картоте?ные собрания, словари, энциклопедии'
(руководитель академик О. Н. Труба?ев) планирует продолжение издания
'Этимологи?еского словаря славянских языков' (вышло 28 томов), разработку
проблем этногенеза славян, у?астие в работе лексикографи?еского семинара
(лексикография ныне принята как вторая специальность филолога).
В 2000 г. при у?астии 'Школы истори?еской лек-

сикографии' Т. А. Богатовой и 'Школы этимологии' председателя национального
комитета славистов О. Н. Труба?ева, была организована в Российской
государственной библиотеке выставка 'Славянский мир: исто?ники и
картоте?ные собрания, словари и энциклопедии'. В сентябре-октябре
организованы совместно с Фондом культуры РФ два заседания 'Славянский мир:
культура и образование'. Одно из них 'Музеи лексикографов' - проходило в
доме-музее В. И. Даля и было посвящено 200-летию со дня его рождения.
Второе в фонде культуры РФ, где проходила презентация книг-новинок:
'Оте?ественые лексикографы XVIII-XX века' (редактор Т. А. Богатова) и
'Русская истори?еская лексико-

графия на современном этапе' (редактор М. И. Чернышева).
4. Главную роль в организации этой выставки 'Славянский мир: исто?ники и
картоте?ные собрания.' играла Российская государственая библиотека и
руководитель ?етвертого проекта 'Русские раритеты' ведущий нау?ный
сотрудник РГБ Иса?енко Т. А. На выставке были представлены как старейшие
исто?ники (подлинники), так и новейшие их издания в полиграфи?еском (как
'Архангельское евангелие' 1092), так и компьютерном варианте: 'Травник
Люб?анина' 1534 г., 'Смоленская наказная грамота митрополита Макария',
'Новый Завет' в переводе старца Евфимия Славинского.
5. В новую пролонгированную программу входит пятый проект 'Российская
компьютерра' пока главной их заботой является создание словников и
инверсионных версий и их переиздание. В марте выйдет первый том
шеститомного 'Словаря Академии Российской' (Московский гуманитарный
институт им. Е. Р. Дашковой, нау?ное сопровождение Г. А. Богатовой),
планируется переиздание Бодуенского издания Даля (ИРЯ РАН),
Церковнославянского словаря 1847 года (СПбГУ) и многих других.
Лингвисти?еские ресурсы Интернета будут пополнены фундаментальной
продукцией, ?то зна?ительно расширит возможности науки и образования.
База данных

'Хронологи?еский морфемно-словообразовательный словарь русского языка':

принципы устройства и его основные квантитативные параметры
В. В. Богданов
Московский государственный университет им. М. В. Ломоносова

хронологи?еский словарь, морфемно-словообразовательный словарь,
квантитативные параметры
Summary. DB containing information on chronological, categorial, morphemic,
wordformational and some other structural features of Russian words is
characterized. Principles of its compiling and some quantitative macro-
features of it are present.


База данных 'Хронологи?еский морфемно-словообразовательный словарь
русского языка' (далее - ХМСС) разрабатывается в те?ении ряда лет в
Лаборатории общей и компьютерной лексикологии и лексикографии
филологи?еского факультета МГУ им. М. В. Ломоносова под руководством А. А.
Поликарпова.
Словарь хранится в виде компьютерной базы данных (БД), ?то подразумевает
систематизированную организацию данных, высокую степень квантитативности ее
состава, возможность полной автоматизации поиска в ее составе необходимой
информации и ее анализа в самых разли?ных аспектах.
С у?астием автора настоящей работы разрабатывалась внутренняя структура БД
на основе СУБД Microsoft Access, осуществлялась ее верификация, проводился
ряд аналити?еских операций, ведущих к выявлению внутренних закономерностей
в морфемной структуре русских слов. Автором создан набор программ,
существенно облег?ающих анализ и полу?ение от?етов о результатах анализа
ХМСС.
В словаре представлена информация о возрастах слов, словообразовательных
гнезд, морфем, их продуктивности, принадлежности к тем или иным
аффиксальным, префиксальым и постфиксальным моделям, со?етаемости друг с
другом, позиции в слове и пр. Нали?ие в БД помимо хронологи?еской
информации еще информации о ?астере?ной принадлежности слова, их буквенной
и морфемной длине, а также объеме и глубине словообразовательных гнезд
позволяет вести многоаспектный анализ закономерностей организации морфемной
и словообразовательгной систем русского языка.
Зада?ей данного доклада является представить в систематизированном виде
морфемные структуры корневых и аффиксальных производных слов русского языка
и проанализировать их по ряду параметров. Результатами анализа стали
выявленные закономерности в распределении аффиксальных морфов по позициям в
слове, во внутренних взаимосвязях в структуре аффиксальных моделей.
Отдельными объектами исследования стали зависимости между возрастными
характеристиками слов и морфем и их разли?ными другими характеристиками -
длиной морфемных структур, типом морфемных структур, и т. п. Особое
внимание в нашем исследовании уделено аффиксальным моделям (в терминологии
А. И. Кузнецовой аффиксальным окружениям, моделям слов), т. е. аффиксальным
последовательностям, остающимся после извле?ения из слова корня. Это
обусловлено тем, ?то современые технологии обработки информации позволяют
наконец-то собрать ис?ерпывающие данные об этих структурах и
систематизировать их. Так, мы смогли разделить и отдельно исследовать
префиксальные и суффиксальные модели, подс?итать их продуктивность и
сопря?ь эти характеристики с рядом других, приписываемым анализируемым
словам из других словарей (толковых, этимологи?еских и др.) - ?астере?ные,
возрастные и иные.
Ниже приводятся некоторые основные квантитативные параметры
'Хронологи?еского морфемно-словообразовательного словаря русского языка'
(под общей редакцией А. А. Поликарпова)
|Общий словник |Ок. |
|Коли?ество корневых и аффиксальных слов |180000,0|
|Коли?ество уникальных конкретных корней (вариантов |00 |
|обобщенных корней, встре?ающихся в корневых и |50646,00|
|аффиксальных производных словах |0 |
|Среднее ?исло вариантов у обобщенных корней | |
|Число гнезд, состоящих из одного слова |3524,000|
|Максимальный объем словообразовательных гнезд, | |
|вклю?ающих корневые и аффиксальные производные |1,811 |
|слова |494,000 |
|Средний объем словообразовательных гнезд, | |
|вклю?ающих корневые и аффиксальные производные |434,000 |
|слова | |
|Коли?ество слов, состоящих из одного корня |14,600 |
|Максимальная длина корневых и аффиксальных |1589,000|
|производных слов в буквах | |
|Средняя длина корневых и аффиксальных слов (в |21,000 |
|буквах) |9,100 |
|Максимальная длина аффиксальных производных слов (в|10,000 |
|морфемах) |3,949 |
|Средняя длина корневых и аффиксальных производных |2,890 |
|слов (в морфемах) | |
|Средняя длина морфемы в корневых и аффиксальных |5609,000|
|словах (в буквах) | |
|Число корневых и аффиксальных производных слов, | |
|относящихся к древнерусскому периоду |3863,000|
|Число корневых и аффиксальных производных слов, | |
|относящихся к общеславянскому периоду | |
|Число корневых и аффиксальных производных слов, |163,000 |
|относящихся к индоевропейскому и более древним |11212,00|
|периодам |0 |
|Коли?ество аффиксальных корней |643,000 |
|Максимальная продуктивность аффиксальной модели |18,000 |
|Максимальная буквенная длина аффиксальной модели |9,000 |
|Максимальная длина модели в ?исле аффиксов | |
|Максимальное ?исло ?астей ре?и, в образовании слов |9,000 |
|которых может у?аствовать аффиксальная модель |440,000 |
|Коли?ество префиксальных моделей |498,000 |
|Максимальная продуктивность префиксальной модели |9,000 |
|Максимальная буквенная длина префиксальной модели |3,000 |
|Максимальная длина модели в ?исле префиксов | |
|Максимальное ?исло ?астей ре?и, в образовании слов |11,000 |
|которых может у?аствовать префиксальная модель |4118,000|
|Коли?ество постфиксальных моделей | |
|Максимальная продуктивность постфиксальной модели |616,000 |
|Максимальная буквенная длина постфиксальной модели |15,000 |
|Максимальная длина модели в ?исле постфиксов |7,000 |
|Максимальное ?исло ?астей ре?и, в образовании слов | |
|которых может у?аствовать постфиксальная модель |10,000 |


Прикладные описания русского языка и их место в русистике
Е. Г. Борисова
Государственный институт русского языка им. А. С. Пушкина

Прикладная лингвистика, компьютерные модели, русский как иностранный, язык
рекламы.
Summary. This paper is concerned with the problems of the representation of
the Russian grammar as applied to natural language processing, to second
language teaching, to copywriting and to the translation. I utter that
there exist different and non compatible grammars which can enrich the
linguistic theory by new approaches (as entity-based linguistics) and
notions (lexical functions, the Hearer's grammar etc.). Supported by RSS of
the Open Society Support Foundation, gr. No 458 / 2000.


На?иная с попыток автомати?еской обработки текста была осознана
необходимость описания языка, которое, отве?ая сугубо практи?еским зада?ам,
могло зна?ительно отли?аться от любых других грамматик. Это привело к
осознанию существования прикладной лингвистики как отдельной школы, и в
русском языке этот термин закрепился именно за компьютерным направлением (в
отли?ие от англо- и франкоязы?ной традиции, где под этим понимают
практи?еское описание языка для его изу?ения как неродного).
Существовавшие до этого описания русского языка были предназна?ены для
практи?еских потребностей обу?ения школьников в основном представлялись
редуцированной 'обы?ной' грамматикой. Требования описания языка с целью
последующей компьютерной обработки - в первую о?ередь, это полнота описания
и его непротиворе?ивость - настолько отли?ались от традиционных, ?то
породили принципиально новые описания, а с ними и результаты (хотя связь с
существовавшими 'традиционными' школами и имелась), в том ?исле создание
достато?но полного описания русского словоизменения, вклю?ая акцентуацию
('Граммати?еский словарь' А. А. Зализняка и ориентированные на него
правила), списка поверхностно-синтакси?еских отношений, детализированные
толкования синонимов и многое другое. Выработаны (в основном в рамках школы
'Модель Смысл ' Текст') лексико-семанти?еский подход Ю. Д. Апресяна,
cемантико-синтакси?еский подход Е. В. Паду?евой, а также сущностный подход
З. М. Шаляпиной и др.
Однако и 'европейское' понимание термина 'прикладная лингвистика' тоже
находит соответствие в русском языке: созданные за последние сорок-
пятьдесят лет описания русского языка как неродного можно представить
отдельным направлением. Факти?ески уже имеются достато?но полные описания
фонетики, морфологии, синтаксиса и лексики русского языка, вклю?ающие
моменты, не имеющиеся в других грамматиках. Это относится к правилам
употребления ?исла существительных, кратких и полных прилагательных,
глагола-связки быть в настоящем времени. Но в первую о?ередь следует
признать вклад в описание русского глагольного вида. Здесь помимо общих
зна?ений видовых граммем и ?астновидовых зна?ений фигурируют еще и условия
употребления в типи?ных контекстах для слу?аев конкуренции видов.
Принципиально новое в подходе к описанию языка связано с введением в модель
ре?епорождения прагмати?еских моментов, отражаю-
___________________________________
[?] Работа выполняется при поддержке RSS (Gr. No 458 / 2000).
щих особенности поведения у?астников общения. Помимо таких аспектов, как
правила построения диалогов, законы ре?евого этикета, прагмати?еским
являются и условия выбора близких по смыслу слов и граммем - говорящий
взвешивает варианты с то?ки зрения наибольшей легкости и однозна?ности
понимания. Этот момент позволяет ввести в описание языка правила,
касающиеся неопределенных слу?аев выбора единиц.

В целом педагоги?еское описание ярко высве?ивает функциональную
эквивалентность или близость единиц разли?ных уровней и в целом больше, ?ем
где бы то ни было, раскрываются именно вопросы употребления языка для
выражения своего замысла. Отметим, ?то идеи сущностного подхода - единство
описания лекси?еских и граммати?еских свойств - находит отражение и в этом
слу?ае.
Другие прикладные описания языка еще не полу?или закон?енного выражения,
однако и там имеются интересные наблюдения, обогащающие русистику в целом.
Например, перевод?еская практика, заставившая обратиться к
сопоставительному описанию русского и других языков, дала интересные
результаты как в области грамматики, так и лексикологии русского языка. В
первую о?ередь хотелось бы отметить описание дискурсивных слов, специфика
которых высве?ивается именно при переводе. Еще более важным результатом
можно с?итать описание особенностей русской языковой картины мира, которая
в некоторых своих аспектах (картирование, метафора в идиоме) проявляется
именно в контрасте с другими языками.
Имеется немало результатов, полу?енных в первую о?ередь в рамках
прикладных направлений, однако изу?ение этого объекта шло сразу в
нескольких школах. Так, современный подход к несвободной со?етаемости,
зародившийся в традиционной русистике (фразеологи?еские со?етания
В. В. Виноградова), развивался преподавателями русского как иностранного,
затем в рамках компьютерной лингвистики (понятие лекси?еской функции).
Наконец, уже можно отметить и бурно развивающееся сегодня прикладное
направление перлокутивная лингвистика, рассматривающее язык с то?ки зрения
его воздействия (преимущественно в рекламе, пропаганде, в массовых
коммуникациях). По большей ?асти пока исследователи ограни?иваются
накоплением материала, осмыслением находок практиков - журналистов,
копирайтеров, пиаристов. Однако уже сей?ас зада?и воздействия вызвали
особое внимание к разли?ным аспектам прагматики (куда сей?ас естественно
входит и теория стилисти?еской дифференциации), и к языковой картине мира,
к ассоциативному и коннотативному компонентам зна?ения слова. В ?астности,
полу?ены довольно интересные материалы по изменению денотативного и
коннотативного компонентов 'гибкой' лексики (имеющей неоднозна?ную связь с
денотатом), по социолингвисти?ескому распределению лексики и граммати?еских
форм. Новый тол?ок полу?ила фоносемантика.
Мы не рассматривали такое вполне традиционное прикладное направление, как
школьная грамматика. Оно слабо осознается как прикладное. Однако и тут
результаты несомненны. В ?астности, дерево зависимостей, столь
распространенное в компьютерном синтаксисе берет свое на?ало, как показал
В. М. Алпатов, именно в школьных у?ебниках, откуда оно было позаимствовано
Л. Теньером.
Плодотворность прикладных исследований может объясняться тем, ?то за
каждым направлением стоит та или иная модель ре?евой деятельности,
адекватность которой проверяется практикой.
Итак, полу?ается, ?то прикладной подход к русскому языку позволил полу?ить
о?ень нетривиальные результаты, которые используются в обобщенных
теорети?еских описаниях (академи?еских грамматиках), а также в практи?еских
описаниях, создаваемых в других прикладных направлениях. Этот факт
заставляет со вниманием относиться ко всем практи?ески ориентированным
направлениям. И хотя полной интеграции результатов всех направлений в одном
непротиворе?ивом описании полу?ить не удастся, в целом перспективы
взаимообогащения несомненны.
Литература
Алпатов В. М. История лингвисти?еских у?ений. М.: ЯРК, 2000.
Борисова Е. Г. Что такое коллокации и как их изу?ать. М.: Филология, 1996.
Шаляпина З. М. Оппозиция '?асть-целое' и сущностный подход к моделированию
языковой компетенции // Роман Якобсон: Тексты, документы, исследования.
М.: Изд-во РГГУ, 1999. С. 541-551.
Стиль как дополнительный параметр поиска информации в Internet
П. И. Браславский
Уральский государственный техни?еский университет
информационный поиск, Internet, прикладная стилистика
Summary. The problems of information overload have become more pressing
with the increasing popularity of Internet.

An additional parameter, associated with document style, allows to improve
Internet keyword searching.


В последнее время наблюдается бурный рост глобальной сети Internet.
Поэтому сегодня особую актуальность приобретают исследования, направленные
на повышение эффективности поиска информации в Internet. Использование
параметра, связанного со стилем документа, может существенно усилить поиск
по клю?евым словам [5].
Нашей целью была разработка процедуры автомати?еской классификации
русскоязы?ных текстовых документов по стилям [1], а также выработка
рекомендаций по практи?ескому использованию результатов.
За основу мы взяли функционально-стилевую концепцию [4], а в ка?естве
метода построения классификации - дискриминантный анализ [3]. Была
сформирована обу?ающая выборка (массив объемом 305 документов) и перви?ный
набор параметров классификации; разработана методика автомати?еского
вы?исления параметров [2].
На основе обу?ающей выборки были полу?ены дискриминантные функции с
хорошим ка?еством классификации [2]; проведена их оптимизация. С помощью
процедур канони?еского дискриминантного анализа выявлена геометри?еская
структура стилей в пространстве параметров.
Анализ полу?енных данных позволяет ввести коли?ественный показатель
стилисти?еской информативности документа, который является линейной
комбинацией параметров классификации.
Предложено два варианта практи?еской реализации разработанных процедур в
информационном поиске: целенаправленный поиск нау?ных документов, а также
ранжирование найденных документов на основе показателя стилисти?еской
информативности.
В ходе работы полу?ены результаты, которые могут представлять
самостоятельный интерес для теорети?еской стилистики.
Литература
1. Браславский П. И. Распознавание стилей ре?и применительно к
информационному поиску: постановка зада?и // Математи?еские структуры и
моделирование: Сб. нау?н. тр. Вып. 3 / Под ред. А. К. Гуца. Омск: Омск.
гос. ун-т, 1999. С. 134-140.
2. Браславский П. И. Автомати?еская классификация документов Internet по
стилям: реализация макета: Доклад V рабо?его совещания по электронным
публикациям. EL-PUB-2000, Новосибирск, Академгородок, ИВТ СО РАН, 21-23
июня 2000 г.
3. Клекка У. Р. Дискриминантный анализ // Факторный, дискриминантный и
кластерный анализ / Пер. с англ. М.: Финансы и статистика, 1989. С. 78-
138.
4. Кожина М. Н. К основаниям функциональной стилистики. Пермь: Б. и., 1968.
251 с.
5. Karlgren J., Cutting D. Recognizing Text Genres with Simple Metrics
Using Discriminant Analysis // Proc. 15th Int. Conf. on Computational
Linguistics (COLING). Kyoto, 1994. Vol. 2. P. 1071-1075.
Система компьютерного тестирования по русскому языку
Е. П. Буторина
Российский государственный гуманитарный университет

компьютер, обу?ение, тестирование, русский язык, орфография, пунктуация,
стилистика, риторика
Summary. The structure elements of testing system for Russian language are
described.


В рамках федеральной программы 'Русский язык' нами предложена система
тестов. Разработка автоматизированных тестов является первым этапом работ
по подготовке у?ебных и методи?еских материалов для компьютеризации
обу?ения русскому языку, которые, в ?астности, могут быть использованы при
дистанционном обу?ении. Особенностью предлагаемой системы является нали?ие
тестовых заданий не только по орфографии и пунктуации, традиционно
вклю?аемых в системы проверки практи?еской грамотности, но также заданий по
стилистике, логике и риторике.
В каждом тесте предусмотрена возможность введения новых заданий и ответов
к ним, возможность корректировки заданий, таким образом, тесты являются
открытой системой, которую может адаптировать к особенностям конкретного
у?ебного процесса каждый у?итель. Тесты прошли апробацию в лицейских
классах РГГУ.
Лингвисти?еское обеспе?ение.
Разработано несколько вариантов тестов:
- тесты, проверяющие знание правил (фактов);
- тесты для проверки практи?еских навыков и умений;
- задания, проверяющие умения работать со связным текстом.
Тесты, проверяющие знание правил, состоят из утверждений, с которыми можно
согласиться или нет. Это позволит быстро проверить знание основных правил и
запомнить их формулировки, разобраться в соотношении кванторных слов. Одной
из проблем при обу?ении русскому языку является недостато?но строгая
формулировка правил. В дальнейшем может быть подклю?ена справо?ная база
данных, работа с которой позволит разобраться в предлагаемых утверждениях
более подробно.
Тесты, проверяющие практи?еские навыки и умения, представлены несколькими
вариантами, каждый из которых состоит из 15 заданий. Для каждого задания на
выбор предлагается 5 вариантов ответа. В ка?естве правильного выбирается
один.
Программное обеспе?ение (выполнено студентом 5 курса Института лингвистики
П. А. Карповым).
Для работы программы необходим компьютер типа IBM PC / 486 и выше.
Операционная система - Microsoft Windows'95, 98, 2000, NT. Программа
разработана в среде Borland Delphi 2.0 с использованием стандартных модулей
и библиотек Delphi и представляет собой опытную разработку. В комплект
поставки входят файлы собственно программы, файлы заданий и настройки.
Во время тестирования программа реагирует на каждый ответ у?ащегося
(поощрительные и другие реплики), ?то позволяет оживить диалог ?еловека и
машины и избежать быстрого утомления у?еника. По окон?ании теста сообщается
результат, оценка и пожелания на будущее. Предусмотрены также досро?ное
прерывание теста и временный выход из программы.
Важной отли?ительной ?ертой программы является предоставляемая
преподавателю русского языка возможность создавать и редактировать свои
собственные файлы заданий, а затем определять их для отображения программой
собственно теста. Для этой цели служит специальная программа редактирования
заданий. Она позволяет ввести текст задания (длина текста задания
ограни?ена примерно 350 символами; более длинный текст, по мнению
специалистов, труден для восприятия) и 2-6 вариантов ответа на поставленный
вопрос. Программа редактирования снабжена подробной инструкцией по
применению, выполненной в виде стандартного файла справки Windows.
К построению авторского инварианта
О. Бутузова, Е. А. Ильюшина, М. Петрова, А. В. Прохоров, Ю. Сироткина
Московский государственный университет им. М. В. Ломоносова

атрибуция текстов, авторский инвариант, компьютерный статисти?еский анализ
Summary. The author's invariant features are considered while treating
books by A. Pushkin, L. Tolstoy and F. Dostoevsky. By means of a
nonparametric criterion, a significant variation of the invariant for
different authors and its stability within the texts of a particular author
are established.


В настоящее время проблема авторизации и атрибуции текстов вышла из
теорети?еской тени и стала эффективным инструментом 'лингвисти?еской
криминологии' (экспертизы). Поэтому нахождение достоверных и устой?ивых
объективных характеристик авторского стиля является актуальной зада?ей.
Подобная характеристика (?астота употребления всех служебных слов) была
предложена В. П. и Т. Г. Фоменко еще в 80-е годы и названа ими авторским
инвариантом. Предполагалось, ?то зна?ение инварианта, с одной стороны,
устой?иво к изменению стиля внутри произведений одного и того же автора и,
с другой, ?увствительно к авторскому стилю как таковому.
Целью настоящего исследования было изу?ение свойств этой характеристики
для больших массивов текстов писателей, имена которых суть обозна?ение их
стиля. Обработка более ?ем 220000 лингвисти?еских единиц текстов
А. С. Пушкина, Л. Н. Толстого и Ф. М. Достоевского с целью выделения
служебных слов производилась с помощью программы DiaLex 30, созданной в
Институте русского языка РАН в отделе экспериментальной лексикографии
И. А. Исаевым. Статисти?еский анализ данных проводился с использованием
интегрированного статисти?еского пакета STADIA.
Было установлено, ?то тексты разли?ных авторов зна?имо разли?аются по
вели?ине авторского инварианта (по критерию Краскелла-Уоллиса). Однако
?астоты встре?аемости отдельных классов лингвисти?еских единиц, образующих
инвариант, не обладают этим свойством, в особенности это относится к
предлогам, процент которых стабилен для всех исследованных текстов. Таким
образом, даже в предположении о некоррелированности лингвисти?еских единиц,
входящих в авторский инвариант, открывается возможность построения
характеристики, более достоверно разли?ающей авторские стили. Изменение
границ доверительных интервалов авторского инварианта внутри текстов одного
и того же автора позволяет сделать некоторые выводы о процессе создания
произведения, подтверждающиеся дневниковыми высказываниями писателя
(Ф. М. Достоевский, 'Бесы').
Компьютерный корпус текстов русских газет конца XX века:

создание, категоризация, автоматизированный анализ языковых особенностей
В. Б. Виноградова, О. В. Кукушкина, А. А. Поликарпов, С. О. Сав?ук
Московский государственный университет им. М. В. Ломоносова

компьютерный корпус текстов, язык газеты, автоматизация лингвисти?еских
исследований, современный русский язык
Summary. 'Computer Corpus of Russian Newspapers of the XX Century End'
project is present in its main macroparameters and gained analytical
results at the first stage of the Project.


1. В пределах настоящего проекта реализована серия зада? построения и
анализа газетного материала в интересах полу?ения объективной картины
состояния современного русского газетного языка (а от?асти и картины
состояния всего языка в целом, если иметь в виду то, ?то в наборе газетных
жанров присутствуют многие жанры остальных родов словесности). Для этого
был осуществлен подбор газетного материала для корпуса на основе принципов
вклю?ения в него полных номеров газет за определенный промежуток времени,
представленности в нем ежедневных и неежедневных (МН, Новая газета, АиФ),
'левых' (Завтра, Правда, Правда-5) и 'правых', центральных и местных, общих
и профессионально ориентированных (Литературная газета) газет. Эти
принципы, видимо, позволяют полу?ить относительно объективную и надежную
картину соотношения в газетном материале текстов разли?ного типа, их единиц
и отношений между ними.
Надежность результатов обеспе?ивается также достато?но большим объемом
берущегося для анализа текстового материала. Полный объем корпуса ('общий
корпус') - более 10 млн. словоупотреблений, объем выделяемого из него
'ядерного корпуса' - около 1,3 млн. словоупотреблений. Общее ?исло разных
газет в ядерном корпусе - 12. Общее ?исло текстов - 3097. Временной
промежуток - 1997 год.
2. Выделение ядерного корпуса из общего корпуса и проведение с ним более
развитой серии аналити?еских процедур объясняется плановой
последовательностью поэтапной обработки всего текстового материала. На
данном этапе проекта наиболее полно анализируется ядерный корпус. Анализ
общего корпуса по более полному набору аспектов наме?ен на последующие
этапы работы с ним.
3. Корпус управляется СУБД, построенной на основе системы Диктум-1
(разработанной в Лаборатории общей и компьютерной лексикологии и
лексикографии МГУ). С помощью этой системы тексты и единицы корпуса
автомати?ески и полуавтомати?ески маркируются разли?ного рода маркерами:
тексты (и, соответственно, каждое их словоупотребление) - маркерами газеты-
исто?ника, объема текста, его жанра, даты публикации и т. п.;
словоупотребления - маркерами граммати?еских и лекси?еских, а также
морфемных категорий и т. п.
4. Разработка и реализация на материале корпуса принципов жанровой
классификации газетных текстов (вклю?ая типизацию жанров, а также
определение характеристи?еских признаков разли?ных типовых жанров)
позволила выявить профиль распределения объемов текстов разного жанрового и
исто?никового состава в ядерном корпусе. Общее ?исло разных жанров и
жанровых вариантов, встретившихся в ядерном корпусе - 398. Общее ?исло
выделенных типовых жанров - 8. Они следующие:
- собственно информационные жанры;
- собственно публицисти?еские;
- информационно-публицисти?еские;
- художественно-публицисти?еские;
- собственно художественные;
- рекламные;
- официально-деловые;
- остальные.
5. Проведенная автомати?еская лемматизация и морфологи?еская квалификация
словоупотреблений ядерного корпуса (с последующими контролирующими
процедурами) позволила автомати?ески полу?ить для него алфавитно-?астотные
и ?астотно-распределительные словари словоформ и лемм для 12 газет и 8
жанровых типов. В его текстах обнаружено более 50 тыс. разных лексем,
представленных ок. 120 тыс. разли?ных словоформ. Отдельно фиксировались
цифровые, буквенно-цифровые обозна?ения и последовательности
некирилли?еских букв.
6. Автомати?еская морфемная категоризация (сегментация) лексем общего
газетного корпуса позволила автомати?ески полу?ить ?астотный словарь
продуктивности корней, встретившихся на лекси?еском материале общего
корпуса (больше 10 млн словоупотреблений). На данном материале было
обнаружено 7001 разных корней (алломорфов), встретившихся в двух и более
словах (с максимальной продуктивностью 312 слов), и 2016 корней,
встретившихся в одном слове. Подавляющее ?исло этих малопродуктивных корней
встре?ается в иностранных именах и географи?еских наименованиях.
7. Подбор в корпус наряду с ежедневными и неежедневных, наряду с
центральными и нецентральных, наряду с правыми и центристскими еще и левых
газет обеспе?ивает возможность анализа в дальнейшем не только общих для
всего газетного языка характеристик, но и жанровой, лексико-
фразеологи?еской, граммати?еской и иной специфики материала таким образом
противопоставленных друг другу газет.
8. Настоящий проект реализуется силами сотрудников Лаборатории общей и
компьютерной лексикологии и лексикографии филологи?еского факультета МГУ
под руководством А. А. Поликарпова (e-mail Лаборатории:
polikarp@philol.msu.ru) по гранту РФФИ. Результаты анализа корпуса
готовятся для более полной представленности в Интернете на сайте 'Язык
Человека' (www.humlang.newmail.ru).
Проблемы формализации русского языка
И. Е. Воронина
Воронежский государственный университет

формализация, естественный язык, компьютерная лингвистика, программные
средства
Summary. The problem of step-by-step formalization of Natural Language
(Russian) is considered. Research results obtained in Computer Linguistics
Resource Center of Voronezh State University are presented.


Одним из способов уменьшения семанти?еского барьера между ?еловеком и
компьютером заклю?ается в поиске новых методов обработки естественного
языка. Однако, несмотря на зна?ительные успехи в данной области, в
настоящее время можно говорить лишь об экспериментальных системах общения
на естественном языке, отли?ающихся жесткими требованиями к синтаксису
естественного языка, реализацией его ограни?енного подмножества,
требованием больших затрат ресурсов, необходимых для работы.
___________________________________
[?] Исследование выполнено при поддержке РФФИ, грант ? 00-07-90007.
Сегодня уже о?евидно, ?то для реализации общения с ЭВМ на естественном
языке, создания лингвисти?еского обеспе?ения информационных процессов
необходимо изу?ать сам язык. При этом уменьшение затра?иваемых ресурсов
может происходить за с?ет формализации языковых правил, обеспе?ивающих
хранение информации в процедурном, а не декларативном виде. Поскольку в
явном виде такие правила отсутствуют, ставятся две взаимосвязанные зада?и:
выявления правил и их программного подтверждения.
Все языковые уровни характеризуются нали?ием базовых элементов. Изу?ение
языка может идти с двух позиций - анализа и синтеза, ибо выявленные правила
синтеза могут способствовать проведению анализа и наоборот. Для
исследования и максимальной формализации каждой языковой подсистемы
необходимо создавать программный инструментарий, реализующий процесс
изу?ения путем выявления и проверки правил анализа и синтеза, тем самым
максимально автоматизируя исследовательский процесс, освобождая при этом
исследователя как от рутинного процесса накопления и сбора информации, так
и снимая вопрос трудоемкости ее обработки. Фиксация правил анализа и
синтеза приведет к созданию анализаторов и синтезаторов каждого уровня
иерархии.
В Нау?но-методи?еском центре по компьютерной лингвистике при факультете
романо-германской филологии ВГУ была разработана схема всей технологи?еской
цепо?ки по созданию лингвисти?еского обеспе?ения информационных процессов.
В рамках реализации каждого звена данной цепи проводится ряд нау?но-
исследовательских работ с разработкой программного инструментария.
В ходе выполнения работ по созданию автомати?еского анализатора текста на
естественном (в данном слу?ае - русском) языке проводятся исследования в
области формирования прозаи?еского текста. Разрабатываются алгоритмы
процессов формирования русского текста. Сформированные модели, алгоритмы,
методы использованы в программе анализа естественно-языковых текстов,
которая протестирована на примере стихотворного и прозаи?еского текстов.
Проводятся исследования по разработке алгоритма лемматизации полных
прилагательных, порядковых ?ислительных, местоименных прилагательных и
при?астий, полу?ения программного подтверждения этого алгоритма.
Выявлены и сформулированы правила морфонологи?еской транскрипции, а также
разработана последовательность применения этих правил. Правила использованы
для выделения аффиксальных окружений слов в орфографи?еской и
морфонологи?еской формах. Из-за сложностей в окон?ательной формализации
алгоритма ?ленения возникла необходимость в программной реализации двух
разли?ных алгоритмов составления списка аффиксальных окружений. В
результате сравнения эффективности работы этих алгоритмов, выявления их
недостатков и достоинств удалось скорректировать и реализовать алгоритм
морфемного ?ленения слов по образцу аффиксальных окружений.
Базовым материалом для тестирования алгоритма послужил 'Морфемно-
морфонологи?еский словарь языка А. С. Пушкина', который на момент написания
программы находился в процессе редактирования. В результате работы
программы в словаре выявлены и исправлены морфемные ?ленения некоторых
слов, ?то оказало существенную помощь при подготовке словаря к изданию.
На основе словаря А. С. Пушкина, содержащего около 23 тыс. слов, а также
некоторых статей 'Большого русского морфемного словаря' составлена таблица
аффиксальных окружений и таблица омонимов. Полнота заполнения этих таблиц
обеспе?ит наиболее корректную работу алгоритма.
Ведутся работы по созданию морфологи?еского анализатора, который по
заданной словоформе определяет лемму, основу слова и граммати?еские
характеристики; существует возможность лемматизации и анализа новых, еще
несуществующих слов.
Разработан программный инструментарий для проведения исследований в
области синтеза русского слова, выявления правил построения русского слова,
а также универсальный диагности?еский аппарат для оценки эффективности
процесса поэтапной формализации.
Выявлено около пятисот правил построения парадигм глаголов,
существительных, прилагательных, местоимений и порядковых ?ислительных.
Выполняется работа по автоматизации семанти?еской классификации глагольных
словоупотреблений в русском языке. Создан набор инструментальных средств
снятия неоднозна?ности со следующими возможностями: выявление слу?аев
употребления исследуемого глагола в тексте; создание новых дистрибутивных
формул на основе полу?енного материала; проведение автоматизированной
семанти?еской классификации словоупотреблений глагола с использованием
имеющихся формул; выявление примеров, не укладывающихся в рамки имеющихся
формул. Применяется методика выявления правил семанти?еской классификации
на базе дистрибутивных формул, то есть условного представления
синтакси?еской со?етаемости элементов.
Исследования проводятся Нау?но-исследовательским центром по компьютерной
лингвистике при факультете романо-германской филологии в сотрудни?естве с
кафедрой математи?еского обеспе?ения ЭВМ факультета прикладной математики и
механики ВГУ.
Нау?но-информационное обеспе?ение русской лингвографии
К. Р. Галиуллин
Казанский государственный университет

лингвография, языковые справо?ники, информационное обеспе?ение
Summary. The mission of the Computer Lingougraphy Fund of the Russian
Language (Kazan State University) is information support of linguography
(the theory and practice of compiling language references). The Fund
includes four main subfunds at present: lexicographical (60000 units),
phraseographical (18000 units), paremiographical (40000 units),
morphemographical (2000 units). Each of the subfunds consists of two
information modules: 'Composite Index, Glossary' (compilation of described
units); 'Sources' (data about macro- and microstructure of a language
references, its users, realized linguographical parameters, etc).


Основная цель создаваемого в Казанском университете в рамках Федеральной
целевой программы 'Русский язык' компьютерного лингвографи?еского фонда
русского языка (КЛФ) - совершенствование информационной поддержки русской
лингвографии (теории и практики создания языковых справо?ников) [1].
В рамках КЛФ формируются лексикографи?еский, морфемографи?еский,
фразеографи?еский и паремиографи?еский подфонды, аккумулирующие данные
соответствующих лингвографи?еских исто?ников.
Компьютерный фонд, разрабатываемый с целью обеспе?ения информационной
поддержки лингвографии, может строиться не только как совокупность
словарных текстов, перенесенных на машинные носители (то есть совокупность
компьютерных копий традиционных словарей), но и как комплексная
информационная система, особым образом организующая и структурирующая
словарные данные, обеспе?ивающая возможность манипуляции компонентами этих
данных, их отбора, сравнения и компонования в соответствии с поставленными
зада?ами.
Каждый подфонд состоит из двух информационных модулей - составных ?астей
системы, обладающих определенной самостоятельной ценностью: 'Сводный индекс
(словник)', 'Исто?ники'.
В рамках модуля 'Сводный индекс (словник)' объединяются и описываются
материалы словников языковых справо?ников-исто?ников КЛФ. Индекс единиц
сводного словника, помимо сведений о том, в каком словаре они встре?аются,
содержит следующую информацию: а) статус слова в конкретном словаре
(самостоятельное заголово?ное, компонент заголово?ного словарного блока,
заголово?ное в отсыло?ной словарной статье, внутристатейное); б) адрес
слова (для внутристатейных слов); в) для ?асти материалов указывается тип
отношений, в которые вступает внутристатейное слово с заголово?ным (это
могут быть отношения антонимии, паронимии, синонимии, отношения
темати?еской близости, деривационные отношения и др.).
В модулях 'Сводный индекс (словник)' подфондов КЛФ в настоящее время
представлены:
(1) лексикографи?еский подфонд - около 60000 единиц;
Словники общих словарей описаны в 'Сводном словаре современной русской
лексики' (1991; более 170000 слов). В рамках КЛФ в настоящее время основное
внимание уделяется материалам словарей, вышедших в последние годы; см.
сводные индексы у?ебных словарей, словарей новых слов, истори?еских и
этимологи?еских словарей русского языка и др.
(2) фразеографи?еский подфонд - около 18000 единиц;
(3) паремиографи?еский подфонд - более 40000 единиц;
(4) морфемографи?еский подфонд - около 2000 единиц.
Сводное описание материалов разных исто?ников позволяет производить
сравнительный анализ, в результате которого выявляются разли?ные
недостатки: пропуски описываемых единиц и характеристик, ошибки в их пода?е
и описании и др.
Из модуля 'Исто?ники' пользователь может полу?ить разнообразную информацию
о макро- и микроструктуре словаря, его адресатах, объеме словника,
реализованных лингвографи?еских параметрах и т. п. Основная зада?а
компонента, описывающего параметры - снабдить пользователя сведениями о той
информации, которая содержится в словарях, показать ее объем, характер и
способы пода?и.
Материалы КЛФ используются при реализации других компьютерных (в том ?исле
и сетевых) проектов, разработка которых ведется в Казанском университете:
комплексный словарь русского языка, словарь тюркских лекси?еских элементов,
словарь русских памятников Казанского края, словарей Г. Державина,
Е. Боратынского, компьютерных текстотек разли?ного типа, компьютерных дву-
и многоязы?ных словарей. Кроме того, материалы КЛФ используются в у?ебном
процессе - в общих и специальных курсах, в нау?но-исследовательской работе
студентов, в преподавании языка [2].
Использование материалов сводных (обобщающих, инвентаризующих)
компьютерных фондов позволяет зна?ительно расширить круг привлекаемых
квантитативных характеристик описываемого явления, тем самым способствуя
более глубокому его осмыслению, познанию его сущностных характеристик [3].
Важное условие успешной и эффективной эксплуатации КЛФ (как и любого
другого информационного фонда) - оперативное пополнение новыми данными,
поддержание в актуализированном состоянии.
В Казанском университете в рамках Федеральной целевой программы 'Русский
язык' формируется компьютерный лингвографи?еский фонд русского языка.
Зада?а фонда - информационная поддержка лингвографии (теории и практики
создания языковых справо?ников). В настоящее время фонд вклю?ает ?етыре
основных подфонда - лексикографи?еский (около 60000 единиц);
фразеографи?еский (около 18000 единиц); паремиографи?еский (более 40000
единиц); морфемографи?еский (около 2000 единиц), каждый из которых состоит
из двух информационных модулей - 'Сводный индекс (словник)' (свод
описываемых единиц) и 'Исто?ники' (сведения о макро- и микроструктуре
языкового справо?ника, его адресатах, объеме словника, реализованных
лингвографи?еских параметрах и др.).
Литература
1. Компьютерная лингвография / Под ред. Н. К. Замова. К. Р. Галиуллина.
Казань: Изд-во Казан. ун-та, 1995. 119 с.
2. (В соавторстве с Валиахметовой Д., Обносовой Н.) Новые информационные
технологии в русской лингводидактике // II Jornadas Andaluzas de
Eslavistica: Ponencias y Comunicaciones.- Baeza: Universidad de Granada,
1996. C. 90-95.
3. Коли?ественное мышление в языкознании: Идеи И. А. Бодуэна де Куртенэ в
современной лингвоквантитатике // Лингвисти?еское наследие И. А. Бодуэна
де Куртенэ на исходе XX столетия: Тез. докл. междунар. конф. Красноярск,
2000. С.24-25.
Проблемы исследования русскоязы?ных текстов

с целью установления авторства литературного произведения
Е. И. Галяшина
ЭКЦ МВД России

русский язык, индивидуальный стиль, автороведение, прикладная русистика
Summary. The problems of authorship attribution, determination of
plagiarism, false confession and text ambiguity become now very actual for
forensic applications in Russia. In this paper it is discussed how those
problems can be solved by means of lexical-semantic and syntaxes-semantic
analysis of Russian written speech. The author describes her experience in
giving linguistic evidence as a forensic expert.


В современной России нередко права авторов русскоязы?ных произведений
(нау?ных, публицисти?еских, художественных и иных) нарушаются. Литературные
произведения, являющиеся результатом индивидуальной интеллектуальной
(твор?еской) деятельности за?астую без надлежащих ссылок и необходимых
разрешений полностью или ?асти?но копируются, заимствуются, иногда слегка
перерабатываются и переиздаются под другим именем. Помимо плагиата,
множатся публикации публицисти?еских, художественных или нау?ных текстов
под ?ужим или вымышленным именем. Во время разли?ных выборных кампаний
модным стала дискредитация конкурентов путем публикации якобы от их имени
разли?ных листовок провокационного или клеветни?еского содержания.
Встре?аются анонимные письма, содержащие шантаж, вымогательство, угрозы и
оскорбления.
В тех слу?аях, когда есть конкретное лицо, которое могло быть или
претендует на авторство письменного текста, и есть произведения,
достоверность создания которых твор?еским трудом конкретного лица не
вызывает никаких сомнений, проводится сопоставительный анализ с целью
идентификации автора письменного текста. Если предполагаемого автора нет,
?асто необходимо определить так называемый 'индивидуальный ли?ностный
профиль' автора. В этом слу?ае по письменному тексту могут быть определены
степень владения языковыми навыками, данные об образовании, родном языке,
половозрастной принадлежности автора письменного текста. Может быть решена
зада?а разграни?ения автора и исполнителя документа, выявлены ложные
'?истосерде?ные признания', написанные под диктовку или в соавторстве с
иными лицами, определены признаки необы?ного состояния автора (или
исполнителя) письменного текста (наркоти?еское или алкогольное опьянение,
состояние стресса и т. п.).
Актуальной проблемой является семанти?еская интерпретация текстов,
содержащих лексико-граммати?еские средства ограни?енной сферы употребления
(жаргона, арго, сленга), а также документы юриди?еского содержания,
требующие строго однозна?ного понимания употребляемых терминов и ре?евых
оборотов.
В то же время прикладные нау?ные исследования русскоязы?ных текстов не
содержат систематизированных лингвисти?еских знаний, позволяющих однозна?но
решать вопросы спорного авторства, определять степень твор?еского вклада
того или иного автора или новизны, оригинальности произведения литературы
или науки.

В результате многое из теории и практики прикладной русистики, ?то могло бы
оказать содействие в раскрытии криминальных преступлений, в полном объеме
пока не используется.
Надо отметить, ?то в настоящее время еще недостато?но широко используются
компьютерные методы анализа русскоязы?ных письменных и устных текстов при
производстве судебных авторовед?еских экспертиз (при изу?ении письменных
текстов, выполненных анонимно, или когда их авторство спорно), а также
фоноскопи?еских экспертиз в ка?естве составной ?асти комплексных методик
идентификации и диагностики ли?ностных свойств говорящего по фонограммам
ре?и.
Основы прикладного исследования русскоязы?ных текстов при решении вопросов
спорного авторства заложил Н. А. Морозов, который предложил метод
построения 'лингвисти?еских спектров' на основе статисти?еского анализа
использования отдельных отрезков текста как 'средство для отли?ения
плагиата от истинных произведений того или другого известного автора' [1].
Подробный обзор истории оте?ественного автороведения (на материале русского
языка) дан в работе А. Ю. Комиссарова [2].
Возможности установления авторства письменного текста обусловлены
индивидуальностью языковой ли?ности автора произведения как функции
индивидуального стиля твор?еской деятельности.
В оте?ественной литературе имеется несколько подходов к определению
понятий индивидуального стиля и языковой ли?ности. Индивидуальность стиля
автора произведения устанавливается только на основе анализа всей
совокупности языковых средств и использованных форм в контексте данного
произведения русского словесного твор?ества, уникально присущей только
данному автору и не встре?ающаяся в ре?и других людей. Предпосылки
установления индивидуальности стиля произведения словесного твор?ества
заклю?аются в нали?ии специфи?еской совокупности авторских стилисти?еских
приемов, характеризуется нали?ием определенного принципа отбора и
комбинации разли?ных языковых средств и их трансформаций в предложенной
автором концепции и устой?иво должно прослеживаться по всему произведению.
Стилистика произведений индивидуального авторского твор?ества
принципиально отли?ается от использования общепринятых терминов или
дефиниций, так как подразумевает вербальную форму выражения индивидуально
предпо?итаемых автором языковых средств и их граммати?еских и лекси?еских
зна?ений. Нельзя не согласится с тем, ?то изу?ение индивидуальной авторской
стилистики - это 'исследование авторского выбора ре?евых средств, замысла
('идеи') и его исполнения 'воплощения в текст' [3].
Язык произведения как его внешняя форма - это свойственные конкретному
автору, приемы создания художественных образов, то есть совокупность
используемых им изобразительно-выразительных средств. Под языковой
ли?ностью, как известно, понимается комплексный способ описания языковой
способности конкретного индивида, интегрирующий системное представление
языка с функциональным анализом русскоязы?ных письменных текстов. Структура
языковой ли?ности складывается из лексико-граммати?еского, когнитивного и
прагмати?еского уровней, каждый из которых характеризуется специфи?еским
набором единиц письменной ре?и. Совокупность признаков, присущих
индивидуальному авторскому стилю, состоит из уникальной, неповторимой
комбинаторики единиц всех языковых уровней.
К лексико-граммати?ескому уровню относятся единицы, традиционно
используемые при описании лекси?еского и граммати?еского строя языка
(слово, морфема, словоформа, дериват, синоним, словосо?етание, синтаксема,
управление, согласование и т. д.).
При этом выявление набора лексико-граммати?еских признаков, присущих
индивидуальному стилю автора, проводится путем синтакси?еского и
морфологи?еского разбора фраз и слов, с то?ки зрения правильности
построения, контекстной то?ности употребления синтакси?еских конструкций,
выявления комбинаторики предпо?итаемых синтакси?еских конструкций и моделей
со?етаний слов в предложении, исследования особенностей словоизменения,
словообразования. Исследуются особенности употребления стилисти?ески
маркированных конструкций, устой?ивых оборотов и выражений, в соответствия
или несоответствии коммуникативной ситуации. Лексико-семанти?еский анализ
позволяет оценивать индивидуальные навыки словоупотребления и
индивидуальные предпо?тения в выборе инвентаря лексем, семанти?ескую
связанность вербальных элементов письменного текста.
Автором накоплен определенный опыт проведения экспертных исследований,
связанных с решением вопросов судебной лингвисти?еской экспертизы
русскоязы?ных текстов, успешно прошедших испытания в судебных
разбирательствах разли?ных инстанций.
Литература
1. Метод описан в статье: Морозов Н. А. Лингвисти?еские спектры. 1915.
2. Комиссаров А. Ю. Криминалисти?еское исследование письменной ре?и. М.,
2000.
3. Лингвисти?еский энциклопеди?еский словарь. М.: Советская энциклопедия,
1990. С. 493.
Многоаспектная компьютерная база данных

по русским прилагательным EDGE

как инструмент анализа лексико-граммати?еской категории
П. В. Гращенков, И. М. Кобозева
Московский государственный университет им М. В. Ломоносова

база данных, лексико-граммати?еская категория, прилагательное, морфология,
синтаксис, словообразование, семантика,

компьютерный анализ, статистика
Summary. Adjectives as a category of Russian grammar is traditionally
subdivided into three grammatical classes: so-called qualitative, relative
and possessive adjectives. Leaving aside the assessment of this traditional
partition, we concentrate ourselves upon the more subtle and more objective
grammatical subdivision of adjectives into various subclasses based on
their morphological, syntactic and semantic properties. To increase the
objectivity of language data and to widen the scope of linguistic phenomena
taken into consideration we constructed a multiaspect data base EDGE,
containing information about more than 400 Russian adjectives. We intend to
represent an example of 'categorial structure modeling' on the basis of
correlations between linguistic phenomena of different nature, that have
not been observed before.


Лексико-граммати?еская категория прилагательных в русской граммати?еской
традиции делится на три разряда. При этом нередки слу?аи, когда конкретное
прилагательное (например, небольшой), по семанти?ескому критерию
долженствующее попасть в разряд ка?ественных, не удовлетворяет формальным
критериям вклю?ения в этот разряд (в ?астности, не образует степеней
сравнения). Должно ли оно на этом основании быть квалифицировано как
относительное, или же его судьба - повиснуть где-то в 'межразрядном'
пространстве? О?евидно, ?то данная лексико-граммати?еская категория имеет
более тонкую структуру, ?ленясь на какие-то более мелкие классы на базе
разнообразных факторов, в том ?исле и словообразовательного характера.
В настоящее время одним из распространенных способов лингвисти?еского
описания (?аще всего - в семанти?еских исследованиях) является такой, при
котором небольшому коли?еству выбранных самим автором лексем (обы?-

но - не более ?етырех) дается детальная многоаспектная (семанти?еская,
граммати?еская, функциональная

и т. д.) характеристика. С другой стороны, в работах, где затрагиваются
проблемы формальной морфологии, доминирующим является следующий путь
анализа: выделяется инвентарь морфологи?еских единиц и дается семанти?еская
характеристика каждой из них. Такой жанр наиболее характерен для грамматик
конкретных языков. Эти и другие подобные подходы являются, на наш взгляд,
необходимым этапом лингвисти?еских исследований: они наме?ают ядерные
семанти?еские и граммати?еские зоны языка. Но их существенным недостатком
является то, ?то выбор феноменов для сравнения и описания ?асто
осуществляется на ?исто субъективном основании, и при этом слишком много
внимания уделяется достато?но факультативным и / или редким формальным и
семанти?еским единицам языка.
Другой исто?ник несовершенства лингвисти?еских описаний такого рода
состоит в изолированности одних данных от других: автор пере?исляет
некоторые явления (например, дает список аффиксов с определенной семантикой
и функциями), но при этом не указывает ни то, насколько важна их
'абсолютная' и 'относительная' роль в системе языка (например, насколько
продуктивной является данная словообразовательная модель сама по себе и по
сравнению с другими моделями), ни то, как связано данное граммати?еское
явление с другими (как, например, влияет на возможность образования
степеней сравнения деривационная история прилагательного).
Такая произвольность языкового материала и изолированность одних данных от
других препятствуют, на наш взгляд, созданию цельного образа исследуемого
объекта, который особенно необходим при изу?ении столь глобального явления,
как распределение языковых единиц по лексико-граммати?еским классам.
Для преодоления пере?исленных недостатков нами была создана компьютерная
база данных по русским прилагательным 'EDGE', призванная устранить (хотя бы
?асти?но) подобные пробелы в лингвисти?еских исследованиях и отразить
целостную картину категории прилагательного (КП).
В базу заносятся данные, относящиеся к разли?ным планам и уровням языка:
Словообразование:
A. Деривация прилагательного (способ образования, заимствованность)
Б. Отадъективная деривация
Морфологи?еские характеристики:
A. Нали?ие степеней сравнения (компаратив: синтети?еский, аналити?еский,
аттенуативный; суперлатив)
Б. Нали?ие краткой формы
Синтакси?еские свойства:
A. Возможность предикативного употребления
Б. Модель управления
Семанти?еские характеристики:
А. Соотнесенность со шкалой (параметри?ность)
Б. Временная соотнесенность
В. Семанти?еский класс
Г. Полисеми?ность
Семантико-синтакси?еские характеристики:
Со?етаемость с интенсифицирующими наре?иями
Лекси?еские корреляты:
A. Антоним
Б. Синоним
Другие свойства:
A. Частотность
Б. Порядок прилагательного в ИГ.
Для каждого из указанных свойств (аспектов) разработана релевантная
признаковая структура, реализованная в формате базы данных.
Обеспе?ить объективность языковых данных мы стремимся следующими
средствами:
а) отбор лексем в базу проводился на основании данных о ?астотности
прилагательных, полу?енных в результате обработки представительного корпуса
текстов на русском языке (в корпус вошли тексты разных жанров);
б) поиск примеров и языковой информации осуществлялся в текстах и ?ерез
опрос носителей языка в противоположность наиболее распространенному методу
интроспекции;
в) нами был использован (пока минимальный) математи?еский аппарат, который
позволяет коли?ественно в самых общих ?ертах определить роль тех или иных
факторов, присутствующих в изу?аемом явлении, и дает возможность полу?ения
общей картины исследуемого явления.
В ка?естве иллюстрации осуществляемого моделирования структуры КП в
докладе предполагается продемонстрировать данные о корреляции между
разли?ными свойствами прилагательных на материале нескольких сотен
лекси?еских единиц, подкрепленные графиками поведения разных семанти?еских
классов прилагательных и статисти?ескими выкладками.
Синтакси?еский анализатор русского текста
Н. П. Дар?ук
Национальный университет имени Тараса Шев?енко, Киев, Украина

Annotation. The automated syntactic analyzer of Russian texts (SAN) is the
second component of the automated system of text processing. As the result
the system gives superficial syntactic structure of the processed text. The
problems can be solved through the decoding algorithm: the classification
algorithm, which splits the processed text into the specific segments and
builds the classification, the algorithm of 'gluing', which forms the large
elements from the small, the algorithm for neighbourship recognition, which
determines the syntactic bonds in the sentence.


Описываемая система автомати?еского синтакси?еского анализа русского
текста принадлежит к типу систем, в которых синтакси?еский анализатор (САН)
выделяется в самостоятельный этап, ?то связано с установкой на полноту
лингвисти?еского описания синтаксиса, в результате работы которого линейная
морфологи?еская структура предложения представляется в виде двумерной
древесной синтакси?еской структуры. В целом САН - это совокупность
операций, которые выполняются над последовательностями информации
морфологи?еского характера (результатом работы АМА), представляющими
исходный текста, для установления синтакси?еских связей между текстовыми
единицами.

К на?алу САН анализируемый текст оказывается представленным в виде
редуцированной после АМА последовательной информации к словоформам. В
нали?ии оказывается минимум исходной информации: 1) границы предложений (по
то?ке или восклицательному, вопросительному знакам); 2) разбиение множества
слов на синтакси?еские классы. В этом слу?ае приходится решать зада?и с
помощью дешифрово?ных алгоритмов: алгоритма классификации, разбивающего
множество единиц на непересекающиеся множества; алгоритма склеивания,
образующего более крупные единицы из мелких, алгоритма установления
близости, отыскивающего синтакси?еские связи в предложении.
Каждый из таких алгоритмов должен решать соответственно следующие ?астные
зада?и САН: а) рас?ленение предложения на гипотети?еские ?асти - сегменты;
б) полу?ение необходимой информации к ?астям сложного предложения и ко
всему предложению и, как следствие, в слу?ае ошибо?ного 'разрезания'
объединение гипотети?еских сегментов в правильные (достоверные) простые
предложения, а также установление связей в терминах отношений
непосредственной доминации: для простого предложения либо один его 'хозяин'
- другое предложение, либо два 'хозяина' разных уровней - другое
предложение и словоформа в нем; в) установление связей, или зависимостей,
между словоформами в пределах составляющих сложного предложения.
Среди пере?исленных ?астных зада? главной является последняя -
установление присловных связей слова в предложении, а первые две -
вспомогательные, но без их правильного с то?ки зрения норм грамматики
решения невозможно построение единственно правильного дерева зависимостей.
Подграмматика, с помощью которой решаются поставленные зада?и,
представляет собой описание способов структурной организации предикативных
?астей (ПЧ) в сложном предложении, вклю?ающем описание синтакси?еских
маркеров их границ, а также описание комбинаторики сегментов, содержащих
разли?ные виды представителей предикативных центров, допускающей
объединение нескольких сегментов в одну ПЧ или выделение одного сегмента в
отдельную предикативную ?асть. В основе правил, объединяющих сегменты в
одну ПЧ, лежит описание согласования одноэлементных подлежащих и сказуемых
и видов согласования, когда один из компонентов предикативной пары входит в
со?инительную конструкцию. Немаловажную роль играют при этом позиционные
характеристики подлежащего и сказуемого в сегментах с двухкомпонентным
предикативным центром.
Решение первой зада?и (и соответственно работа первого алгоритма) основано
на эвристи?еском принципе: сна?ала принимается предварительное решение,
которое будет пересматриваться на втором этапе с помощью правил,
использующих более разнообразную информацию, полу?енную в ходе последующего
анализа. Вторая зада?а - установление достоверных границ простого
предложения внутри сложного - решается с помощью двух достато?но громоздких
алгоритмов (?то вообще говоря отве?ает сложности моделируемого объекта, -
синтаксису русского языка). В итоге две зада?и решаются на основе трех
алгоритмов. Каждый 'проходит' по предложению один раз и обнаруживает с
помощью своего набора поисковых операций определенный круг граммати?еских
явлений, существенный для выявления синтакси?еской структуры предложения.
Даже из визуального сопоставления входной и выходной информации трех этапов
видно, насколько существенно преобразуется объект анализа в процессе
собственно САН. Оказывается также полностью снятой неоднозна?ность
некоторых словоформ.
В системе алгоритмов у?итываются, в основном, универсальные свойства
языка, являющиеся синтакси?ескими показателями: классы слов, служебные
слова, порядок слов и пунктуация, ?то делает данный подход универсальным
средством анализа синтакси?еской структуры. Он может быть опробован на
текстах разли?ных языков.
Ассоциативная модель смысла текста в прикладных зада?ах

компьютерного анализа полнотекстовых документов
А. Е. Ермаков, В. В. Плешко
ООО 'Гарант-Парк-Интернет'

компьютерный анализ текста, восприятие и порождение текста, ассоциативная
семанти?еская сеть
Summary. A probabilistic associative model of natural language text
generation and perception is proposed, based on neuropsychological
interpretations of human language communication process. Applications of
the model to computer analysis of full-text documents, such as automatic
classification and abstracting, are presented.


Развитие информационно-поисковых систем, в ?астности, поисковых машин в
интернет, происходит на фоне слабой развитости лингвисти?еского обеспе?ения
и алгоритмов, способных к синтактико-семанти?ескому анализу естественно-
языкового текста. Решение большинства прикладных зада? компьютерного
анализа текстовой информации (автомати?еское аннотирование, темати?еская
категоризация и т. д) требует привле?ения средств, позволяющих выявлять
основные единицы смысла текста и семанти?еские связи между ними,
предоставить которые прикладная лингвистика пока не в состоянии. Вследствие
этого в коммер?еских информационо-поисковых системах возобладали
статисти?еские методы.
Как показала практика, для достижения приемлемого ка?ества решения
практи?еских зада? не требуется полный граммати?еский анализ фразы.
Достато?но выделить наиболее информативные единицы текста - клю?евые слова,
словосо?етания, предложения и фрагменты, при?ем в ка?естве критерия
информативности хорошо работает ?астота повторения в тексте. Упрощенный в
силу необходимости, подход тем не менее оказывается обоснованным и
подтверждается нейропсихологи?ескими исследованиями, которые установили,
?то анализ пе?атного текста ?еловеком опирается преимущественно на
зрительное пространственно-предметное (а не на линейное слуховое)
восприятие и реализуется затыло?но-теменной корой правого полушария мозга,
представляющей ассоциативную семантико-статисти?ескую модель мира [1, 2].
Синтактико-семанти?еский анализ с привле?ением синтагмати?еских
представлений левого полушария необходим лишь в отдельных местах текста,
требующих детального 'осмысления'.
Порождение текста представляет процесс, обусловленный активацией узлов и
связей правополушарной модели, который происходит под управлением лобных
отделов коры, реализующих функции произвольного внимания при нали?ии цели
коммуникации. Приняв ряд упрощений, можно с?итать, ?то левое полушарие
реализует ?исто языковые функции, связанные с развертыванием фрагментов
правополушарной модели в последовательности граммати?ески правильных фраз,
и обуславливает глубинно- и поверхностно-синтакси?ескую организацию текста.
Глубинная семантика сообщения изна?ально определяется структурой
правополушарной модели, и отражается в коммуникативном строении текста как
иерархии тем и рем с соответствующей им совокупностью сверхфразовых единств
[3].
Указанные посылки легли в основу статисти?еского подхода, на базе которого
в компании 'Гарант-Парк-Интернет' (http://www.metric.ru) реализован ряд
технологий автомати?еской обработки полнотекстовой информации, с
демонстрацией которых можно ознакомиться по адресу:
http:/mstest.park. ru/topdemo.
В основе подхода лежит представление смысла текста в форме ассоциативной
семанти?еской сети [4], узлы которой представлены множеством ?асто
встре?авшихся понятий текста - слов и устой?ивых словосо?етаний, из ?исла
которых исклю?ены общеупотребимые слова. Узлы сети ассоциативно связаны
между собой с разли?ной силой, при?ем сила связи коррелирована с ?астотой
совместной встре?аемости понятий в предложениях текста. Семанти?еская сеть
может быть автомати?ески построена на базе множества текстов и использована
впоследствии как модель предметной области для анализа неизвестных
документов.
В модели процесса порождения [5] появление предложения с?итается
обусловленным активацией одного узла сети, находящегося в фокусе внимания и
представляющего тему высказывания. Появление про?их слов в предложении
обусловлено их связями с темой, задействованными в сети на момент
порождения. У?итывая сверхфразовую связность сообщения в целом, с?итается,
?то наиболее вероятно обуславливание темы высказывания темой или ремой
предшествующего, ?то отражает сохранение фокуса внимания или его
переклю?ение на связанный узел сети. В итоге порождение текста можно
представить как марковский процесс, состояния которого соответствуют
предложениям, а вероятности переходов между ними обуславливаются силой
связей элементов семанти?еской сети.
Если имеется несколько эталонных сетей, которые представляют темати?еские
классы близких по содержанию документов, то можно классифицировать новый
текст, определив вероятность его порождения каждой сетью.
В модели процесса восприятия с опорой на семанти?ескую сеть [6] каждое
понятие текста активизирует совокупность связанных узлов в сети, в степени,
пропорциональной силе ассоциативных связей. Анализ динамики активизации
узлов на временной шкале текста позволяет выделить связные фрагменты -
сверхфразовые единства (СФЕ), отнесенные к соответствующим узлам, которые
представляют темы документа. Результатами анализа являются: набор клю?евых
тем документа, представленных понятиями семанти?еской сети и ранжированных
по релевантности; темати?еские резюме по клю?евым темам, представленные
наиболее информативными СФЕ; общий реферат, составленный из наиболее
информативных СФЕ по клю?евым темам.
При отсутствии априорной информации для анализа может быть использована
сеть, построенная на базе самого исследуемого текста. В этом слу?ае
возникает аналогия с процессом экспресс-обу?ения ?еловека новому предмету
(в ?астности, новому языку). Цикл статисти?еской обработки моделирует ход
итеративного усвоения материала текста: вна?але выделяются повторяющиеся
понятия, затем ассоциативные связи, после ?его - единицы смысла
сверхфразового уровня, которые классифицируются по темам.
Литература
1. Глезерман Т. Б. Психофизиологи?еские основы нарушений мышления при
афазии. М.: Наука, 1986.
2. Брагина Н. Н., Доброхотова Т. А. Функциональные асимметрии ?еловека. М.:
Медицина, 1981.
3. Ахутина Т. В. Порождение ре?и. Нейролингвисти?еский анализ синтаксиса.
М.: Изд-во МГУ, 1989.
4. Харламов А. А., Ермаков А. Е., Кузнецов Д. М. Технология обработки
текстовой информации с опорой на семанти?еское представление на основе
иерархи?еских структур из динами?еских нейронных сетей, управляемых
механизмом внимания // Информационные технологии. 1998. ? 2.
5. Ермаков А. Е., Плешко В. В. Ассоциативная модель порождения текста в
зада?е классификации // Информационные технологии. 2000. ? 12.
6. Ермаков А. Е. Темати?еский анализ текста с выявлением сверхфразовой
структуры // Информационные технологии. 2000. ? 11.
Проблема граммати?еского инварианта Достоевского и атрибуция анонимных

и псевдонимных статей в журналах 'Время' и 'Эпоха' (1861-1865)
В. Н. Захаров, А. А. Рогов, Ю. В. Сидоров
Петрозаводский государственный университет

атрибуция, стилометрия, граммати?еский инвариант стиля, синтаксис и
пунктуация писателя
Summary. Our research is devoted to studying of the style of F. M.
Dostoevsky's articles and some anonymous and pseudonymous articles that
were published at magazines 'Vremja' and 'Epokha' (1861-65). The aim is to
find stable author's invariant. There was developed 'Attribution' software
package for performing linguistic analysis, including grammar and
syntactical parser. The results were achieved by means of methods of
applied statistical analysis: the principal component analysis, method of
hierarchical cluster analysis (tree clustering), method of correlation
pleads. The research forces us to look for a new methodic of authorship
attribution.


С 1993 года в Петрозаводском государственном университете под руководством
профессора В. Н. Захарова идет работа по созданию профессиональных баз
данных для многоаспектного филологи?еского анализа литературных текстов.
Цель этой работы - автоматизировать лингвисти?еский анализ литературных
текстов, провести статисти?еский анализ текстов и, в ?астности, решить
зада?у по атрибуции текстов (установлению авторства). К настоящему времени
разработан программный комплекс 'Атрибуция' для лингвисти?еского анализа на
ПК Макинтош, позволяющий в диалоговом режиме проводить граммати?еский и
синтакси?еский разборы литературных текстов, используя много?исленные
лингвисти?еские характеристики, например, такие как ?асть ре?и, падеж, род,
?исло, тип предложения и т. д. Программный комплекс состоит из двух ?астей:
модуль 'Граммати?еский анализ' и модуль 'Синтакси?еский анализ'. Они
позволяют ?асти?но автоматизировать и формализовать процесс синтакси?еского
и граммати?еского разбора по 69 параметрам.
Принципы работы обоих модулей одинаковы: входной информацией является
литературный текст в электронном виде. Во избежание неоднозна?ной
интерпретации граммати?еских и синтакси?еских единиц, каждый модуль
первона?ально выделяет целое предложение, а затем позволяет работать с
каждым словом предложения, предлагая в простых ситуациях (например, союзы)
свой вариант зна?ений, но решающим правом на принятие решения обладает
пользователь, который, несомненно, должен являться специалистом-филологом.
На выходе полу?ается структурированная таблица, которую можно
конвертировать в любой формат баз данных. В настоящее время мы используем
формат Microsoft Access. Следует отметить, ?то выходной файл примерно в 8
раз превосходит по объему входной текст.
При помощи разработанного программного комплекса были проанализированы 18
статей Ф. М. Достоевского, а также 4 статьи других авторов, и 27 статей,
авторство которых неизвестно или вызывает споры среди специалистов. В
ка?естве примера безусловно принадлежащих Ф. М. Достоевскому статей можно
назвать цикл 'Ряд статей о русской литературе' ('Введение', 'Г.-бов и
вопрос об искусстве', первая и вторая статьи 'Книжность и грамотность',
'Последние литературные явления').
Зада?ей исследования являлось установление авторства Достоевского или же,
наоборот, отклонение гипотезы о том, ?то автором спорных статей является
Достоевский. Для этого необходимо, во-первых, определить формально-
граммати?еские признаки стиля Достоевского; во-вторых, сравнить
установленный инвариант с аналоги?ными граммати?ескими параметрами
анонимных статей.
На первом этапе исследования было сделано предположение, ?то инвариантом
может являться распределение ?астей ре?и на первых трех и последних трех
позициях предложений. По каждой статье были составлены ?астотные таблицы
?астей ре?и для 6 позиций в предложении. Модуль 'Граммати?еский анализ'
позволяет выявлять 16 ?астей ре?и, поэтому каждая статья имеет 96 признаков
(6 позиций по 16 признакам). Для сравнения статей использовались разли?ные
методы:
- экспертный метод для перви?ной визуальной обработки данных;
- компонентный анализ с целью понижения размерности признакового
пространства;
- методы кластерного анализа:
1) алгоритм иерархи?еского кластерного анализа, вклю?ающий методы
ближайшего и дальнего соседа с разли?ными мерами близости между объектами;
2) метод корреляционных плеяд, позволяющий полу?ать группы статей на
основе корреляционной матрицы.
Для поиска стилисти?еских инвариантов использовалась методика, основанная
на изу?ении закономерностей расположения ?астей ре?и в предложении. В
ка?естве основной характеристики текстов рассматривалась матрица ?астот
парной встре?аемости граммати?еских классов слов. На ее основе был построен
граф сильных связей для каждого текста. Полу?енный формально-граммати?еский
инвариант стиля Достоевского не позволил однозна?но утверждать, принадлежат
ли Достоевскому избранные для исследования анонимные и псевдонимные статьи.
Так, по всем существующим методикам установления авторства в разряд текстов
Достоевского попадает принадлежащая А. Григорьеву статья 'Стихотворения А.
С. Хомякова'. Данный факт ставит нас перед зада?ей создания новой методики
определения авторства, которая у?итывает не только все формально-
граммати?еские признаки слова (такие как ?исло, падеж, род, наклонение и
т. п.), но и обнаруживает 'лицо автора' в структурно-типологи?еском анализе
синтакси?еских конструкций изу?аемых текстов.

Литература
1. Захаров В. Н. Гениальный фельетонист: Ф. М. Достоевский. Полное собрание
со?инений. Канони?еские тексты. Том IV. Петрозаводск: Изд-во Петр. гос. ун-
та, 2000. С. 801-812.
2. Сидоров Ю. В., Леонтьев А. А., Рогов А. А., Захаров В. Н. Компьютерная
автоматизированная система для лингвисти?еского разбора литературных
текстов // IV-ая Санкт-Петербургская Ассамблея молодых у?еных и
специалистов: Тезисы докладов. СПб., 1999. C. 66.
Универсальное, групповое и индивидуальное в ре?и

(лингвокриминалисти?еский аспект)
Л. В. Златоустова
Московский государственный университет им. М. В. Ломоносова

универсальное, групповое, индивидуальное, лингвокриминалистика, сегменты,
суперсегмент, мозг, нейронные сети,

психофизиология, социопсихофизиология
Summary. Problems of personality identification using speech features is
considered.


Для целей решения прикладных зада? целесообразно принять одно из
определений универсалий - неполные универсалии, то есть, ?астотные явления
встре?ающиеся во многих языках. Так, во всех языках находят выражение
отношение субъекта и предиката, все языки знают ?ленение на топик и
контраст, в языках имеет место категория множественности. В области
фонетики по?ти всем языкам присуще нали?ие фонети?еского слова,
противопоставление вокальных / консонантных единиц, противопоставление
компактности / диффузности гласных. Вместе с тем в одних языках
определенная группа звуков составляют фонемную оппозицию, в других эта
оппозиция отсутствует. Так обстоит дело с фонологи?ностью-нефонологи?ностью
мягких согласных, разли?ением-неразли?ением фонем <р> и <л> и т. д.
К универсальным явлениям относятся мыслительные процессы, протекающие в
головном мозге ?еловека, управление разли?ными психи?ескими функциями, в
том ?исле функциями порождения и восприятия ре?евого сигнала. Головной мозг
состоит из множества нервных клеток и их соединений, ?то обеспе?ивает
специализированные системы нейронов и их связей в ре?евых зонах, способных
воплощаться в вербальной форме любого типа, при?ем системы нейронных
образований ре?евых зон дифференцированы, о ?ем свидетельствует
исследования ре?евых расстройств в результате нарушения деятельности
отдельных зон мозга. Одновременное функционирование совокупности
специализированных нейронных образований обеспе?ивает реальный масштаб
времени реализации зву?ащей ре?и.
Каждый язык обладает единицами как языка, так и ре?и, которые составляют
уровневую иерархию, при?ем эта система имеет кодифицированный вариант и
диалектную разновидность. Для лингвокриминалистики составляет зна?ительный
интерес сопоставление единиц и их функций в разных языках и их диалектных
особенностях, при?ем диалектные особенности одного языка могут совпадать с
нормативными особенностями другого. В ?астности, в русском языке на
территории южновеликорусских говоров встре?ается согласный звук [р]
приближающийся к зву?анию [л], возможно и произнесение [л] вместо [р], то
есть полное смешение. В литературном японском языке это норма.
Зву?ащая ре?ь имеет наиболее зна?имую для идентификации ли?ности по ре?и
суперсегментную единицу - фонети?еское слово. Именно оно, его
принадлежность к определенному языку и территории, определяют ряд звуковых
реализаций в зависимости от структурирующих законов фонети?еского слова; в
?астности - от типа словесного ударения в языках с выраженным словесным
ударением, фонети?еских особенностей реализаций формативов в группе урало-
алтайских языков.
На основании совокупности особенностей ре?и, например, в русском языке,
выявляются групповые признаки, такие как последовательное отклонение от
нормы ритмики ре?и, ?то определяет характеристики слога, фонети?еского
слова, просодии высказывания, отдельных сегментных единиц. Однако наиболее
устой?ивыми оказываются не сегментные, а суперсегментные единицы, во многих
слу?аях отме?ающие ре?ь лиц, долгие годы проживших вне территории, где
сформировалась исходная модель их произношения. Групповые признаки отражают
разли?ные социумы. Они, в целях идентификации ли?ности по ре?и, всегда
должны быть представлены в системе. В высшей степени важна целевая
установка говорящего, ситуация, фонети?еский стиль, в рамках которого
осуществляется коммуникация.
Индивидуальные характеристики ре?и связаны с психофизиологи?ескими
особенностями ли?ности: это темперамент, реактивность-нереактивность,
память, внимание, а также особенности строения ?ерепа, ?то определяет форму
ре?евого тракта, а также физиологи?еские параметры голосовых связок. В
результате - индивидуализация темпа, тембра голоса, специфика коартикуляции
и ряда других особенностей. Особый аспект исследований составляет анализ
индивидуальных шкал вербальных и мими?еских выражений эмоций.
Цель изу?ения подобных психофизиологи?еских, социолингвисти?еских
особенностей ре?и индивида - полу?ить лингвосоциопсихологи?еский портрет
ли?ности.

Модель поля реализации морфемы как эталон сопоставительного изу?ения языков

(к проблеме построения компьютерной сопоставительной грамматики

русского и украинского языков)
Е. А. Карпиловская
Институт языковедения им. А. А. Потебни НАН Украины

сопоставительная грамматика, морфемика, компьютерное моделирование, поле
реализации морфемы
Summary. In the report the conceptual and procedural technique for
modelling of morpheme's field of realization is offered. In this model the
ability of a morpheme to singleness / plurality of realization in a word
its 1) functional loading, 2) form, 3) contents, 4) model of distribution
(interval of its positions and inword environment) is taken into account.
The created model as a way of the complex description of a morpheme can
serve the standard for the performance of comparative researches of
morphemics and word-formation, in particular of Russian and Ukrainian
languages and the tool for the construction their comparative grammars.


1. При построении сопоставительной грамматики языков одной из кардинальных
проблем является установление единиц-эталонов сравнения. Эталон при этом
представляет собой типовую модель исследуемых объектов, каждый же изу?аемый
язык дает конкретную, своеобразную реализацию такой типовой модели.
Объяснительная сила модели-эталона прмо пропорциональна полноте и
разнообразию у?тенных в ней характеристик строения и употребления тех или
иных языковых объектов. С накоплением подобных сведений все большее
внимание в грамматике, в ?астности сопоставительной, уделяется комплексным
моделям языковых объектов, способных служить как анализаторами, так и
синтезаторами изу?аемых явлений. Именно с помощью таких объяснительно-
порождающих моделей удается охватить весь спектр формальных, семанти?еских
и функциональных свойств единиц, представить в целом картину их реального
'поведения' в системе языка и в ре?и, а также с достато?ной степенью
надежности выявить их нереализованный потенциал.
2. На основе компьютерного сводного генерального реестра слов современного
украинского языка (объем около 167 тыс. лексем) нами разработана типовая
объяснительно-порождающая модель поля реализации морфемы, в ?астности
суффиксальной. Она представляет собой совокупность всех реализаций
определенной элементарной морфемы в структуре конкретных слов, а также весь
спектр ее формальных и семанти?еских вариантов в системе языка. Для
графи?еского представления модели поля реализации морфемы разработана
специальная двухмерная матрица. Развертывание матрицы по горизонтали
моделирует синтагмати?еские свойства морфемы, ее развертывание по вертикали
- парадигмати?еские, при?ем такой способ моделирования поля реализации дает
возможность представить парадигматику и синтагматику морфемы как в пределах
инвентаря морфемной подсистемы, так и в продуктах ее реализации - морфемных
структурах слов с одним корнем.
Исходным пунктом моделирования поля реализации морфемы является
определение ее способности к мерности функциональной нагрузки в структуре
слова, формы, содержания либо модели размещения в слове. Мерность в
традициях Пражской лингвисти?еской школы понимаем как способность единицы к
едини?ности / множественности реализаций. Выделяем единицы полностью 1)
одномерные или 2) многомерные и единицы 3) ?асти?но
одномерные / многомерные. Мерность функциональной нагрузки проявляется в
способности морфемы той же формы выполнять в слове деривационную,
квалификативную (классифицирующую) либо ?исто конструктивную функцию. В
зависимости от функциональной нагрузки в слове среди суффиксов украинского
языка выделены собственно суффиксы, суффиксоиды и суффиксальные связки. В
пределах суффиксов как самостоятельный функциональный подтип единиц
выделены формативы; среди суффиксоидов - единицы разного происхождения -
исконные и заимствованные, поскольку они демонстрируют разные пути
формирования подобных элементов в системе украинского языка. Суффиксальным
морфемам современного украинского языка свойственны две разновидности
мерности формы - агглютинативная и фузионная. Первая представлена
составными суффиксами (конструируемыми и инвентарными), вторая -
алломорфами и дублетами. Поскольку компьютерный анализ морфемной структуры
слова в нашем исследовании опирается на ее буквенное оформление, наряду с
действительными выделяем также скрытые и условные алломорфы. В первых
буквенная запись не отражает морфонологи?еское изменение морфа, во вторых,
напротив, иная буквенная запись лишь делает наглядным фонемное строение
того же морфа, ср.: господ-ар ( господ-ар-юва-ти (смяг?ение финали морфа
ар) и пуст-ел(я) ( пуст-ель-н(ий) (становится наглядной мягкость финали
морфа ел в производящем). Мерность содержания проявляется в формировании в
структурах реальных слов суффиксальных морфов - семанти?еских вариантов или
омонимов. Подобные содержательно многомерные суффиксальные морфемы называем
суффиксемами, используя этот термин в трактовке И. И. Ковалика.
Суффиксальные морфы-семанти?еские варианты объединены в суффиксеме вокруг
некоего морфа-инварианта со стержневым зна?ением; омоними?ные суффиксальные
морфы 'под крышей' суффиксемы удерживает лишь общность формы. Например, как
семанти?еские варианты рассматриваем суффиксы в словах ряб-изн(а), пуст-
изн(а), мал-изн(а); омонимами с?итаем суффиксы в словах терн-ист(ий),
фольклор-ист-ик(а), бандур-ист. Омонимию в пределах одного функционального
типа морфов рассматриваем как внутритиповую; омонимию морфов с разли?ной
функциональной нагрузкой в слове - как межтиповую. Внутритиповая омонимия
суффиксальных морфов в материале нашего исследования представлена как
внутри-, меж?астере?ная и смешанная. Мерность модели распределения в слове
проявляется в позиционной подвижности морфов и множественности их
внутрисловного окружения, т. е. спектров их левых и правых партнеров в
слове. В зависимости от характера корня или производящей основы слова (их
свободы / связанности, ?астере?ной принадлежности), являющихся мощным
регулятором реализации той или иной аффиксальной морфемы, в полях
реализации суффиксальных морфем выделяем ярусы реализации, подполя,
дублирующие структуру поля в целом.
3. Разработанная матрица, обобщающая сведения о функциональном, формальном
и семанти?еском варьировании морфемы, моделирующая в целом картину ее
реализации в языке, является удобным эталоном для межъязыкового
сопоставления и может быть использована как инструмент при построении, в
?астности, сопоставительной морфемной либо деривационной грамматики
русского и украинского языков. В нашем исследовании предложенная модель
опробована на материале родственных суффиксальных морфем русского и
украинского языков, в ?астности, -ист-, -тель, -оват / -уват, -ер-,
-ость / -?сть и др. Необходимым условием для использования предложенной
модели является сводимость результатов морфемного ?ленения сопоставляемых
слов, поскольку мы в своем исследовании последовательно придерживаемся
системного синхронного подхода к анализу морфемной и словообразовательной
структуры слов. Кроме того, установление статуса морфемы в слове в
понятийном аппарате предложенной модели основано на функциональном подходе
к изу?ению ее формы и содержания.
Проектирование Интернет-у?ебников по русскому языку: базовые принципы
Г. Е. Кедрова
Московский государственный университет им. М. В. Ломоносова

learning environment, Russian language on the Web, phonetics, hypertext,
multimedia
Abstract: The purpose of this article is to analyse the concept of computer-
based learning environment and to submit guidelines for building up an
Internet-based learning environment in Russian Phonetics. The analysis is
based on a fundamental notion of learning environment and discusses also
current semantics of some special terms: distance education,
hypertextuality, computer-aided curriculum and adaptive system of a
controlled and directed testing (up to the moment - phonetic exerciser).
One of the main findings in this analysis is the reason that the learning
environment resides on multimedia computer-based hypertextual manual. The
main body of the manual has in all cases the modular and the node-based
structure. Each module incorporates hypertextually linked theoretical
knowledge, illustrative vocabulary of real language usage with brief
comments to any item, computer-based drills and quizzes. The whole system
is extremely effective provided special database of multimedia items
(animations and videos), as well as indexed and annotated vocabulary
entries. Each item corresponds to bi- or multi-directional semantic
contrasts on every linguistic level (in our case - phonetic level of
Russian language).


В настоящее время общепризнанно, ?то современная система образования
вступила с появлением Интернета и в целом благодаря интенсивному освоению
возможностей новых информационных технологий, в новую фазу своего развития.
Наиболее актуальной зада?ей сегодня является совершенствование
дидакти?еской теории применительно к новым образовательным условиям.
Основные усилия как теоретиков, так и практиков образования сосредото?ены в
области дистанционного образования, дистанционного обу?ения и связанных

с этим всех видов организации дистанционной деятельности. Разли?ение этих
понятий является семанти?ески зна?имым и определяет сам круг тех
методи?еских

материалов, педагоги?еских методик и форм организации дистанционной
совместной деятельности, которые необходимо использовать для достижения
искомого эффекта.
По нашему мнению, основой дистанционного образования может стать
сконструированная компьютерными средствами (как программными, так и
аппаратными) дидакти?еская модель информационного пространства конкретной
предметной области - компьютерная обу?ающая среда. Понятие обу?ающей среды
в современной педагоги?еской науке также приобрело новый статус в связи с
информационными технологиями и новыми средствами обмена информацией.
Некоторые исследователи выводят его из концепции обретения знаний в
процессе обу?ения, разработанной в рамках конструктивистской когнитологии.
Согласно такому взгляду, обу?ение является активным процессом, направленным
на извле?ение, конструирование знания, а не просто на его 'копирование',
?то можно соотнести с достато?но традиционным понятием 'усвоение знания'.
Обу?ение в такой перспективе выполняет роль скорее поддержки конструктивных
усилий обу?ающегося, ?ем простой переда?е некоторых порций знаний от
у?ителя к у?ащемуся [1]. Наряду с узким пониманием обу?ающей среды как
аппаратно-программной модели изу?аемой области знания, на которую
настраиваются определенные дидакти?еские методики, все большее признание
обретает представление об обу?ающей среде как о едином информационно-
образовательном пространстве, которое вклю?ает в себя распределенные базы
данных, виртуальные библиотеки (их ресурсы тоже могут быть распределены по
разным Интернет-серверам), электронные у?ебные пособия, виртуальные у?ебные
классы (киберклассы) и т. п.
Все основные особенности лингвисти?еской обу?ающей среды можно, по нашему
мнению, проследить на примере компьютерной обу?ающей модели такого
клю?евого языкового уровня, как фонети?еский уровень. Именно в языковом
зву?ании происходит соединение языкового содержания и языковой формы.
Единицы фонети?еского уровня исходно мультимедийны и полифункциональны.
Гипермедийный гипертекст как никакая другая форма представления информации
у?итывает и позволяет адекватно отразить в процессе обу?ения все
особенности ре?епроизводства и ре?евосприятия, многоаспектность и
материальный характер звука.
Формат представления информации, который лежит в основе компьютерной
обу?ающей среды и во многом определяет ее базовые свойства, является
форматом гипертекстовых структур. Практика показывает, ?то каждый
преподаватель, который создает гипертекстовое представление своего
предмета, должен моделировать все свое целостное знание об этом предмете.
Как показал наш опыт, в основе такого знания (знания о фонети?еской системе
языка) лежит его структуризация, которая может быть выстроена на понятии
смыслоразли?ительной оппозиции, введенной Н. С. Трубецким [2] и
разработанной его последователями (Р. О. Якобсон

и др.). Успешное решение этой сложной зада?и возможно, если в основе
построения у?ебника - базового компонента всякой обу?ающей среды -
находится индексированная и откомментированная база языковых данных,
иллюстрирующая все зна?имые противопоставления на любом структурном уровне
системы языка.
Фонети?еский у?ебный словарь, или словарь фонети?еских примеров,
разработанный нами в рамках проекта создания у?ебников нового поколения ФЦП
'Интеграция', состоит из единиц всех уровней русской зву?ащей ре?и (звук,
слог, фонети?еское слово, ритми?еская группа, ритмомелоди?еские единства),
аннотированных в соответствии с зада?ами обу?ения и формирования полезных
навыков и сгруппированных в классы по принципу минимальных пар. Такие
минимальные пары позволяют наглядно представить все функционально зна?имые
в языке бинарные и многомерные оппозиции. Именно многомерные оппозиции
вместе с пропорциональными позволяют выстроить основные оси гипертекстового
пространства, отражающие структурное взаиморасположение понятий,
описывающих фонети?ескую систему языка. Благодаря введенному
Н. С. Трубецким понятию нейтрализации структурное описание фонети?еского
уровня языка естественным образом объединяется с представлениями об
особенностях функционирования этой системы в ре?и, ре?евом потоке.
Гипертекстовая технология формирования и представления знаний позволяет
интегрировать эту составляющую в рамках единого многомерного когнитивного
пространства. На уровне реализации такое гипертекстовое пространство
строится на основе распределенной динами?ески формируемой базы данных по
всем смыслоразли?ительным оппозициям, которые существуют в языке. По всем
единицам базы данных заполняются поля необходимых индексов и аннотаций.
Аннотации и комментарии к словарным единицам формируются в мультимедийном
формате на основе гипертекстовых ссылок и иерархи?ески организованных
связей.

Литература
Duffy T. M. & Cunningham D. J. Constructivism: Implications for the Design
and Delivery of Instruction // Jonas-sen D. H. (ed.) Handbook of Research
for Educational Communications and Technology: A Project of the
Association for Educational Communications and Technology. New York: Simon
& Schuster Macmillan. P. 171.
Trubetzkoy N. S. Grundzьge der Phologie. Praga, 1939; рус. перевод:
Трубецкой Н. С. Основы фонологии. М., 1960.
Многофункциональный автомати?еский транскриптор русских текстов1
О. Ф. Кривнова, Л. М. Захаров, Г. С. Строкин
Московский государственный университет им М. В. Ломоносова

nранскрипция, автомати?еский транскриптор, русский язык, текст,
автомати?еский синтез
Summary. In the paper an Automatic Russian transcriber is described which
converts input texts into a sequence of phoneme symbols organized as
phrases or syntagmas with attached special marks (rhythmical, accentuation,
intonation) for prosodic settings.


1. Первый из известных нам автомати?еских транскрипторов русских текстов
был создан в конце 60-х годов. Он разрабатывался и использовался для
создания ?астотного словаря звуковых последовательностей русской ре?и. С
тех пор многое изменилось. Прежде всего, колоссально возросли возможности
компьютерной техники и сферы применения компьютерных программ. Сей?ас уже
невозможно представить себе развитие ре?евых технологий без использования
автомати?еских транскрипторов пе?атных текстов. Определенные сдвиги
произошли и в русском языке, затронувшие и его произносительные нормы.
Транскриптор, описанию которого посвящен наш доклад, является ?астью
системы автомати?еского синтеза ре?и, однако он используется нами и как
самостоятельная многофункциональная программа. Основная зада?а
транскриптора состоит в том, ?тобы преобразовать пе?атный текст в
транскрипционную запись. Для осуществления этой зада?и текст должен быть
представлен как последовательность акцентуированных орфографи?еских слов,
разделенных пробелами и разрешенными пунктуационными знаками. Такой текст
условно может быть назван 'нормализованным'. Нормализация русского текста
требует обработки сокращений, цифровых объектов, аббревиатур, замены буквы
'е' на 'е' в нужных слу?аях и расстановки словесных ударений. В нашей
системе эти зада?и решаются самостоятельным модулем, который
взаимодействует с транскриптором, но не входит в него.
Транскрипция осуществляется по нормализованному тексту. Сам транскриптор
состоит из двух основных ?астей: акцентно-интонационного блока и
сегментного блока, осуществляющего переход 'буква - фонема - звук'.
С помощью акцентно-интонационного транскриптора (АИТ) производится
маркировка, задающая наиболее вероятное интонационно-синтакси?еское
?ленение предложения, степень паузации, и выбирается интонационная модель
выделенного просоди?еского блока.

В функцию этого транскриптора входит также формирование акцентно-
ритми?еского рисунка интонационной фразы и маркировка границ внутренних
фонети?еских составляющих (полных и относительных клитик, фонети?еских
слов). Результаты работы АИТ могут быть визуализованы в виде условной
буквенно-просоди?еской записи еще до работы сегментного транскриптора.
Степень детализации просоди?еской записи предложения может выбираться
пользователем в соответствии с его зада?ами.
Сегментный транскриптор (СГ) работает с выходом акцентно-интонационного
модуля, в рамках отдельной интонационной фразы. Преобразование 'буква -
фонема' вклю?ает такие операции, как устранение орфографи?еских фикций,
устранение твердых и мягких знаков, обработка йотированных и 'мягких'
гласных букв, буквенных со?етаний и пр. Переход 'фонема - звук' вклю?ает
правила позиционного озвон?ения / оглушения, смяг?ения для согласных и
редукции для гласных.
Сегментный транскриптор у?итывает не только общие правила произнесения, но
и орфоэпи?еские особенности, распространяющиеся на группы слов и даже
отдельные слова. Действующая версия транскриптора ориентирована на один из
вариантов произнесения, рекомендуемых современными орфоэпи?ескими
словарями. В настоящее время мы работаем над тем, ?тобы расширить
представленные вариативности произношения в транскрипционной записи (по
желанию пользователя).
Известно, ?то степень детализации фонети?еской записи может быть разли?ной
и зависит от цели транскрипции. Инвентарь звуковых типов (аллофонов)
разли?аемых нами в окон?ательной сегментной транскрипции, невелик и
вклю?ает 56 единиц (без у?ета разли?ий в фонети?еской долготе согласных).
По степени детализации он занимает промежуто?ное положение между фонемным и
фонети?ескими инвентарями, которые традиционно признаются в русской
фонетике. Запись,
___________________________________
[?] Работа выполнена при поддержке РФФИ, проект ? 00-06-80091.
которая является результатом работы всего транскриптора, привы?на для
фонетиста, а при желании может быть преобразована в более традиционное
фонемное или более детализированное фонети?еское представление. Можно
довести степень детализации до 1200 разных в акусти?еском плане единиц,
которые используются в последней версии системы автомати?еского синтеза
русской ре?и, разработанной нами, но такая запись трудна для ?тения.
Транскрипция строится на базе русского алфавита в соответствии с
традициями русской фонетики. По желанию пользователя она может быть
преобразована в запись на основе системы МФА.
Хотя на выходе транскриптора полу?ается всего лишь цепо?ка звуковых
символов и просоди?еских маркеров, соответствующая предложению,
транскриптор использует разнообразную фонети?ескую информацию: сегментные и
просоди?еские признаки, позиционные и грани?ные характеристики фонети?еских
составляющих и т. д. Это дает возможность визуализовать фонети?ескую
структуру фразы в виде графа, а также зафиксировать в специальном
признаковом коде сегмента все фонети?еские факторы, которые могут влиять на
акусти?ескую реализацию фонемы.
2. Как было сказано выше, транскриптор создавался нами для системы
автомати?еского синтеза русской ре?и. Он является 'живой' разработкой и
продолжает совершенствоваться. Правила транскрипции записываются в
стандартной и удобной для лингвиста форме, допускающей мгновенное вклю?ение
новой закономерности в компьютерную программу и ее верификацию ?ерез
озву?ивание. Практика использования транскриптора показала, ?то он может
иметь разнообразное применение. С его помощью нами был разработан
произносительный словарь русского языка (на основе 'Граммати?еского словаря
русского языка' А. А. Зализняка). Транскрипционные записи больших массивов
текстов использовались при создании акустико-фонети?еских баз данных для
разработки систем автомати?еского распознавания ре?и, а также в у?ебных
целях.
Особо хо?ется отметить, ?то зада?а формализации фонети?еских правил
выявляет 'белые пятна' и спорные слу?аи в русской фонетике. Это является
стимулом для специальных фонети?еских исследований, которые нашли отражение
в ряде курсовых и дипломных работ, выполненных студентами Отделения
структурной и прикладной лингвистики филологи?еского факультета МГУ.
Публикации авторов, связанные с темой автома-

ти?еского транскриптора русской ре?и представлены

в Интернете на странице 'Speech Group' по адресу
http://isabase.philol.msu.ru/SpeechGroup.
К вопросу диахрони?еской полисемии
В. В. Кромер
Сибирский психосоциальный институт, Новосибирск

полисемия, конститутивная выборка, диахрония, толковые словари,
психофизи?еский закон
Summary. The offered earlier parameter-free model of rank polysemantic
distribution is considered diachronically. The polysemantic structures
conformity of modern incomplete explanatory dictionaries and complete
explanatory dictionaries of former ages is postulated, and that allows to
extrapolate the polysemy development process back in time.


1. На основе положения А. А. Поликарпова о размере знакового набора и
заданном социальной практикой наборе смыслов как исто?нике вариативности
полисемии [1] нами была предложена беспараметри?еская модель ранговых
полисеми?еских распределений [2]. Исто?ником данных о коли?естве слов и
зна?ений в языке (подъязыке) служит соответствующий толковый словарь (ТС).
Перевод модели в однопараметри?еский режим позволяет определить факт
непоследовательности отражения зоны однозна?ных слов в словаре и вели?ину
дефицита (профицита) однозна?ных слов.
2. При рассмотрении диахронии как ряда последовательных синхрони?еских
срезов языка появляется возможность распространить модель на диахронию.
Изменения параметров языковой системы предполагаются адиабати?ескими, а
параметры языковой системы в отдельном синхрони?еском срезе -
адиабати?еским инвариантом.
3. Принято, ?то полисеми?еские структуры неполных ТС современных языков
адекватны структурам больших словарей возможных языков прошлого. Каждому
подъязыку соответствует конститутивный корпус текстов (конститутивная
выборка - КВ) с распределением ?астот слов F по закону Ципфа. Коли?ество
зна?ений у слова определяется в соответствии с модифицированным
психофизи?еским законом Вебера-Фехнера, m = y(F + 1) + C, где C -
постоянная Эйлера.
4. На рисунке в системе билогарифми?еских координат нанесены то?ки
зависимости K(L), где K - ципфовский параметр, а L - коли?ество слов в
подъязыке, для трех ТС русского языка (треугольники) и двух ТС английского
языка (ромбики). Через ромбики проведена прямая линия, а ?ерез треугольники
- прямая по методу наименьших квадратов. Отклонения треугольников от
проведенной прямой невелики, ?то свидетельствует о линейной связи между ln
K и ln L. Близость то?ек пересе?ения двух прямых с осью L позволяет
выдвинуть гипотезу, ?то зна?ение L0 является лингвисти?еской универсалией.
То?ке L0 отве?ает гипотети?еский подъязык с отсутствием полисемии и
словарем около 5 000 слов.
5. Тангенс угла наклона прямых по рисунку является типологи?еской
относительно полисемии характеристикой языка, инвариантной к размеру ТС и
составляет 2,5 для русского языка и 4,0 для английского. Лингвисти?ески
данная характеристика интерпретируется как мера увели?ения коли?ества
зна?ений у слов при расширении словаря за с?ет большей представленности
языка.
[pic]
6. Выдвигается предположение, ?то КВ идиолекта - форма хранения знаний о
языке в памяти отдельного носителя языка. В КВ заложены употребительности
слов, их лекси?еские зна?ения и употребительности отдельных зна?ений.
Принимается, ?то предельный размер КВ идиолекта совпадает с размером
'ципфовской выборки', ?то позволяет оценить предельный уровень знания
лексики носителя соответствующего языка. Для русского языка выявленное
коли?ество слов (93 000) близко к ранее определенному для коренных
носителей с высшим и незакон?енным высшим образованием [3]. Для английского
языка предельный размер КВ достигается на словаре в 43 000 слов.
Соответствующие коли?ества словарных зна?ений составляют 139 000 для
русского языка и 73 000 для английского.
7. Рамки применения модели ограни?иваются подъязыками, представленными
краткими, средними и большими ТС языка согласно трехступен?атой типологии
ТС С. И. Ожегова. Подъязыки, представленные ТС меньшего объема,
характеризуются степенью полисемии, как правило, большей предписываемой
представленной моделью, однако существует у?ебный ТС русского языка,
полисеми?еская структура которого соответствует модели.
8. Истори?еское развитие языка может быть отражено кривой в системе
координат K(L). Пример подобного развития представлен на рисунке жирной
линией. Каждая то?ка кривой характеризует некоторую фазу в развитии,
отражаемую коли?еством слов в языке и типологи?еским относительно полисемии
параметром. На рисунке некоторое состояние языка отображается то?кой A. La
- коли?ество слов в языке. Ka - ципфовский параметр конститутивной выборки
языка. Штриховая линия - зависимость ?астоты слова F от его ранга i в КВ
языка.

Литература
1. Поликарпов А. А. Полисемия: системно-квантитативные аспекты // У?ен.
зап. Тартус. ун-та. Тарту, 1987. Вып. 774.

С. 135-154.
2. Кромер В. В. Беспараметри?еская модель ранговых полисеми?еских
распределений // Компьютерная лингвистика и обу?ение языкам. Минск: Изд-во
МГЛУ, 2000. С. 53-62.
3. Поликарпова О. А., Поликарпов А. А. Опыт изу?ения уровня и характера
индивидуального знания русской лексики // Квантитативные аспекты системной
организации текста. Тбилиси, 1987. С. 118-122.
Словообразование в модели языка
М. А. Кронгауз
Российский государственный гуманитарный университет
словообразование, модель, семантика, словообразовательное правило, префиксы
Summary. Derivation in the Linguistic Model. In the paper there is set a
problem of derivation positioning in the linguistic model as well as of
identifying ist relations with the other components of the model. Main
characteristics and rules of derivational mechanism functioning are
formulated. Russian prefixal verbs have been used as a basic research
material.
В докладе ставится проблема определения места словообразования в модели
языка и установления его связей с другими компонентами модели.
Рассматривается положение дел в таких теориях и моделях, как когнитивная
лингвистика, генеративная грамматика, 'Смысл ' Текст' и др.
Сей?ас наступает новый этап в развитии семантики, а именно происходит если
не сдвиг интересов, то их о?евидное расширение. Так, в последние годы
словообразовательный материал все ?аще используется в рамках уже
существующих моделей языка. Достато?но сказать о требовании вклю?ения
словообразовательных правил в модель 'Смысл ' Текст' [Мель?ук] и активном
привле?ении словообразовательных данных русского языка в новых работах А.
Вежбицкой, например [Wierzbicka]. При?ем словообразовательная семантика
непосредственно связывается с семантикой текста, прагмати?еским и
коммуникативным аспектами его функционирования. Словообразование
оказывается вклю?ено в действующую модель и взаимодействует с разли?ными ее
уровнями.
В связи с этим возникает проблема словообразовательного семанти?еского
анализа вообще и представления его как компонента общего анализа текста.
Имеет смысл поднять по крайней мере следующие вопросы: существует ли
потребность в таком словообразовательном компоненте, как он может или
должен выглядеть и каково реальное положение дел?
Необходимость вклю?ения словообразовательных правил в модель языка, в
действительности наиболее от?етливо и доказательно это была высказана в
книге [Земская]. Словообразование следует рассматривать как полноправную и
постоянную лингвисти?ескую деятельность. Оно столь же необходимо в полной и
адекватной модели языка, как и другие 'общепризнанные' компоненты. Однако
поскольку в зада?и этой работы не входило собственно описание такой модели,
открытым остается вопрос о форме вклю?ения словообразовательного компонента
и словообразовательных правил в лингвисти?ескую модель, а также более общий
вопрос о формальном статусе словообразования в теории языка.
На материале русского языка показывается недостато?ность существующих
словообразовательных компонентов с то?ки зрения семантики.
Предлагаются семанти?еские словообразовательные механизмы, использование
которых обеспе?ивает адекватный анализ текста с префиксальными глаголами.
Предлагаемые механизмы основаны на ?етырех типах отношений, возникающих в
рамках глагольной префиксации: в рамках одной приставки, в рамках всего
приставо?ного словообразования, в рамках глагола (между префиксом и
глагольной основой) и в рамках текста (между префиксом и более широким
контекстом. Первые два типа взаимодействия относятся к парадигматике,
вторые же два - к синтагматике префикса.
В заклю?ение формулируются основные характеристики и правила
функционирования словообразовательных механизмов в модели языка.
Литература
Земская Е. А. Словообразование как деятельность. М., 1992.
Мель?ук И. А. Словообразование в лингвисти?еских моделях типа
'Смысл ' Текст' (предварительные заме?ания) // Metody formalne w opisie
jezykow slowianskich. Bialystok, 1990. С. 47-74.
Wierzbicka A. Semantics, culture and cognition. Universal human concepts in
culture-specific configurations. Oxford, 1992.
Модель интаэротекста - интаэрографа, основные закономерности

синтактики художественной прозы
Ю. К. Крылов
Санкт-Петербургский государственный электротехни?еский университет
им. В. И. Ульянова-Ленина
интаэротекст - интаэрограф, ?ленение художественных и генети?еских текстов
на синтакти?еские элементы, теория и эксперимент
Summary. Theory of entirotext is of a universal nature and can be applied
to the analysis of entirosystems of a any ontological nature and not only
to the description of prose texts on natural human languages.
Под интаэросистемами (от английского entire - совершенный, целый, полный)
будем понимать иерархи?еские структуры, для которых доминантным атрибутом
(независимо от онтологи?еской природы) выступает свойство целостности.
В данном сообщении общие положения теории интаэросистем прилагаются к
анализу интаэротекста - оптимальной целостной иерархи?еской системы,
состоящей из элементов, характеризуемых отношениями линейного порядка на
всех мезоскопи?еских уровнях ее организации.
Легко показать, ?то топология интаэротекста изоморфна коне?ному графу в
виде дерева с постоянным расстоянием (в ?исле то?ек ветвления) от корневой
вершины до любого из элементов наинизшего (сингулярного) уровня.
С другой стороны, помимо 'вертикальной' иерархии, интаэротексту -
интаэрографу присуща и 'горизонтальная' иерархия: синтакти?еские фрагменты
каждого мезоскопи?еского уровня не эквивалентны друг другу,

а подразделяются на системообразующие (клю?евые, ударные) и ординарные.
Соответственно, любой целостный фрагмент прозаи?еского текста содержит
один, и только один, выделенный элемент, однозна?но связанный с
единственным элементом вышерасположенного уровня.
2. В основу коли?ественной теории, позволяющей расс?итать оптимальные
?исленности n(s) фрагментов каждого из мезоскопи?еских уровней
интаэротекста, положен принцип максимального правдоподобия, согласно
которому оптимальные n(s) таковы, ?то обеспе?ивают максимальное ?исло
разли?ных способов (комплексий) его потенциальной реализации.
В результате решения соответствующих оптимизационных зада? полу?ено, ?то
интаэротекст характеризуется следующими соотношениями ?исленностей
образующих его элементов:
а) отношение ?исла гласных g к ?ислу слов N в тексте равно
g / N = 3(sqrt(5) +1) / 2sqrt(5) = 2.1708 (1)
б) ?исло согласных в интаэротексте равно суммарному коли?еству
ритмообразующих элементов сингулярного уровня (гласных и пробелов);
в) коли?ество фрагментов n(s) s-го синтакти?еского уровня интаэротекста в
функции s убывает в геометри?еской прогресии со знаменателем
q = (5 - sqrt (5)) / 10 = z / sqrt(5) = 0.2764,
где z = 0.618 - известное золотое се?ение. Следует особо под?еркнуть, ?то в
рамках рассматриваемой теории золотое се?ение не вводится
феноменологи?ески, а определяется как решение соответствующей
оптимизационной зада?и.
Одним из следствий теории интакэротекста выступает его фрактальность:
распределение фрагментов (s + k) - го уровня, вы?исленное в единицах s - го
уровня, зависит лишь от k, и не зависит от s. В ?астности для k = 1
вышеуказанное распределение удалось смоделировать с помощью марковской цепи
с переходной матрицей, элементы которой либо равны нулю, либо с то?ностью
до нормировки по строкам определяются цело?исленными степенями золотого
се?ения.
3. Сопоставление теории с экспериментом было выполнено на массиве
художественных текстов более ?ем пятидесяти авторов с общим объемом порядка
пяти миллионов словоупотреблений.
В проведенных исследованиях использовались как обы?ная (буквенная) запись
текстов, так и их орфоэпи?еская (фонети?еская) транскрипция. В последнем
слу?ае для проведения исследований на достато?но представительном материале
был создан специальный пакет програм позволивший:
а) переходить от обы?ной буквенной записи текстов к их фонети?еской
транскрипции;
б) автомати?ески сегментировать полу?енные нотации зву?ащей ре?и на
фонети?еские слова - фрагменты зву?ащей ре?и в виде знаменательного слова
или со?етания служебных и знаменательных слов, объединенных одним (и только
одним) словестным ударением;
в) используя предварительную стандартную разметку текста выделять более
крупные фрагменты его организации: синтагмы, фразы, фонети?еские абзацы,
темати?еские единства и т. д.
Кроме текстов художественной прозы проводилась обработка 'генети?еских
текстов'. Исследовались как нуклеотидные последовательности целостных
генов, так и кодируемые последними цепо?ки аминокислот. При этом
использование синонимии кодонов позволило осуществить фрагментирование
генети?еских текстов и на более крупные синтакти?еские фрагменты.
4. Проведенные эмпири?еские исследования показали, ?то в обы?ном
художественном тексте слова удовлетворяют закону свободной формальной
со?етаемости: вероятность появления слова, на?инающегося на гласную либо
согласную не зависела от того, на какую фонему (гласную или согласную)
окан?ивается предыдущее слово.
Проверка рассматриваемой теории на текстах, записанных в обы?ном буквенном
представлении, легко может быть выполнена с помощью формулы (1) - пункт
2 (а). Анализ показал, ?то это соотношение для массива, содержащего более
тыяс?и текстов, выполняется с то?ностью до долей процента.
На уровне фонети?еской транскрипции художественных текстов с аналоги?ной
то?ностью выполнялись и соотношения 2 (б, в). Для генети?еских
последовательностей расхождение наблюдаемых зна?ений с теорети?ескими было
весьма мало и лишь в немногих слу?аях превышало один-два процента. У?итывая
полное отсутствие подгоно?ных параметров, можно утверждать, ?то теория
интаэротекста, действительно, носит универсальный характер и может быть
использована для анализа интаэросистем произвольной онтологи?еской природы,
а не только для описания прозаи?еских текстов естественных языков.
Проблемы морфемного ?ленения и автоматизация процесса

морфемной сегментации русского слова
О. В. Кукушкина
Московский государственный университет им. М. В. Ломоносова


Автомати?еское вы?ленение корня слова и сведение родственных слов - о?ень
полезная функция лингвисти?еских процессоров, используемая для расширения
поисковых возможностей. Однако при ее реализации возникают зна?ительные
трудности. Главные из них - это многообразие существующих в русском языке
словообразовательных моделей и словарная незафиксированность и
потенциальность огромного коли?ества используемых производных слов (прежде
всего составных). Последнее делает невозможным ?исто словарный подход к
решению зада?и автомати?еской сегментации и выделения корня.
Практи?еские трудности дополняются трудностями теорети?ескими. Фузионный
характер русского языка делает во многих слу?аях невозможным однозна?ное
морфемное ?ленение слова. 'Не?еткость' морфемных швов и их орфографи?еская
'размытость' (ср. слу?аи типа рыбацкий) усугубляются тем, ?то в русском
слове ?асто имеет место расхождение между смысловым и формальным ?ленением.
Это связано с неэлементарностью многих морфемы, их распадением с формальной
то?ки зрения на две и более похожие на отдельные морфемы единицы, не
обладающие необходимым для морфемы зна?ением. Бинарность основ типа огур~ец-
, бужен~ин-, выс~ок-, аффиксов типа ан~ск, ль~щ~ик и т. п. вполне
закономерна и объяснима с истори?еской то?ки зрения, однако для теоретиков
и практиков современного русского языка она создает большие сложности. В
результате приходится либо вводить такие понятия, как степени ?ленимости,
остато?ная ?ленимость, либо решать проблему более кардинально, декларируя
нали?ие в нашем сознании и языке не одного, а двух уровней ?ленения -
морфемного и доморфемного (субморфного) (см. [1]).
Хотя последний подход позволяет разрешить знаменитый 'спор о буженине'
строго синхронно и является о?ень перспективным, при анализе больших
массивов слов он пока не применялся. Это связано как с тем, ?то сама идея
существования двух уровней ?ленимости еще только пробивает себе дорогу, так
и с тем, ?то неизбежно вытекающая из нее необходимость давать не один, а
два варианта ?ленения для многих русских слов существенно увели?ивает объем
работы. Нали?ие разных типов ?ленимости заставляет задуматься над тем,
какой же тип ?ленения представлен в существующих морфемных и морфемно-
словообразовательных словарях. Поскольку строгое разрани?ение морфемной и
субморфной ?ленимости еще впереди, большой последовательности в этом
отношении нет. При общей ориентации на морфемное ?ленение в словарях имеют
место целые у?астки сдвига от морфемного ?ленения в сторону субморфного. В
результате однокоренными оказываются такие, например, слова, как победить,
убедить, беда' (см., напр. [2]).
В связи со всем сказанным, при корректном подходе к построению блока
автомати?еской сегментации необходимо сна?ала решить вопрос о самих
принципах ?ленения, а также отконтролировать с у?етом этих принципов
используемый словарный материал. Совершенно о?евидно, ?то для
автомати?еского анализа наиболее привлекательным является субморфный, ?исто
формальный принцип ?ленения. При его реализации не требуется дополнительной
информации о словообразовательных связях слова (критерий Г. О. Винокура) и
о наборе существующих корней. Однако практи?еская ценность '?истого'
субморфного ?ленения ограни?ена о?ень узким кругом зада?. В автоматизации
нуждается прежде всего морфемное, семанти?еское ?ленение.
Все указанные факторы у?итывались при работе над блоком автомати?еской
сегментации, ведущейся в Лаборатории общей и компьютерной лексикологии и
лексикографии филол. ф-та МГУ (лингвисти?еское обеспе?ение -
О. В. Кукушкина, программная реализация - А. Н. Тимашев). Данный проект
является естественным развитием системы автомати?еского анализа русских
текстов, созданной в Лаборатории (см. [3]). В реализованной к настоящему
времени версии используется комплексный словарно-алгоритми?еский подход,
при котором словарь слов, используемый прежде всего для снятия корневой
омонимии, дополняется словарями аффиксов. Комплексность отли?ает и
используемые принципы ?ленения. В алгоритме и базе данных содержится
возможность выдавать варианты разные варианты ?ленения, в т. ?. и
'максимальный', субморфный, однако в основном режиме работы реализуется
комбинированный субморфно-морфемный принцип. Он заклю?ается в следующем:
корни ?ленятся строго 'морфемно' (т. е. семанти?ески), аффиксы - субморфно
(т. е. 'формально'). Этот подход ориентирован прежде всего на зада?у
оптимального выделения корня и корректного сведения родственных слов.
Аффиксы в со?етании с корнями регулярно порождают совершенно новые
номинативные единицы, не сохраняющие явной смысловой связи со старым,
генети?еским корнем. Выделение такого аффикса из состава корневой морфемы
допустимо только с этимологи?еской то?ки зрения, поэтому в их отношении
необходим строго семанти?еский подход. В первую о?ередь это касается
префиксов, т. к. поисковые и семанти?еские последствия 'отрезания' коне?ной
?асти корня не так тяжелы, как лишение его на?альной ?асти (ср. последствия
выделения корня бед в беда, победить, убедить). Что касается аффиксальных
морфем, то они создают прежде всего проблему степени их рас?лененности
(ср., например, проблему выделения интерфикса в составе суффиксов: -ов-ск-
ий или -овск-ий). Реализация морфемного подхода здесь требует огромных
усилий и обширной вспомогательной базы данных. Однако для целого ряда
прикладных зада? данный вопрос не имеет большого зна?ения, и усилия здесь
могут быть минимизированы. Поэтому здесь можно использовать принцип
максимальной (субморфной) ?ленимости аффикса. Он удобен, в ?астности, тем,
?то позволяет выдавать все возможные варианты ?ленения потенциальных слов.
В настоящее время с помощью первой версии данного сегментатора
осуществлена обработка 90 мгб. массива русских газет. Основная цель
обработки - выявление основного корневого состава русских газетных текстов
и исследование ?астотности и продуктивности отдельных корней. Анализ
результатов показал эффективность использованных принципов и позволил
перейти к завершающей стадии работы - коррекции и пополнению
вспомогательных баз данных.

Литература
1. Чурганова В. Г. О?ерк русской морфонологии. М., 1973.
2. Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М., 1986
3. Кукушкина О. В., Поликарпов А. А. Dictum1 - система для универсального
анализа текстов и словарей // Тезисы XI Международной конференции
Ассоциации 'История и компьютерные исследования'. М., МГУ, 1996.
Построение адаптивных нейросетевых систем автомати?еского анализа

русской зву?ащей ре?и
Ю. П. Ланкин, И. Е. Ким
Институт биофизики СО РАН, Красноярский государственный университет

автомати?еское распознавание ре?и, русский язык, нейросетевые технологии
The presented paper describes investigations, directed to creation of
experimental adaptive model for Russian speech. The model is developed on
the basis of selfadaptive neuron nets with purpose to overcome existing
difficulties of Russian speech identification and to appraise possibility
of world's local micropattern simulation in the field of voice
communications.


Язык как продукт ?елове?еского мозга, являющегося ?астью живого организма,
можно, в свою о?ередь, рассматривать как некую информационно-
коммуникационную среду, надстроенную над биологи?еской системой, далекой от
равновесия. В этом смысле язык является интересным объектом для изу?ения и
моделирования средствами нейроинформатики как сам по себе, так и в ка?естве
средства понимания организации информационных процессов в неравновесных
системах.
По ряду при?ин попытки моделирования языка в системах распознавания и
понимания ?елове?еской ре?и, а также эксперименты по созданию ?еловеко-
машинных диалоговых систем проводились до сих пор в основном методами
'искусственного интеллекта', базирующимися на принципах логи?еского
конструирования с элементами эвристики. Несмотря на то, ?то понимание
ограни?енных возможностей логики в описании сложных явлений окружающего
мира, и, в ?астности, в построении кибернети?еских моделей языка,
существовало уже давно, окон?ательное понимание пришло только после
факти?еского провала амбициозных планов ЭВМ 5-го поколения, ориентированных
на взаимодействие с реальным миром и понимание естественного языка.
Оказалось, ?то попытки построения языковых моделей сталкиваются с
экспоненциальным нарастанием сложности системы уже на первых этапах ее
конструирования.
Эта проблема возникает не только при попытках создания моделей языка и
мышления, но уже на первых этапах, при конструировании систем распознавания
ре?и. Современные нейростевые системы распознавания демонстрируют наилу?шие
результаты в этой области, но и они не лишены недостатков. По утверждению
Т. Кохонена, автора одного из известных нейросетевых алгоритмов и создателя
первой нейросетевой системы пе?ати текста с голоса, доведенной до
коммер?еского использования, не существует компьютерных систем
распознавания ре?и хотя бы приемлемо высокого ка?ества [1]. Хотя методы
математи?еского анализа ре?евых сигналов доведены, казалось бы, до
совершенства, продвижение в этой области затормозилось по тем же при?инам,
?то и создание интеллектуальных систем. Челове?еский слух не идеален, и
высокое ка?ество распознавания ре?и ?еловеком достигается благодаря
параллельному с процессом слушания ре?и развора?иванию внутренних
представлений, которые не удается воспроизвести в техни?еских системах
традиционными методами. Таким образом, общей идеей распознавания должно
стать нейросетевое моделирование не дешифровки, а восприятия ре?и,
связанное с интерпретацией, а не прямым переводом в графи?ескую форму
акусти?еской информации и, соответственно, стратеги?еским подходом к ее
обработке.
Эксперименты по распознаванию ре?и, направленные на упрощение создания
систем распознавания, и расширение возможностей существующих методов в
рассматриваемом направлении описаны в работе [2]. Создание адаптивных
систем ка?ественного распознавания, а в перспективе и понимания ре?и,
базируется на алгоритме самостоятельной адаптации, один из вариантов
которого приведен в публикации [3]. Алгоритм предназна?ен как для решения
традиционных зада? нейроинформатики, так и для 'обу?ения' сложных
адаптивных систем с иерархи?еской организацией [4]. В работе [2] предложена
нейросетевая система распознавания набора ре?евых команд с двумя уровнями
иерархии, обу?аемая параллельно по коне?ному результату. Нейронная сеть
нижнего уровня иерархии отве?ает за выделение устой?ивых фрагментов ре?и
(таких, как фонемы), а нейросеть верхнего уровня специализируется на
распознавании самих команд (слов русского языка). Благодаря одновременному
обу?ению всей нейросистемы происходит оптимальная настройка всех ее
компонентов на коне?ный результат без необходимости согласования между
собой отдельных этапов обработки ре?евого сигнала. Другой особенностью
предложенного подхода является отсутствие необходимости в длительной и
трудоемкой процедуре составления фонети?еского набора, у?итывающего
особенности произношения разли?ных дикторов, необходимого при использовании
класси?еских супервизорных алгоритмов обу?ения нейронных сетей. Нейронная
сеть нижнего уровня иерархии сама формирует требуемые особенности, ?то, по
всей вероятности, отражает работу реальных нейронных сетей мозга.
Описанные особенности сетей с самостоятельной адаптацией [3] использованы
в данной работе для разработки экспериментальной (нейросетевой адаптивной)
модели русского языка, позволяющей в перспективе решить описанные выше
проблемы. О?евидно, ?то на первых этапах исследований как серьезное
достижение можно рассматривать доказательство возможности работы таких
моделей и повышение ка?ества распознавания ре?и по сравнению с
традиционными методами. Для построения экспериментальной модели
рассматривается многоуровневая нейросетевая иерархи?еская система,
построенная с использованием 'уровневой' модели языка, основанной также на
представлении о разли?ии устной и письменной репрезентативных систем языка.
Компоненты этой системы позволяют формировать необходимое ассоциативно-
контекстное окружение для уто?нения распознаваемых слов.

Литература
1. Kohonen T. The 'Neural' Phonetic Typewriter // IEEE Computer, March
1988. P. 11-22.
2. Лалетин П. А., Ланкина Э. Г., Ланкин Ю. П. Использование сетей с
самостоятельной адаптацией для распознавания слов ?елове?еской ре?и //
Нау?ная сессия МИФИ-2000. II Всероссийская нау?но-техни?еская конференция
'Нейроинформатика-2000': Сб. нау?. тр.: В 2 ?. Ч. 2. М.: МИФИ, 2000. С. 88-
95.
3. Басканова Т. Ф., Ланкин Ю. П. Нейросетевые алгоритмы самостоятельной
адаптации // Нау?ная сессия МИФИ-99. Всероссийская нау?но-техни?еская
конференция 'Нейроинформатика-99': Сб. нау?. тр.: В 3 ?. Ч. 1. М.: МИФИ,
1999. С. 17-24.
4. Ланкин Ю. П. Самостоятельно адаптирующиеся нейронные сети в
моделировании сложных объектов // Материалы IX-го Международного
симпозиума 'Реконструкция гомеостаза':

В 4 т. Т. 1. Красноярск: КНЦ СО РАН, 1998. С. 281-287.
Гипертекст русского языка
С. В. Лесников
Сыктывкарский государственный университет

компьютер, лексикография, словарь, интернет, свод, гипертекст, русский,
язык
Summary. HYPERTEXT of Russian - Is perceived as usage of the off-the-shelf
information technologies for the analysis (processing in the broad sense of
the word) information in the nonlinear form in the interactive mode on the
personal computer by means of синтагмати?ески realized in the computer form
digitized lexicographic: TEXT and DICTIONARY, graphics, audio and video,
animated... Datas. A HYPERTEXT of Russian - next turn of a spiral of
development of Computer Fund of Russian in Internet). The project is
supported by the Russian fund of basic researches (The grant ? 2000-06-
80176, scientific chief S. W. Lesnikow gowor@online.ru/subject=80176).


Под ГИПЕРТЕКСТОМ РУССКОГО ЯЗЫКА понимается использование новейших
информационных технологий для анализа (переработки в широком смысле слова)
информации в нелинейной форме в интерактивном режиме на персональном
компьютере посредством синтагмати?ески реализованных в компьютерной фор-

ме оцифрованных лексикографи?еских: ТЕКСТовых и СЛОВАрных, графи?еских,
аудио и видео, анимационных... данных. ГИПЕРТЕКСТ РУССКОГО ЯЗЫКА - открытая
система - о?ередной виток спирали развития Компьютерного Фонда Русского
Языка в Internet. Проект финансово поддержан Российским фондом
фундаментальных исследований (грант ? 2000-06-80176, нау?ный руководитель
С. В. Лесников gowor@online.ru/subject=80176).
При этом ГИПЕРТЕКСТ РУССКОГО ЯЗЫКА состоит из ТЕКСТов и СЛОВАРей русского
языка. Тексты систематизированы (смешение в одном разделе стилей, жанров,
форм представления текстовых материалов обусловлено компьютерной формой с
у?етом потребностей пользователя и удобством поиска информации) по
разделам: художественный (автор, название, год, издание, жанр),
публицисти?еский (СМИ), официально-деловой (документ, конституция, закон,
устав, инструкция, положение, приказ, указ и др. из области
административных, юриди?еских и дипломати?еских отношений), нау?ный
(диссертация, (авто)реферат, монография, у?ебник, пособие, тезисы, доклады
и материалы конференций, форумов, симпозиумов, ?тений, школ-семинаров,
лекция, рецензия, обзор, библиография, дипломная и курсовая работы),
разговорный (просторе?ье, говор, сленг, арго, жаргон; анекдот, байки),
коммуникативный (эпистолярный: письмо, телеграмма; телефон; ?ат - полилог и
диалог, электронная по?та и сайт). Словари (= издание, содержащее
упорядо?енное множество языковых единиц с соответствующими
характеристиками), энциклопедии (= издание, содержащее свод
систематизированных знаний), справо?ники (= издание, содержащее сведения по
определенной области знания) систематизированы по функции: академи?еская =
нау?но-исследовательская (метаязык, наука, производство), у?ебная -
методи?еская (школа, вуз), потребительская (популярная
- быт, хобби); типу пользователя; содержанию: общий - синхрония = норма,
диахрония = история, панхрония = архетип и миф; ?астный - автор, тема,
термин, статистика; региональный - диалект (сводный, областной, локальный),
социолект (просторе?ье, арго, жаргон, сленг); типу носителя: а) рукопись,
картотека, б) брошюра, книга, выпуск, ?асть, том, в) электронная =
компьютерная - магнитный и / или опти?еский диск, интернет, база / банк
данных / знаний, оригинал-макет; объему, форме представления (глоссарий,
вокабулярий, разговорник, лексикон, словарь, словарик, словник, список,
энциклопедия, справо?ник, индекс, пере?ень, указатель, словесин, симфония)
и способу упорядо?ения (алфа-

вит - прямой, инверсный;; идеография, тезаурус, хронология, произвол)
лексикографи?еских материалов.
Представление зна?ений многозна?ных терминов

в тезаурусе для автомати?еского концептуального индексирования
Н. В. Лукашеви?
Центр информационных исследований ИСК РАН

информационно-поисковый тезаурус, автомати?еская обработка текста
Summary. The paper presents a technique of description of ambiguous terms
in the Sociopolitical. thesaurus created as a tool for automatic conceptual
indexing. The technique includes representation of meanings of ambigous
terms as separate descriptors in the Thesaurus, the collecting of multiword
terms which have ambigous terms as parts, principles of the clustering of
meanings.


1. Постановка зада?и.
В настоящее время в информационно-поисковых системах процесс поиска
документов базируется в основном на предварительном процессе
автомати?еского индексирования по словам. Использование для поиска
документов информационно-поисковых тезаурусов является достато?но редким
явлением в силу большой трудоемкости и низкой скорости ру?ного
индексирования. Альтернативой индексированию по словам является
автомати?еское концептуальное индексирование по понятиям тезаурусов
(дескрипторам), специально разработанных как инструмент для автомати?еской
обработки текстов. В результате автомати?еского концептуального
индексирования для каждого текста строится не пословный индекс, а индекс по
дескрипторам тезауруса, возможно расширение запроса по синонимам и
нижестоящим дескрипторам.
При этом необходимо решить вопросы, связанные с представлением в тезаурусе
многозна?ных терминов, а именно, как и насколько подробно должны быть
описаны разли?ные зна?ения многозна?ных терминов, ?тобы такое описание
могло стать базой для эффективного разрешения многозна?ности терминов в
процессе автомати?еского индексирования. Дело в том, ?то слишком детальное
разбиение зна?ений, не поддержанное мощностью методов разрешения
многозна?ности, ведет к серьезным потерям ка?ества автомати?еского
индексирования. Так, в работе [1] в контексте автомати?еской обработки
документов для информационного поиска изу?ается, на основе каких факторов
можно объединить слишком подробно разделенные зна?ения лингвисти?еского
ресурса EuroWordNet [2].
Практи?еская проблема объединения некоторых классов зна?ений многозна?ных
слов поддерживается теорети?ескими разработками, изложенными в работе [3],
где предлагается некоторые виды регулярной полисемии представлять в виде
мета-единиц сложной структуры.
Доклад посвящен описанию способов описания зна?ений многозна?ных терминов
в Общественно-полити?еском тезаурусе [4], разработка которого ведется
Центром информационных исследований с 1994 года, и который с 1996 года
используется как инструмент для автомати?еского индексирования,
автомати?еского рубрицирования и автомати?еского аннотирования [5]
официальных документов Российской Федерации, газетных статей и сообщений
СМИ на русском языке. Общественно-полити?еских тезаурус представляет собой
иерархи?ескую сеть понятий, с каждым из которых связано множество его
текстовых входов (терминов).

В настоящее время Общественно-полити?еский тезаурус вклю?ает в себя
25 тыся? понятий, 55 тыся? терминов, более 95 тыся? связей между понятиями.
2. Представление многозна?ных терминов в Тезаурусе.
В Тезаурусе существуют два основных способа представления зна?ений
многозна?ных терминов, в зависимости от того, имеет ли термин несколько
зна?ений в проблемной области (разведка) или термин имеет в проблемной
области одно зна?ение, а другие его зна?ения относятся к общезна?имой сфере
языка (образование).
3. Вклю?ение в Тезаурус словосо?етаний, содержащих многозна?ные слова.
Важнейшим видом деятельности при разработке Общественно-полити?еского
тезауруса, направленным на улу?шение ка?ества разрешения многозна?ности,
является поиск и вклю?ение в тезаурус (как отдельных понятий или как
синонимов к существующему понятию) однозна?ных словосо?етаний, содержащих
многозна?ные слова, например, глубокая пе?ать, круглая пе?ать, центральная
пе?ать. Как показал эксперимент, такие словосо?етания улу?шают ка?ество
разрешения многозна?ности терминов на треть.
4. Основные типы регулярной многозна?ности терминов, которые
представляются в Тезаурусе как одно понятие.
Основным принцип, который позволяет оценить, возможно ли представить
разные зна?ения термина, как одно понятие в Тезаурусе, базируется на
разли?ии этих зна?ений своими синоними?ескими рядами и связями с другими
дескрипторами Тезауруса. В докладе приводятся основные типы многозна?ных
терминов, которые представляются в Тезаурусе как одно понятие, и проводится
сравнение с типами регулярной полисемии, кластеризация которых предложена в
[3].
Представление пары зна?ений слова как одной единицы Тезауруса (школа как
организация и школа как здание) приводит к введению специальной разметки на
отношениях Тезауруса.
5. Эксперименты и оценки ка?ества разрешения многозна?ности терминов в
процессе автомати?еского индексирования.
Методы разрешения многозна?ности терминов в процессе автомати?еского
индексирования по Общественно-полити?ескому тезаурусу подробно описаны в
[6].

В докладе описаны эксперименты и приведены оценки ка?ества разрешения
многозна?ности терминов в процессе автомати?еского индексирования.
Литература
1. Chugur I., Gonzalo J., Verdjeo F. Sense distinctions in NLP
applications // Proceedings of 'OntoLex-2000' (to appear in Jan. 2001).
2. Climent S., Rodriguez H. and Gonzalo J. Definitions of the Links and
Subsets for Nouns of the EuroWordNet Project. Deliverable D005. WP3.1.
EuroWordNet. LE2-4003. 1996.
3. Pustejovsky J. The Generative Lexicon. The MIT Press, 1995.
4. Лукашеви? Н. В., Салий А. Д. Представление знаний в системе
автомати?еской обработки текстов // НТИ. Сер. 2. 1997. ? 3.
5. Loukachevitch N., Salii A. and Dobrov B. Thesaurus for Automatic
Indexing: Structure, Development, Use // Sandrini P. (ed.): TKE'99.
Terminology and Knowledge Engineering. Proceedings 5th International
Congress on Terminology and Knowledge Engineering. Vienna. TermNet., 1999.
P. 343-355.
6. Лукашеви? Н. В. Разрешение многозна?ности терминов в процессе
автомати?еского индексирования // Тр. международного семинара 'Диалог'96'.
М., 1996. C. 142-146.
Опыт визуального интерактивного обу?ения синтаксису
Karl-Henrik Lund
University of Southern Denmark / Odense University, Дания

прикладная русистика, методология русского языкознания
Summary. The presentation introduces the Internet based grammar teaching
program VISL, developed at the University of Southern Denmark, and
demonstrates its Russian component.


Уже несколько лет в Южнодатском университете в г. Оденсе (Университет
Оденсе) разрабатываются технологии для автоматизированного обу?ения
синтаксису ряда языков, а также для автомати?еского анализа текстов.
Работа в данном направлении на?алась в 1996 г., когда в рамках проекта
VISL (Visual Interactive Syntax Learning) разработали компьютерную
обу?ающую программу для визуального представления синтакси?еской структуры
предложения в виде 'деревьев зависимостей' и создали первые блоки уже
проанализированных предложений на английском, французском и немецком
языках. Потом прибавились и другие языки, прежде всего германские и
романские, такие, как датский, португальский, испанский, итальянский, но и
более 'отдаленные', как японский и арабский.
Параллельно проводилась работа по созданию автомати?еских
морфосинтакси?еских анализаторов (парсеров) на основе концепции 'грамматики
ограни?ений' (Constraint Grammar). Первым результатом этого стали
электронные парсеры для португальского и английского языков, осуществляющие
с высокой степенью надежности морфологи?еский и синтакси?еский разбор
любого текста. Кроме того, в португальский модуль был встроен семанти?еский
компонент, позволяющий полу?ить дословный перевод на датский язык
произвольно выбранного португальского текста. В настоящее время
совершенствуются пробные версии парсеров для испанского и датского языков и
ведется работа по введению семанти?еской информации в английский и датский
модули. Ко всем этим разработкам свободный доступ ?ерез Интернет
(http://visl.hum.sdu.dk).
Доклад знакомит с первым опытом внедрения русского модуля, содержащего
'готовые', уже проанализированные предложения. На примере русских
предложений будут показаны результаты принятия довольно формализованного
подхода к синтакси?ескому анализу со строгим разли?ением функции и формы
для каждой отдельной словоформы. В этой связи предполагается
продемонстрировать интерактивные (диалоговые) функции программы и показать
заложенные в программе возможности для альтернативных анализов и
соответственно альтернативных древесных структур. Наконец на конкретном
материале будут рассмотрены последствия выбора такой модели описания,
основанной на грамматике зависимостей, которая в максимальной степени
соответствует терминологии и принципам описания для других языков. Ясно,
?то ?ем больше единообразия и в анализе, и в терминологии, тем лу?ше
особенно с педагоги?еской то?ки зрения. Кроме того, такой подход может
помо?ь высве?ивать разли?ия и сходства в структуре разли?ных языков как
родственных, так и неродственных. С другой стороны, понятно, ?то, применяя
этот метод, мы рискуем затушевать действительно фундаментальные структурные
разли?ия между языками, ?то не в последнюю о?ередь актуально, когда
предметом анализа является русский язык.
Информационно-статисти?еские технологии изу?ения эволюции художественной

литературы (на материале Компьютерной антологии русского рассказа XX века)
Г. Я. Мартыненко, А. О. Гребенников, Е. А. Козлова, Е. И. Лазаренко, Т. И.
Шерстинова
Санкт-Петербургский государственный университет

текст, корпус, лекси?еская структура, статисти?еские методы, ?астотный
словарь, стилеметрия, русский язык, художественная проза
Summary. The major principles and procedures underlying the researches of
the evolution of the fiction language are described. The material for
research is the Computer Anthology of the XX Century Russian Short Stories
being created at the Applied Linguistics Department of the Philological
Faculty in the St. Petersburg State University.


1. Методологи?еской основой изу?ения эволюции языка художественной
литературы помощью информационно-статисти?еских технологий, разрабатываемых
на кафедре математи?еской лингвистики СПбГУ являются следующие нау?ные
направления:
(1) Современные идеи лингвисти?еской стилистики в области типологии
художественных текстов, в ?астности художественно-прозаи?еских6 выделение
синтети?еской и аналити?еской, описательной и прозаи?еской, орнаментальной
и фигуративно нейтральной и др. видов художественной прозы [Арутюнова].
(2) Системные представления общей поэтики о противопоставления
синхрони?еских и диахрони?еских разрезов литературы и перемещений языковых
нововведений языковых нововведений из стилисти?еской периферии в
направлении стилисти?еской центра при переходе от одной литературной эпохи
к другой [Тынянов].
(3) Идеи и методы стилеметрии - прикладной филологи?еской дисциплины,
занимающейся изу?ением стилевых характеристик с целью упорядо?ивания и
систематизации (типологии, диагностики, атрибуции, классификации, датировки
текстов и их ?астей [Мартыненко].
(4) Достижения современной писательской лексикографии, связанные изу?ением
образа мира в слове писателя [Поцепня].
(5) Опыт современной статисти?еской лексикографии в области создания
дифференциальных ?астотных словарей художественных текстов [Шайкеви?].
(6) Современные информационные технологии в области создания машинных
фондов, текстовых и словарных баз данных, электронных библиотек,
мультемидийных систем (RIAO 2000).
2. Исследование эволюции языка русской художественной прозы осуществляется
на материале Компьютерной антологии русского рассказа XX века. Антология
представляет собой полнотекстовую базу данных, состоящую из множества
рассказов (новелл), 'разрезанного' на последовательность синхрони?еских
подсистем, соответствующих временным представлениям о периодизации русской
литературы XX века. Обращение к данному жанру обусловлено его огромной
распространенностью, возможностью вклю?ения в орбиту исследования большого
?исла воров, в том ?исле второстепенных, а также тем, ?то данный жанр
выполняет функцию развед?ика - в рассказе в сравнении с другими
прозаи?ескими жанрами (романом, повестью (с опережением рождаются новые
стилисти?еские явления и отмирают старые.
3. Текст как статисти?еская совокупность может быть охарактеризован ?ерез
множество переменных (варьирующих признаков), не отражающих напрямую
глубинных, сущностных сторон текста. Эти внешние, 'поверхностные' признаки,
признаки - симптомы являются принципиально диагности?ескими, образуя в
со?етании диагности?еский синдром, с помощью которого, с одной стороны,
осуществляется идентификация текстов, а с другой, предпринимаются усилия
для проникновения в глубинную организацию текста, не доступную
непосредственному наблюдению.
4. Техника работы с лингвостатисти?ескими данными диктуется следующими
факторами: 1) отнесенностью данных к конкретному лингвисти?ескому уровню,
2) типом рефлексируемых объектов, вклю?аемых в классификационную работу, 3)
жанром текста и его объемом, 4) сложившейся в настоящем времени типологией
художественных текстов, 5) стремлением к использованию в работе
минимального ?исла полезных диагности?еских признаков, 6) необходимостью
нахождения компромисса между ка?ественными историко-литературными и лингво-
стилисти?ескими представлениями со сложной математи?еской техникой работы с
данными.
5. Так, на лекси?еском уровне работа со статисти?ескими данными вклю?ает
следующие наиболее важные операции:
(1) отбор текстов, основанный на компромиссе между техникой выборо?ного
наблюдения в статистике, антологи?еского подхода в литературоведении и
системного в общей поэтике,
(2) лемматизация текстовых единиц,
(3) разрешение проблемы неоднородности текстовых единиц, например, с то?ки
зрения их отнесенности к разли?ным видам ре?и (авторской, неавторской и
т. п.),
(4) построение системы ?астотных словарей,
(5) преобразование ?астотных словарей в статисти?еские распределения в
номинальной, ?астотной и рангово-?астотных шкалах,
(6) разыскание параметров (по литературным данным и на основе
собственных изысканий), адекватно отражающих структуру ?астотного словаря,
(7) проверка отобранных параметров на состоятельность, несмещенность и
эффективность, и формирование списка параметров, отве?ающих этим свойствам,
(8) математи?еское моделирование лексико-статисти?еских распределений,
(9) построение статисти?еских классификаций, отражающих стилисти?еские
закономерности в пределах данной литературной эпохи или последовательности
литературных эпох,
(10) интерпретация полу?енных результатов с позиций историко-литературных
представлений, общей и истори?еской стилистики.

Литература
Арутюнова Н. Д. О синтакси?еских типах художественной прозы // Общее и
романское языкознание. М.: Наука, 1972.
Мартыненко Г. Я. Основы стилеметрии. Л.: Изд-во ЛГУ, 1988.
Потебня Д. М. Образ мира в слове писателя. СПб., СПбГУ, 1997.
Тынянов Ю. Н. Поэтика. История литературы. Кино. Л., 1977.
Шайкеви? А. Я. Дифференциальные ?астотные словари и изу?ение языка
Достоевского // Слово Достоевского. М.: ИРЯ РАН, 1996. С. 197-253.
Воздействие на русский язык автоматизированных средств массовой информации
Ю. Н. Мар?ук
Московский государственный университет им. М. В. Ломоносова

русский язык, эволюция языка, системы машинного перевода, лексика,
синтаксис
Summary. The influence of modern machine translation systems upon the
Russian language is considered. INTERNET MT systems contribute
significantly to overcoming language barriers but at the same time affect
linguistic background of Russian language native speakers by numerous
mistakes. The language resists but influx of translations continues.
Machine translated texts are analyzed and importance of wrong translations
is evaluated.


Языковые барьеры - самые зна?ительные на пути распространения разного рода
информации в современном мире. Реальный и наиболее эффективный способ
преодоления этих барьеров - перевод. Объем переводов в мире растет
достато?но быстро. Ускорить процесс перевода может только эффективная
автоматизация процесса и создание средств помощи перевод?ику в виде
автомати?еских и автоматизированных словарей, справо?ников и т. п.
Наибольшее влияние на выходной язык среди автоматизированных систем
обработки естественно-языковых текстов имеют системы машинного перевода.
Проникновение иностранных терминов, калек, прямые заимствования являются
безусловно результатом ?елове?еских действий над языком - работы
перевод?иков, редакторов, служб рекламы и т. п. - но ?асто соответствующие
подсказки даются результатами работы автоматизированных систем, в ?астности
и особенно систем машинного перевода.
Исследование результатов перевода текстов на русский язык посредством
наиболее распространенных в ИНТЕРНЕТЕ систем машинного перевода, таких как
СИСТРАН, ПРОМПТ, СОКРАТ, разного рода компьютерных перевод?иков гораздо
меньшего масштаба, позволяет классифицировать основные направления
воздействия на русский язык.
Эти направления следующие:
- влияние на орфографию. Такие форманты как падежные окон?ания при?астий
?асто искажаются и влияют на грамотность природных носителей языка. В какой-
то мере это может быть связано с движением к аналитизму ('производить
торговлю' вместо 'торговать' и пр.),
- воздействие на лексику ?ерез терминологию и рекламу. Реклама отве?ает за
такие шедевры как 'сникерсни по-?ерному', однако и неправильный перевод
слов как терминологи?еского характера, так и относящихся к
общеупотребительным слоям лексики, безусловно имеет своим исто?ником
воздействие автоматизированных систем, переводящих на русский язык или
используемых русскоговорящими.
- изменение синтакси?еского строя предложения. Здесь воздействие наиболее
сильное и достигшее существенных результатов. Оно исходит не только от
автоматизированных систем, но и от воздействия прессы ?ерез неправильные
переводы. Пример: установившееся в практике радиопереда? неправильное для
русского языка актуальное ?ленение, скалькированное с английского
синтакси?еского строя прессы.
Язык сопротивляется воздействию, однако всякое сопротивление ограни?енно,
поэтому при определении языковой политики государства, подобно тому, как
это делается в других странах, например, во Франции, целесообразно
у?итывать такое воздействие. С повышением ка?ества машинного перевода,
которое (повышение) зависит в первую о?ередь от эффективности
лингвисти?еских алгоритмов анализа и синтеза текстов и от полноты и
оптимальной организации автоматизированных (машинных) словарей,
отрицательное воздействие ошибок может уменьшаться, однако повышение
ка?ества машинной обработки пока еще достигается большими затратами труда и
средств и реализуется весьма медленно, в то время как ?исло работающих
систем, дающих грубые результаты и большое ?исло ошибок, возрастает
довольно устой?иво под влиянием растущего спроса на переводы.
Литература
Мар?ук Ю. Н. Основы компьютерной лингвистики. М.: МПУ, 2000. 226 с.
Хроменков П. Н. Анализ и оценка эффективности современных систем машинного
перевода. Дисс. . канд. филол. наук. М.: МПУ, 2000. 138 с.
К проблеме лингвисти?еского обеспе?ения парламентских процедур
Т. А. Москаленко
Аппарат государственной думы Федерального собрания Российской Федерации,
Парламентская библиотека

законодательная процедура, международные договоры, русская версия тезауруса
Европейского парламента,

комплексная словарная база данных, нормализация, многоязы?ность,
информационный поиск
Summary. Compilation of the EUROVOC thesaurus Russian version at the
Russian Parliamentary library and an experience of the EUROVOC Russian
version use by parliamentary legal and information services demonstrate an
extreme necessity of such an intellectual linguistic tool for various
parliamentary activities - legislative procedure, ratification of
international agreements, legislative harmonization, comparison of federal
and regional laws, information retrieval, etc.


Разработка русской версии тезауруса Европейского парламента EUROVOC1,
проект которой был осуществлен в Парламентской библиотеке Российской
Федерации в 1995-2000 гг. (перевод и адаптация - выбор оптимальных русских
эквивалентов для 6 тыс. европейских дескрипторов, расширение тезауруса за
с?ет 5 тыс. российских дескрипторов и аскрипторов, встроенных в
семанти?ескую структуру EUROVOC); обсуждение этой работы на международных
семинарах и конференциях с у?астием парламентских представителей государств
- ?ленов ЕС, а также ряда стран Центральной и Восто?ной Европы [1]; высокая
оценка результатов работы ?ленами Нау?но-консультативного совета при
Председателе Государственной Думы [2]; предложение придать в дальнейшем
русской версии тезауруса EUROVOC статус официального рекомендательного
документа - все это свидетельствует о растущем понимании важной роли
интеллектуальных лингвисти?еских средств не только в процессах обработки и
поиска информации, управления парламентской документацией, но и при
совершенствовании законодательного процесса, а также при осуществлении ряда
парламентских процедур, связанных с внешнеполити?ескими вопросами и
международным сотрудни?еством.
Вопросам использования языка законодательства и его лексики всегда
уделялось внимание в рамках законодательной техники, тем не менее социально-
правовая практика постоянно испытывает дефицит в ка?ественных словарях
законодательной лексики и юриди?еской терминологии. В 1998 г. в связи с
обсуждением проблем общеправового тезауруса Председатель Государственной
Думы Г. Н. Селезнев заметил, ?то не существует каких-либо официальных
документов, которые хотя бы в рекомендательном плане определяли состав
нормативной правовой лексики и отношения лекси?еских единиц между собой,
хотя практика законотвор?ества, систематизации и кодификации
законодательства испытывает в нем острую потребность [3].
Опыт применения издания многоязы?ного представления русской версии
EUROVOC [4] в Правовом управлении Государственной Думы для сопоставления
переводов международных договоров, которые подлежат ратификации Российской
Федерацией и имплементации2 в российскую правовую систему, но при этом не
имеют русских аутенти?ных текстов [5], демонстрирует использование
вербального информационно-поискового тезауруса как терминологи?еского
стандарта. Таким образом, нормативный словарь искусственного языка,
лекси?еские единицы которого имеют естественно-языковую форму и
искусственность которого связана прежде всего со специально
устанавливаемыми зна?ениями и правилами употребления лекси?еских единиц,
отли?ающимися от принятых в естественном языке, в силу отсутствия
соответствующего лексикографи?еского инструментария воспринимается как
подмножество общеправового тезауруса - своеобразного понятийно-
терминологи?еского инвентаря российской правовой системы.
Систематизация правовой информации, обеспе?ение ориентации в едином
правовом пространстве в связи с зада?ами приведения в соответствие
федеральному законодательству законодательства субъектов Российской
Федерации, сопоставления российского законодательства с европейскими
нормами права; расширение рамок правовой системы Российской Федерации за
с?ет вклю?ения в нее международных договоров - все это требует
интегрального подхода к разработке вопросов языка законодательства,
выявлению его взаимосвязей с элементами системы права и системы
законодательства и построению на этой основе комплексной словарной базы
данных, обеспе?ивающей унификацию, стандартизацию и системное представление
лексики и терминологии; принятие решений при разработке новых правовых
понятий и лингвисти?еской экспертизе законопроектов, при переводе на
иностранные языки нормативных правовых документов; уто?нение информационных
потребностей пользователей при поиске в правовых базах данных и т. д.

Литература

1. Moskalenko T. A. Preparation of the Russian Version of EUROVOC at the
Parliamentary Library of the Russian Federation: Adaptation Problems //
EUROVOC Seminar'95: Proc. of the Seminar for EUROVOC Thesaurus Users from
Central and Eastern European Parliamentary Libraries and Information
Institutions, Prague, June 27-28, 1995. Prague, 1995; Moskalenko T. A.,
Miakova N. A. Use of the EUROVOC thesaurus for subject processing the
documents at the Parliamentary Library of the Russian Federation //
Seminar 'EUROVOC in the Computer Environment', Warsawa, October 28-29,
1996. Warsawa, 1998; Andreeva I. A., Mashlykin V. G., Moskalenko T. A.,
Voitolovskaya E. P. Linguistic Information Retrieval Tools Integration
(citing the experience of compilation Russian versions of the multilingual
EUROVOC and FIV thesauri) // Ninth EINIRAS Annual Conference, Moscow,
October 8-9, 1999; Andreeva I. A., Moskalenko T. A., Kumalagov O. A.
Russian Version of EUROVOC Thesaurus // Seminar on the Maintenance of the
EUROVOC Thesaurus, Madrid, October 28-29, 1999.
2. Правовой классификатор и правовой тезаурус в законотвор?естве и
юриди?еской практике: Материалы работы Экспертно-консультативного совета
по проблемам систематизации и кодификации законодательства при
Председателе Государственной Думы. М.; Екатеринбург, 1998.
3. См. Введение к изданию 'Правовой классификатор и правовой тезаурус в
законотвор?естве и юриди?еской практике'.
4. Тезаурус EUROVOC. Русская версия. Многоязы?ное представление. М.:
Издание Государственной Думы, 1998.
5. Лаптев П. А. Проблемы перевода международно-правовых актов и новые
технико-юриди?еские процедуры их имплементации в правовую систему
Российской Федерации // Проблемы юриди?еской техники: Сб. статей. Нижний
Новгород, 2000.



___________________________________
[?] Многоязы?ный междисциплинарный тезаурус, ориентированный на
парламентскую деятельность, являющийся своеобразным терминологи?еским
стандартом, более 15 лет используется для обработки и поиска информации в
справо?ных системах органов, институтов, у?реждений ЕС и государств -
?ленов ЕС.
2 Имплементация - реализация международных обязательств на
внутригосударственном уровне путем трансформации международно-правовых норм
в национальное законодательство.
Функционально-коммуникативная грамматика и компьютерный анализ

русских текстов: прикладные проблемы
О. А. Невзорова
Казанский государственный педагоги?еский университет

Функционально-коммуникативная грамматика, синтаксема, русский язык,
компьютерный анализ текстов
Summary. In the paper there discussed the applied problems of using
syntaxemes and other concepts of Functional-Communicative Syntax for
Russian Language Processing.


1. Введение.
При автомати?еской обработке текста выделяются этапы морфологи?еского,
синтакси?еского, семанти?еского и прагмати?еского анализа. Наиболее
исследованы формальные морфологи?еские модели. Прикладной синтакси?еский
анализ осуществляется на основе разли?ных формальных представлений. При
этом в компьютерных приложениях используются, как правило, ограни?енные
модели синтаксиса. Существуют недостато?но разработанные теорети?еские
проблемы русского синтаксиса и сложные вы?ислительные проблемы разработки
синтакси?еских парсингов. Наибольшую сложность имеет проблема
семанти?еского анализа текстов. Ситуация осложняется отсутствием достато?но
удовлетворительных моделей вы?ислительной семантики, моделей взаимодействия
семантики и синтаксиса. Поэтому любые лингвисти?еские результаты в этой
области имеют большой прикладной интерес. В данной работе предлагается
семантико-синтакси?еский подход к построению анализатора русских
техни?еских текстов, основанный на результатах Г. А. Золотовой [1], которые
позволяют с единых системных позиций описывать взаимоотношение семантики и
синтаксиса, выработать ?еткие критерии построения системы типов русского
предложения.
2. Проблемы разработки семантико-синтакси?еского анализатора русских
техни?еских текстов.
Разработка лингвисти?еского процессора опирается на разли?ные словарные
ресурсы. Нали?ие соответствующего компьютерного словарного ресурса является
актуальной проблемой приложений компьютерной лингвистики. Отсутствие
реального доступа разработ?иков к общедоступным компьютерным ресурсам
русского языка является острейшей проблемой. Другой прикладной проблемой
является пополнение существующих компьютерных ресурсов. Но если в области
морфологии существует доступный компьютерный вариант граммати?еского
словаря Зализняка А. А., на основе которого осуществляется разработка
морфологи?еского анализатора, то этапы синтакси?еского и семанти?еского
анализа практи?ески не поддерживаются общедоступными ресурсами. Факти?ески
разработка специализированных лингвисти?еских процессоров на?инается с
подготовки соответствующих словарных ресурсов, процесс создания которых
является весьма сложным и трудоемким. Поэтому особым вниманием
разработ?иков прикладных систем пользуются ресурсы, в которых делается
попытка интегрального описания явлений семантики и синтаксиса, к ?ислу
которых относится Синтакси?еский словарь [1]. Синтакси?еский словарь
состоит из нескольких разделов. Основная ?асть словаря представляет именные
(субстантивные) синтаксемы русского языка, каждая из которых задается
формой, зна?ением и функцией. Семанти?еские классификации синтаксем
выстраиваются на синтакси?еских основаниях. Синтаксемы других ?астей ре?и
(синтаксемы имени прилагательного, глагольные синтаксемы, синтаксемы
наре?ий) описаны достато?но кратко.
Разработка семантико-синтакси?еского анализатора лингвисти?еского
процессора техни?еских текстов 'ЛОТА' [2] осуществляется на основе моделей
синтаксем. Мы рассматриваем зада?у анализа техни?еских текстов на полноту
описания информации для определенной проблемной области. Для того ?тобы
оценить полноту текстовой информации необходимо построить интерпретацию
текста в структурах предметной области. Построение интерпретации связано с
распознаванием зна?ения выделенных элементарных единиц предложений текста и
установления взаимосвязей между ними. Элементарными единицами предложения
с?итаются сегменты. Понятие сегмента является обобщением понятия
синтаксемы. Сегмент, в отли?ие от синтаксемы, в общем слу?ае может иметь
внутреннюю структуру. Тем не менее, как и синтаксема, сегмент
характеризуется формой, зна?ением и синтакси?еской функцией. Распознавание
зна?ения именного сегмента осуществляется по указанному Синтакси?ескому
словарю. В настоящее время осуществляется реализация алгоритмов сегментации
предложений русского техни?еского текста и интерпретации именных сегментов.
Разработка достато?но полных классификаций синтаксем других ?астей ре?и
(особенно классификаций глагольных синтаксем) позволило бы с единых
модельных позиций осуществлять разработку алгоритмов семантико-
синтакси?еского анализа.
Другим важным результатом лингвисти?еской теории Золотовой Г. С. является
тезис о принципиальной двусоставности русского предложения и построение
типологии простых предложений. Зада?ей семантико-синтакси?еского анализа
текста факти?ески является выделение модели предложения, его двух главных
компонент. Традиционно сложной зада?ей семанти?еского анализа является
анализ безглагольного предложения. Приложение результатов Золотовой Г. С. в
компьютерных системах анализа текста позволяет с единых алгоритми?еских
позиций вы?ленять главные компоненты предложения разли?ного состава.
Следует отметить еще один результат, полу?енный при использовании
Синтакси?еского словаря. Дело в том, ?то в, общем слу?ае, Словарь
неоднозна?но приписывает зна?ение синтаксемы по ее форме и синтакси?еской
позиции в предложении. Многозна?ность зна?ений синтаксемы в фиксированной
форме и синтакси?еской позиции является первой проблемой. Эта проблема
?асти?но разрешается за с?ет введения семанти?еского класса синтаксемы.
Второй проблемой является распознавание синтакси?еской позиции синтаксемы в
предложении. В наихудшем слу?ае, ?исло синтакси?еских позиций синтаксемы
равно 8, в среднем - 3, 4. Следующим шагом наших рассуждений было введение
понятия контекста семанти?еского зна?ения синтаксемы. Тем самым, проблема
распознавания зна?ения синтаксемы рассматривается как проблема
распознавания контекста зна?ения синтаксемы. Нами предложено
параметри?еское описание контекста зна?ения синтаксемы. Окон?ательные
выводы по предложенному механизму будут сделаны после завершения разработки
Словаря контекстов семанти?еских ролей синтаксем разли?ных типов.
Реализация этой текущей цели является непростой зада?ей, однако существуют
все предпосылки для ее успешного завершения.

Литература

1. Золотова Г. А. Синтакси?еский словарь: Репертуар элементарных единиц
русского синтаксиса. М.: Наука, 1988. 440 с.
2. Невзорова О. А., Федунов Б. Е. Система подготовки и анализа техни?еских
текстов 'ЛОТА': структурно-функциональная схема и модель графи?еского
представления текста // КИИ' 2000: Труды конференции. Т. 1. М., 2000. С.
363-371.
Лекси?еские межъязыковые соответствия в параллельных текстах

при составлении трансферного компонента систем машинного перевода
В. А. Новиков
Московский педагоги?еский университет

русский язык, машинный перевод, трансфер, лекси?еские соответствия
Summary. We present in this paper new ways of deploying lexical transfer as
machine translation system`s component, which is based on lexical
correspondencies between Russian and other languages, such as English and
German. We also describe some methods of transfer`s development using text-
oriented methods of natural language processing.


Компонент переда?и межъязыковых соответствий представляет собой
концептуальную основу большинства современных систем машинного перевода. Мы
рассматриваем трансфер как компонент СМП, осуществляющий поиск и
установление соответствий на лекси?еском и синтакси?еском уровнях описания
естественного языка. В основе данной формулировки лежит теория межъязыковых
соответствий [Мар?ук 1983, 1985]. Лекси?еский уровень вызывает большой
интерес в связи с коли?еством информации, заклю?енном в лекси?еских
единицах естественного языка, кроме того, манипулирование единицами
лекси?еского уровня при автомати?еской обработке естественно-языкового
текста позволяет увели?ить эффективность лингвисти?еского обеспе?ения
языковых программных инструментов, лингвисти?еских процессоров разли?ных
типов.
Процесс обработки лекси?еских соответствий делится на три ?асти:
- обработка лингвисти?еского материала;
- предмашинное описание;
- машинная обработка.
Первый этап создания лекси?еского уровня трансферного компонента СМП
представляет собой массив параллельных текстов и выявленные из него пары
межъязыковых соответствий. Мы провели эксперимент по поиску соответствий в
массиве параллельных текстов, в результате которого была составлена
билингва, работающая в паре русский язык - немецкий язык в обоих
направлениях, кроме того, была осуществлена попытка создания
мультиязыкового трансферного словаря, содержащего следующие языки: русский,
немецкий, английский. Перевод осуществляется во всех направлениях. На
первом этапе осуществляется выборка соответствий из текста, проводится их
статисти?еский анализ. Соответствия делятся на категории, каждой паре
присваиваются соответствующие семанти?еские индексы, записывается
необходимая морфологи?еская информация. Выделяются эквивалентные,
вариантные и трансформационные типы соответствий.
Затем составляется формализованное описание набора соответствий на основе
полу?енной ранее информации. Данное описание реализуется в машинном
представлении в виде словарной базы данных. Здесь уместно выделить два
способа составления лекси?еского трансферного компонента СМП:
- отдельные темати?еские словари, подклю?аемые к ядру системы;
- один системный словарь, вклю?ающий в себя всю словарную информацию.
Вариантные соответствия обрабатываются динами?ески, при помощи предзаданных
семанти?еских категорий.
Машинная обработка межъязыковых соответствий является результатом
выполненных ранее операций, представляет собой автомати?еское установление
межъязыковых соответствий в рамках данной языковой пары или группы языков.
Хотя трансферный компонент является концептуальной основой большинства
систем машинного перевода, немаловажную роль в эффективности таких систем
играют процедуры анализа разли?ных уровней. Трансфер, содержащий набор
разноуровневых и разноплановых соответствий, опирается на метаданные,
полу?енные на предшествующих этапах анализа: морфологи?еского,
синтакси?еского, семанти?еского. На этапе переда?и соответствий
используются метаданные всех уровней описания естественно-языкового текста,
в ?астности текста на русском языке. Для повышения эффективности перевода с
русского языка на другие необходимо выявить связи между разли?ными уровнями
описания языка и оперировать этими данными при установлении переводных
соответствий. В настоящее время ка?ество машинного перевода с русского
языка на немецкий или английский существенно ниже, ?ем с немецкого или
английского на русский.

Литература

Мар?ук Ю. Н. Проблемы машинного перевода. М.: Наука, 1983. 201 с.
Мар?ук Ю. Н. Методы моделирования перевода. М.: Наука, 1985. 233 с.
Лекси?еская синонимия в квантитативно-системном аспекте

(на материале русского языка)
Е. А. Покровская
Московский государственный университет им. М. В. Ломоносова

синонимия, русский язык, лексика, статистика, языковая система
Summary. The present paper is concerned with quantitative-systemic
investigation of synonyms relations in Russian lexicon in quantitative
aspect. A database of synonym groups of minimum and maximum number of units
was created, and each unit of a synonym group was scrutinized in relation
to the main linguistic parameters. The correlations obtained after data
processing, are discussed.


Настоящая работа посвящена выявлению связи языковых системных параметров с
синонимией, а также направления и степени зависимости между ними на
основании полу?енных коли?ественных данных.
На основе модели жизненного цикла слова А. А. Поликарпова выделены
следующие основные параметры: возраст слова, ?исло его зна?ений,
?астере?ная принадлежность, стилисти?еская характеристика зна?ения,
вступающего в синоними?еские отношения, ?астота слова, является ли слово
заимствованным или нет. Кроме того, рассматриваются собственно
синоними?еские характеристики:
синоними?еская активность слова, т. е. коли?ество синоними?еских групп, в
которое слово вступает своими лексико-семанти?ескими вариантами (ЛСВ), и
объем синоними?еской группы.
На материале 'Словаря синонимов' А. П. Евгеньевой были созданы две базы
данных: выборка синоними?еских групп минимального объема (состоящие из 2
?ленов) (2890 ЛСВ. т. е. 1445 групп) и выборка синоними?еских групп
максимального объема (состоящих из 8 и более ?ленов - 2512 ЛСВ, т. е. 251
группа). Для сравнения использовалась база общеязыковых данных, созданная
на материале выборки из 'Сводного словаря русской лексики' (1652 ЛСВ).
Каждый синоним и слово фоновой базы данных были охарактеризованы по
пере?исленным выше параметрам, зна?ения которых брались из 17-томного
'Словаря современного русского литературного языка' и ряда других
филологи?еских словарей. На основе их анализа были созданы бинарные матрицы
и на их основании построены графики, позволяющие исследовать зависимость
одного параметра от другого. Проанализировав таким образом три выборки, мы
пришли к следующим выводам.
1. В обеих выборках синоними?еских групп происходит совершенно о?евидный
сдвиг (в сравнении с общеязыковым фоном) в сторону усиления использования
слов признаковых ?астей ре?и (глаголы, прилагательные, наре?ия) и
ослабления существительных, при этом непризнаковая ?асть ре?и
(существительные) более склонна к образованию дву?ленных, ?ем много?ленных
синоними?еских групп.
2. Слова в обеих синоними?еских выборках являются более древними, ?ем в
общеязыковой выборке.
3. Слова, вступающие в синоними?еские отношения, в общем, являются более
многозна?ными, ?ем слова в языке в целом.
4. Соотношение между объемом групп и коли?еством групп в целом обратно
пропорциональное. Наиболее склонны к образованию высокообъемных групп
глаголы.
5. Под синоними?еской активностью (СА) слова понимается характеристика.
измеряемая ?ислом синоними?еских групп, ?ленами которых являются ЛСВ одного
слова.
Для обеих выборок характерна тенденция снижения процента слов со все более
высокой СА. С ростом полисемии увели?ивается средняя синоними?еская
активность ЛСВ в обеих выборках синоними?еских групп. Однако в среднем
каждое из зна?ений все более полисеми?ных слов характеризуется все меньшей
синоними?еской активностью.
6. Высокообъемные группы являются сильно маркированными стилисти?ески (52%
стилисти?ески окрашенных ЛСВ), в противоположность выборке групп
минимального объема, где стилисти?ески маркированных ЛСВ 14%. Общеязыковые
данные занимают промежуто?ное положение (около 38% стилисти?ески
маркированных ЛСВ).
Среди всех стилисти?еских помет наиболее зна?имыми для синоними?еских
групп являются разговорные.
7. В синоними?еские группы вовлекаются слова в среднем более полисеми?ные,
а поэтому более высоко?астотные среди тех, которые, в целом, присутствуют в
языке (средняя ?астота 57.09 и 59,45 vs 14,6).
8. Заимствованные слова в целом не склонны вступать в синоними?еские
отношения.

Динамика русского синтаксиса XX столетия и парадигмы культуры
Е. А. Покровская
Ростовский государственный университет

динамика синтаксиса, парадигмы культуры, лингвокультурологи?еский анализ
Summary. The author proves that the XX century cultural paradigms bring
about and direct the development of the language of the period,
particularly that of the syntax. This fact makes it possible to point out 4
periods in the development of Russian syntax in the XX century according to
the dominating universal cultural paradigm.
В наше время, в эпоху интеграции наук, лингвист, изу?ающий динамику языка,
в ?астности, синтаксиса, XX века может и должен обратиться к идеям коллег-
гуманитариев и увидеть языковые изменения в контексте парадигм духовной
культуры вообще. Языковые новации можно рассматривать не только как
результат действия имманентных факторов, не только как следствие процессов
социальных, но и как составляющую (и одновременно следствие) культурной
ауры эпохи. Среди факторов языкового развития следует выделять и
культурологи?еские, например, господство одной из культурных парадигм.
Философы, культурологи литературо- и искусствоведы (Ф. Ницше, Дм.
Чижевский, Д. С. Лиха?ев, А. Якимови?) утверждают, ?то в культуре XX века
взаимодействуют две парадигмы. Первая парадигма досталась XX веку от
прошлого: от анти?ного римского и ренессансного идеала Homo Humanus,
противоположного Homo Barbarus. Комплекс просвещенности и гуманности А.
Якимови? называет антропогуманизмом. Эта позиция приводит к определенному
структурированию картины мира, в центре и наверху которой помещается
цивилизованный ?еловек. Эта парадигма зиждется на разуме и морали, на
системе смыслов, заряженных духовностью. Во всех видах и на всех уровнях
искусства и культуры вырабатывается альтернативная парадигма, исходящая из
мысли о том, ?то цивилизация с неизбежностью производит некие силы хаоса,
варварства, разрушения. Вторую, альтернативную парадигму А. Якимови?
называет биокосми?еской, так как в ее основе лежит природность, понимаемая
как средото?ие хаоса, телесности, иррациональности, смеха, уродства,
фрагментарности, бессистемности, имморализма. Подобно тому, как в культуре
XX века доминирует вторая парадигма, синтакси?еские новации этого столетия
также вписываются в нее и формируются под ее воздействием. XX век принес в
язык такие синтакси?еские конструкции, как парцелляция, сегментация,
эллипсис, неграммати?еское обособление второстепенных ?ленов, развил и
активизировал вставные конструкции, некоординированные главные ?лены,
вытеснение сильных связей слабыми, распад связей, принес большие изменения
в структуру диалога и конструкции с ?ужой ре?ью. Большинство этих новаций
обобщается понятием синтаксиса актуализации, для которого характерно
использование новых, несобственно синтагмати?еских, средств создания
связности текста, разрушение синтагмати?еской иерархии, тенденция к
самостоятельному предицированию каждого элемента информации, дробление
синтагмати?еской цепо?ки на ряд интонационно закон?енных высказываний,
несовпадение актуального и граммати?еского ?ленения, рас?лененности модуса
и диктума. Это и есть языковая техника реализации конструктивных признаков
общекультурной парадигмы.
Смена двух парадигм культуры в России вле?ет за собой и проявляется в
смене векторов развития синтаксиса XX века. В связи с этим можно выделить
?етыре этапа динамики синтаксиса в нашем столетии. Первый - это рождение
синтаксиса актуализации в художественном твор?естве мастеров слова высокого
модернизма на?ала века, рубленый синтаксис, пунктуация как выражение
экспрессии, а не граммати?еского ?ленения предложения, неожиданные
словосо?етания. Вторая парадигма культуры насильственно сменяется первой, и
в 30-е-50-е годы и в синтаксисе воцаряется жесткая регламентированность и
нормированность. Это был второй этап динамики синтаксиса. В художественной
прозе шестидесятников возрождается вторая общекультурная парадигма, а с ней
и синтаксис актуализации; постепенно он выходит за рамки стилеобразующих
средств автора, литературного те?ения, проникает в художественное
твор?ество традиционалистов, используется в публицисти?еском и даже в
нау?ном, консервативном и регламентированном, стиле. Третий этап, таким
образом, можно условно датировать 60-85 годами. Последний этап, привлекший
внимание и языковедов, и широкой общественности, - это триумфальное шествие
(или разгул?) постмодернизма в синтаксисе с 85 года по наши дни.
Подводя итоги, можно отметить, ?то в наше время интеграция гуманитарных
наук становится актуальным лингвокультурологи?еский подход к динами?еским
процессам в языке, в ?астности в синтаксисе русского языка.
База лингвисти?еских данных (применительно к электронной энциклопедии,

предназна?енной для экспертов-русистов в области судебной фонетики)
Р. К. Потапова, В. В. Потапов
Московский государственный лингвисти?еский университет

база данных, электронная энциклопедия, судебная фонетика
Electronic encyclopaedia is made as a Help-file possessing all the
properties and advantages of Windows WinHelp systems. The Database of
Electronic Encyclopaedia contains the following aspects: language and
speech theory; speech production and speech perception mechanisms; the
fundamental notions of linguistics; the terminological dictionary of a
forensic phonetics expert; references on the domain of forensic phonetics,
fundamental linguistics, general and Russian phonetics. Purpose of this
product: information support of a forensic phonetics expert with theoretic
fundamentals of speech analysis and speaker identification; step-by-step
instructions and methodological guidelines for performing forensic expert
examination with the help of automated tools; training of experts for
phonetic examinations.


Электронная энциклопедия (ЭЭ) реализована в виде HELP-файла, имеющего все
преимущества и все ?ерты Windows WinHelp-систем.
В базе данных ЭЭ, предназна?енной для экспертов-русистов, разработаны
следующие аспекты и направления лингвистики:
- язык и ре?ь (естественный язык, родной / неродной язык, литературный
язык и территориальные диалекты на материале русского языка, социолекты,
жаргоны, признаки билингвизма, языковая интерференция, модели ре?евой
коммуникации, типы произнесения, стили произношения, спонтанная ре?ь,
транскрипция, ре?евые образцы русской ре?и);
- механизм ре?еобразования (анатомо-физиологи?еская природа, психи?еские
интеллектуальные, лингвисти?еские и экстралингвисти?еские основы
ре?еобразования, неприобретенные и приобретенные ре?евые навыки, фонация,
специфика голосообразования и ка?ество голоса, артикуляция и коартикуляция,
сегментные и супрасегментные единицы ре?и);
- механизм восприятия ре?и (анатомо-физиологи?еская природа восприятия
ре?и, психоакустика и психолингвистика, особенности восприятия ре?и в шуме
и при нали?ии помех, восприятие сегментных и супрасегментных единиц ре?и);
- лингвисти?еская, паралингвисти?еская и экстралингвисти?еская ре?евая
информация (фонетико-фонологи?еский, лекси?еский, синтакси?еский,
семанти?еский, прагмати?еский и фоностилисти?еский ярусы в ре?евом
высказывании, модально-оцено?ная, эмфати?еская и эмотивная информация,
патология голоса и артикуляционных органов, психи?еский статус и
нейрофизиологи?еские особенности говорящего);
- в состав ЭЭ входит терминологи?еский толковый словарь эксперта-
фоноскописта, а также библиография литературных исто?ников по
специальности;
- ЭЭ является гипертекстовым электронным документом, который имеет
развитую систему связей и ссылок, когда к самой информации на экране
дисплея (к выделенным цветом 'активным местам' - hotspots) привязаны ссылки
на другую (поясняющую) информацию; в ка?естве 'активных мест' использованы
фрагменты текста, отдельные фразы и слова, а также у?астки на графи?еских
изображениях;
- позволяет быстро и легко передвигаться из одной ?асти электронного
документа к другой и полу?ать справо?ную информацию в 'всплывающих' окнах;
- обеспе?ивает возможность одновременного просмотра на экране дисплея
текстовой и графи?еской информации, а так же прослушивание образцов
зву?ащей ре?и;
- позволяет оперативно выводить на пе?ать выбранные фрагменты текста или
графи?еской информации;
- базируется на комплексе МСР-ФОНО с операционной системой Windows;
- совместима со средствами ввода / вывода фонограмм ре?и в ПЭВМ
(компьютерной ре?евой лабораторией CSL 'KAY', платой STC H118 'ЦРТ' и
многофункциональными цифровыми комплексами регистрации сигналов МСР
'ЭСТРА'), а также с системой идентификации лиц по устной ре?и 'Диалект'.
Назна?ение ЭЭ вклю?ает:
- информационное обеспе?ение эксперта-фоноскописта теорети?ескими основами
анализа устной ре?и на материале русского языка и идентификации говорящего;
- пошаговые инструкции и методи?еские рекомендации к выполнению
фоноскопи?еских экспертиз с помощью автоматизированных средств;
- обу?ение специалистов проведению фоноскопи?еских исследований.

Литература
Potapova R. K. Some Aspects of Forensic Phonetics Experts Learning (on the
basis of Russian). Proc. of Intern. Workshop 'SPECOM'99'. M., 1999.
Potapova R. K., Potapov V. V. The Linguistic Database of Electronic
Encyclopaedia for Modern Russian (new version-2000). Proc. of Intern.
Workshop 'COMLEX-2000'. Patras (Greece), 2000.
Формализованные и психолингвисти?еские методы анализа

фоносеманти?еской структуры художественного текста

(в аспекте цвето-звуковой ассоциативности)
Л. П. Прокофьева
Саратовский государственный университет им. Н. Г. Чернышевского

фоносемантика, психолингвистика, анализ поэти?еского текста, идиостиль
Different approaches (formalized / computer & psycholinguistic) to
phonosemantic structural analysis of fiction are discussed from the point
of view of its colour-sound associations. Typologies of texts and
Individual Styles are outlines according to synesthetic parameters.


1. Компьютерный анализ художественного текста.
Изу?ение фоносеманти?еской структуры художественного текста факти?ески
было на?ато первыми работами А. П. Журавлева в 60-70 гг. [Журавлев]. С тех
пор компьютерные технологии зна?ительно изменились, появились новые
возможности визуальной реализации идеи 'увидеть текст в цвете'. При этом
использование формализованных методов заранее предполагает определенное
вариативное отклонение от статисти?ески то?ных положений. В слу?ае с
анализом фоносеманти?еской структуры художественного текста в аспекте цвето-
звуковой ассоциативности это выражается во внесении в специально
составленную компьютерную программу данных о цвете звукобукв русского
языка, полу?енных экспериментальным путем [Прокофьева]. Разработанный
порядок анализа вклю?ает в себя выявление текстовой ?астотности графонов в
сравнении со средней встре?аемостью их в ре?и, а также констатация нали?ия
или отсутствия приема аллитерации или ассонанса. На заклю?ительном этапе
'цвет' художественного текста, зафиксированный на уровне звукописи,
представляется в виде стати?еской фигуры, состоящей из наиболее зна?имых и
информативных цветовых фрагментов.
2. Психолингвисти?еский анализ художественного текста.
(1) Полу?енная в результате компьютерного анализа цветовая оценка
художественного текста представляет собой формальный набор цветовых
признаков, 'запрограммированных' национальной спецификой русского языка в
составляющих его звукобуквах. Ответ на вопрос, как реализуется заложенная
на фоносеманти?еском уровне информация, какие факторы влияют на проявление
или непроявление 'запрограммированного' цветового признака, призван был
дать эксперимент по цветовому восприятию поэти?еских произведений
информантами.
Информация о звуко-цветовых соответствиях воспринимается и
перерабатывается на уровне подсознания с одновременным подклю?ением
сознательного и бессознательного уровней восприятия. Поэтому полу?енный с
помощью явления синестезии цветовой материал стихотворных текстов может
быть интерпретирован с помощью психологи?еских таблиц цветовых сублиматов
[Серов] и с общим смыслом произведения. Эмоциональное и символи?еское
зна?ение цвета, образующего фон стихотворения, гипотети?ески должно тесно
соприкасаться его лекси?еской семантикой, поддерживая и даже раскрывая ее.
(2) Обобщая результаты проведенных экспериментов, остановимся на некоторых
выявленных закономерностях:
- при цветовом восприятии поэти?еского текста непосредственное влияние на
?итателей оказывает лекси?еская наполненность стихотворений в виде
эксплицитно и имплицитно выраженных цветовых номинаций (ЦН);
- зна?имость воздействия ЦН тем больше, ?ем меньше выраженность в тексте
звуковых повторов;
- с появлением аллитераций и / или ассонансов зна?имость ЦН снижается,
т. к. на ?итателя воздействует не только лекси?еское (сознание), но и
фонети?еское (подсознание) зна?ение;
- при нали?ии в тексте разных ЦН на ?итателя в большей степени
воздействуют цвета, подкрепленные цвето-звуковой ассоциативностью, наиболее
превышающие среднюю ?астотность и наиболее информативные;
- если в тексте присутствуют яркие ЦН и явно выраженные звуковые повторы,
при?ем цвета их не соотносятся друг с другом, возникает конфликт восприятия
и ?итатель полу?ает либо смешанную цветовую информацию, состоящую как из
лекси?еского, так и из фонети?еского воздействий, либо эти оценки вовсе
игнорируются, и тогда обнаруживается большой разброс в оценках, который
трудно (или даже невозможно) свести к какой-либо закономерности;
- при отсутствии в тексте ЦН цветовая ассоциативность сохраняется, но на
?итателя в этом слу?ае воздействует '?истое' фонети?еское зна?ение. Если
явные звуковые повторы отсутствуют, то ?аще всего (85%) наблюдается
нейтральная белая или серая оценки. Нали?ие ассонансов и / или аллитераций
обуславливает цветовые ассоциации в стихотворении;
- выявлена разли?ная зна?имость звуковых повторов, основанных на гласных и
согласных звукобуквах русского языка. На основании проведенных
экспериментов можно сделать вывод, ?то роль гласных и согласных не так
однозна?на, как представлялось. В поэти?еском тексте, где присутствуют и
ассонансы, и аллитерации, более зна?имыми оказываются аллитерации, но там,
где нет явно выраженных звуковых повторов согласных, основную ?асть
синестети?еского зна?ения 'берут' на себя гласные, даже если они не
организованы в ассонансы;
- обнаружены слу?аи, не поддающиеся объяснению только с то?ки зрения
универсального общеязыкового явления цвето-звуковой ассоциативности, но
которые могут быть интерпретированы с у?етом специфики языка и твор?еской
манеры поэта.
(3) На основании проведенного анализа наме?ена условная типология
разновидностей проявления цвето-звуковой символики в художественном тексте:
1) при нали?ии ?еткой авторской установки, выраженной эксплицитно (в
статьях, непосредственном твор?естве), обзеязыковая тенденция к цвето-
звуковой ассоциативности испытывает зна?ительную коррекцию. При этом
цветовое восприятие ?итателей может соотноситься с зада?ей художника слова.
Результат процесса рецепции находится в прямой зависимости от степени
использования поэти?еских приемов семантизации зву?ания текста и от уровня
'готовности' ?итателя к интерпретации; 2) при отсутствии авторской
установки происходит подсознательная фиксация общеязыковой системы цветовой
символики звука с обязательной поправкой на индивидуальное восприятие; 3)
цветовая символика звука не проявляется в сознании реципиента либо в силу
его ли?ностных особенности ('синестези?еская глухота'), либо из-за
'достато?ности' для него семанти?еской информации, полу?аемой по другим
каналам восприятия.

Литература
Журавлев А. П. Фонети?еское зна?ение. Л., 1974.
Прокофьева Л. П. Цветовая символика звука как компонент идиостиля поэта (на
материале поэзии А. Блока, К. Бальмонта, А. Белого, В. Набокова). Дисс. .
канд. филол. наук. Саратов, 1995.
Серов Н. В. Хроматизм мифа. Л., 1990.
Применение статисти?еских методов в истори?еской лексикографии
Б. Н. Рахимбердиев
Московский государственный лингвисти?еский университет
история языка, лексикография, статистика
Summary. Statistical methods can be an invaluable help in diachronic
lexicography. A combination of classic distributions and of the
classification trees method can significantly decrease the amount of manual
work required to trace alterations of words' semantics back through the
history.
Лекси?еский состав языка является наиболее подвижной составляющей языковой
системы. Относительной высокая скорость изменения словарного состава дает
нам возможность наблюдать как действие внутренней логики развития языка,
так и отражение в языке внеязыковых факторов даже на небольших отрезках
времени. Это особенно характерно для многих специализированных сфер
русского языка - так, например, скорость изменения состава нау?ной лексики
по?ти в два раза превышает среднюю скорость изменения лексики
общелитературной [1].
Одним из практи?еских следствий для исследования языка является
зна?ительный объем доступного материала, который может быть использован в
интересах диахрони?еской лексикографии. Это, в свою о?ередь, делает
необходимым и оправданным использование формальных методов, допускающих
автомати?ескую обработку массивов текстов. Так, представляется возможным
использовать статисти?еские методы для полу?ения истори?еского среза
семантики интересующих нас слов.
В основе предлагаемого метода лежит предположение, ?то формальным
проявлением сдвига в семантике слова является изменение контекста, в
котором это слово употребляется. При этом в ка?естве контекста
рассматривается только лекси?еское окружение слова (границами окружения
условно можно с?итать границы предложения), а синтакси?еские и другие
граммати?еские подробности опускаются.
В ка?естве исходного материала используются массив текстов за необходимый
период, при?ем все слова этого массива приведены к канони?еской форме.
В первую о?ередь мы определяем, какие слова изо всей совокупности слов,
окружающих наш объект, могут быть связаны с именно с ним. Для этого
вероятность употребления каждого слова в контексте нашего объекта
сравнивается со средней вероятностью появления каждого слова в предложении
(?исло словоупотреблений на общее ?исло предложений) на основе нормального
распределения (или, если объем выборки этого не позволяет, на основе
распределения Стьюдента). Мы с?итаем, ?то употребление слова в контексте
объекта неслу?айно, если его вероятность попадает в верхнюю крити?ескую
область выбранного распределения. В результате мы полу?аем совокупность
всех неслу?айных контекстов исследуемого слова.
Далее нам необходимо соотнести найденные контексты данными о семантике
слова. Представляется целесообразным использовать для идентификации
семантики слова в конкретных контекстах языковую способность исследователя,
т. е. выполнить ее вру?ную. Наиболее подходящим инструментом для обобщения
знаний исследователя представляется иерархи?еское дерево классификации.
Необходимо заметить, ?то объем ру?ной работы, необходимой на этом этапе,
будет существенно меньше того, ?то потребовалось бы для ру?ного просмотра
всех употреблений слова-объекта, т. к. составив дерево классификации по
?асти (выборке) контекстов, мы можем с удовлетворительной вероятностью
идентифицировать зна?ения всех словоупотреблений по комбинации элементов
контекста. В ка?естве исто?ника вариантов семантики слова (терминальных
вершин дерева классификации) могут быть использованы данные толковых
словарей разных лет [2].
Интерпретировав конкретные контексты как определенную вероятность
семанти?еских зна?ений, мы полу?им диахрони?ескую картину возникновения,
утраты и других сдвигов зна?ений изу?аемого слова.
Таким образом, используя класси?еские и современные достижения статистики,
представляется возможным зна?ительно сократить объем ру?ного труда в
истори?еской лексикографии.

Литература
Арапов М. В., Херц М. М. Математи?еские методы в истори?еской лингвистике.
М., 1974.
Рахимбердиев Б. Н. Об эволюции семантики некоторых экономи?еских терминов
// Сборник трудов X сессии Российского акусти?еского общества. М., 2000.
С. 334-336.
Зада?и и принципы функционирования компьютерной программы 'СЛОТ'
В. Г. Русаков
Калининградский государственный университет

компьютерная лингвистика, лингвистика текста, лексикография, искусственный
интеллект
Summary. This report is devoted to the description of the computer program
'System of Lingua-statistic Evaluation of Text' (SLET) and to the
determination of the opportunities of information technology application in
linguistic research.


Обращение современной лингвистики к проблемам внутренней организация
текста, к особенностям межтекстовых отношений, постановка зада? анализа
взаимодействия текста и смысла требуют привле?ения новых технологий
обработки информации. Основное требование к таким технологиям - возможность
документированного анализа крупных неструктурированных информационных
массивов в приемлемые сроки.
В рамках разработки подобных методов исследования текста на факультете
славянской филологии и журналистики Калининградского госуниверситета
разработана, внедрена и успешно совершенствуется компьютерная программа
СЛОТ (Система Лингвостатисти?еской Оценки Текста). Зада?а программы -
выявление закономерностей распределения разли?ных характеристик текста. В
настоящее время программа позволяет определить параметры лекси?еского
разнообразия - стати?еские и динами?еские - с ?исловым и графи?еским
представлением результатов подс?ета. Кроме того, программа выявляет
коэффициенты синтакси?еской сложности текста, алгоритмы полу?ения которых
сей?ас дорабатываются.
В основе работы программы лежит база данных, в которой структурирована
постоянно пополняемая информация о граммати?еских характеристиках лексем
русского языка. В настоящее время в базу вносится информация о семантике
хранящихся в ней слов.
Программа может быть направлена на решение широкого спектра зада?: от
анализа до синтеза текста, от определения авторства до оценки степени
владения языком.
Программа работает под управлением операционной системы Windows 9x, имеет
удобный графи?еский интерфейс и позволяет обмениваться информацией с
популярными текстовыми процессорами.
Корпус текстов как отражение состояния русского языка
В. В. Рыков
Институт языкознания РАН

состояние языка, русский язык, корпусная лингвистика, корпус текстов
Summary. If we want to study the current state of any language we should
have quite a complete and representative picture of it. This picture should
have a set of qualities to reflect the state of the language and to be a
source of its study. Properly designed machine readable corpus of texts and
so called corpus linguistics approach reflecting national tradition is
proposed by the author.


Для изу?ения состояния языка удобно иметь легко доступный и компактный
ре?евой материал, достато?но полно отражающий ре?евую деятельность его
носителей. Другими словами существует потребность в корпусе текстов,
обладающем описанными выше свойствами. Такие корпусы текстов уже составлены
для многих языков мира. Для удобства использования они, как правило,
расположены на магнитном носителе.
Необходим мощный и легко доступный исто?ник реального ре?евого материала,
составленный как для отражения каждой конкретной сферы общественно-языковой
практики, так и общего состояния языка.
Формирование национального корпуса текстов, должно соответствовать своей
филологи?еской традиции. Традиция построения подобных корпусов на русском
языке, находится в процессе становления. Иноязы?ные традиции могут быть
у?тены, но не могут быть имитированы или взяты за образец, потому ?то они -
иноязы?ные. Эти традиции, если доказательно подтверждено их существование,
должны быть осмыслены крити?ески в свете новейших достижений оте?ественной
филологии.
Что такое правильно составленный корпус текстов? Использование
статисти?еского подхода к установлению языковой нормы является характерной
?ертой американской лингвистики, но отнюдь не оте?ественной. Легкость
доступа к огромным массивам разнообразного лингвисти?еского материала при
помощи все более доступного компьютера безусловно должно привести к
ка?ественно новым результатам, но эти результаты должны отражать реальное
состояние языка.
Структура корпуса и его компоненты могут и должны быть составлены
в соответствии с определенной нау?ной целью. Можно отразить не только в
целом состояние русского языка, но и ре?евые особенности отдельного его
функционального стиля, а также другие специфи?еские особенности
национального языка и ре?и. Например, отразить не только язык
художественной литературы, но и деловой письменности а также устной ре?и.
Действия, состав которых реализует филологи?еский замысел создателя
корпуса на практике, должны также удовлетворять таким критериям как
системность отбора, стандартизация в подготовке, унификация разметки и
многим другим.
Корпус, в силу своего определения, может и должен служить исходным ре?евым
материалом, легко доступным для любой его обработки в соответствии с той
или иной нау?ной зада?ей и предоставлять для этого соответствующие
программные средства. Несмотря на то, ?то понятие 'корпус текстов' давно
уже применяется в оте?ественной и зарубежной лингвистике, логи?еские
критерии его организации разработаны еще недостато?но. Видимо, как было
сказано выше, это связано с историей и национальными особенностями этого
нау?ного направления.
Следовательно, с одной стороны следует и можно говорить о корпусе текстов
как о некотором логи?ески организованном целом. Есть все основания говорить
о метафоре или категории так называемой корпусной лингвистики - метафоре
корпусообразующей логи?еской дедукции. Ре?ь идет о совокупности логи?еских
процедур, при помощи которых происходит отбор текстов для вклю?ения их в
корпус.
Однако сама деятельность по созданию и использованию национального
корпуса текстов неизбежно требует разработки и тщательного обсуждения
соответствующего набора категорий, у?итывающих национальную традицию.
Только тогда можно будет то?но обсуждать и сравнивать реальные и
потенциальные результаты любого исследования корпуса. И здесь неизбежно
приходится внимательнее изу?ить и у?есть связь между внутренними свойствами
корпуса, содержащего исходный ре?евой материал исследования, так и внешними
обстоятельствами и условия его создания, содержательно соотнесенные с
зада?ами национальной филологи?еской традиции и общественно-языковой
практики.

Литература
1. Рыков В. В. Прагмати?ески ориентированный корпус текстов // Тверской
лингвисти?еский меридиан Вып. 3. Тверь: ТГУ, 1999. С. 89-96.
2. Рыков В. В. Прагмати?ески ориентированный корпус текстов // Актуальные
проблемы современной лексикографии. М.: Изд-во МГУ, 1999. С. 165-172.
Формальная модель порядка слов в русском языке
В. Д. Соловьев
Казанский государственный университет, Институт проблем информатики АНТ

порядок слов, когнитивная модель, формальная модель, маркирование, иерархии
Summary. New formal model of word order in Russian is described. It is
based on the general cognitive mechanisms, such as marking, hierarchies,
conflicts. The model is realized in algorithms.


Введение
Для наиболее популярной на Западе генеративной лингвистики описание
порядка слов в русском языке представляет серьезную проблему. Предложенный
для этой цели, так называемый, скрэмблинг [Кондрашова] не способен дать
удовлетворительного решения этой проблемы. Полу?аемые с его помощью
описания излишне сложны и, видимо, не соответствуют реальным когнитивным
механизмам ?елове?еского мышления.
В данной работе предложена новая формальная модель порядка слов в русском
языке. Она не использует перемещений слов и, таким образом, является
принципиально не трансформационной. Тем не менее, для возможности
сопоставления с генеративной и другими активно разрабатываемыми в последнее
время на Западе лингвисти?ескими теориями, она должна быть изложена на
формальном языке. Другим преимуществом формализованных моделей является
возможность использования их в системах машинного перевода.
По сравнению с описанием порядка слов в модели 'Смысл ' Текст', данная
модель является более общей и ориентирована на отражение реальных
когнитивных механизмов обработки языковой информации ?еловеком. Это делает
ее открытой и позволяет вклю?ать в рассмотрение дополнительные факторы,
влияющие на порядок слов, такие как, фокус внимания, фокус эмпатии и т. д.
Описание модели
Представленный в данной работе базовый вариант обладает следующим основным
ограни?ением: упорядо?иваются не отдельные слова, а целые именные группы
(ИГ). Это ограни?ение не является принципиальным и при дальнейшем развитии
может быть снято.
Модель основана на общей теории маркирования [Solovyev] и вклю?ает
описательную ?асть и алгоритмы расположения слов в предложении.
1. Паттерны.
Паттерном называется (потенциально бесконе?ное) линейно-упорядо?енное
множество позиций, предназна?енных для заполнения именными группами.
(Напомним, ?то линейно-упорядо?енным называется множество, любые два
элемента которого сравними по вели?ине). Позиции паттерна пронумерованы
на?иная с первой.
2. Признаки и маркеры.
Признак - это параметр, приписываемый ИГ и по-

казывающий ее роль в предложении. Основными являются семантико-
синтакси?еские роли, признаки рефе-

ренциального и коммуникативного уровней. Равенство

P(ИГ) = [pic] озна?ает, ?то признак Р на именной группе ИГ имеет зна?ение
М.
Маркеры служат для выражения признаков на поверхностном уровне
предложения. Типи?ные марке-

ры - окон?ания, предлоги, первая позиция в предложении, интонация и т. д.
Одно зна?ение признака может кодироваться разными маркерами.
В данной модели введен новый специфи?еский (виртуальный) маркер -
'Свободная позиция', обозна?аемый СП. Обы?но СП используется для маркировки
особо под?еркиваемой ремы, которая выделяется также интонационно - в форме
акцента на соответствующей ИГ. ИГ с этим маркером может занять любую
позицию в паттерне.
3. Конкуренция между признаками и маркерами.
При конструировании предложения конфликтные ситуации двух типов могут
возникнуть.
А). Некоторая именная группа снабжается двумя признаками и разли?ные и
несовместимые маркеры кодируют эти признаки.
Пример конфликта этого вида. ИГ, являющаяся одновременно подлежащим и
ремой, стремится занять первую позицию в предложении, как подлежащее и
последнюю позицию как рема.
Б). Две именные группы, имеющие разли?ные признаки, кодируются одной и той
же позицией паттерна.
Пример конфликта этого вида. В русском языке первую позицию в предложении
занимают обстоятельства места и времени, а в их отсутствие - подлежащее.
Однако на эту позицию претендует также ИГ, находящаяся в фокусе внимания.
Например, как известно из работы [Томлин] у?астники психолингвисти?еского
эксперимента говорили 'красную рыбку съела белая рыбка', если их внимание
оказывалось привле?ено к красной рыбке.
4. Иерархии признаков и зна?ений признаков.
Для разрешения конфликтов вводится иерархия признаков. При нали?ии
конфликта выбирается и обрабатывается признак, занимающий в этой иерархии
более высокую позицию. Фрагмент иерархии: фокус внимания > подлежащее.
Для расстановки слов в предложении требуется также и иерархии зна?ений
признаков. Рассмотрим слу?ай, когда среди маркеров, кодирующих зна?ения
определенного признака ИГ нет позиций паттернов.
Пусть {М1, ., Мк} множество всех зна?ений признака Р в такой ситуации.
Тогда существует некоторая иерархия M1 > . > Mк определенная на этом
множестве. Неформально, смысл этой иерархии следующий: если P(ИГ1) = Mi &
P(ИГ2) = Mj & i > j, то ИГ1 располагается левее ИГ2.
Например, для признака 'синтакси?еская позиция' его зна?ения
упорядо?иваются в следующую иерархию: подлежащее > непрямое дополнение >
прямое дополнение > косвенное дополнение, в соответствии с которой ИГ и
располагаются в предложении.
Заклю?ение
Предложена формальная модель порождения порядка слов в предложении. В
отли?ие от генеративной модели она не предполагает перемещения слов, а
использует совершенно иные механизмы - паттернов, маркеров, иерархий
признаков и зна?ений признаков. Модель основана на общих когнитивных
механизмах обработки информации, ?то позволяет у?итывать одновременно
разнообразные факторы, влияющие на порядок слов. Модель имеет высокий
уровень абстракции, ?то позволяет использовать ее при незна?ительном
обобщении и для других языков и проводить на ее основе сопоставительные
исследования. Разработан и реализован алгоритм расположения именных групп в
предложении. Модель может применяться в системах машинного перевода,
основанных на использовании семанти?еского представления в ка?естве языка
посредника.

Литература

Кондрашова Н. Ю. Генеративная грамматика и проблема свободного порядка
слов // Фундаментальные направления современной американской лингвистики.
М.: Изд-во МГУ, 1997.
Solovyev V. D. Typology of the cognitive mechanisms of marking.
International conf. on 'Cognitive Typology'. Abstracts. Antwerp: Univ. of
Antwerp., 2000.
Tomlin R. S. Focal Attention, Voice, and Word Order: An Experimental. Cross-
Linguistic Study. Downing; Noonan, 1995.

Граммати?еские асимметрии в употреблении показателей модальности:

семантика и дистрибуция глагола мо?ь
С. Татевосов
Московский государственный университет им. М. В. Ломоносова

модальность, диахрони?еское развитие, граммати?еская типология,
квантитативный анализ
Summary. The paper surveys the meaning and distribution of Russian modal
verb мо?ь. Diachronically oriented text-frequency approach to modality has
revealed a few non-trivial asymmetries between epistemic and non-epistemic
uses of this verb. These asymmetries are examined in the light of existing
theoretical generalizations about diachronic development of modals.


В докладе обсуждается диахрони?еское развитие модального глагола мо?ь,
который в современном русском языке имеет широкий диапазон употреблений,
вклю?ающий, в терминах [van der Auwera, Plungian] 'внутреннюю возможность',
'внешнюю возможность', 'деонти?ескую возможность' и 'эпистеми?ескую
возможность':
- внутренняя возможность: внутренние свойства партиципанта позволяют ему
у?аствовать в ситуации. - Он может съесть целого барана.
- внешняя возможность: состояние мира таково, ?то оно допускает у?астие
партиципанта в ситуации. - Дверь открыли, теперь мы можем войти.
- деонти?еская возможность: ?астный слу?ай внешней возможности; у?астие
партиципанта в ситуации допускается социальной инстанцией или аморальной
нормой. - Только председатель центрального банка может войти в это
хранилище.
- эпистеми?еская возможность: говорящий допускает, ?то описываема ситуация
имеет место в актуальном мире. - Завтра Госдума может принять закон о
пенсиях.
Исследования в области граммати?еской типологии последнего десятилетия, в
первую о?ередь Bybee et al. 1994, Bybee, Fleischman 1995 позволили выявить
универсальные ограни?ения на диахрони?еское развитие показателей
модальности и их синхронную дистрибуцию. Эти ограни?ения представлены в
виде семанти?еской карты на схеме 1, которая предсказывает, например, ?то
показатель модальности не может выражать зна?ения внутренней и
эпистеми?еской возможности, не выражая при этом зна?ения внешней
возможности.


внешняя
внутренняя возможность (ВнешВ)
эпистеми?еская
возможность (ВнутрВ)
возможность (ЭВ)
деонти?. возм. (ДВ)

Схема 1. Части?ная семанти?еская карта модальных зна?ений [Auwera,
Plungian]

На ограни?ениях такого рода основываютcя ожидания, связанные с изменением
?астотности представленных на схеме 1 употреблений с те?ением времени.
Например, если показатель модальности действительно эволюционирует от
зна?ения ВнутрВ к зна?ению ВнешВ, ожидается, ?то пропорция употреблений
этого показателя в зна?ении ВнутрВ убывает, а соответствующая пропорция для
ВнешВ растет.
Исследование корпуса текстов русских текстов XIX-XX веков (около 9000
употреблений глагола мо?ь), показывает ?то данное ожидание соответствует
действительному распределению ?астотности в исследуемой выборке,
представленному на Рис. 1.
Как видно из Рис.1, пропорция употреблений глагола мо?ь со зна?ением
ВнутрВ, преобладавших в текстах XIX в., к концу XX в. зна?ительно
снизилась, а со зна?ением ВнешВ по?ти столь же зна?ительно возросла.
Рис. 1. Частотность разли?ных употреблений глагола мо?ь в XIX-XX вв.
[pic]
Исследование, однако, выявило факты, которые не предсказываются схемой 1.
Прежде всего, выясняется, ?то при незна?ительном увели?ении пропорции
эпистеми?еских употреблений глагола мо?ь в целом, происходит стремительное
нарастание этой пропорции для одной из форм мо?ь - формы непрошедшего
времени 3-го лица ед. ?исла может, как показывает рис. 2.
Рис. 2. Развитие эпистеми?еского зна?ения у разли?ных словоформ глагола
мо?ь.
[pic]
Эпистеми?еское зна?ение, таким образом, демонстрирует асимметрию
относительно разли?ных зна?ений граммати?еских категорий времени, лица и
?исла глагола мо?ь.
Еще одна важная асимметрия связана с дистрибуцией инфинитива совершенного
vs. несовершенного вида, выступающего как сентенциальный аргумент глагола
мо?ь. Обнаруживается, ?то при переходе от зна?ения ВнутрВ к зна?ению ВнешВ
первона?ально высокая пропорция инфинитивов совершенного вида постепенно
снижается, приближаясь характерному для свободного варьирования
распределению. Однако при переходе к эпистеми?ескому зна?ению она вновь
резко возрастает: пропорция инфинитивов НСВ в эпистеми?еских употребления
глагола мо?ь ни?тожно мала.
В докладе обсуждаются возможные истолкования данных фактов и предлагаются
некоторые допущения, предсказывающие наблюдаемую дистрибуцию глагола мо?ь.
Данные квантитативного исследования русских модальных глаголов представляют
зна?ительный интерес для общей теории, дедуцирующей универсальные
ограни?ения на дистрибуцию показателей модальности, а также для теории
грамматикализации, описывающей возможные пути диахрони?еского развития
граммати?еских единиц.

Литература
Auwera J. van der, Plungian V. A. Modality's semantic map // Linguistic
typology. 2.1. 1998. P. 79-124.
Bybee J. Revere Perkins and William Pagliuca // The evolution of grammar:
tense, aspect and modality in the languages of the world. Chicago; London:
University of Chicago Press, 1994.
Bybee J., Fleishman S. (eds.) Modality in grammar and discourse. Amsterdam:
John Benjamins, 1995.
Сложностной подход к зада?е определения авторства текста
Д. В. Хмелев
Московский государственный университет им. М. В. Ломоносова
программы сжатия, сложность текста, определение авторства текста
Summary. Complexity approach for identification of writers. (Khmelev Dmitri
Viktorovich). A new approach for identification of the true author of
anonymous text (among many other pretenders) is presented in this paper. To
find the true author one should compute the relative complexity of
anonymous text with respect to texts of each pretender and, in most cases,
one obtains the minimal complexity on the true author. The relative
complexity could be computed with any reasonable data compression
algorithm. We discuss here results obtained on the basis of the corpora of
82 Russian writers by 16 different compression algorithms.
Как было показано в работе [1], к зада?е определения автора анонимного
текста среди многих других претендентов можно применять формальный подход,
основанный на математи?еской модели последовательности букв текста, как
цепи Маркова, ?то, в коне?ном с?ете, обозна?ает, ?то истинного автора можно
в большинстве слу?аев эффективно определить с использованием всего лишь
информации о встре?аемости парных буквосо?етаний. Целью настоящей работы
является представление еще одного метода определения авторства, который
связан со сложностным подходом к исследованию текста.
'Идеальное' определение относительной сложности в духе определения
колмогоровской сложности (по поводу которой см. [2]) таково: относительная
сложность K(A,B) текста A относительно текста B - это длина наименьшей
программы в двои?ном алфавите, которая переводит текст B в текст A. К
сожалению, вели?ина K(A,B) невы?ислима, а потому априори неясно, как можно
ее использовать на практике.
В настоящем исследовании показано, ?то с то?ки зрения зада?и определения
авторства можно вместо невы?ислимой вели?ины K(A,B) использовать вели?ины,
полу?аемые с помощью современных программ сжатия. Определим относительную
сложность C(B, A) текста A относительно текста B как разность длин сжатого
текста BA (который полу?ается приписыванием текста A в конец текста B) и
сжатого текста B. Чем меньше эта вели?ина, тем больше текст A зависит от
текста B. Данное определение содержит неоднозна?ность, поскольку не
сказано, каким именно способом производится сжатие. В настоящем
исследовании будет исследовано несколько алгоритмов сжатия, которые уже
реализованы в компьютерных программах. Опишем теперь, как применять
введенное понятие относительной сложности к определению авторства. Имеются
тексты T1, ., Tn известных авторов. Для текста U определим разность C(Ti,U)
длин сжатых текстов TiU и Ti. Текст U относится к автору i с наименьшим
зна?ением этой разности.
Аналоги?но [1] можно ввести много разли?ных характеристик то?ности метода
определения авторства: 1) простейшая характеристика - ?исло то?ных
угадываний; 2) более обобщенная характеристика - средний ранг автора в
?исле претендентов на его собственное произведение. Проверка характеристик
проводилась на корпусе текстов, который уже использовался в [1] и который
состоит из 385 текстов 82 писателей. Общий объ-

ем текстов составляет около 128 Мб. Тексты подверг-

лись предварительной обработке. Во-первых, были склеены все слова,
разделенные переносом. Далее были отброшены все слова, на?инавшиеся с
прописной буквы (таким образом мы избавляемся от шума, связанного с именами
литературных героев). Оставшиеся слова помещены в том порядке, в котором
они находились в исходном тексте с разделителем из символа перевода строки.
У каждого из n = 82 авторов слу?айно было отобрано по контрольному
произведению Ui. Остальные тексты у каждого автора i были объединены в
обу?ающие тексты Ti, i =1, ., 82. Объем каждого контрольного произведения
составлял не менее 50-100 тыся? букв. Результаты вы?ислений представлены в
следующей таблице, где в первом столбце наряду с названием программы в
скобках приведен используемый в ней алгоритм (Ar обозна?ает арифмети?еское
кодирование, LZ - разли?ные модификации алгоритма Лемпеля-Зива, DMC - так
называемый алгоритм построения динами?еской цепи Маркова, PPM - алгоритмы,
основанные на построении цепей Маркова высокого порядка). В последней
строке таблицы приведены данные исследования [1] по применению цепей
Маркова на той же выборке данных.


|Архиватор |Ранг |
| |1 |2 |3 |4 |5 |(6 |средний|
|7zip (Ar,LZ+Ar, PPM) |39 |9 |3 |2 |3 |26 |7.43 |
|arj (LZSS+Хаффман) |46 |5 |2 |7 |2 |20 |6.16 |
|bsa (LZ) |44 |9 |3 |1 |1 |24 |6.30 |
|bzip2 (Барроу-Виллер + |38 |5 |5 |1 | |33 |14.68 |
|Хаффман) | | | | | | | |
|compress (LZW) |12 |1 |1 |3 |2 |63 |25.37 |
|dmc (DMC) |36 |4 |3 |4 |4 |31 |10.82 |
|gzip (Шеннон-Фано, |50 |4 |1 |2 |1 |24 |5.55 |
|Хаффман) | | | | | | | |
|ha (Ar) |47 |8 |1 |3 |3 |20 |6.60 |
|huff1 (стати?еский |10 |11 |4 |4 |2 |51 |16.37 |
|Хаффман) | | | | | | | |
|lzari (LZSS+Ar) |17 |5 |4 |2 |6 |48 |15.99 |
|lzss (LZSS) |14 |3 |1 |1 |3 |60 |21.05 |
|ppm (PPM) |22 |14 |2 |1 |3 |40 |11.39 |
|ppmd5 (PPM) |46 |6 |6 |2 | |22 |6.96 |
|rar (LZ77+Хаффман) |58 |1 |1 |1 | |21 |8.22 |
|rarw (LZ77+Хаффман) |71 |3 | |2 |1 |5 |2.44 |
|rk (LZ+Хаффман) |52 |9 |3 |1 | |17 |5.20 |
|Марковские цепи (см. [1]) |69 |3 |2 |1 | |7 |3.35 |

Из данных, приведенных в этой таблице, следует, ?то применение
сложностного подхода к зада?е определения авторства вполне оправдано,
при?ем результаты при применении архиватора rar даже лу?ше, ?ем при
применении цепей Маркова (хотя такую небольшую разность и можно отнести на
с?ет статисти?еской погрешности). Автор придерживается той то?ки зрения,
?то такие хорошие результаты определения истинного автора связаны с тем,
?то словарь автора, в принципе, является его устой?ивой характеристикой, а
предложенный в настоящей заметке сложностной подход позволяет эффективно
измерять близость словаря анонимного произведения к словарю автора.
Литература
1. Хмелев Д. В. Распознавание автора текста с использованием цепей
А. А. Маркова // Вестник Моск ун-та. Сер. 9. Филология. 2000. ? 2. С. 115-
126.
2. Колмогоров А. Н. Три подхода к определению понятия 'коли?ество
информации' // Проблемы переда?и информации. Т. 1. 1965. ? 1. С. 3-11.
Проблемы русского лексико-синтакси?еского синтеза

при сущностном подходе к языку
З. М. Шаляпина, Е. Г. Борисова, М. И. Канови?, А. С. Панина, Е. С.
Тарасова, О. А. Штернова
Институт востоковедения РАН, Институт русского языка им. А. С. Пушкина,
Российский государственный гуманитарный университет, Московский
государственный лингвисти?еский университет
компьютерные модели, морфология и синтаксис русского языка, сущностный
подход
Summary. The paper is concerned with the problems of Russian lexico-
syntactical (LS-) generation within an entity-based (EBL-) linguistic
framework. The problems touched upon include: mechanisms of paradigmatic
and syntagmatic inheritance underlying the EBL-description of Russian and
its functioning in generation procedures; representation of the LS-context
of input LS-entities as their relational features; compensation mechanisms
involved in processing under- and over-specified input representations;
distant and multifactor influence of LS-context on the choice of
alternative morphologo-syntactical realizations of Russian LS-entities,
etc. The work is supported by the Research Support Scheme of the Open
Society Support Foundation, grant No. 458 / 2000.
Зада?а лексико-синтакси?еского синтеза русских словосо?етаний и
предложений интересует специалистов по компьютерной лингвистике уже
несколько десятилетий - прежде всего в связи с созданием систем машинного
перевода на русский с других языков, а также компьютерных пособий для
обу?ения русскому языку. Однако до сих пор она решалась в основном в рамках
реляционных подходов к лингвисти?ескому описанию, кото-
___________________________________
[?] Работа выполняется при поддержке RSS, грант ? 458 / 2000.
рые ставят в центр описания правила и отношения, а за у?аствующими в них
языковыми сущностями оставляют пассивную роль признаков, используемых при
проверке релевантности тех или иных правил и отношений для обрабатываемого
контекста. К ?ислу подобных моделей приходится относить не только
стандартные порождающие грамматики [Chomsky], но - в его граммати?еских
компонентах - даже класси?еский вариант модели 'Смысл ' Текст' [Мель?ук].
В данной работе эта зада?а ставится в рамках противоположного, сущностного
подхода к языку [Шаляпина 1999], при котором базовыми единицами описания
являются именно лингвисти?еские сущности: от конкретных (сводящихся к
элементарным или идиомати?ным лексемам и аффиксам) до обобщенно-
граммати?еских (определяющих классы ?астере?ного типа), а все виды правил и
отношений задаются как свойства тех или иных из этих сущностей. В том ?исле
все синтакси?еские отношения, вклю?ая со?инение, отождествление и
кореферентность, определяются как реализации валентностей одной или обеих
связываемых ими лингвисти?еских сущностей. Описание языка предстает при
этом как инвентарь (то?нее, система инвентарей) сущностей разли?ных типов,
каждой из которых сопоставлено определение всех релевантных для нее свойств
- своего рода словарная статья, а средством объединения этих статей в
связную систему лингвисти?еских знаний, способную функционировать при
обработке текстов как единое целое, служат механизмы наследования -
парадигмати?еского (устанавливающего связь между сущностями разли?ной
степени обобщенности) и синтагмати?еского (увязывающего свойства сложных
лингвисти?еских единиц с составом и структурой их компонентов). Хотя
подходы сущностного типа - в разли?ных вариантах и под разли?ными
названиями - представлены в целом ряде теорети?еских и экспериментальных
моделей языка (см. хотя бы [Шаляпина 1974], [Hudson], [Starosta], [Sleator]
и др.), они до сих не применялись сколько-нибудь последовательным образом
ни к зада?е синтеза, ни к материалу русского языка, ?то определяет
актуальность данного исследования и нетривиальность проблем, встающих при
его выполнении.
Зада?а ЛС-синтеза, в нашем ее понимании, состоит в преобразовании цепо?ки
ЛС-запросов, каждый из которых задает некоторую потенциальную словоформу
русского языка или функционально аналоги?ное ей словосо?етание как
элементарную лекси?ескую сущность, сопровождаемую ее контекстными
свойствами - морфологи?ескими и синтакси?ескими, - в цепо?ку лексико-
морфологи?еских запросов, однозна?но определяющих последовательность
соответствующих синтети?еских русских словоформ. Процедуры этого
преобразования при сущностном подходе должны целиком базироваться на
свойствах исходных лекси?еских сущностей - свойствах, которые либо
непосредственно присутствуют в их словарных статьях, либо наследуются ими
от других лингвисти?еских сущностей в языковой парадигматике или
синтагматике. При реализации этой зада?и требуется решить прежде всего
следующие проблемы:
- установить основные типы лингвисти?еских сущностей и их свойств,
релевантные для зада? лексико-синтакси?еского синтеза, и задать виды
отношений, возможных между самими сущностями и между их свойствами в
языковой системе и в тексте;
- определить механизмы парадигмати?еского и синтагмати?еского
наследования, опирающиеся на эти отношения, как процедурную основу системы
ЛС-синтеза;
- задать способ представления и у?ета структурного и линейного контекста
лекси?еских сущностей в ка?естве их ЛС-признаков и определить оптимальные
размеры таких признаков;
- построить формальный аппарат, позволяющий, среди про?его, у?итывать
возможность разнонаправленного и многофакторного влияния ЛС-контекста на
выбор оформления той или иной сущности в процессе синтеза;
- ввести средства, которые позволяли бы компенсировать несовпадение систем
лекси?еских, морфологи?еских и синтакси?еских категорий в разли?ных языках
(приводящее, в ?астности, к неполным или противоре?ивым определениям
синтезируемых сущностей в их входном представлении), а также у?итывать и
преодолевать возможность дефектности морфологи?еских парадигм русских
лексем.
Пере?исленные проблемы решаются в экспериментальном варианте в
разрабатываемой авторами действующей системе русского синтеза RUSSLAN.
Система реализуется на языке программирования Turbo Pascal (MS
DOS / Windows) и использует базы данных текстового типа. В ней
предусматриваются не только средства выбора того или иного из
альтернативных способов оформления русских ЛС-сущностей в зависимост от их
контекста, но и механизм коррекции определений входных ЛС-сущностей при их
несоответствии требованиям русского языка, а также аппарат локальных
трансформаций, позволяющий вводить, устранять или заменять те или иные
сущности с использованием аппарата лекси?еских функций [Мель?ук] и их
аналогов.
Литература
Мель?ук И. А. Опыт теории лингвисти?еских моделей 'Смысл ( Текст'. М.:
Наука, 1974.
Шаляпина З. М. Оппозиция '?асть - целое' и сущностный подход к
моделированию языковой компетенции // Роман Якобсон: тексты, документы,
исследования. М.: РГГУ, 1999. С. 541-551.
Шаляпина З. М. Семантико-синтакси?еский анализ в системе англо-русского
автомати?еского перевода (АРАП) // ПГЭПЛ. Вып. 47. М.: ИРЯ АН СССР, 1974.
Chomsky N. Aspects of the Theory of Syntax. Cambridge (Mass.), 1965.
Hudson R. Word Grammar. Oxford: Basil Blackwell, 1984.
Starosta S. The Case for Lexicase. London; New York: Pinter Publishers,
1988.
Sleator D. Parsing English with a Link Grammar. Third International
Workshop on Parsing Technologies. 1993.
(http://www.cs.cmu.edu/~sleator).