Документ взят из кэша поисковой машины. Адрес оригинального документа : http://www.moscowuniversityclub.ru/home.asp?artId=3830
Дата изменения: Sun Apr 10 07:47:08 2016
Дата индексирования: Sun Apr 10 08:47:08 2016
Кодировка: Windows-1251
Клуб выпускников МГУ: ЛингвоАнализатор: КАК ОПРЕДЕЛИТЬ АВТОРСТВО?
 
Вход Регистрация
Контакты Новости сайта Карта сайта Новости сайта в формате RSS
 
 
Новости для выпускников
МГУ им.Ломоносова
SUBSCRIBE.RU
 
База данных выпускников
 
 
Рассылки Subscribe.ru
Выпускники МГУ
Выпускники ВМиК
Долголетие и омоложение
Дайв-Клуб МГУ
Гольф
Новости психологии
 
Рассылки Maillist.ru
Выпускники МГУ
Активное долголетие, омоложение организма, геропротекторы
 

ЛингвоАнализатор: КАК ОПРЕДЕЛИТЬ АВТОРСТВО?

У важаемый пользователь!

Программа ЛингвоАнализатор является первой в мире программой, которая с большой уверенностью устанавливает автора текста (выражаясь филологическими терминами, атрибутирует текст).

Вам доступна первая версия программы ЛингвоАнализатор. По входному тексту, который передается через Сеть, программа выдает имена трех писателей, которые могли бы быть его авторами.

С помощью ЛингвоАнализатора, не читая текст, Вы можете оценить его сходство с произведениями Ваших любимых писателей. Кроме того, вы можете испробовать ваши собственные литературные опыты на близость к классикам жанра.

Кроме имен писателей, ЛингвоАнализатор находит три произведения каждого из авторов, которые наиболее близки данному тексту. Таким образом, Вы можете проверить качество программы просто предлагая ей на вход отрывки или даже целые произведения Ваших любимых писателей (см. Примеры).

Тройка писателей выбирается из 128 писателей. В базу данных программы занесены данные о 1357 текстах этих писателей, общий объем текстов составляет около 180 Мб.

При использовании ЛингвоАнализатора необходимо учитывать следующую информацию. Программа никоим образом не анализирует идеи, фабулу и вообще содержание данного текста. Применяемая методика определения авторства опирается на математическую модель, в которой учтены такие формальные характеристики языка автора, как

  • а) число служебных слов (предлогов, союзов и частиц),
  • б) используемые в словах морфемы (приставки, корни, суффиксы,окончания) и их последовательности,
  • в) сложность используемых грамматических конструкций,
  • г) собственно словарь, используемый автором.

Последние исследования, инициированные на механико-математическом факультете МГУ им. М.В. Ломоносова и одобренные специалистами с филологического факультета, показали, что, несмотря на некоторые вариации каждой из этих характеристик по отдельности, их совокупность, аккуратно взвешенная в используемой математической модели (полученная интегральная характеристика получила название относительной энтропии), очень хорошо отражает т.н. авторский стиль. Это утверждение было проверено в объемном статистическом эксперименте на текстах 82 писателей; объем текстов превышал 128 Мб, а число текстов превосходило 400.

Результаты этих исследований, после рецензии специалистов с филологического и механико-математического факультетов, опубликованы в филологической серии ``Вестника МГУ'' в 2-м номере за 2000 год (Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. Вестник МГУ, сер.9: филология, N2, 2000, с.115-126). Также см. краткую историю разработки методик определения авторского стиля.

При малом объеме текста автор может весьма значительно уйти от своего обычного стиля. Поэтому программа лучше всего работает с текстами большого объема.

Ни один из 1357 распознаваемых текстов восстановить из программы невозможно, поэтому присутствие данной программы в Интернете не нарушает ничьих авторских прав и не затрагивает интересы издательств.

Автор исследования и программы Читатель Фантастики

Дмитрий Хмелев, аспирант кафедры теории вероятностей, механико-математического факультета Московского Государственного Университета им. М.В.Ломоносова, член Клуба выпускников МГУ, выпускник 18 физико-математического интерната при МГУ.

18 интернат Клуб выпускников

P.S. Программа создана по просьбе Дмитрия Ватолина, предоставившего коллекцию текстов И. Загумменнова и полное текущее содержание сервера Русская Фантастика.

Полный список писателей и произведений, на основе анализа которых построена работа программы, можно посмотреть здесь.

P.P.S. Шлите комментарии по адресу dima@vvv.srcc.msu.su


  Рекомендовать »   Написать редактору  
  Распечатать »
 
  Дата публикации: 04.01.2005  
 

     Дизайн и поддержка: Interface Ltd.

    
Rambler's Top100