Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://www.moscowuniversityclub.ru/home.asp?artId=3830
Дата изменения: Sun Apr 10 07:47:08 2016 Дата индексирования: Sun Apr 10 08:47:08 2016 Кодировка: Windows-1251 |
![]() |
|||||||||
|
|
ЛингвоАнализатор: КАК ОПРЕДЕЛИТЬ АВТОРСТВО?У важаемый пользователь! Программа ЛингвоАнализатор является первой в мире программой, которая с большой уверенностью устанавливает автора текста (выражаясь филологическими терминами, атрибутирует текст). Вам доступна первая версия программы ЛингвоАнализатор. По входному тексту, который передается через Сеть, программа выдает имена трех писателей, которые могли бы быть его авторами. С помощью ЛингвоАнализатора, не читая текст, Вы можете оценить его сходство с произведениями Ваших любимых писателей. Кроме того, вы можете испробовать ваши собственные литературные опыты на близость к классикам жанра. Кроме имен писателей, ЛингвоАнализатор находит три произведения каждого из авторов, которые наиболее близки данному тексту. Таким образом, Вы можете проверить качество программы просто предлагая ей на вход отрывки или даже целые произведения Ваших любимых писателей (см. Примеры). Тройка писателей выбирается из 128 писателей. В базу данных программы занесены данные о 1357 текстах этих писателей, общий объем текстов составляет около 180 Мб. При использовании ЛингвоАнализатора необходимо учитывать следующую информацию. Программа никоим образом не анализирует идеи, фабулу и вообще содержание данного текста. Применяемая методика определения авторства опирается на математическую модель, в которой учтены такие формальные характеристики языка автора, как
Последние исследования, инициированные на механико-математическом факультете МГУ им. М.В. Ломоносова и одобренные специалистами с филологического факультета, показали, что, несмотря на некоторые вариации каждой из этих характеристик по отдельности, их совокупность, аккуратно взвешенная в используемой математической модели (полученная интегральная характеристика получила название относительной энтропии), очень хорошо отражает т.н. авторский стиль. Это утверждение было проверено в объемном статистическом эксперименте на текстах 82 писателей; объем текстов превышал 128 Мб, а число текстов превосходило 400. Результаты этих исследований, после рецензии специалистов с филологического и механико-математического факультетов, опубликованы в филологической серии ``Вестника МГУ'' в 2-м номере за 2000 год (Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. Вестник МГУ, сер.9: филология, N2, 2000, с.115-126). Также см. краткую историю разработки методик определения авторского стиля. При малом объеме текста автор может весьма значительно уйти от своего обычного стиля. Поэтому программа лучше всего работает с текстами большого объема. Ни один из 1357 распознаваемых текстов восстановить из программы невозможно, поэтому присутствие данной программы в Интернете не нарушает ничьих авторских прав и не затрагивает интересы издательств. Автор исследования и программы Читатель Фантастики Дмитрий Хмелев, аспирант кафедры теории вероятностей, механико-математического факультета Московского Государственного Университета им. М.В.Ломоносова, член Клуба выпускников МГУ, выпускник 18 физико-математического интерната при МГУ. P.S. Программа создана по просьбе Дмитрия Ватолина, предоставившего коллекцию текстов И. Загумменнова и полное текущее содержание сервера Русская Фантастика. Полный список писателей и произведений, на основе анализа которых построена работа программы, можно посмотреть здесь. P.P.S. Шлите комментарии по адресу dima@vvv.srcc.msu.su
|
Дизайн и поддержка: Interface Ltd. |
|