Сетевой научный журнал "Философские проблемы
информационных технологий
и киберпространства" (ISSN:2305-3763)

Статистическая стилометрия и литературный рынок

Статистическая стилометрия и литературный рынок 8 Апреля 2014
На Факультете компьютерных наук в нью-йоркском Университете Стоуни Брук, исследователи Ехин Чой, Викас Ашок и Сонг Фек представили компьютерную программу, способную за счет статистического анализа предсказать рыночный успех той или иной книги.  Методология исследования такова: огромные массивы художественных текстов ( фантастика, приключения, любовные романы, поэзия) пропускаются через анализатор, который выводит лексические и синтаксические закономерности в организации текста. Структура предложения понимается как вероятностная контекстно-свободная грамматика.  Далее тексты ранжируются по степени  "успешности" и читабельности. Итог: самый успешный жанр  -  приключения (в данных текстах присутствует больше существительных, прилагательных, простых предлогов, местоимений первого лица, а также соединительных слов - коннективов), самый неуспешеый - исторический роман. По последним данным контекстно-свободные грамматики хорошо определяют информационную энтропию, которая связана с пониманием и воспроизведением синтаксических структур. Чем проще структура, тем проще процесс понимания.  Причины такой статистической зависимости могут наверное, раскрыть не  только компьютерщики, но и  психолингвисты, и философы. 

Ссылка на источник - http://www.cs.stonybrook.edu/~songfeng/papers/emnlp2013_success.pdf

Возврат к списку