Сетевой научный журнал "Философские проблемы
информационных технологий
и киберпространства" (ISSN:2305-3763)

Компьютерные поиски языковых универсалий (русский детектив)

Компьютерные поиски языковых универсалий (русский детектив) 19 Июля 2014

Редакция журнала сотрудничает с проектной группой магистрантов ПГЛУ, работающей в области философии искусственного и интеллекта и проблем прикладной лингвистики.  Далее вниманию читателя предлагается текст-размышление на тему продукта ABBYY -  новой технологии компьютерного лингвистического анализа  Compreno. 

Возможно, новая технология от ABBYY - Compreno станет настоящим прорывом в области информационных технологий, так как будет являться, по сути, искусственным интеллектом в классическом понимании. Данная технология разрабатывается в застенках АBBYY уже больше 15 лет, была профинансированная большей частью силами самой компании, что связано, впрочем, как и слабая маркетинговая кампания технологии, по-видимому, с опасениями промышленного шпионажа. Ведь аналогов в мире (по словам руководителей компании) у этой технологии пока нет, а её появление способно стать колесом эпохи победившего постмодернизма. Однако для русскоязычного уха фраза «аналогов в мире нет» вызывает зачастую лишь скептическую улыбку, так как на практике никто и никогда эти революционные технологии не видел.

С момента появления компьютеров человечество мечтало научить машины общаться с людьми и облегчить общение людей между собой, используя компьютерный перевод. Первоначально технологию пытались развивать «лингвистическим» путём, описывая язык, прописывая всю языковую матрицу в её мельчайших деталях, правилах, исключениях. Но дьявол, как известно, кроется в деталях – получавшаяся модель языка была неимоверно сложна, а некоторые правила провоцировали появления взаимоисключающих правил, которые упирались в аппаратные границы. Если формальное описание морфологии и синтаксиса оказалось для лингвистов посильной задачей, то описание семантики вызывает трудности вплоть до наших дней, не говоря уже о прагматике.

Существовал также «математический» подход, сторонники которого ратовали за увеличение вычислительных мощностей. Плодом работы сторонников математического подхода стал статистический перевод, как результат - знакомый всем нам переводчик Google). Правда, готовые переводы способны дать читающему только поверхностное представление о смысле текста, а всё из-за неумения полноценно анализировать морфологическую и синтаксическую стороны текста.

Система Compreno основывается на глубинных структурах. Глубинная структура - один из аналитических инструментов генеративной лингвистики, заключающийся в особом представлении предложения, отражающем семантическую близость предложений, которые содержат одни и те же лексические единицы и отличаются друг от друга только некоторыми грамматическими значениями. В дальнейшем лексические единицы располагаются на дереве составляющих (USH - Universal Sematic Hierarchy) в соответствии с родо-видовыми показателями слова. Затем данная семантическая модель накладывается на предложения. Главное отличие семантической модели от морфологической и синтаксической моделей – её универсальность: люди повсеместно оперируют практически одним и тем же набором базовых понятий. Когда семантическая модель накладывается на текст, система анализирует общетекстовый контекст и контексты предложения и обращается к готовой базе данных естественных текстов, на которых система проверяет применение модели.

Однако данная технология применима не только для автоматического перевода, но и для достижения многих других целей: интеллектуальный поиск, распознавание речи, устный перевод и даже генерация текстов.

Подытоживая вышесказанное, напрашивается следующий вывод: технология Compreno является, по сути, универсальным языком, поиском которого занималось не одно поколение учёных. Правда, ни одно предыдущее изыскание на этом поприще нельзя назвать в полной мере успешным. Возможно, Compreno от них выгодно отличается тем, что технология компьютеризирована, а, следовательно, не будет подвержена тем проблемам, которые могли бы грозить универсальному устному языку. Разработчики технологии предполагают, что она (технология) (местоимения, кстати, остаются слабым местом любой лингво-аналитической системы) способна повлиять на естественный язык, делая его проще и строже, однако возможно и то, что будут появляться и зауми наших дней. Кроме того, высказывались предложения, что необходимо вести исследования в надлингвистической области, а именно разрабатывать эвристико-смысловые или эвристико-ассоциативные технологии, ибо они больше соответствуют человеческой речедеятельности. Несмотря на то, что подобные технологии были бы, конечно, весьма полезны и применимы, необходимости в них на данном этапе нет. Ведь пока превращение компьютера в полноценного человека не несет никакой практической пользы, зато на горизонте уже маячит целый комплекс этических и правовых проблем.


Возврат к списку