Морфологический анализатор древнегреческого на основе electron.js (Михаил Быков, OSEDUCONF-2017)

Материал из 0x1.tv

Аннотация

Докладчик
Михаил Быков.jpg
Михаил Быков

Приложение Морфей для древнегреческого языка работает автономно, без подключения к сети, на трех платформах, Linux, MacOS, Windows, и в любом месте на десктопе, — достаточно скопировать греческое предложение в буфер обмена. Используются несколько специальных и несколько общедоступных словарей. Анализируется все предложение, включая простые синтаксические связи между словами.

Видео

on youtube

Тезисы

Морфей и проблема «злокачественного распухания грамматической теории»

Большие проекты изучения национальных языков находятся на очевидном свободном взлёте — только дайте денег, и они станут ещё больше и мощнее, пределов не видно. Для древнегреческого самый большой — Персей.

Возьмём, к примеру, слово — λόγος. Исходное его значение — складывать, собирать вместе. Его слышно в наших словах ложка, телега. Что говорит о слове λέγω — «я говорю» — Персей[1]? Откроем страницу — мы видим множество вариантов. Как этим пользоваться? Первое значение с восемью морфологическими расшифровками — λέγαι γυναικεςlewd — «развратные девки». Ясно, что Архилох имеет в виду болтушек (λόγος) — кумушек. У слова «болтушки» есть и другие значения — «сплетницы» и «сводницы». Сплетать — сводить — то же самое складывание, что и в исходном слове λόγος. В любом слове слышится и противоположное значение — не сплетение, а раз-врат, то есть рас-кладывание. Т.е. lewd действительно возможно. Бибихин писал о присутствии в слове противоположных смыслов как о «сне языка».

На Персее мы видим одно из возможных поэтических, образных истолкований слова λόγος, которому придана грамматическая форма и выделена ячейка в базе данных словаря. Выполнен и отдельный морфологический анализ. Это очень перспективный метод для тех, кто ищет работу в этой области: через пару лет можно ожидать появления ещё нескольких разделов и результатов для слова λέγω. Будущим студентам-лингвистам будет что преподавать. Создателей ресурса можно поздравить.

Однако это всё довольно подозрительно. Авторы словаря Лидделл, Скотт и Джонс и создатели «Персея» считаются, вроде бы, английскими джентльменами, но действуют шашкой, подобно кавалеристам Семёна Будённого.

Но дело ещё хуже. В древнем языке — ни в Греции, ни в Индии — вообще нет ни существительных, ни прилагательных. Согласно Дионисию Фракийцу, имя имеет 19 видов. Среди них нет ни существительных, ни прилагательных. И нельзя объединить несколько видов вместе, чтобы получить наше привычное прилагательное — придётся либо исключить некоторые прилагательные, либо включить существительные. Я об этом здесь говорить не буду, кто хочет — посмотрите сами.

Дело в ином — в античности, и в Индии также, речь идёт не о языке (такого понятия нет), а о речи. А речь — это не язык: речь — когда шевелятся губы, а язык — это теоретический конструкт. И принципы деления речи на «части» и выделения «частей речи» в нашем языкознании — разные и логически несовместимые.

Другими словами, все современные корпуса текстов, во главе с «Персеем», ни к чёрту не годятся, если вы хотите понять, о чём говорит древний автор. Они занимаются созданием современной грамматической теории древнего языка. Наверное, это кому-то интересно, раз им деньги дают. Предлагаю назвать вышеописанный механизм «злокачественным распуханием грамматической теории» (ЗРГТ).

Это я говорю, чтобы была понятна цель разработки Морфея. Морфей создан для автоматизации процесса понимания текста, а не для изучения языка. В процессе понимания очень много усилий уходит на листание и чтение огромных словарей, рытьё в толстенных грамматиках и чесание в затылке. Все эти процессы вполне автоматизируемы.

Смотрите скринкаст на странице gr.diglossa.org.

Архитектура и работа Морфея

Морфей работает в любой большой ОС (пока не работает на мобильных платформах) и в любом месте на десктопе — достаточно выделить и скопировать текст в буфер обмена (обычно Ctrl+C). Это приложение на electron.js, то есть по сути браузер Chromium. Морфей может работать автономно — он имеет встроенную базу данных Pouch.js, но при каждом запуске, если есть выход в сеть, локальная и серверная база синхронизируются прозрачно для пользователя.

Морфей имеет модульную структуру. Основной процесс таков:

  • все слова в тексте (обычно предложение или клауза — от знака препинания до знака препинания) проверяются в словаре «терминов». Термины — это конечные формы, не требующие дальнейшего анализа (например, местоимения, артикли, неизменяемые формы, неправильные глаголы и т.д.);
  • для оставшихся изменяемых слов по окончаниям вычисляются вероятные словарные формы — форма пропускается через каскад модулей-фильтров;
  • наличие вероятных словарных форм проверяется в словаре.

В качестве большого словаря используется свободно доступный в сети словарь YALSYet Another Liddell–Scott [2]. Видимо, он имеет отношение к словарю Лидделла–Скотта. Для найденных в словаре вариантов по окончаниям вычисляются морфологические характеристики.

Дополнительные технические словари терминов и конечных форм я создал вручную, работа продолжается [3] [4] [5]. В отличие от «больших» морфологических анализаторов, я не пытаюсь выделить все возможные лексические единицы слова, но стремлюсь вывести слово из его источника.

Иерархия уровней словаря

В идеале я хотел бы иметь несколько уровней словаря:

  • праиндоевропейский корень;
  • язык Гомера;
  • классическое значение;
  • койне;
  • новогреческий.

Каждый уровень должен быть представлен двумя–тремя типичными значениями — не как установленное правило, а как «наводка на тему». Затем читателю должны быть представлены примеры переводов из живой переводческой практики на различные языки и в разных контекстах. Это можно реализовать поиском по параллельному массиву текстов. Сведение анализа к единому значению, вместо создания отдельных лексических единиц для каждого значения, поможет справиться с ЗРГТ.

Связи и структура

Между словами предложения устанавливаются типичные связи. Связанные слова подчёркиваются. Морфей не анализирует синтаксическую структуру предложения — это конструкт современной теории языка. Древний автор не знал о синтаксисе, но согласованные слова были. Пока выделяются и подчёркиваются только связанные артикли, местоимения и имена.

Поскольку Морфей имеет модульную структуру, любые модули могут быть заменены. На этой основе можно создавать другие приложения — например, в стиле иной грамматической теории, с другими словарями или локализациями.

Заключение

В целом Морфей может заметно облегчить процесс чтения греческого текста. Но по своей конструкции и цели он не может выдать готовый перевод. Перевод — и понимание слова, и всего текста — это поступок, уникальное событие в мире, совершаемое только читателем и только в процессе чтения.

Примечания и отзывы


Морфологический анализатор древнегреческого на основе electron.js (Михаил Быков, OSEDUCONF-2017)!.jpg

Plays:58   Comments:0