Морфологический анализатор древнегреческого на основе electron.js (Михаил Быков, OSEDUCONF-2017)
Материал из 0x1.tv
Содержание
Аннотация
- Докладчик
- Михаил Быков
Приложение Морфей для древнегреческого языка работает автономно, без подключения к сети, на трех платформах, Linux, MacOS, Windows, и в любом месте на десктопе, — достаточно скопировать греческое предложение в буфер обмена. Используются несколько специальных и несколько общедоступных словарей. Анализируется все предложение, включая простые синтаксические связи между словами.
Видео
Тезисы
Морфей и проблема «злокачественного распухания грамматической теории»
Большие проекты изучения национальных языков находятся на очевидном свободном взлёте — только дайте денег, и они станут ещё больше и мощнее, пределов не видно. Для древнегреческого самый большой — Персей.
Возьмём, к примеру, слово — λόγος. Исходное его значение — складывать, собирать вместе. Его слышно в наших словах ложка, телега. Что говорит о слове λέγω — «я говорю» — Персей[1]? Откроем страницу — мы видим множество вариантов. Как этим пользоваться? Первое значение с восемью морфологическими расшифровками — λέγαι γυναικες — lewd — «развратные девки». Ясно, что Архилох имеет в виду болтушек (λόγος) — кумушек. У слова «болтушки» есть и другие значения — «сплетницы» и «сводницы». Сплетать — сводить — то же самое складывание, что и в исходном слове λόγος. В любом слове слышится и противоположное значение — не сплетение, а раз-врат, то есть рас-кладывание. Т.е. lewd действительно возможно. Бибихин писал о присутствии в слове противоположных смыслов как о «сне языка».
На Персее мы видим одно из возможных поэтических, образных истолкований слова λόγος, которому придана грамматическая форма и выделена ячейка в базе данных словаря. Выполнен и отдельный морфологический анализ. Это очень перспективный метод для тех, кто ищет работу в этой области: через пару лет можно ожидать появления ещё нескольких разделов и результатов для слова λέγω. Будущим студентам-лингвистам будет что преподавать. Создателей ресурса можно поздравить.
Однако это всё довольно подозрительно. Авторы словаря Лидделл, Скотт и Джонс и создатели «Персея» считаются, вроде бы, английскими джентльменами, но действуют шашкой, подобно кавалеристам Семёна Будённого.
Но дело ещё хуже. В древнем языке — ни в Греции, ни в Индии — вообще нет ни существительных, ни прилагательных. Согласно Дионисию Фракийцу, имя имеет 19 видов. Среди них нет ни существительных, ни прилагательных. И нельзя объединить несколько видов вместе, чтобы получить наше привычное прилагательное — придётся либо исключить некоторые прилагательные, либо включить существительные. Я об этом здесь говорить не буду, кто хочет — посмотрите сами.
Дело в ином — в античности, и в Индии также, речь идёт не о языке (такого понятия нет), а о речи. А речь — это не язык: речь — когда шевелятся губы, а язык — это теоретический конструкт. И принципы деления речи на «части» и выделения «частей речи» в нашем языкознании — разные и логически несовместимые.
Другими словами, все современные корпуса текстов, во главе с «Персеем», ни к чёрту не годятся, если вы хотите понять, о чём говорит древний автор. Они занимаются созданием современной грамматической теории древнего языка. Наверное, это кому-то интересно, раз им деньги дают. Предлагаю назвать вышеописанный механизм «злокачественным распуханием грамматической теории» (ЗРГТ).
Это я говорю, чтобы была понятна цель разработки Морфея. Морфей создан для автоматизации процесса понимания текста, а не для изучения языка. В процессе понимания очень много усилий уходит на листание и чтение огромных словарей, рытьё в толстенных грамматиках и чесание в затылке. Все эти процессы вполне автоматизируемы.
Смотрите скринкаст на странице gr.diglossa.org.
Архитектура и работа Морфея
Морфей работает в любой большой ОС (пока не работает на мобильных платформах) и в любом месте на десктопе — достаточно выделить и скопировать текст в буфер обмена (обычно Ctrl+C). Это приложение на electron.js, то есть по сути браузер Chromium. Морфей может работать автономно — он имеет встроенную базу данных Pouch.js, но при каждом запуске, если есть выход в сеть, локальная и серверная база синхронизируются прозрачно для пользователя.
Морфей имеет модульную структуру. Основной процесс таков:
- все слова в тексте (обычно предложение или клауза — от знака препинания до знака препинания) проверяются в словаре «терминов». Термины — это конечные формы, не требующие дальнейшего анализа (например, местоимения, артикли, неизменяемые формы, неправильные глаголы и т.д.);
- для оставшихся изменяемых слов по окончаниям вычисляются вероятные словарные формы — форма пропускается через каскад модулей-фильтров;
- наличие вероятных словарных форм проверяется в словаре.
В качестве большого словаря используется свободно доступный в сети словарь YALS — Yet Another Liddell–Scott [2]. Видимо, он имеет отношение к словарю Лидделла–Скотта. Для найденных в словаре вариантов по окончаниям вычисляются морфологические характеристики.
Дополнительные технические словари терминов и конечных форм я создал вручную, работа продолжается [3] [4] [5]. В отличие от «больших» морфологических анализаторов, я не пытаюсь выделить все возможные лексические единицы слова, но стремлюсь вывести слово из его источника.
Иерархия уровней словаря
В идеале я хотел бы иметь несколько уровней словаря:
- праиндоевропейский корень;
- язык Гомера;
- классическое значение;
- койне;
- новогреческий.
Каждый уровень должен быть представлен двумя–тремя типичными значениями — не как установленное правило, а как «наводка на тему». Затем читателю должны быть представлены примеры переводов из живой переводческой практики на различные языки и в разных контекстах. Это можно реализовать поиском по параллельному массиву текстов. Сведение анализа к единому значению, вместо создания отдельных лексических единиц для каждого значения, поможет справиться с ЗРГТ.
Связи и структура
Между словами предложения устанавливаются типичные связи. Связанные слова подчёркиваются. Морфей не анализирует синтаксическую структуру предложения — это конструкт современной теории языка. Древний автор не знал о синтаксисе, но согласованные слова были. Пока выделяются и подчёркиваются только связанные артикли, местоимения и имена.
Поскольку Морфей имеет модульную структуру, любые модули могут быть заменены. На этой основе можно создавать другие приложения — например, в стиле иной грамматической теории, с другими словарями или локализациями.
Заключение
В целом Морфей может заметно облегчить процесс чтения греческого текста. Но по своей конструкции и цели он не может выдать готовый перевод. Перевод — и понимание слова, и всего текста — это поступок, уникальное событие в мире, совершаемое только читателем и только в процессе чтения.
Примечания и отзывы
Plays:58 Comments:0

