Морфей для Китайского языка (Михаил Быков, OSSDEVCONF-2017) — различия между версиями

Материал из 0x1.tv

(Batch edit: replace PCRE (\n\n)+(\n) with \2)
 
(не показано 11 промежуточных версий этого же участника)
;{{SpeakerInfo}}: {{Speaker|Михаил Быков}}
<blockquote>
Принципы, применявшиеся для разработки приложения Морфей для древних языков, доказали свою эффективность и при работе над языком современным, а именно Китайским.
</blockquote>


{{VideoSection}}
{{vimeoembed|235962093|800|450}}

{{youtubelink|YUPwOUls9aA}}{{letscomment}}


{{----}}

== Thesis ==
* многопользовательский (пользователь может добавлять/редактировать записи)
* можно на лету подключать/заменять словари, англ, нем, русский, etc, в том числе специализированные словари
* синхронизируются только установленные словари, возможна тонкая настройка репликации (filtered replication)
* одновременно обрабатывает большой объем (несколько абзацев) текста
* выполняет рекурсивную сегментацию длинного слова (сегментирует сегменты)
* преобразует упрощеннное-традиционное написание текста по желанию читателя


Из недостатков метода нужно отменить его ресурсоемкость. Несколько подключенные словарей, большой объем разом
анализируемого текста — слабую машину вешают на десятки секунд.

Из позитивного нужно отметить, что работа с локальной базой данных радикально снижает нагрузку на сервер и обеспечивает
очень быстрое выполнение запроса.

Благодаря CouchDB синхронизация с сервером появляется «из коробки», и не требует вообще
никаких усилий по настройке.

Рекурсивная сегментация позволяет выполнять углубленный анализ слова. А также, что немаловажно, решает интерфейсную и
эргономическую проблему, хорошо заметную в аналогичных приложениях. Они либо не показывают внутреннюю структуру
сегмента текста, либо приводят весть набор возможных внутренних сегментов сразу, что затрудняет восприятие, и
следовательно, понимание текста.

Петер Хауер (linguasoft, Vienna) создал для Морфея словарь ECBT («Early Chinese Buddhist translations»), основанный на фундаментальной работе проф. Seishi Karashima (Soka University, Tokyo).
См. [http://www.dila.edu.tw]

Я надеюсь на появление также иных вспомогательных словарей, например, словаря компьютерной лексики, etc

То, что Морфей не ставит задачу перевода текста, делает его нишевым продуктом. В это смысле он вне мейстрима. Но хорошо
очерченная узкая задача (автоматизация понимания ино-культурного текста, а не чтение готового перевода) позволяет
сделать приложение достаточно эффективным очень малыми средствами.


[[File:{{#setmainimage:Морфей для Китайского языка (Михаил Быков, OSSDEVCONF-2017)!.jpg}}|center|640px]]
{{LinksSection}}
<!-- <blockquote>[©]</blockquote> -->


{{fblink|1951756311744047}}                                          
{{vklink|765}}                                          
<references/>


{{stats|disqus_comments=0|refresh_time=2019-09-05T19:45:072021-08-31T17:31:27.670366108253|vimeo_comments=0|vimeo_plays=46|youtube_comments=0|youtube_plays=11}}

[[Категория:OSSDEVCONF-2017]]
[[Категория:Open-source]]
[[Категория:Natural Language Processing]]Morpheus]]

Текущая версия на 12:21, 4 сентября 2021

Докладчик
Михаил Быков.jpg
Михаил Быков

Принципы, применявшиеся для разработки приложения Морфей для древних языков, доказали свою эффективность и при работе над языком современным, а именно Китайским.

Видео

on youtube

Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.

Thesis

Скринкаст: [1]

Установить: [2]

Морфей не ставит задачу выполнения перевода анализируемого текста. Но задачу автоматизации процесса чтения и понимания каждого читаемого слова.

Морфей:

  • позволяет читать Китайский, и упрощенный, и классический варианты
  • расширения для иных идеографических письменностей (Тибетский, Японский, etc) в работе
  • приложение основано на CouchDB, а следовательно, является распределенным, многопользовательским, и легко

масштабируемым

  • в качестве локальной БД используется PouchDB, то есть для каждой платформы подключается свой, оптимизированный и

рекомендованный вариант БД

  • кроссплатформенный — Windows, MacOS, Linux, мобильные будут позже
  • интерфейс основан на Electron.js, то есть это по сути, браузер Chromium
  • работает оффлайн, синхронизируется с сервером, когда доступна сеть
  • синхронизация гарантирует постоянную актуальность словарей
  • работает где угодно на десктопе, а не только в браузере
  • многопользовательский (пользователь может добавлять/редактировать записи)
  • можно на лету подключать/заменять словари, англ, нем, русский, etc, в том числе специализированные словари
  • синхронизируются только установленные словари, возможна тонкая настройка репликации (filtered replication)
  • одновременно обрабатывает большой объем (несколько абзацев) текста
  • выполняет рекурсивную сегментацию длинного слова (сегментирует сегменты)
  • преобразует упрощеннное-традиционное написание текста по желанию читателя

Из недостатков метода нужно отменить его ресурсоемкость. Несколько подключенные словарей, большой объем разом анализируемого текста — слабую машину вешают на десятки секунд.

Из позитивного нужно отметить, что работа с локальной базой данных радикально снижает нагрузку на сервер и обеспечивает очень быстрое выполнение запроса.

Благодаря CouchDB синхронизация с сервером появляется «из коробки», и не требует вообще никаких усилий по настройке.

Рекурсивная сегментация позволяет выполнять углубленный анализ слова. А также, что немаловажно, решает интерфейсную и эргономическую проблему, хорошо заметную в аналогичных приложениях. Они либо не показывают внутреннюю структуру сегмента текста, либо приводят весть набор возможных внутренних сегментов сразу, что затрудняет восприятие, и следовательно, понимание текста.

Петер Хауер (linguasoft, Vienna) создал для Морфея словарь ECBT («Early Chinese Buddhist translations»), основанный на фундаментальной работе проф. Seishi Karashima (Soka University, Tokyo). См. [3]

Я надеюсь на появление также иных вспомогательных словарей, например, словаря компьютерной лексики, etc

То, что Морфей не ставит задачу перевода текста, делает его нишевым продуктом. В это смысле он вне мейстрима. Но хорошо очерченная узкая задача (автоматизация понимания ино-культурного текста, а не чтение готового перевода) позволяет сделать приложение достаточно эффективным очень малыми средствами.

Морфей для Китайского языка (Михаил Быков, OSSDEVCONF-2017)!.jpg

Примечания и ссылки

Plays:17   Comments:0