Распознавание речи на мобильных устройствах, управляемых Linux, на примере ОС Аврора (Алексей Андреев, OSSDEVCONF-2021) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
Предложенный способ позволяет в сторонних решениях реализовывать распознавание речи на мобильных устройствах с помощью библиотеки Kaldi. Полученное решение удовлетворяет как пользовательским, так и техническим требованиям. Кроме того, предложенный подход может быть использован и в других случаях, когда Fortran требуется для сборки или запуска ПО, но окружение операционной системы или инструменты сборки не предоставляют возможности его использовать. </blockquote> {{VideoSection}} {{vimeoembed|581910314|800|450}} {{youtubelink|}} |mwcWiWDVKhQ}} {{SlidesSection}} [[File:Распознавание речи на мобильных устройствах, управляемых Linux, на примере ОС Аврора (Алексей Андреев, OSSDEVCONF-2021).pdf|left|page=-|300px]] {{----}} [[File:{{#setmainimage:Распознавание речи на мобильных устройствах, управляемых Linux, на примере ОС Аврора (Алексей Андреев, OSSDEVCONF-2021)!.jpg}}|center|640px]] {{LinksSection}} <!-- <blockquote>[©]</blockquote> --> {{fblink|2968396196746715}} <references/> {{stats|disqus_comments=0|refresh_time=2021-08-31T18:15:13.950375|vimeo_plays=1|youtube_plays=0}} |
Версия 14:14, 12 ноября 2021
- Докладчик
- Алексей Андреев
ОС Аврора является POSIX-совместимым дистрибутивом Linux, спроектированным для решения корпоративных и бизнес-задач. Основная область применений устройств на ОС Аврора — это корпорации в России. Например, такие устройства используются полевыми сотрудниками для получения задач и отправки отчётов. Формирование подобных отчётов происходит с помощью заполнения сложных форм с большим количеством полей ввода и опций для выбора. Распознавание речи позволяет существенно ускорить этот процесс.
Есть и другие задачи, которые требуется решать разработчикам корпоративного прикладного ПО для мобильных устройств. На их основе можно сформулировать пользовательские требования к решениям: поддержка нескольких языков (по крайней мере, русский и английский языки), распознавание речи на устройстве (без необходимости использования сторонних серверов), скорость распознавания, не уступающая ручному вводу. Для реализации подобных функций в прикладном ПО удобно использовать готовые решения для распознавания речи.
Для POSIX-совместимых операционных систем доступны несколько СПО-библиотек, предоставляющих функции распознавания речи. Учитывая необходимость их использования, в том числе, в коммерческих проектах для ОС Аврора, сформулирован ряд дополнительных требований, связанных с инструментами сборки, особенностями хранения модели данных, активностью проекта и лицензией, допускающей достаточно свободное использование.
Удобным решением для задачи, удовлетворяющим критериям, является движок Kaldi. Однако, он зависит от математических библиотек, написанных на языке Fortran. А актуальные версии ОС Аврора на данный момент не поддерживает этот язык программирования в силу оптимизаций инструментов сборки. Требования к Fortran появляются, например, при использовании математических библиотек, таких как LAPACK или OpenBLAS. Другие популярные проекты, которые от них зависят: PyTorch и TensorFlow.
Поэтому потребовалось разработать способ, который позволяет использовать зависимости Kaldi, реализованные на Fortran, в окружении, которое его не поддерживает. В докладе предлагается подход, позволяющий собрать программное обеспечение сторонним набором инструментов, и описываются ограничения по интеграции в окружение ОС Аврора.
Предложенный способ позволяет в сторонних решениях реализовывать распознавание речи на мобильных устройствах с помощью библиотеки Kaldi. Полученное решение удовлетворяет как пользовательским, так и техническим требованиям. Кроме того, предложенный подход может быть использован и в других случаях, когда Fortran требуется для сборки или запуска ПО, но окружение операционной системы или инструменты сборки не предоставляют возможности его использовать.
Видео
Презентация
Примечания и ссылки
Plays:1 Comments:0