Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016)

Материал из 0x1.tv

(перенаправлено с «20160130C»)

Аннотация

Докладчик
Александр Рыжов.jpg
Александр Рыжов

В настоящее время во множестве отечественных университетов преподаются такие курсы, как «Компьютерная лингвистика» и «Основы обработки текстов».

Но методика преподавания данных дисциплин полностью зависит от конкретного учебного заведения и не всегда соответствует современным реалиям. В докладе проведен анализ основных учебных программ ведущих университетов по данной дисциплине и разработана типовая структура курса на основе открытой библиотеки NLTK.

Разработаны задачи к лабораторному практикуму и описаны возможные направления для научной деятельности студентов.

Видео

on youtube

Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.


Слайды

Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf

Тезисы

Задача cоздания эффективного спецкурса обучения студентов компьютерной лингвистики и текстовому анализу крайне актуальна на данный момент, ввиду потребности в специалистах, владеющих этими предметами, и достаточно большого обилия средств и методик.

Анализ учебных курсов, читаемых в таких вузах как МГУ, ВШЭ, МФТИ, НГУ и некоторых других показал, что программы разительно отличаются друг от друга, как по теоретическому материалу, так и по предлагаемым студентам практическим и лабораторным задачам.

Все рассмотренные программы относились к направлениям подготовки «Прикладная математика и физика» и «Фундаментальная и прикладная лингвистика».

В докладе представлена типовая структура спецкурса для подготовки студентов на основе лингвистической библиотеки NLTK, который поддерживается созданным интернет-ресурсом[1].

Данная библиотека успешно используется во многих университетах мира в курсах[2], связанных с текстовым анализом и со смежными областями.

NLTK — открытая библиотека реализована на языке Python и была создана специально для курса компьютерной лингвистики Университета Пенсильвании[3] [4].

Цель создания собственного интернет-ресурса в том, чтобы преподаватели различных вузов могли использовать представленные наработки для составления своих учебных программ, соответствующих современным реалиям подготовки студентов.

Представлен набор задач и лабораторных работ на основе курса. Общий формат лабораторных не подразумевает создания большого количества задач. Для практикума планируется 1–2 задачи, которые будут покрывать широкое поле основных понятий и терминов. К подобным заданиям можно отнести задачу автоматического определения тональности. В ходе ее решения студент познакомится и на практике столкнется с такими важными понятиями, как алгоритмы классификации, алгоритмы стемминга, текстовые корпуса, N-граммы. Студенту предложено на основе имеющегося или составленого им корпуса определенной предметной области, запрограммировать собственный классификатор и получить точность не ниже определенного порога. Для оценивания результата возможно использовать автоматическую систему проверки. Стоит заметить, что библиотека NLTK представляет только базовые средства текстового анализа и предполагается, что разработчик на основе данных инструментов, будет создавать свои более высокоуровневые программы. Базовые средства не всегда достаточны для решения разнообразных задач.

Незатронутыми остаются такие задачи, как автореферирование и выделение именованных сущностей в тексте. В настоящий момент в данной библиотеке крайне мала поддержка русского языка. С одной стороны, это плохо, но с другой стороны, множество разработчиков постоянно совершенствуют библиотеку. Студентам предоставляется возможность самим поучаствовать над её развитием и предложить свои модули, разработанные в рамках лабораторных работ или в качестве научной работы.

Примечания и отзывы

  1. Курс «Компьютерная лингвистика» URL: http://ucheba8fac.wix.com/linguistics
  2. Courses that use NLTK: http://tinyurl.com/nltk-courses
  3. Bird S., Klein E., Loper E. Natural language processing with Python. — “O’Reilly Media, Inc.”, 2009.
  4. Исходный код NLTK: https://github.com/nltk/nltk

Plays:112   Comments:0