Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016) — различия между версиями

Материал из 0x1.tv

(Новая страница: «== Аннотация == ;Докладчик: {{Speaker|Александр Рыжов}} <blockquote> </blockquote> == Видео == {{vimeoembed|143683369|800|4…»)
 
== Аннотация ==
;Докладчик: {{Speaker|Александр Рыжов}}
<blockquote>
В настоящее время во множестве отечественных университетов преподаются такие курсы, как «Компьютерная лингвистика» и «Основы обработки текстов». 

Но методика преподавания данных дисциплин полностью зависит от конкретного учебного заведения и не всегда соответствует современным реалиям. В докладе проведен анализ основных учебных программ ведущих университетов по данной дисциплине
и разработана типовая структура курса на основе открытой библиотеки NLTK. 

Разработаны задачи к лабораторному практикуму и описаны возможные направления для научной деятельности студентов.
</blockquote>

== Видео ==

{{vimeoembed|143683369|800|450}}
{{youtubelink|}}
{{oseduconf-2016-draft}}

<!-- == Слайды ==
[[File:Курс «Компьютерная лингвистика» (Александр Рыжов, OSEDUCONF-2016).pdf|left|page=-|256px]]
 -->

<!-- == Тезисы ==  -->


Задача  cоздания  эффективного  спецкурса  обучения  студентов компьютерной  лингвистики  и  текстовому  анализу  крайне  актуальна на данный момент, ввиду потребности в специалистах, владеющих этими предметами, и достаточно большого обилия средств и методик.

Анализ учебных курсов, читаемых в таких вузах как МГУ, ВШЭ, МФТИ, НГУ и некоторых других показал, что программы разительно отличаются друг от друга, как по теоретическому материалу, так и по предлагаемым студентам практическим и лабораторным задачам.

Все  рассмотренные  программы  относились  к  направлениям  подготовки «Прикладная математика и физика» и «Фундаментальная и прикладная лингвистика».

В докладе представлена типовая структура спецкурса для подготовки студентов на основе лингвистической библиотеки NLTK, который поддерживается созданным интернет-ресурсом<ref>Курс «Компьютерная лингвистика» URL: http://ucheba8fac.wix.com/linguistics </ref>. 

Данная библиотека успешно используется во многих университетах мира в курсах<ref>Courses    that    use    NLTK: http://tinyurl.com/nltk-courses</ref>, связанных с текстовым анализом и со смежными областями.

NLTK  открытая библиотека реализована на языке Python и была создана специально для курса компьютерной лингвистики Университета Пенсильвании<ref>Bird S.,  Klein E.,  Loper E.  Natural  language  processing  with  Python.   “O’Reilly Media, Inc.”, 2009.</ref>
<ref>Исходный код NLTK: https://github.com/nltk/nltk</ref>. 

Цель создания собственного интернет-ресурса в  том,  чтобы  преподаватели  различных  вузов  могли  использовать представленные наработки для составления своих учебных программ, соответствующих современным реалиям подготовки студентов. 

Представлен набор задач и лабораторных работ на основе курса. 
Общий формат лабораторных не подразумевает создания большого количества задач. 
Для практикума планируется 1–2 задачи, которые  будут  покрывать  широкое  поле  основных  понятий  и  терминов. 
К подобным заданиям можно отнести задачу автоматического определения тональности. 
В ходе ее решения студент познакомится и на практике столкнется с такими важными понятиями, как алгоритмы классификации, алгоритмы стемминга, текстовые корпуса, N-граммы. 
Студенту предложено на основе имеющегося или составленого им корпуса определенной предметной области, запрограммировать
собственный классификатор и получить точность не ниже определенного порога. 
Для оценивания результата возможно использовать автоматическую систему проверки.
Стоит заметить, что библиотека NLTK представляет только базовые средства текстового анализа и предполагается, что разработчик
на основе данных инструментов, будет создавать свои более высокоуровневые программы. 
Базовые средства не всегда достаточны для решения разнообразных задач. 

Незатронутыми остаются такие задачи, как автореферирование и выделение именованных сущностей в
тексте. В настоящий момент в данной библиотеке крайне мала поддержка русского языка. 
С одной стороны, это плохо, но с другой стороны, множество разработчиков постоянно совершенствуют библиотеку. 
Студентам предоставляется возможность самим поучаствовать над её развитием и предложить свои модули, разработанные в рамках
лабораторных работ или в качестве научной работы.

{{----}}

== Примечания и отзывы ==
<!-- <blockquote>[©]</blockquote> -->

<references/>

[[Category:OSEDUCONF-2016]]
[[Category:Образование]]
[[Category:Open-source]]

<!-- topub -->

Версия 17:47, 28 февраля 2016

Аннотация

Докладчик
Александр Рыжов.jpg
Александр Рыжов

В настоящее время во множестве отечественных университетов преподаются такие курсы, как «Компьютерная лингвистика» и «Основы обработки текстов».

Но методика преподавания данных дисциплин полностью зависит от конкретного учебного заведения и не всегда соответствует современным реалиям. В докладе проведен анализ основных учебных программ ведущих университетов по данной дисциплине и разработана типовая структура курса на основе открытой библиотеки NLTK.

Разработаны задачи к лабораторному практикуму и описаны возможные направления для научной деятельности студентов.

Видео


Тезисы

Задача cоздания эффективного спецкурса обучения студентов компьютерной лингвистики и текстовому анализу крайне актуальна на данный момент, ввиду потребности в специалистах, владеющих этими предметами, и достаточно большого обилия средств и методик.

Анализ учебных курсов, читаемых в таких вузах как МГУ, ВШЭ, МФТИ, НГУ и некоторых других показал, что программы разительно отличаются друг от друга, как по теоретическому материалу, так и по предлагаемым студентам практическим и лабораторным задачам.

Все рассмотренные программы относились к направлениям подготовки «Прикладная математика и физика» и «Фундаментальная и прикладная лингвистика».

В докладе представлена типовая структура спецкурса для подготовки студентов на основе лингвистической библиотеки NLTK, который поддерживается созданным интернет-ресурсом[1].

Данная библиотека успешно используется во многих университетах мира в курсах[2], связанных с текстовым анализом и со смежными областями.

NLTK — открытая библиотека реализована на языке Python и была создана специально для курса компьютерной лингвистики Университета Пенсильвании[3] [4].

Цель создания собственного интернет-ресурса в том, чтобы преподаватели различных вузов могли использовать представленные наработки для составления своих учебных программ, соответствующих современным реалиям подготовки студентов.

Представлен набор задач и лабораторных работ на основе курса. Общий формат лабораторных не подразумевает создания большого количества задач. Для практикума планируется 1–2 задачи, которые будут покрывать широкое поле основных понятий и терминов. К подобным заданиям можно отнести задачу автоматического определения тональности. В ходе ее решения студент познакомится и на практике столкнется с такими важными понятиями, как алгоритмы классификации, алгоритмы стемминга, текстовые корпуса, N-граммы. Студенту предложено на основе имеющегося или составленого им корпуса определенной предметной области, запрограммировать собственный классификатор и получить точность не ниже определенного порога. Для оценивания результата возможно использовать автоматическую систему проверки. Стоит заметить, что библиотека NLTK представляет только базовые средства текстового анализа и предполагается, что разработчик на основе данных инструментов, будет создавать свои более высокоуровневые программы. Базовые средства не всегда достаточны для решения разнообразных задач.

Незатронутыми остаются такие задачи, как автореферирование и выделение именованных сущностей в тексте. В настоящий момент в данной библиотеке крайне мала поддержка русского языка. С одной стороны, это плохо, но с другой стороны, множество разработчиков постоянно совершенствуют библиотеку. Студентам предоставляется возможность самим поучаствовать над её развитием и предложить свои модули, разработанные в рамках лабораторных работ или в качестве научной работы.

Примечания и отзывы

  1. Курс «Компьютерная лингвистика» URL: http://ucheba8fac.wix.com/linguistics
  2. Courses that use NLTK: http://tinyurl.com/nltk-courses
  3. Bird S., Klein E., Loper E. Natural language processing with Python. — “O’Reilly Media, Inc.”, 2009.
  4. Исходный код NLTK: https://github.com/nltk/nltk