Войти

Микс лингвистики и IT на новой программе «Языковые технологии в бизнесе и образовании»

07.12.2020

В 2021 году в петербургском кампусе НИУ ВШЭ откроется набор на новую магистерскую программу по компьютерной лингвистике. Какой бэкграунд ждут от абитуриентов, как будет выстроено обучение и чем смогут заниматься выпускники программы рассказывает академический руководитель ОП «Языковые технологии в бизнесе и образовании» Михаил Копотев.

Узнать подробнее о количестве мест и вступительных испытаниях можно на странице программы. Информация о поступлении находится в разделе для абитуриентов магистратуры.

 

Для кого предназначена программа?

Магистерская программа «Языковые технологии в бизнесе и образовании» готовит специалистов, которые будут заниматься компьютерной лингвистикой в IT-секторе или сфере преподавания. В своей работе выпускники смогут опираться, с одной стороны, на технические навыки в области программирования и инструментов Data science, а с другой — на лингвистические знания.

Студенты программы научатся обрабатывать большие массивы текстовых данных и использовать компьютерные программы и алгоритмы по обработке языка. Они смогут реализовать себя в проектах, связанных, например, с разработкой голосовых помощников, развитием искусственного интеллекта и созданием современных образовательных онлайн-курсов.

Руководит программой Михаил Вячеславович Копотев — доцент департамента филологии петербургского кампуса Вышки, кандидат филологических наук, PhD. Михаил Копотев стажировался в Гарвардском университете,  занимает должность адъюнкт-профессора в Хельсинкском университете. Он является автором популярного учебного пособия «Введение в корпусную лингвистику» и создателем нескольких интернет-ресурсов: Хельсинкский аннотированный корпус HANCO, словарь сочетаемости слов CoCoCo, сервис проверки академических текстов CAT&kittens.  В следующем году под его редакцией выйдет книга The Palgrave Handbook of Digital Russia Studies

«Программа прикладная и не нацелена на подготовку исследователей. Мы будем выпускать специалистов для работы в бизнесе и в образовании. Конечно, если кому-то из студентов интересна наука, они смогут получить полезные навыки и для академической карьеры в области лингвистики и Data science. Однако программа все же сфокусирована прежде всего на прикладных навыках и знаниях», - отмечает Михаил Копотев.

 

Кто может поступить на программу?

Программа будет интересна в первую очередь выпускникам информационных и языковых направлений. Это специалисты по IT или Data science, которым для работы нужны знания о языке, а также филологи и лингвисты, которые хотят научиться обработке языковых данных и освоить навыки программирования. 

В магистратуру могут поступать и выпускники из других областей, где большое значение имеет работа с текстом, — например, социологи, историки, антропологи. Главное, чтобы у студента был интерес к языку и технологиям.

 

Нужны ли абитуриенту специальные знания из области программирования и лингвистики?

Для поступления не нужно обладать специальными знаниями. В течение первого года студенты будут проходить выравнивающие курсы для лингвистов и IT-специалистов. Выпускники технических направлений смогут освоить базовые знания об устройстве языка и современной лингвистической теории, а лингвисты и филологи познакомятся с основами информационных технологий. 

Если абитуриент никогда не писал код и не изучал лингвистику, он сможет пройти оба выравнивающих курса и даже научиться программировать с нуля. Конечно, в этом случае студенту потребуется больше сил и времени для освоения базовой части программы.

 

Как лингвистика связана с информационными технологиями?

За последние двадцать лет в лингвистике произошла революция больших данных, или революция чисел, которая изменила представление ученых о языке. Для обработки гигантских массивов данных, которые принято называть языковыми корпусами, ученым потребовалось освоить компьютерные программы и новые методы анализа. Лингвисты стали больше опираться не на собственную интуицию и заданные нормы, а на информацию, которую можно извлечь из данных.

«Раньше язык понимался как система с определенными правилами, сегодня — это скорее сложно устроенная модель, в которой сосуществуют разные вероятностные закономерности: некоторые из них выполняются с вероятностью в 100 %, а другие зависят от конкретных условий употребления.

Приведу простой пример. В школе нас учат, что «кофе» — это слово мужского рода. Однако большие текстовые данные позволили проследить процесс адаптации слова «кофе» в разных социальных группах. Оказалось, что в СССР однозначно победил мужской род, но в эмигрантской среде он постепенно вытеснялся средним. Процесс вытеснения мы наблюдаем с некоторой задержкой в современной России. Так, благодаря данным жесткое школьное правило сменилось анализом реальных тенденций, происходящих с разной скоростью в разных социальных группах. Как результат, современные словари уже отражают двойную норму», - говорит руководитель программы.

 

Зачем лингвистика IT-специалистам?

Программы, завязанные на работе с языком, требуют дополнительных знаний. Например, чтобы разработать качественную поисковую систему, нужно уметь составлять тезаурус, обращаться к словарю синонимов, прорабатывать семантическое поле. Выпускник IT-направления в большинстве случаев не обладает подобными навыками и не может построить систему поиска без учета особенностей языка и существующих языковых ресурсов.

В магистратуре «Языковые технологии в бизнесе и образовании» IT-специалист сможет получить все необходимые лингвистические знания и научиться самостоятельно выстраивать работу над проектами, связанными с языковыми технологиями.

 

Что можно создавать, используя компьютерную лингвистику?

«Совсем недавно компания «Яндекс» выпустила на русском языке книгу экономиста Дэниела Сасскинда «Будущее без работы. Технологии, автоматизация и стоит ли их бояться». В этой книге обложка и значительная часть перевода сделаны автоматически. Это стало возможно благодаря применению нейросетевых моделей и появлению на рынке специалистов, которые умеют работать одновременно с языковыми данными и компьютерными технологиями. С другой стороны, переход на дистанционную работу обозначил новую, пока не занятую нишу на рынке труда. Это специалист по созданию инструментов цифрового обучения, от которого требуется как понимание основ педагогики, так и знание технологий», - считает Михаил Копотев.

С помощью компьютерной лингвистики можно создавать продукты, которые облегчают взаимодействие бизнеса с клиентами. Многие компании получают огромное количество запросов о своих услугах и товарах. Самые популярные из них можно собрать в единый массив данных, упорядочить и создать чат-бота. Это программа автоматически распознает запрос клиента и предоставляет ему необходимый ответ. Чтобы чат-бот работал правильно и коммуницировал с клиентом как реальный оператор, разработчик должен учитывать языковые параметры общения.

Компьютерная лингвистика также помогает улучшить работу поисковых сервисов. Специалист анализирует тексты, составляет словарь профессиональных терминов и строит поисковую систему, «заточенную» под конкретную область. Компьютерный лингвист может улучшить документооборот в компании или создать поисковые системы для библиотек, так чтобы пользователь мог найти интересующий документ исходя из контекста, даже если он не помнит названия.

Специалист со знаниями лингвистики и IT может работать с продуктами для рынка корпоративного образования. Во многих компаниях сотрудники проходят курсы повышения квалификации и изучают, например, внутренние регламенты и правила. Это массивы текстовой информации, которые часто представлены в виде большого количества печатных материалов и документов. Компьютерный лингвист может сделать процесс внутреннего обучения более технологичным: он проанализирует материалы, выделит ключевую информацию для обучения и создаст компьютерные программы с короткими учебными курсами, квизами и системой оценки полученных знаний.

 

Как будет организовано деление на треки в программе?

На первом году обучения студенты будут проходить выравнивающие курсы по лингвистике и программированию, а также изучать базовые предметы, например, основы статистики, программирование и современные лингвистические теории. Магистранты получат навыки веб-дизайна и создания баз данных, научатся визуализировать текстовые данные и пользоваться программами по обработке языка. В серии вводных курсов студенты также получат общее представление о том, чем вообще можно заниматься в сфере компьютерной лингвистики.

На втором году студенты выбирают одно из направлений программы — бизнес или образование. Внутри каждого трека магистранты пройдут специализированные курсы. 

Образовательный трек будет интересен тем студентам, которые не хотят сильно погружаться в создание IT-продуктов, но готовы анализировать данные и учиться работать с готовыми программами и ресурсами. Студент этого направления научится создавать сценарии учебных курсов и воплощать их в виде онлайн- или оффлайн-сервисов. Трек будет готовить учащихся к работе в области преподавания языков в широком смысле — от онлайн-курсов иностранных языков до корпоративной системы переподготовки персонала.

Выпускники образовательного направления научатся создавать собственные онлайн-курсы, писать для них сценарии и программы, анализировать методологию и динамику обучения. Они также смогут заниматься компьютеризацией тестирования, например, такого как IELTS и TOEFFL. Кроме того, магистранты научатся разрабатывать приложения для изучения иностранных языков, вроде Duolingo, и упаковывать в онлайн-формат другие учебные предметы.

Бизнес-трек предназначен для студентов, которые хотят погрузиться в программирование и технологии обработки языка. Магистранты пройдут продвинутый курс по программированию, изучат предметы, связанные с глубинным обучением, семантическими сетями, а также анализом и синтезом звучащей речи. Последнее необходимо, например, для работы над голосовыми помощниками.

В рамках этого направления будут организованы бизнес-мастерские с приглашенными экспертами из таких компаний, как «Сбер»,«Яндекс» и Promt. Специалисты расскажут о текущих разработках компаний в области языковых технологий, о реальных бизнес-процессах в индустрии и о навыках, которых работодатели ожидают от выпускников.

 

Почему программа частично преподается на английском?

На сегодняшний день английский язык доминирует как в бизнесе, так и в академии. Большинство работ по лингвистике публикуется на английском и посвящено английскому языку. Чтобы в результате обучения выпускники получили актуальные знания о лингвистике и IT, программа включает курсы и на английском языке.

Часть таких курсов будут читать зарубежные партнеры магистратуры. Например, специалист по онлайн-тестированию Олеся Кисселев из Техасского университета в Сан-Антонио и специалист по созданию обучающих языковых платформ Роман Янгарбер из Хельсинкского университета познакомят студентов с самыми последними достижениями компьютерной лингвистики.

 

Будут ли студенты заниматься проектной деятельностью? Как будет организована практика?

Треть от общего объема кредитов студенты будут получать за проектную работу и учебную практику. 

Цель проектного семинара — научить магистрантов создавать продукт в команде. Студенты в группах по два-три человека под руководством преподавателя кампуса, приглашенного специалиста или зарубежного исследователя будут в течение года заниматься разработкой придуманного ими пилотного проекта, который, возможно, станет основой нового бизнеса или образовательного сервиса.

Учебная практика подразумевает стажировку в партнерских компаниях программы или в других фирмах, с которыми студент договорится самостоятельно. Благодаря взаимодействию с рынком студент узнает, как устроена реальная работа в области языковых технологий, и сможет поучаствовать в процессе разработки конкретного продукта. Уже сейчас у программы есть договоренности с такими крупными представителями рынка, как «Яндекс» и «Сбер», Мариинский театр и Баварская государственная библиотека, Хельсинкский и Берлинский университеты.

Студенты, которых заинтересует академическая карьера, смогут поработать в исследовательских проектах базовых кафедр Питерской Вышки: в Институте русской литературы (Пушкинский Дом) РАН и Институте лингвистических исследований РАН.

 

В чем преимущество программы «Языковые технологии в бизнесе и образовании»?

«Исходя из своего многолетнего опыта, могу сказать, что компьютерная лингвистика — это востребованная специальность. Рынок все больше нуждается не просто в специалистах по Data science широкого профиля, но в профессионалах, которые понимают, как устроены данные, с которыми они работают.

В этом смысле бизнес-трек не является чем-то новым, но рассчитан именно на этот расширяющийся рынок. А вот образовательное направление магистратуры действительно уникально. На данный момент в России не существует качественной университетской программы, которая бы готовила сильных специалистов, обладающих как методическими знаниями, так и IT-навыками, достаточными для разработки образовательных цифровых ресурсов для школы и университета или бизнеса.

Главная особенность программы — ее практическая ориентация. Мы будем готовить специалистов, которые не просто обладают теоретическими знаниями, но понимают, как использовать свои навыки для конкретных задач, в которых язык или языки являются центральным объектом», - подчеркивает Копотев.

Share:

Read next

Subscribe to StudyInSPb
Newsletter