RusVectōrēs: отчёт за 2016 год

Веб-сервис дистрибутивно-семантических моделей для русского языка RusVectōrēs снова с вами! За прошедший год у нас появилось много нового и мы рады поделиться новостями.

Напомним, что RusVectōrēs — это инструмент для работы с лексическими моделями дистрибутивной семантики (word embeddings) прямо в браузере. Подобные алгоритмы (word2vec, GloVe, fasttext и другие) в последние несколько лет произвели революцию в обработке естественного языка. Они позволяют «научить» компьютер определять значения слов, используя в качестве обучающего множества большие массивы текстов и статистику совместной встречаемости слов в них.

На нашем сервисе можно попробовать в действии модели, обученные на различных русскоязычных корпусах, а также скачать их для локальной работы. Чтобы вы могли быстро ознакомиться с тем, что может RusVectōrēs, мы подготовили краткий скринкаст:

RusVectōrēs можно использовать для демонстрации возможностей дистрибутивной семантики, для быстрой проверки лингвистических гипотез или для интересных и полезных игр на занятиях, связанных с семантикой русского языка. Особо прогрессивные личности даже реализуют на основе наших моделей поэтичный поисковик по стишкам-пирожкам.

Итак, новости за 2016 год:

  1. Мы доступны по новому адресу http://rusvectores.org. Старый адрес http://ling.go.mail.ru/dsm также работает, но лучше использовать новый домен.

  2. Модели переобучены на обновленных корпусах: новостной корпус теперь покрывает события вплоть до ноября 2016 года, дамп Википедии также обновлён до этой даты, более полно извлечены тексты из Национального корпуса русского языка.

  3. Все корпуса прошли фильтрацию через автоматический определитель языка. Это позволило избавиться от случайных украинских, белорусских и казахских фраз.

  4. Долгое время слова в наших моделях были снабжены частеречными тэгами по стандарту Mystem/НКРЯ. Сейчас, для упрощения сравнения результатов с другими языками, мы перевели тагсет на стандарт Universal PoS Tags. Таким образом, «модель_S» превратилась в «модель_NOUN». Впрочем, вы по-прежнему можете вводить запросы без частеречных тэгов вообще — RusVectōrēs определит часть речи вашего запроса автоматически.

  5. Двусловные словосочетания с высокой степенью коллокационной близости (по PMI) были склеены в одно слово через спецсимвол «::» и получили отдельные репрезентации (вектора). Таким образом, в моделях теперь присутствует некоторое количество биграмм, например, «боб::дилан_NOUN».

  6. Все модели снабжены оценками их качества по широко известным тестовым сетам SimLex999 и Google Analogies Dataset.

  7. Появились подсказки к запросам, адаптирующиеся по мере того, как вы вводите слово. Впрочем, не смущайтесь, если интересующее вас слово не появляется в подсказках: возможно, модели всё равно его знают, просто оно редкое.

  8. Расширен API, который вы можете использовать для автоматизированных запросов к сервису. В частности, теперь есть возможность запрашивать значения близости для пар слов, а результаты получать не только в tab-separated values, но и в JSON. Смотрите подробности на странице «О проекте»!

  9. Исправлено много мелких ошибок и внесено много менее важных улучшений (а также новых ошибок, но мы их исправим).

  10. Движок, на котором работает RusVectōrēs, выложен на Github как отдельное свободное программное обеспечение под названием WebVectors. Это означает, что теперь вы можете легко поднять аналогичный сервис на своих серверах с тем набором дистрибутивных моделей, который интересен лично вам. В частности, уже работает одноименный сервис с моделями для английского и норвежского языков . В апреле мы будем представлять WebVectors на демо-сессии конференции EACL-2017. Если вы окажетесь там же, мы будем рады услышать ваше мнение о сервисе лично!

У нас ещё много планов по дальнейшему совершенствованию RusVectōrēs. Подписывайтесь на наш RSS и оставайтесь с нами!

Команда RusVectōrēs:
Андрей Кутузов (Университет Осло, Высшая школа экономики)

Елизавета Кузьменко (Высшая школа экономики)