Модели

В настоящий момент вы можете скачать следующие модели (идентификатор с годом означает, что модель архивная и недоступна для выбора в веб-интерфейсе):

Идентификатор Скачать Корпус Размер корпуса Объём словаря Частотный порог Тагсет Алгоритм Размерность вектора Размер окна SimLex965 Google Analogies Дата создания
ruscorpora 200 Мбайт НКРЯ 250 миллионов слов 184 973 10 Universal Tags Continuous Skipgram 300 10 0.35 0.65 Январь 2017
ruwikiruscorpora 420 Мбайт НКРЯ и  Википедия за ноябрь 2016 600 миллионов слов 392 339 15 Universal Tags Continuous Bag-of-Words 300 20 0.33 0.70 Январь 2017
web 290 Мбайт Веб-корпус, декабрь 2014 900 миллионов слов 267 540 30 Universal Tags Continuous Bag-of-Words 300 20 0.32 0.67 Январь 2017
araneum 419 Мбайт Araneum Russicum Maximum около 10 миллиардов слов 196 465 400 Universal Tags Continuous Skipgram 600 2 0.41 0.59 Июнь 2017
news 130 Мбайт Русскоязычные новости,с сентября 2013 до ноября 2016 почти 5 миллиардов слов 194 058 200 Universal Tags Continuous Bag-of-Words 300 2 0.33 0.42 Февраль 2017
ruscorpora_2017 371 Мбайт НКРЯ 250 миллионов слов 173 816 10 Universal Tags Continuous Skipgram 600 2 0.43 0.29 Июнь 2017
ruscorpora_2015 303 Мбайт НКРЯ 107 миллионов слов 281 776 3 Mystem Continuous Bag-of-Words 300 2 0.38 0.27 Декабрь 2015
ruwikiruscorpora_2015 1100 Мбайт НКРЯ и  Википедия за  2015 280 миллионов слов 604 043 5 Mystem Continuous Bag-of-Words 500 2 0.38 0.38 Март 2015
web_2015 630 Мбайт Веб-корпус, декабрь 2014 660 миллионов слов 353 608 30 Mystem Continuous Skipgram 500 2 0.31 0.52 Ноябрь 2015
news_2015 525 Мбайт Русскоязычные новости, с сентября 2013 до октября 2015 2.5 миллиарда слов 147 358 200 Mystem Continuous Skip-Gram 1000 20 0.32 0.58 Декабрь 2015

Корпуса

  1. НКРЯ: Национальный Корпус Русского Языка в полном объёме;
  2. Википедия: дамп русской Википедии за соответствующую дату;
  3. Веб: случайно отобранные 9 миллионов русскоязычных веб-страниц; обкачаны в декабре 2014 года;
  4. Новости: поток новостей с 1 500 преимущественно русскоязычных новостных сайтов (около 30 миллионов документов в последних моделях);
  5. Araneum: веб-корпус русскоязычных текстов, собранный Владимиром Бенко в 2016.

Предобработка корпусов

Перед обучением все корпуса были токенизированы, разбиты на предложения, лемматизированы и размечены по частям речи при помощи Mystem. У моделей, созданных в 2017 году и позже, тэги частей речи были дополнительно переведены в формат Universal PoS Tags (например, «печь_NOUN»). Таблица конверсии в UPoS из тэгов Mystem доступна здесь. Стоп-слова (союзы, местоимения, предлоги, частицы и т.п.) были удалены.

Кроме того, в моделях начиная с 2017 года некоторые устойчивые и частотные словосочетания из двух слов (биграммы) были объединены в один токен через спецсимвол «::», например, coca::cola_NOUN.

Оценка моделей

Оценка качества дистрибутивно-семантических моделей сама по себе является сложной проблемой. Лучше всего напрямую оценивать, насколько хорошо модель работает для конкретной практической задачи (extrinsic evaluation). Однако, если модели обучаются «для всего» или для демонстрации возможностей метода (как в случае с нашим сервисом), приходится тестировать некую общую способность моделей работать с языком, без привязки к конкретной задаче (intrinsic evaluation).

Мы оцениваем наши модели двумя хорошо известными способами:

  1. Корреляция (по Спирмену) значений парной схожести слов, сгенерированных моделью, и значений, взятых из вручную размеченного тестового сета. Мы применяем тестовый сет RuSimLex965, построенный на базе Multilingual SimLex999 dataset.
  2. Точность решения задач на аналогии (пропорций). Для оценки мы использовали семантические секции Google Analogies Dataset (перевод на русский Татьяны Кононовой).
Скачать все наши тестовые сеты (с частеречными тэгами или без них).

Кто использует наши модели?

  1. Habra-юзер drafterleo сделал поэтичный поисковик по стишкам-пирожкам.

  2. Доцент школы лингвистики НИУ ВШЭ Борис Орехов создал "векторные пересказы" классических произведений русской литературы.

  3. ...

У вас есть что добавить к этому списку? Пишите нам!