Тезаурус русского языка RuWordNet был создан на основе автоматизированной трансформации тезауруса RuThes (http://www.labinform.ru/pub/ruthes/) в формат WordNet (https://wordnet.princeton.edu/), который является одним из самых известных ресурсов в области автоматической обработки текстов.

Тезаурус RuWordNet содержит синсеты (наборы синонимов) трех частей речи: существительные (отдельные существительные, группы существительного, предложные группы), глаголы (отдельные глаголы и глагольные группы), прилагательные (отдельные прилагательные и группы прилагательного):
- 29297 синсетов существительных;
- 12865 синсетов прилагательных;
- 7636 синсетов глаголов.
Всего тезаурус RuWordNet содержит 111.5 тысяч слов и выражений русского языка.

Между синсетами, относящимися к разным частям речи, но выражающих один и тот же смысл, установлены отношения частеречной синонимии, соединяющие разделенные синсеты. Также между синсетами установлены отношения: гипоним-гипероним (род-вид), экземпляр-класс, отношение антонимии, часть-целое, причина, логическое следование, предметная область (домен).

Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу [email protected].

Тезаурус в формате WordNet - RuWordNet создан при поддержке фонда РГНФ, грант 15-04-12017в.

Публикации:

  1. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. Изд-во Московского университета, 2011.
  2. Лукашевич Н.В., Лашевич Г., Герасимова А.А., Иванов В.В., Добров Б.В. Порождение тезауруса типа WordNet для русского языка // Труды конференции по искусственному интеллекту КИИ-2016, т.2., 2016. С. 89-97
  3. Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V. Creating Russian WordNet by Conversion // In Proceedings of Conference on Computatilnal linguistics and Intellectual technologies Dialog-2016, 2016. pp.405-415
  4. Loukachevitch N., Lashevich G. Multiword expressions in Russian Thesauri RuThes and RuWordNet. Proceedings of the AINL FRUCT 2016, 2016. pp.66-71.