Создание генератора псевдослов и классификация их схожести со словами словаря русского языка методами машинного обучения
https://doi.org/10.26907/1562-5419-2025-28-1-145-162
Аннотация
Под псевдословом понимается единица речи или текста, которая выглядит как реальное слово на русском языке, но на самом деле не имеет значения, а под настоящим или естественным словом – единица речи или текста, которая имеет толкование и представлена в словаре. Представлены две модели для работы с русским языком: генератор псевдослов и классификатор, оценивающий степень схожести введенной последовательности символов с настоящими словами. Классификатор использован для оценки результатов генератора. Обе модели основаны на рекуррентной нейронной сети с долгой краткосрочной памятью и обучены на датасете существительных русского языка. В результате создан файл, содержащий список сгенерированных псевдослов, оцененных классификатором. Псевдослова могут найти применение в задачах нейминга, брендирования и макетирования, в искусстве, для создания креативных произведений, и в языковых исследованиях, для изучения структуры языка и слов.
Об авторах
Кирилл Алексеевич РомаданскийРоссия
Артемий Евгеньевич Ахаев
Россия
Тагмир Радикович Гилязов
Россия
Список литературы
1. Sagiroglu S., Sinanc D. Big Data: A Review // 2013 International Conference on Collaboration Technologies and Systems (CTS). 2013. P. 42–47.
2. Shim K. MapReduce algorithms for Big Data Analysis // Proceedings of the VLDB Endowment. 2012. V. 5. No. 12. P. 2016–2017.
3. Строев В.В., Тихонов А.И. Применение технологий Data Mining для поиска соответствий закономерностей развития в больших массивах веб-данных на основе инструментов анализа Big Data // E-Management. 2022. Т. 5. N 4. С. 4–11.
4. Kim J., Shin S., Bae K., Oh S. Can AI be a content creator? Effects of content creators and information delivery methods on the psychology of content consumers // Telematics and Informatics. 2020. V. 55. P. 101452.
5. Лалетина А.О. Языковая норма в эпоху глобализации // Ученые записки Казанского университета. Серия Гуманитарные науки. 2011. Т. 153. № 6. С. 219–226.
6. Москалёва М.В. Неологизмы и проблема их изучения в современном русском языке // Известия РГПУ им. А. И. Герцена. 2008. № 80. С. 246–250.
7. Дмитриева Д.Д. Изучение словообразования на занятиях по русскому языку как иностранному // Балтийский гуманитарный журнал. 2020. Т. 9. № 1(30). С. 47–49.
8. Shipley D., Hooky G.J., Wallace S. The brand name Development Process // International Journal of Advertising. 1988. V. 7. No. 3. P. 253–266.
9. Mazzola G., Carapezza M., Chella A., Mantoan D. Artificial Intelligence in Art Generation: An Open Issue // Image Analysis and Processing – ICIAP 2023 Workshops. 2023. V. 14366. P. 258–269.
10. Jarmulowicz L., Taran V.L. Lexical morphology // Topics in Language Disorders. 2013. V. 33. No. 1. P. 57–72.
11. Iqbal T., Qureshi S. The survey: Text generation models in deep learning // Journal of King Saud University - Computer and Information Sciences. 2022. V. 34. No. 6. P. 2515–2528.
12. Yu Y., Si X., Hu C., Zhang J. A review of Recurrent Neural Networks: LSTM cells and network architectures // Neural Computation. 2019. Т. 31. No. 7. P. 1235–1270.
13. Ketkar N. Introduction to Keras // Deep Learning with Python. Berkeley, CA: Apress, 2017. P. 97–111.
14. Helms M. Badestrand/Russian-Dictionary: Dataset of nouns, verbs, adjectives and others from my Russian dictionary website OpenRussian.org. [Электронный ресурс]. URL: https://github.com/Badestrand/russian-dictionary (дата обращения: 17.10.2023).
15. Rodríguez P., Bautista M.A., Gonzàlez J., Escalera S. Beyond one-hot encoding: Lower dimensional target embedding // Image and Vision Computing. 2018. V. 75. P. 21–31.
16. Mao A., Mohri M., Zhong Y. Cross-entropy loss functions: Theoretical analysis and applications // Proceedings of the 40th International Conference on Machine Learning. 2023. V. 202. P. 23803–23828.
17. Manaswi N.K. Understanding and Working with Keras // Deep Learning with Applications Using Python. Berkeley, CA: Apress, 2018. P. 31–43.
Рецензия
Для цитирования:
Ромаданский К.А., Ахаев А.Е., Гилязов Т.Р. Создание генератора псевдослов и классификация их схожести со словами словаря русского языка методами машинного обучения. Электронные библиотеки. 2025;28(1):145-162. https://doi.org/10.26907/1562-5419-2025-28-1-145-162
For citation:
Romadanskiy K.A., Akhaev A.E., Gilyazov T.R. Creating Pseudowords Generator and Classifier of Their Similarity with Words from Russian Dictionary using Machine Learning. Russian Digital Libraries Journal. 2025;28(1):145-162. (In Russ.) https://doi.org/10.26907/1562-5419-2025-28-1-145-162