Preview

Электронные библиотеки

Расширенный поиск

Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска

https://doi.org/10.26907/1562-5419-2025-28-6-1306-1323

Аннотация


Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.


Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.


Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.

Об авторах

Ольга Муратовна Атаева
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Россия


Михаил Геннадьевич Кобук
Московский университет имени С.Ю. Витте
Россия


Список литературы

1. Hoftich M. TEX4ht: LATEX to Web Publishing // TUGboat. 2019. Vol. 40, No. 1. P. 76–81.

2. Frankston C. et al. Using HTML Papers on arXiv: Why It’s Important, and How We Made It Happen // arXiv preprint 2024. https://doi.org/10.48550/arXiv.2402.08954 (In Russ.)

3. Serebryakov V.A., Galochkin M.P., Gonchar D.R., Furugyan M.G. Theory and Implementation of Programming Languages. 2nd ed. Moscow: MZ-Press, 2006. 352 p. (In Russ.)

4. Hopcroft J., Motwani R., Ullman J. Introduction to Automata Theory, Languages, and Computation. Moscow: Williams, 2002. 528 p. (In Russ.)

5. Aho A.V., Lam M.S., Sethi R., Ullman J.D. Compilers: Principles, Techniques, and Tools. 2nd ed. Moscow: Williams, 2008. 1184 p. (In Russ.)

6. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems (NIPS 26). 2013. P. 3111–3119. URL: https://dl.acm.org/doi/10.5555/2999792.2999959 (date accessed: 08.11.2025)

7. Pennington J., Socher R., Manning C. GloVe: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1532–1543. https://doi.org/10.3115/v1/D14-1162

8. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. Valencia, Spain, April 2017. P. 427–431. https://doi.org/10.18653/v1/E17-2068

9. Feng F., Yang Y., Cer D., Arivazhagan N., Wang W. Language-agnostic BERT Sentence Embedding // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL). Dublin, Ireland, May 2022. Р. 878–891. https://doi.org/10.18653/v1/2022.acl-long.62

10. Zmitrovich D. et al. A Family of Pretrained Transformer Language Models for Russian // arXiv preprint 2023. https://doi.org/10.48550/arXiv.2309.10931

11. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // arXiv preprint 2019. https://doi.org/10.48550/arXiv.1905.07213

12. Nikolich A., Puchkova A. Fine-tuning GPT-3 for Russian Text Summarization // arXiv preprint 2021. https://doi.org/10.48550/arXiv.2108.03502

13. Kutuzov A., Kuzmenko E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models // In: Ignatov D. et al. (Eds.) Analysis of Images, Social Networks and Texts (AIST 2016). Communications in Computer and Information Science. Vol. 661. Springer, Cham, 2017. https://doi.org/10.1007/978-3-319-52920-2_15

14. Kasenchak R.T. What is Semantic Search? and Why Is It Important? // Information Services and Use. 2019. Vol. 39. No. 3. Р. 205–213. https://doi.org/10.3233/ISU-190045

15. Shelke P. et al. A Systematic and Comparative Analysis of Semantic Search Algorithms // International Journal on Recent and Innovation Trends in Computing and Communication. 2023. Vol. 11, No. 11s. P. 222–229. https://doi.org/10.17762/ijritcc.v11i11s.8094

16. Weckmüller D., Dunkel A., Burghardt D. Embedding-Based Multilingual Semantic Search for Geo-Textual Data in Urban Studies // Journal of Geovisualization and Spatial Analysis. 2025. Vol. 9. No. 31. P. 1–18. https://doi.org/10.1007/s41651-025-00232-5

17. Siddharth Pratap Singh. Vector Search in the Era of Semantic Understanding: A Comprehensive Review of Applications and Implementations // International Journal of Computer Engineering and Technology. 2024. Vol. 15. No. 6. P. 1794–1805. https://doi.org/10.34218/IJCET_15_06_153

18. Zhou Y. et al. Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words // 2022. https://doi.org/10.48550/arXiv.2205.05092

19. Healy J., McInnes L. Uniform manifold approximation and projection // Nature Reviews Methods Primers. 2024, Vol. 4. No. 82. P. 1–15. https://doi.org/10.1038/s43586-024-00363-x


Рецензия

Для цитирования:


Атаева О.М., Кобук М.Г. Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска. Электронные библиотеки. 2025;28(6):1306-1323. https://doi.org/10.26907/1562-5419-2025-28-6-1306-1323

For citation:


Ataeva O.M., Kobuk M.G. Formation of Structured Representations of Scientific Journals for Integration into a Knowledge Graph and Semantic Search. Russian Digital Libraries Journal. 2025;28(6):1306-1323. (In Russ.) https://doi.org/10.26907/1562-5419-2025-28-6-1306-1323

Просмотров: 29

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)