Preview

Электронные библиотеки

Расширенный поиск

Некоторые подходы к повышению точности прогнозирования с использованием ансамблевых методов

https://doi.org/10.26907/1562-5419-2025-28-6-1415-1434

Аннотация


Представлены результаты экспериментального исследования эффективности использования сверхслучайных деревьев в моделях, основанных на градиентном бустинге, а также в новом ансамблевом методе, в котором лес генерируется, исходя из условия повышенной внутренней дивергенции. сследована эффективность сверхслучайных деревьев при использовании расширенных наборов признаков с включением новых признаков, вычисляемых как расстояния Идо набора описаний опорных объектов из обучающей выборки. Показано, что использование сверхслучайных деревьев в моделях градиентного бустинга и дивергентного леса позволяет улучшить обобщающую способность, а также, что к еще большему росту обобщающей способности приводит использование расширенных наборов признаков.

Об авторах

Синьюэ Ма
Московский государственный университет имени М. В. Ломоносова
Россия


Олег Валентинович Сенько
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Россия


Список литературы

1. Habr. Open Machine Learning Course. Topic 5. Ensembles: Bagging, Random Forest. Available at: https://habr.com/ru/companies/ods/articles/324402/ (accessed 6 November 2025). (In Russ.).

2. Dmitriev A.I., Zhuravlev Yu.I., Krendelev F.P. O matematicheskikh printsipakh klassifikatsii predmetov ili yavlenii [On the Mathematical Principles of the Classification of Objects and Phenomena] // Diskretnyi analiz [Discrete Analysis]. 1967. No. 7. P. 3–17 (In Russ.).

3. Vaintsvaig M.N. Algoritm obucheniya raspoznavaniyu obrazov “Kora” [Algorithm for pattern recognition learning “Kora”] // Algoritmy obucheniya raspoznavaniyu obrazov [Algorithms for pattern recognition learning]. Moscow: Sovetskoe radio, 1973. P. 8–12 (In Russ.).

4. Heath D., Kasif S., Salzberg S. k-DT: A multi-tree learning method // Proceedings of the Second International Workshop on Multistrategy Learning. 1993. P. 138–149. https://doi.org/10.1007/0-387-34296-6_10

5. Breiman L. Random Forests // Machine Learning. 2001. Vol. 45, No. 1. P. 5–32. https://doi.org/10.1023/A:1010933404324

6. Breiman L. Bagging predictors // Machine Learning. 1996. Vol. 24, No. 2. P. 123–140. https://doi.org/10.1007/BF00058655

7. Ho T.K. The Random Subspace Method for Constructing Decision Forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. Vol. 20, No. 8. P. 832–844. https://doi.org/10.1109/34.709601

8. Freund Y., Schapire R.E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting // Journal of Computer and System Sciences. 1997. Vol. 55. P. 119–139. https://doi.org/10.1006/jcss.1997.1504

9. Friedman J.H. Stochastic Gradient Boosting // Computational Statistics & Data Analysis. 2002. Vol. 38, No. 4. P. 367–378. https://doi.org/10.1016/S0167-9473(01)00065-2

10. Zhou Z.H. Ensemble Methods: Foundations and Algorithms. New York: Chapman and Hall/CRC, 2012. 446 p. ISBN 978-1-4398-3003-1.

11. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference and Prediction. New York: Springer, 2009. 745 p. https://doi.org/10.1007/978-0-387-84858-7

12. Beja-Battais P. Overview of AdaBoost: Reconciling its Views to Better Understand its Dynamics // arXiv preprint arXiv:2310.18323 [cs.LG]. 2023. https://doi.org/10.48550/arXiv.2310.18323

13. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. P. 785–794. https://doi.org/10.48550/arXiv.1603.02754

14. Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Advances in Neural Information Processing Systems (NeurIPS). 2017. Vol. 30.

15. Hancock J.T., Khoshgoftaar T.M. CatBoost for big data: an interdisciplinary review // Journal of Big Data. 2020. Vol. 7, No. 94. 45 p. https://doi.org/10.1186/s40537-020-00369-8

16. Zhuravlev Yu.I., Senko O.V., Dokukin A.A., Kiselyova N.N., Saenko I.A. Two-Level Regression Method Using Ensembles of Trees with Optimal Divergence // Doklady Mathematics. 2021. Vol. 103, No. 1. P. 1–4.

17. https://doi.org/10.1134/S1064562421040177

18. Dokukin A.A., Sen’ko O.V. A New Two-Level Machine Learning Method for Evaluating the Real Characteristics of Objects // Journal of Computer and Systems Sciences International. 2023. Vol. 62, No. 4. P. 607–614. https://doi.org/10.1134/S1064230723040020

19. Senko O.V., Dokukin A.A., Kiselyova N.N., Dudarev V.A., Kuznetsova Yu.O. New Two-Level Ensemble Method and Its Application to Chemical Compounds Properties Prediction // Lobachevskii Journal of Mathematics. 2023. Vol. 44, No. 1. P. 188–197. https://doi.org/10.1134/S1995080223010341

20. Geurts P., Ernst D., Wehenkel L. Extremely Randomized Trees // Machine Learning. 2006. Vol. 63, No. 1. P. 3–42. https://doi.org/10.1007/s10994-006-6226-1

21. López-Iñesta E., Grimaldo F., Arevalillo-Herráez M. Combining feature extraction and expansion to improve classification-based similarity learning // Pattern Recognition Letters. 2016. Vol. 85. P. 84–90. https://doi.org/10.1016/j.patrec.2016.11.005

22. Breiman L., Friedman J., Olshen R.A., Stone C.J. Classification and Regression Trees. Monterey, CA: Wadsworth & Brooks/Cole, 1984. 358 p. https://doi.org/10.1201/9781315139470

23. Mahalanobis P.C. On the Generalised Distance in Statistics (reprint of 1936) // Sankhya A. 2018. Vol. 80, Suppl. 1. P. 1–7. https://doi.org/10.1007/s13171-019-00164-5


Рецензия

Для цитирования:


Ма С., Сенько О.В. Некоторые подходы к повышению точности прогнозирования с использованием ансамблевых методов. Электронные библиотеки. 2025;28(6):1415-1434. https://doi.org/10.26907/1562-5419-2025-28-6-1415-1434

For citation:


Ma X., Sen’Ko O.V. Some Approaches to Improving Prediction Accuracy using Ensemble Methods. Russian Digital Libraries Journal. 2025;28(6):1415-1434. (In Russ.) https://doi.org/10.26907/1562-5419-2025-28-6-1415-1434

Просмотров: 27

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)