Квантование Vision Transformer: CPU-центричный анализ компромисса между размером модели и скоростью инференса

Амир Рамисович Нигматуллин; Рустам Арифович Лукманов; Ахмад Таха

Квантование Vision Transformer: CPU-центричный анализ компромисса между размером модели и скоростью инференса

Амир Рамисович Нигматуллин, Рустам Арифович Лукманов, Ахмад Таха

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Использование моделей Vision Transformer (ViT) в реальной медицинской практике, например в больницах или диагностических центрах, часто затруднено, потому что на рабочих компьютерах врачей обычно нет мощных графических процессоров (GPU), а имеющиеся вычислительные ресурсы ограничены. В настоящей работе рассмотрен полный путь практической реализации модели на этапе применения (pipeline инференса), направленный на снижение вычислительных затрат без существенной потери качества.

Предложенный подход объединяет несколько методов оптимизации.
Во-первых, использована дистилляция знаний (knowledge distillation) – метод обучения, при котором компактная модель копирует поведение более крупной и точной модели-учителя. Во-вторых, применено экспоненциальное скользящее среднее (Exponential Moving Average, EMA) весов, позволяющее стабилизировать обучение и повысить обобщающую способность модели.
В-третьих, исследована посттренировочная квантизация до целочисленного формата INT8 (post-training quantization, PTQ), направленная на уменьшение размера модели и ускорение инференса. Дополнительно рассмотрен упрощенный вариант квантизации совместно с обучением (QAT-lite), при котором эффекты квантизации частично учитываются во время дообучения модели.

Эксперименты проведены на датасете ISIC, содержащем дерматоскопические изображения кожных новообразований. Оценка качества моделей включает стандартные метрики классификации: точность (accuracy), макроусредненную F1-меру и площадь под ROC-кривой (ROC-AUC). Проанализированы характеристики производительности на центральном процессоре (CPU), включая задержку инференса, пропускную способность, потребление памяти и итоговый размер модели.

Полученные результаты показали, что посттренировочная INT8-квантизация позволяет сохранить качество, близкое к модели в формате FP32, при существенном снижении требований к памяти и вычислительным ресурсам. В то же время использование QAT-lite не демонстрирует устойчивых и воспроизводимых улучшений по сравнению с PTQ.

Ключевые слова

Визуальный трансформер (ViT), дистилляция знаний, экспоненциальная скользящая средняя (EMA), посттренировочная квантизация, обучение с учетом квантования

Об авторах

Амир Рамисович Нигматуллин

Университет Иннополис
Россия

Рустам Арифович Лукманов

Университет Иннополис
Россия

Ахмад Таха

Университет Иннополис
Россия

Список литературы

1. Shamshad F., Khan S., Zamir S.W., et al. Transformers in Medical Imaging: A Survey // arXiv. 2022.

2. He K., Gan C., et al. Transformers in Medical Image Analysis: A Review // arXiv. 2022.

3. Atabansi C.C., Nie J., et al. A Survey of Transformer Applications for Histopathological Image Analysis: New Developments and Future Directions // Biomedical Engineering Online. 2023. Vol. 22, No. 1. https://doi.org/10.1186/s12938-023-01069-5

4. Azad R., Kazerouni A., Heidari M., et al. Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review // arXiv. 2023.

5. Shamshad F., Khan S., Zamir S.W., et al. Transformers in Medical Imaging: A Survey // Medical Image Analysis. 2024. Vol. 88. https://doi.org/10.1016/j.media.2023.102843

6. Liu Y., et al. A Recent Survey of Vision Transformers for Medical Image Segmentation // arXiv. 2023.

7. Wu F., et al. Lite Transformer with Long-Short Range Attention // Proceedings of the International Conference on Learning Representations (ICLR). 2020.

8. Jacob B., et al. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018. P. 2704–2713. https://doi.org/10.1109/CVPR.2018.00286

9. Nagel M., et al. A White Paper on Neural Network Quantization // arXiv. 2021.

10. Han S., Mao H., Dally W.J. Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding // arXiv. 2016.

11. Yao Z., et al. ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers // Advances in Neural Information Processing Systems (NeurIPS). 2022. Vol. 35.

12. Wikipedia contributors. Model Compression // Wikipedia. 2025.

13. Hinton G., Vinyals O., Dean J. Distilling the Knowledge in a Neural Network // arXiv. 2015.

14. Gou J., et al. Knowledge Distillation: A Survey // International Journal of Computer Vision. 2021. Vol. 129, No. 6. P. 1789–1819.https://doi.org/10.1007/s11263-021-01453-z

15. Umirzakova S., et al. Simplified Knowledge Distillation for Deep Neural Networks: Bridging the Performance Gap with a Novel Teacher–Student Architecture // Electronics. 2024. Vol. 13, No. 3. https://doi.org/10.3390/electronics13030512

16. Liang P., et al. Data-Free Knowledge Distillation with Feature Synthesis and Spatial Consistency for Image Analysis // Scientific Reports. 2024. Vol. 14, No. 1. https://doi.org/10.1038/s41598-024-53241-3

Рецензия

Для цитирования:

Нигматуллин А.Р., Лукманов Р.А., Таха А. Квантование Vision Transformer: CPU-центричный анализ компромисса между размером модели и скоростью инференса. Электронные библиотеки. 2026;29(1):262-286.

For citation:

Nigmatullin A.R., Lukmanov R.A., Taha A. Vit Quantization: CPU-Centric Analysis of the Trade-Off between Size and Speed. Russian Digital Libraries Journal. 2026;29(1):262-286. (In Russ.)

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1562-5419 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Электронные библиотеки

Квантование Vision Transformer: CPU-центричный анализ компромисса между размером модели и скоростью инференса

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов