Что такое quantization простыми словами
Если вы видели фразы вроде *INT8, FP16, 4-bit model*, то речь, скорее всего, о quantization — квантовании модели. Это один из самых практичных способов сделать нейросеть быстрее, дешевле и компактнее без полного переобучения.
Квантование — это процесс, при котором веса и иногда активации модели переводят из более “тяжелого” числового формата в более “легкий”.
Например:
- было: FP32 — 32-битные числа с плавающей точкой
- стало: FP16, INT8, INT4 — числа, которые занимают меньше памяти
Идея простая: если хранить параметры модели в менее точном виде, она требует меньше памяти и часто быстрее считается на железе.
Почему квантование ускоряет модель 🚀
Есть 3 главные причины:
- Меньше данных нужно читать из памяти
Во многих моделях узкое место — не сами вычисления, а скорость передачи данных. Когда веса “весят” меньше, GPU/CPU быстрее подает их в вычислительные блоки. - Снижается потребление памяти
Модель в INT8 может занимать примерно в 4 раза меньше места, чем в FP32. Это особенно важно для локального запуска LLM, edge-устройств и мобильных решений. - Некоторое железо умеет быстро считать низкую разрядность
Современные ускорители поддерживают FP16, INT8 и другие форматы на аппаратном уровне. В таких сценариях квантование дает реальный прирост по latency и throughput.
Пример на пальцах
Если модель занимала 20 ГБ в FP32:
- в FP16 она может занимать около 10 ГБ
- в INT8 — около 5 ГБ
- в 4-битном формате — еще меньше
Это значит, что модель можно запустить там, где раньше не хватало VRAM, а инференс станет дешевле.
Но есть нюанс: страдает ли качество? 🎯
Да, иногда страдает. Квантование — это всегда компромисс между:
- скоростью
- размером
- точностью
Чем агрессивнее сжатие, тем выше риск потери качества. Например, переход с FP32 на FP16 обычно проходит мягко, а вот INT4 уже может заметно повлиять на ответы модели, особенно в сложных задачах.
Какие бывают подходы
- Post-Training Quantization (PTQ)
Квантование уже готовой модели без полноценного переобучения. Быстро и удобно. - Quantization-Aware Training (QAT)
Модель дообучают с учетом будущего квантования, чтобы лучше сохранить качество.
Где это особенно полезно 💡
- локальный запуск LLM
- inference в продакшене
- мобильные и edge-устройства
- экономия GPU-памяти
- ускорение массовых запросов
Итог
Quantization — это не “магическое ускорение”, а инженерный способ уменьшить точность представления чисел, чтобы модель работала быстрее и дешевле. Именно поэтому квантованные версии LLM так популярны: они делают большие модели более доступными для реального использования.
Если хотите, могу следующим постом разобрать, чем отличаются FP16, BF16, INT8 и 4-bit на практике 📌
А пока загляните в нашу подборку каналов про ИИ — там еще больше полезного для тех, кто следит за нейросетями и их применением.