Google нашла способ сократить потребление памяти ИИ в шесть раз

 
5901
9
27 марта 2026 в 9:16

Компания Google анонсировала на днях TurboQuant — алгоритм, который позволяет сократить потребление большими языковыми моделями (LLM) памяти в шесть раз. Технология при этом не влияет на производительность и эффективность работы ИИ-моделей, сохраняя точность.

Задача TurboQuant заключается в уменьшении размера специального кеша, в котором хранится важная для работы информация, не требующая проведения повторяющихся вычислений. Размер кеша тем не менее постепенно увеличивается в объеме — по мере увеличения объема контекста, то есть диалога пользователя с ИИ. Именно это может стать ахиллесовой пятой, влияющей на скорость реакции языковых моделей, а TurboQuant способен сжать кеш для поддержания эффективности.

Технология применяется в несколько этапов, сжимая данные и корректируя ошибки в них, одновременно устраняя погрешности и уменьшая затраты на вычислительные процессы. Алгоритм способен работать без дополнительного обучения и потому может применяться к существующим моделям.

Предполагается, что имплементация TurboQuant позволит снизить затраты на деятельность ИИ-моделей и одновременно уменьшить их потребность в памяти. Это кажется особенно актуальным для ИИ-моделей, работающих на смартфонах, например, или системах с ограниченными ресурсами.

Onlíner рекомендует
iOS, экран 6.1" OLED (1170x2532) 60 Гц, Apple A19 (4 ядра GPU), ОЗУ 8 ГБ, память 256 ГБ, камера 48 Мп, моноблок, влагозащита IP68
10.1" IPS, 60 Гц (1280x800), Android, Allwinner A523, 4 ГБ / 128 ГБ, Wi-Fi (без сотовой связи), аккумулятор 5000 мАч
Onlíner рекомендует
13.0" 2408 x 1506, IPS, 60 Гц, Apple A18 Pro, 8 ГБ, SSD 512 ГБ, видеокарта встроенная, Mac OS, цвет крышки розовый, аккумулятор 36.5 Вт·ч

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро

ОБСУЖДЕНИЕ