Компания Google анонсировала на днях TurboQuant — алгоритм, который позволяет сократить потребление большими языковыми моделями (LLM) памяти в шесть раз. Технология при этом не влияет на производительность и эффективность работы ИИ-моделей, сохраняя точность.
Задача TurboQuant заключается в уменьшении размера специального кеша, в котором хранится важная для работы информация, не требующая проведения повторяющихся вычислений. Размер кеша тем не менее постепенно увеличивается в объеме — по мере увеличения объема контекста, то есть диалога пользователя с ИИ. Именно это может стать ахиллесовой пятой, влияющей на скорость реакции языковых моделей, а TurboQuant способен сжать кеш для поддержания эффективности.
Технология применяется в несколько этапов, сжимая данные и корректируя ошибки в них, одновременно устраняя погрешности и уменьшая затраты на вычислительные процессы. Алгоритм способен работать без дополнительного обучения и потому может применяться к существующим моделям.
Предполагается, что имплементация TurboQuant позволит снизить затраты на деятельность ИИ-моделей и одновременно уменьшить их потребность в памяти. Это кажется особенно актуальным для ИИ-моделей, работающих на смартфонах, например, или системах с ограниченными ресурсами.
Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро