Nowy algorytm kompresji pamięci od Google Research może nawet sześciokrotnie zmniejszyć zapotrzebowanie modeli AI na pamięć operacyjną, bez utraty jakości. Jeśli TurboQuant wyjdzie poza laboratoria, powinien znacząco zwiększyć wydajność systemów sztucznej inteligencji i obniżyć koszty ich działania.
Jak informuje TechCrunch, TurboQuant opiera się na dwóch nowych technikach: metodzie kwantyzacji PolarQuant oraz algorytmie uczenia i optymalizacji QJL, które razem mają eliminować wąskie gardła pamięciowe w systemach AI. Wykorzystywanie zaawansowanej kwantyzacji wektorowej, pozwala zmniejszyć objętość tzw. pamięci podręcznej KV (key-value cache), w której modele przechowują informacje kontekstowe potrzebne do generowania odpowiedzi. Według zespołu badawczego Google Research, umożliwia to „zapamiętanie” większej ilości danych przy znacznie mniejszym zużyciu zasobów – bez zauważalnego spadku dokładności. Naukowcy planują zaprezentować szczegóły tej technologii podczas International Conference on Learning Representations 2026.
Pełen artykuł znajdziesz tutaj: itwiz.pl



