Tether stellt TurboQuant vor, um größere KI-Modelle auf Geräten auszuführen

Tethers TurboQuant reduziert den KI-Speicherverbrauch bis zu fünffach und hilft Geräten, längere Aufgaben lokal zu bewältigen.
QVAC 0.12.0 ermöglicht es Entwicklern, größere KI-Workloads auf Laptops und Handys mit weniger Speicherbelastung auszuführen.
TurboQuant bekämpft den Speicherengpass der KI und ermöglicht längere Chats, größere Dateien und größere Codeprojekte.

Tether hat dem QVAC SDK 0.12.0 ein neues Speicheroptimierungstool hinzugefügt, ein Schritt, der Laptops, Smartphones und andere Geräte helfen könnte, größere Arbeitslasten lokal zu bewältigen. Bei der Ankündigung des Updates zu X sagte CEO Paolo Ardoino, dass die Veröffentlichung TurboQuant enthält, eine Technologie, die den KI-Speicherbedarf bis zu fünffach reduziert und dabei nahezu die gleiche Ausgabequalität beibehält.

Das Update konzentriert sich auf eine wichtige Einschränkung großer Sprachmodelle: Speicher. Da Gespräche und Aufgaben länger werden, steigen die Gedächtnisanforderungen stark an. TurboQuant reduziert diese Belastung, sodass Geräte mit größeren Dokumenten, längeren Gesprächen und mehr Informationen gleichzeitig arbeiten können.

🚨🤖Tether AI ships TurboQuant KV-Cache Quantization within QVAC SDK 0.12.0, compressing the KV cache memory requirements by up to 5x, near-lossless.

Effective high-quality local AI is one step closer! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

Die Veröffentlichung fügt außerdem Text-zu-Video-Generierung, Robotersteuerungsfunktionen, Unterstützung für Codierassistenten, Sprachverarbeitungsverbesserungen und schnellere Bildklassifikationstools hinzu.

TurboQuant zielt auf den Speicher-Engpass der KI ab

TurboQuant steht im Zentrum der QVAC SDK 0.12.0-Version. Die Technologie komprimiert den KV-Cache, eine Art Arbeitsspeicher, den KI-Modelle nutzen, um Gespräche, Dokumente und andere Informationen während einer Sitzung zu verfolgen.

Der Speicherbedarf steigt, wenn Nutzer mehr Informationen in ein Modell eingeben. Tether sagte, dass ein Modell mit 4 Milliarden Parametern, das etwa 262.000 Token verarbeitet, allein etwa 8 GB Speicher für den Cache benötigen kann. Mehrere Sitzungen in diesem Umfang durchzuführen, kann schnell die Grenzen vieler Laptops und Consumer-Geräte überschreiten.

TurboQuant zielt darauf ab, diesen Druck zu reduzieren. Laut Tether kann die Technologie den KV-Cache-Speicherbedarf bis zu fünffach verringern und gleichzeitig nahezu die gleiche Ausgabequalität erhalten. Dadurch können Nutzer mit längeren Gesprächen, größeren Dokumenten und größeren Codebasen arbeiten, ohne sich so stark auf entfernte Rechenressourcen verlassen zu müssen.

QVAC geht über Sprachmodelle hinaus

Das Update enthält mehr als nur Speicherverbesserungen. QVAC SDK 0.12.0 fügt mehrere neue Tools hinzu, die darauf abzielen, das Angebot zu erweitern, was Entwickler auf lokalen Geräten ausführen können.

Zu den Neuerungen gehört die Unterstützung der Text-zu-Video-Generierung durch das Wan2.1-Modell. Die Plattform führt außerdem eine Vision-Language-Action-Funktion ein, die es Entwicklern ermöglicht, Anwendungen für die robotische Steuerung zu entwickeln.

Die Veröffentlichung fügt außerdem ein leichtes Bildklassifikationstool hinzu, das für Aufgaben entwickelt wurde, die keine größeren Visionsmodelle erfordern. Gleichzeitig verlagerte QVAC seine Text-zu-Sprache- und Transkriptionssysteme auf seine GGML-Engine, eine Änderung, die die Unterstützung auf wichtigen Desktop- und mobilen Betriebssystemen erweitert.

Entwickler erhielten zudem neue Optionen für Codierungsassistenten. QVAC integriert sich nun mit OpenCode und OpenClaw über ein Provider-Paket, das das Modellmanagement und die Bereitstellung vereinfacht.

Open-Source-KI rückt näher an den Rand

Die Pressemitteilung zeigt, dass Tether sich darauf konzentriert, mehr Rechenaufgaben direkt auf den Geräten der Nutzer auszuführen, anstatt sich ausschließlich auf zentralisierte Rechenzentren zu verlassen. Das Unternehmen konzentriert sich zunehmend auf Software, die über private Geräte, lokale Netzwerke und dezentrale Systeme hinweg betrieben werden kann.

„Googles Forschung zeigte, dass KI-Speicher viel effizienter komprimiert werden kann, als die meisten annahmen. Unsere Arbeit bringt diesen Durchbruch in Produktionssoftware, mit der Entwickler, Start-ups und Nutzer tatsächlich bauen können“, sagte Ardoino.

Er fügte hinzu: „Menschen sollten einen KI-Assistenten bitten können, ein langes Dokument zu lesen, sich ein Projekt zu merken, beim Code zu helfen oder private Informationen zu bearbeiten, ohne dass jede Aufgabe durch ein entferntes Rechenzentrum gezwungen wird.“

Der Start erfolgt, während Tether seine Bemühungen über Speicheroptimierungstools hinaus ausweitet. Ardoino gab kürzlich bekannt, dass das Unternehmen eine Open-Source-Peer-to-Peer-Suchmaschine entwickelt und teilte eine Demonstration eines dezentralen Wikipedia-Suchsystems.

Verwandt: Michael Burry nennt Nvidias 5,4-Milliarden-Dollar-GPU-Deal „Fugazi“

Advertise here

Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.