- Le TurboQuant de Tether réduit la consommation de mémoire IA jusqu’à 5x, aidant les appareils à gérer localement des tâches plus longues.
- QVAC 0.12.0 permet aux développeurs d’exécuter des charges d’IA plus importantes sur des ordinateurs portables et téléphones avec moins de stress mémoire.
- TurboQuant s’attaque au goulot d’étranglement mémoire de l’IA, permettant des discussions plus longues, des fichiers plus volumineux et des projets de code plus complexes.
Tether a ajouté un nouvel outil d’optimisation mémoire au SDK QVAC 0.12.0, une initiative qui pourrait aider les ordinateurs portables, smartphones et autres appareils à gérer localement des charges de travail plus importantes. En annonçant la mise à jour sur X, le PDG Paolo Ardoino a déclaré que la version incluait TurboQuant, une technologie qui réduit jusqu’à cinq fois les besoins en mémoire IA tout en maintenant une qualité de sortie presque identique.
La mise à jour se concentre sur une limitation clé des grands modèles de langage : la mémoire. À mesure que les conversations et les tâches s’allongent, les besoins en mémoire augmentent considérablement. TurboQuant réduit ce fardeau, permettant aux appareils de travailler avec des documents plus volumineux, des conversations plus longues et plus d’informations en même temps.
La version ajoute également la génération de texte en vidéo, des fonctionnalités de contrôle robotique, la prise en charge de l’assistant de codage, des améliorations du traitement vocal et des outils de classification d’image plus rapides.
TurboQuant s’attaque au goulot d’étranglement mémoire de l’IA
TurboQuant se trouve au centre de la version 0.12.0 du SDK QVAC. La technologie compresse le cache KV, un type de mémoire de travail utilisé par les modèles d’IA pour suivre les conversations, documents et autres informations pendant une session.
Les besoins en mémoire augmentent à mesure que les utilisateurs introduisent davantage d’informations dans un modèle. Tether a indiqué qu’un modèle de 4 milliards de paramètres traitant environ 262 000 jetons peut nécessiter environ 8 Go de mémoire rien que pour le cache. Exécuter plusieurs sessions à cette échelle peut rapidement dépasser les limites de nombreux ordinateurs portables et appareils grand public.
TurboQuant vise à réduire cette pression. Selon Tether, la technologie peut réduire les besoins en mémoire cache KV jusqu’à cinq fois tout en préservant une qualité de sortie presque identique. Ainsi, les utilisateurs peuvent travailler avec des conversations plus longues, des documents plus volumineux et des bases de code plus volumineuses sans dépendre autant des ressources informatiques à distance.
QVAC dépasse les modèles de langage
La mise à jour inclut plus que des améliorations de mémoire. QVAC SDK 0.12.0 ajoute plusieurs nouveaux outils visant à étendre ce que les développeurs peuvent faire fonctionner sur des appareils locaux.
Parmi les nouveautés figure la prise en charge de la génération texte en vidéo via le modèle Wan2.1. La plateforme introduit également une fonctionnalité vision-langage-action qui permet aux développeurs de créer des applications pour le contrôle robotique.
La version ajoute en outre un outil léger de classification d’images conçu pour les tâches ne nécessitant pas de modèles à vision plus large. Parallèlement, QVAC a transféré ses systèmes de synthèse vocale et de transcription vers son moteur GGGML, un changement qui élargit le support sur les principaux systèmes d’exploitation de bureau et mobiles.
Les développeurs ont également obtenu de nouvelles options pour les assistants de codage. QVAC s’intègre désormais à OpenCode et OpenClaw via un package fournisseur qui simplifie la gestion et le déploiement des modèles.
À lire aussi : Le cofondateur de Multicoin déclare que « le Web3 est mort » au milieu d’une crise d’identité crypto
L’IA open source se rapproche du bord
La publication montre que Tether se concentre sur l’exécution de plus de tâches informatiques directement sur les appareils des utilisateurs plutôt que de dépendre entièrement de centres de données centralisés. L’entreprise s’est de plus en plus concentrée sur des logiciels pouvant fonctionner sur des appareils personnels, des réseaux locaux et des systèmes décentralisés.
« Les recherches de Google ont montré que la mémoire IA pouvait être compressée bien plus efficacement que ce que la plupart des gens pensaient. Notre travail apporte cette percée dans les logiciels de production que développeurs, startups et utilisateurs peuvent réellement construire », a déclaré Ardoino.
Il a ajouté : « Les gens devraient pouvoir demander à un assistant IA de lire un long document, de se souvenir d’un projet, d’aider avec du code ou de traiter des informations privées sans que chaque tâche soit imposée par un centre de données distant. »
Ce lancement intervient alors que Tether étend ses efforts au-delà des outils d’optimisation mémoire. Ardoino a récemment révélé que l’entreprise développe un moteur de recherche peer-to-peer open source et a partagé une démonstration d’un système de recherche décentralisé sur Wikipédia.
À lire aussi : Michael Burry qualifie l’offre GPU de Nvidia à 5,4 milliards de dollars de « Fugazi »
Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.