Tether presenta TurboQuant para ejecutar modelos de IA más grandes en dispositivos

El TurboQuant de Tether reduce el uso de memoria de IA hasta 5 veces, ayudando a los dispositivos a gestionar tareas más largas localmente.
QVAC 0.12.0 permite a los desarrolladores ejecutar cargas de trabajo de IA más grandes en portátiles y teléfonos con menos carga de memoria.
TurboQuant aborda el cuello de botella de la memoria de la IA, permitiendo chats más largos, archivos más grandes y proyectos de código más complejos.

Tether ha añadido una nueva herramienta de optimización de memoria al QVAC SDK 0.12.0, una medida que podría ayudar a portátiles, smartphones y otros dispositivos a manejar cargas de trabajo mayores localmente. Al anunciar la actualización en X, el CEO Paolo Ardoino dijo que el lanzamiento incluye TurboQuant, una tecnología que reduce los requisitos de memoria de IA hasta cinco veces manteniendo una calidad de salida casi igual.

La actualización se centra en una limitación clave para los grandes modelos de lenguaje: la memoria. A medida que las conversaciones y tareas se alargan, las demandas de memoria aumentan considerablemente. TurboQuant reduce esa carga, permitiendo que los dispositivos trabajen con documentos más grandes, conversaciones más largas y más información a la vez.

🚨🤖Tether AI ships TurboQuant KV-Cache Quantization within QVAC SDK 0.12.0, compressing the KV cache memory requirements by up to 5x, near-lossless.

Effective high-quality local AI is one step closer! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

El lanzamiento también añade generación de texto a vídeo, funciones de control de robots, soporte para asistente de codificación, mejoras en el procesamiento de voz y herramientas de clasificación de imágenes más rápidas.

TurboQuant apunta al cuello de botella de la memoria de la IA

TurboQuant se sitúa en el centro de la versión 0.12.0 del SDK QVAC. La tecnología comprime la caché KV, un tipo de memoria de trabajo que los modelos de IA utilizan para llevar un seguimiento de conversaciones, documentos y otra información durante una sesión.

Las demandas de memoria aumentan a medida que los usuarios introducen más información en un modelo. Tether dijo que un modelo de 4.000 millones de parámetros que procesa unos 262.000 tokens puede requerir aproximadamente 8 GB de memoria solo para la caché. Ejecutar varias sesiones a esa escala puede superar rápidamente los límites de muchos portátiles y dispositivos de consumo.

TurboQuant pretende reducir esa presión. Según Tether, la tecnología puede reducir los requisitos de memoria caché KV hasta cinco veces mientras mantiene casi la misma calidad de salida. Como resultado, los usuarios pueden trabajar con conversaciones más largas, documentos más extensos y bases de código más extensas sin depender tanto de recursos informáticos remotos.

QVAC se expande más allá de los modelos de lenguaje

La actualización incluye más que mejoras en la memoria. QVAC SDK 0.12.0 añade varias herramientas nuevas destinadas a ampliar lo que los desarrolladores pueden ejecutar en dispositivos locales.

Entre las incorporaciones está el soporte para la generación de texto a vídeo mediante el modelo Wan2.1. La plataforma también introduce una función visión-lenguaje-acción que permite a los desarrolladores crear aplicaciones para el control robótico.

La versión añade además una herramienta ligera de clasificación de imágenes diseñada para tareas que no requieren modelos de visión más grande. Al mismo tiempo, QVAC trasladó sus sistemas de texto a voz y transcripción a su motor GGML, un cambio que amplía el soporte entre los principales sistemas operativos de escritorio y móviles.

Los desarrolladores también obtuvieron nuevas opciones para asistentes de programación. QVAC ahora se integra con OpenCode y OpenClaw a través de un paquete proveedor que simplifica la gestión y despliegue de modelos.

Relacionado: Cofundador de Multicoin declara ‘Web3 está muerto’ en medio de una crisis de identidad cripto

La IA de código abierto se acerca más al borde

El comunicado muestra el enfoque de Tether en ejecutar más tareas informáticas directamente en los dispositivos de los usuarios en lugar de depender completamente de centros de datos centralizados. La empresa se ha centrado cada vez más en software que pueda operar a través de dispositivos personales, redes locales y sistemas descentralizados.

«La investigación de Google mostró que la memoria de IA podía comprimirse mucho más eficientemente de lo que la mayoría de la gente pensaba. Nuestro trabajo aporta ese avance al software de producción con el que desarrolladores, startups y usuarios pueden realmente construir», dijo Ardoino.

Añadió: «La gente debería poder pedir a un asistente de IA que lea un documento largo, recuerde un proyecto, ayude con el código o trabaje con información privada sin que cada tarea sea forzada a través de un centro de datos remoto.»

El lanzamiento llega mientras Tether amplía sus esfuerzos más allá de las herramientas de optimización de memoria. Ardoino reveló recientemente que la empresa está desarrollando un motor de búsqueda peer-to-peer de código abierto y compartió una demostración de un sistema de búsqueda descentralizado en Wikipedia.

Relacionado: Michael Burry califica la oferta de GPU de Nvidia de 5.400 millones de dólares como ‘Fugazi’

Advertise here

Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.

Tether presenta TurboQuant para ejecutar modelos de IA más grandes en dispositivos

TurboQuant apunta al cuello de botella de la memoria de la IA

QVAC se expande más allá de los modelos de lenguaje

La IA de código abierto se acerca más al borde

Latest news

Cómo comprar criptomonedas de forma segura en Minnesota (sin cajeros automáticos)

Predicción de precio de PUMP agosto de 2026: El volumen sube un 54% tras el despido del personal un día antes de la adquisición de tokens

XRP Weekly Price Prediction: Options Open Interest Surges 24x As Traders Hedge Around The $1 Floor

Previsión del precio de Audiera: ¿Puede BEAT mantener su ganancia del 11% tras un desbloqueo de 67,8 millones de dólares hoy

Leyes cripto de Pakistán: ¿Qué exchanges son legales y qué si no tienen licencia?