Tether revela TurboQuant para rodar modelos maiores de IA em dispositivos

O TurboQuant da Tether reduz o uso de memória de IA em até 5x, ajudando os dispositivos a lidar com tarefas mais longas localmente.
O QVAC 0.12.0 permite que desenvolvedores executem cargas de trabalho maiores de IA em laptops e celulares com menos sobrecarga de memória.
O TurboQuant enfrenta o gargalo de memória da IA, permitindo conversas mais longas, arquivos maiores e projetos de código maiores.

A Tether adicionou uma nova ferramenta de otimização de memória ao QVAC SDK 0.12.0, uma medida que pode ajudar laptops, smartphones e outros dispositivos a lidar com cargas de trabalho maiores localmente. Ao anunciar a atualização no X, o CEO Paolo Ardoino disse que o lançamento inclui o TurboQuant, uma tecnologia que reduz a necessidade de memória de IA em até cinco vezes, mantendo quase a mesma qualidade de saída.

A atualização foca em uma limitação chave para grandes modelos de linguagem: a memória. À medida que conversas e tarefas se tornam mais longas, a demanda de memória aumenta acentuadamente. O TurboQuant reduz essa carga, permitindo que dispositivos trabalhem com documentos maiores, conversas mais longas e mais informações de uma só vez.

🚨🤖Tether AI ships TurboQuant KV-Cache Quantization within QVAC SDK 0.12.0, compressing the KV cache memory requirements by up to 5x, near-lossless.

Effective high-quality local AI is one step closer! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

O lançamento também adiciona geração de texto para vídeo, recursos de controle de robôs, suporte a assistente de programação, atualizações no processamento de voz e ferramentas de classificação de imagem mais rápidas.

TurboQuant Mira o Gargalo de Memória da IA

O TurboQuant está no centro da versão 0.12.0 do QVAC SDK. A tecnologia comprime o cache KV, um tipo de memória de trabalho que modelos de IA usam para acompanhar conversas, documentos e outras informações durante uma sessão.

A demanda de memória aumenta à medida que os usuários inserem mais informações em um modelo. A Tether disse que um modelo de 4 bilhões de parâmetros processando cerca de 262.000 tokens pode exigir aproximadamente 8 GB de memória apenas para cache. Rodar várias sessões nessa escala pode rapidamente ultrapassar os limites de muitos laptops e dispositivos de consumo.

A TurboQuant busca reduzir essa pressão. Segundo a Tether, a tecnologia pode reduzir os requisitos de memória de cache KV em até cinco vezes, mantendo quase a mesma qualidade de saída. Como resultado, os usuários podem trabalhar com conversas mais longas, documentos maiores e bases de código maiores sem depender tanto de recursos computacionais remotos.

QVAC expande além dos modelos de linguagem

A atualização inclui mais do que melhorias na memória. O QVAC SDK 0.12.0 adiciona várias novas ferramentas voltadas para expandir o que os desenvolvedores podem rodar em dispositivos locais.

Entre as adições está o suporte para geração de texto para vídeo através do modelo Wan2.1. A plataforma também introduz um recurso visão-linguagem-ação que permite aos desenvolvedores criar aplicações para controle robótico.

O lançamento adiciona ainda uma ferramenta leve de classificação de imagens, projetada para tarefas que não exigem modelos de visão maior. Ao mesmo tempo, a QVAC migrou seus sistemas de texto para fala e transcrição para seu motor GGML, uma mudança que amplia o suporte entre os principais sistemas operacionais desktop e móveis.

Os desenvolvedores também ganharam novas opções para assistentes de programação. O QVAC agora se integra ao OpenCode e OpenClaw por meio de um pacote de provedores que simplifica o gerenciamento e a implantação de modelos.

Relacionado: Cofundador da Multicoin declara ‘Web3 está morto’ em meio à crise de identidade cripto

IA de código aberto se aproxima da borda

O comunicado mostra o foco da Tether em executar mais tarefas de computação diretamente nos dispositivos dos usuários, em vez de depender totalmente de data centers centralizados. A empresa tem focado cada vez mais em softwares que podem operar em dispositivos pessoais, redes locais e sistemas descentralizados.

“A pesquisa do Google mostrou que a memória da IA poderia ser comprimida de forma muito mais eficiente do que a maioria das pessoas imaginava. Nosso trabalho traz esse avanço para softwares de produção que desenvolvedores, startups e usuários podem realmente construir”, disse Ardoino.

Ele acrescentou: “As pessoas deveriam poder pedir a um assistente de IA para ler um documento longo, lembrar de um projeto, ajudar com código ou trabalhar com informações privadas sem que todas as tarefas passem por um data center remoto.”

O lançamento ocorre enquanto a Tether expande seus esforços além das ferramentas de otimização de memória. Recentemente, Ardoino revelou que a empresa está desenvolvendo um mecanismo de busca peer-to-peer de código aberto e compartilhou uma demonstração de um sistema de busca descentralizado da Wikipédia.

Relacionado: Michael Burry chama de ‘Fugazi’ o Acordo de GPU de US$ 5,4 Bilhões da Nvidia

Advertise here

Disclaimer: The information presented in this article is for informational and educational purposes only. The article does not constitute financial advice or advice of any kind. Coin Edition is not responsible for any losses incurred as a result of the utilization of content, products, or services mentioned. Readers are advised to exercise caution before taking any action related to the company.