Nvidia lança novo chip específico para inferência de inteligência artificial

A Nvidia anunciou o lançamento do chip Language Processing Unit (LPU), denominado Nvidia Groq 3 LPU, projetado especificamente para otimizar tarefas de inferência em inteligência artificial que demandam latência extremamente baixa. Este lançamento representa um movimento estratégico da gigante dos chips, que recentemente licenciou propriedade intelectual da designer Groq e sua equipe de liderança.

O novo processador promete revolucionar a forma como as IAs respondem a comandos complexos, focando em velocidade de resposta. Conforme revelado pela empresa durante um evento para a imprensa especializada, o Groq 3 LPU visa atender a workloads de inferência que exigem respostas em frações de segundo.

O que é inferência de IA e por que a latência é crucial?

A inferência de IA é o processo pelo qual um modelo treinado de inteligência artificial faz previsões ou toma decisões com base em novos dados. Em aplicações como assistentes virtuais, carros autônomos ou análise em tempo real, a velocidade com que essa inferência ocorre, medida pela latência, é crítica.

Uma latência baixa significa que a IA pode processar informações e reagir quase instantaneamente, o que é essencial para experiências de usuário fluidas e para sistemas que operam em ambientes dinâmicos.

Detalhes técnicos: Groq 3 LPU versus GPUs tradicionais

Ian Buck, head da divisão de data center da Nvidia, destacou as diferenças fundamentais entre a nova arquitetura LPU e as GPUs tradicionais da empresa. Enquanto as GPUs são conhecidas por seu desempenho em ponto flutuante e alta taxa de transferência, ideais para o treinamento de modelos de IA, o LPU é estritamente otimizado para a geração de tokens com latência ultrabaixa.

O LPU oferece taxas de milhares de tokens por segundo, um avanço significativo para aplicações que dependem de respostas rápidas. No entanto, Buck ressaltou que essa otimização pode exigir um número maior de chips para atingir o desempenho desejado, com uma taxa de tokens por segundo por chip relativamente mais baixa em comparação com GPUs em certas tarefas.

Arquitetura e capacidade do Nvidia Groq 3 LPU

O novo chip estará integrado em racks LPX refrigerados a líquido, uma solução de alto desempenho que pode acomodar 256 LPUs. Cada rack dispõe de 128 GB de SRAM on-chip e uma impressionante largura de banda de escala de 640 TBps. Essa configuração foi meticulosamente projetada para cenários de inferência que demandam respostas em tempo real.

Em contraste, uma GPU típica possui 288 GB de memória, comparada aos 500 MB de SRAM empilhada por LPU. Apesar da menor capacidade de memória por chip, o LPU se destaca pela sua excepcional largura de banda, variando de 22 TB a 150 TB por segundo.

Implicações de mercado e visão futura da Nvidia

A Nvidia vislumbra um futuro onde as capacidades das GPUs e LPUs sejam combinadas em uma única solução, oferecendo tanto os “flops extremos” das GPUs quanto a largura de banda das LPUs. Essa integração é vista como fundamental para o desenvolvimento de sistemas multiagente de IA, que exigirão processamento rápido e eficiente.

A expectativa é que o rack LPX, com lançamento previsto para a segunda metade do ano, coincida com a arquitetura Vera Rubin, a próxima geração de plataformas da Nvidia. O mercado antecipa que esta inovação acirre a competição no setor de chips especializados para IA, abrindo novas possibilidades para nichos que exigem processamento em tempo real, como assistentes virtuais avançados e sistemas autônomos.