A NVIDIA anunciou nesta semana uma colaboração com a OpenAI para disponibilizar modelos de inteligência artificial open-source do tipo GPT, otimizados para rodar localmente em computadores e estações de trabalho equipados com GPUs GeForce RTX e RTX PRO. O lançamento representa um avanço importante para a execução de modelos de IA de ponta fora da nuvem, com desempenho acelerado diretamente no hardware dos usuários.
São duas variantes da nova família de modelos:
gpt-oss-20b: otimizado para alto desempenho em PCs com RTX AI e ao menos 16 GB de VRAM, capaz de atingir até 250 tokens por segundo em uma GPU RTX 5090.
gpt-oss-120b: voltado para estações de trabalho com GPUs RTX PRO, indicado para aplicações mais robustas.
Ambos foram treinados em GPUs NVIDIA H100 e são os primeiros a oferecer suporte à técnica MXFP4, que melhora a precisão sem comprometer a performance. Os modelos suportam até 131.072 tokens de contexto, uma das maiores capacidades disponíveis atualmente para inferência local, e são baseados em uma arquitetura mixture-of-experts (MoE), com recursos como chain-of-thought, instruções e uso de ferramentas externas.
Para facilitar o uso, a NVIDIA destacou três caminhos principais para desenvolvedores e entusiastas começarem a usar os modelos gpt-oss:
Ollama: aplicativo com interface simples que oferece suporte nativo aos modelos gpt-oss, otimizados para GPUs RTX.
Llama.cpp: colaboração da NVIDIA com a comunidade open-source, trazendo melhorias como uso de CUDA Graphs para reduzir a latência em GPUs RTX.
Microsoft AI Foundry Local: disponível em preview público para usuários Windows, com acesso direto via terminal com o comando Foundry model run gpt-oss-20b.
Segundo Jensen Huang, CEO da NVIDIA, essa iniciativa “reforça a liderança dos EUA em IA e amplia o alcance de tecnologias de última geração para desenvolvedores no mundo todo”, ressaltando ainda o papel da OpenAI em demonstrar o potencial da IA acelerada pelas GPUs da NVIDIA.