A AMD continua expandindo sua presença no mercado de inteligência artificial (IA), lançando não apenas novos chips, mas também apostando em software para alcançar segmentos de mercado ainda não dominados pela Nvidia. A empresa está comprometida em capturar novas fatias do setor de IA, introduzindo tecnologias inovadoras e modelos ajustados às necessidades empresariais.
AMD-135M: O Primeiro Modelo de Linguagem da AMD
Entre as novidades da AMD está o lançamento do seu primeiro modelo de linguagem pequeno, o AMD-135M, pertencente à família Llama, que foi projetado para implantações privadas em negócios. Embora ainda não esteja claro se o novo modelo está diretamente relacionado à recente aquisição da Silo AI pela AMD (o que depende da aprovação regulatória), este movimento demonstra um claro foco da empresa em atender demandas específicas de clientes com um modelo pré-treinado e utilizando o próprio hardware da AMD para inferências.
Tecnologia de Decodificação Especulativa
Uma das razões pelas quais os modelos da AMD são rápidos está na utilização da chamada decodificação especulativa. Esse processo envolve um “modelo de rascunho” menor que gera vários tokens candidatos em uma única passagem, que em seguida são enviados para um modelo maior e mais preciso, o “modelo alvo”, que verifica ou corrige os tokens. Essa abordagem permite que múltiplos tokens sejam gerados simultaneamente, aumentando a eficiência. No entanto, essa técnica tem um custo em termos de consumo de energia, devido ao aumento nas transações de dados.
Duas Versões de Modelos: AMD-Llama-135M e AMD-Llama-135M-Code
A AMD lançou duas versões do seu modelo: AMD-Llama-135M e AMD-Llama-135M-code, cada uma otimizada para tarefas específicas. Ambas utilizam a tecnologia de decodificação especulativa para acelerar a performance de inferência, o que é uma escolha lógica para serviços baseados em modelos de linguagem pequena. Nos testes de desempenho realizados pela AMD, ambas as versões superaram expectativas.
Treinamento e Dados: 670 Bilhões de Tokens
O modelo base, AMD-Llama-135M, foi treinado do zero com 670 bilhões de tokens de dados gerais, processo que levou seis dias para ser concluído. Esse treinamento utilizou quatro nós de processamento baseados em AMD Instinct MI250, o que demonstra a capacidade de hardware da AMD de suportar grandes volumes de dados em curtos períodos.
AMD-Llama-135M-Code: Foco em Codificação
Além do modelo geral, a AMD também apresentou o AMD-Llama-135M-code, que foi ajustado com 20 bilhões de tokens adicionais especificamente voltados para tarefas de codificação. Esse ajuste fino foi concluído em quatro dias, usando o mesmo hardware, e visa proporcionar resultados mais rápidos e precisos em tarefas relacionadas ao desenvolvimento de software e automação de código.
Potencial de Otimizações Futuras
A AMD acredita que ainda há espaço para otimizações no desempenho desses modelos. Embora a empresa tenha divulgado números de benchmarks com suas GPUs da geração anterior, os especialistas imaginam o que os chips da geração atual, como o MI300X, e os da próxima geração, como o MI325X, serão capazes de realizar em termos de aceleração de IA generativa.
Competição com a Nvidia e a Expansão de Mercado
O lançamento do AMD-135M e do AMD-135M-code mostra que a AMD está focada em capturar uma fatia do mercado de inteligência artificial que não é dominada pela Nvidia. Ao desenvolver tanto hardware quanto software otimizados, a AMD espera oferecer soluções competitivas para negócios que desejam adotar IA generativa e modelos de linguagem para diferentes finalidades, desde automação de processos até o desenvolvimento de código.
O Impacto da Decodificação Especulativa no Desempenho
A utilização da decodificação especulativa é um diferencial importante para a AMD. Essa técnica permite que modelos de IA generativa processem múltiplas saídas de forma simultânea, acelerando significativamente o tempo de resposta em inferências. No entanto, como qualquer inovação, há um trade-off, especialmente em relação ao consumo de energia. Mesmo assim, os resultados mostram que a tecnologia traz um avanço importante para quem busca eficiência em seus projetos de IA.
As GPUs AMD: Um Pilar de Desempenho para IA Generativa
As GPUs da AMD, como as usadas nos modelos Instinct MI250 e MI300X, têm mostrado que a empresa está bem posicionada para competir com outras gigantes do setor de IA. À medida que a demanda por chips especializados para IA aumenta, a AMD está pronta para fornecer soluções robustas tanto para tarefas gerais quanto para nichos específicos, como o desenvolvimento de código.
A Aposta da AMD em IA Generativa
A aposta da AMD em IA generativa vai além dos modelos de linguagem. A empresa está desenvolvendo um ecossistema que une hardware e software, oferecendo uma plataforma completa para empresas que desejam explorar o potencial da IA. O lançamento do AMD-135M e do AMD-135M-code é apenas o começo de uma estratégia mais ampla da AMD para expandir sua presença no mercado de IA.
Resumo para quem está com pressa:
- AMD lança o modelo de linguagem AMD-135M, voltado para implantações empresariais.
- O modelo utiliza decodificação especulativa, acelerando a geração de tokens.
- Foram lançadas duas versões: AMD-Llama-135M e AMD-Llama-135M-code, para otimizações específicas.
- O modelo foi treinado com 670 bilhões de tokens, levando seis dias para ser concluído.
- A versão AMD-Llama-135M-code foi ajustada com 20 bilhões de tokens voltados para codificação.
- A AMD planeja otimizações futuras para seus chips MI300X e MI325X.