AMD lança novo modelo de SLM para IA Generativa

De olho no mercado de AI, AMD lança o modelo de linguagem AMD-135M, voltado para implantações empresariais

De olho no mercado de AI, AMD lança o modelo de linguagem AMD-135M, voltado para implantações empresariais (Foto: Divulgação/AMD)

A AMD continua expandindo sua presença no mercado de inteligência artificial (IA), lançando não apenas novos chips, mas também apostando em software para alcançar segmentos de mercado ainda não dominados pela Nvidia. A empresa está comprometida em capturar novas fatias do setor de IA, introduzindo tecnologias inovadoras e modelos ajustados às necessidades empresariais.

AMD-135M: O Primeiro Modelo de Linguagem da AMD

Entre as novidades da AMD está o lançamento do seu primeiro modelo de linguagem pequeno, o AMD-135M, pertencente à família Llama, que foi projetado para implantações privadas em negócios. Embora ainda não esteja claro se o novo modelo está diretamente relacionado à recente aquisição da Silo AI pela AMD (o que depende da aprovação regulatória), este movimento demonstra um claro foco da empresa em atender demandas específicas de clientes com um modelo pré-treinado e utilizando o próprio hardware da AMD para inferências.

Tecnologia de Decodificação Especulativa

Uma das razões pelas quais os modelos da AMD são rápidos está na utilização da chamada decodificação especulativa. Esse processo envolve um “modelo de rascunho” menor que gera vários tokens candidatos em uma única passagem, que em seguida são enviados para um modelo maior e mais preciso, o “modelo alvo”, que verifica ou corrige os tokens. Essa abordagem permite que múltiplos tokens sejam gerados simultaneamente, aumentando a eficiência. No entanto, essa técnica tem um custo em termos de consumo de energia, devido ao aumento nas transações de dados.

Duas Versões de Modelos: AMD-Llama-135M e AMD-Llama-135M-Code

A AMD lançou duas versões do seu modelo: AMD-Llama-135M e AMD-Llama-135M-code, cada uma otimizada para tarefas específicas. Ambas utilizam a tecnologia de decodificação especulativa para acelerar a performance de inferência, o que é uma escolha lógica para serviços baseados em modelos de linguagem pequena. Nos testes de desempenho realizados pela AMD, ambas as versões superaram expectativas.

Treinamento e Dados: 670 Bilhões de Tokens

O modelo base, AMD-Llama-135M, foi treinado do zero com 670 bilhões de tokens de dados gerais, processo que levou seis dias para ser concluído. Esse treinamento utilizou quatro nós de processamento baseados em AMD Instinct MI250, o que demonstra a capacidade de hardware da AMD de suportar grandes volumes de dados em curtos períodos.

AMD-Llama-135M-Code: Foco em Codificação

Além do modelo geral, a AMD também apresentou o AMD-Llama-135M-code, que foi ajustado com 20 bilhões de tokens adicionais especificamente voltados para tarefas de codificação. Esse ajuste fino foi concluído em quatro dias, usando o mesmo hardware, e visa proporcionar resultados mais rápidos e precisos em tarefas relacionadas ao desenvolvimento de software e automação de código.

Potencial de Otimizações Futuras

A AMD acredita que ainda há espaço para otimizações no desempenho desses modelos. Embora a empresa tenha divulgado números de benchmarks com suas GPUs da geração anterior, os especialistas imaginam o que os chips da geração atual, como o MI300X, e os da próxima geração, como o MI325X, serão capazes de realizar em termos de aceleração de IA generativa.

Competição com a Nvidia e a Expansão de Mercado

O lançamento do AMD-135M e do AMD-135M-code mostra que a AMD está focada em capturar uma fatia do mercado de inteligência artificial que não é dominada pela Nvidia. Ao desenvolver tanto hardware quanto software otimizados, a AMD espera oferecer soluções competitivas para negócios que desejam adotar IA generativa e modelos de linguagem para diferentes finalidades, desde automação de processos até o desenvolvimento de código.

O Impacto da Decodificação Especulativa no Desempenho

A utilização da decodificação especulativa é um diferencial importante para a AMD. Essa técnica permite que modelos de IA generativa processem múltiplas saídas de forma simultânea, acelerando significativamente o tempo de resposta em inferências. No entanto, como qualquer inovação, há um trade-off, especialmente em relação ao consumo de energia. Mesmo assim, os resultados mostram que a tecnologia traz um avanço importante para quem busca eficiência em seus projetos de IA.

As GPUs AMD: Um Pilar de Desempenho para IA Generativa

As GPUs da AMD, como as usadas nos modelos Instinct MI250 e MI300X, têm mostrado que a empresa está bem posicionada para competir com outras gigantes do setor de IA. À medida que a demanda por chips especializados para IA aumenta, a AMD está pronta para fornecer soluções robustas tanto para tarefas gerais quanto para nichos específicos, como o desenvolvimento de código.

A Aposta da AMD em IA Generativa

A aposta da AMD em IA generativa vai além dos modelos de linguagem. A empresa está desenvolvendo um ecossistema que une hardware e software, oferecendo uma plataforma completa para empresas que desejam explorar o potencial da IA. O lançamento do AMD-135M e do AMD-135M-code é apenas o começo de uma estratégia mais ampla da AMD para expandir sua presença no mercado de IA.

Resumo para quem está com pressa:

Sair da versão mobile