LM Arena: avalie modelos de IA em tempo real

Live gravada em:

Conheça a LM Arena, uma plataforma que permite testar e comparar diferentes modelos de inteligência artificial em tempo real. Aprenda a utilizar os modos Battle, Side by Side e Direct Chat para avaliar quais IAs entregam as melhores respostas, gerar textos, criar imagens e fazer buscas atualizadas. Descubra como essa ferramenta gratuita, baseada em pesquisa colaborativa, pode ajudar você a escolher o modelo ideal para seu uso diário, seja para textos, imagens ou pesquisas.

Atualizações da aula:

LM Arena como ferramenta de pesquisa e comparação

‍LM Arena é um centro de pesquisa para avaliar modelos de IA, que oferece uso gratuito em troca da disponibilização pública dos prompts e resultados. A plataforma possibilita comparar IAs reais em diferentes modalidades: Battle (confronto direto entre respostas), Side by Side (respostas lado a lado) e Direct Chat (interação com um modelo único).

Modos de uso e exemplos práticos

No modo Battle, você pode enviar qualquer prompt e receber duas respostas concorrentes, avaliando qual modelo performou melhor, como um poema em estilo Machado de Assis sobre política internacional.
No modo Side by Side, é possível comparar respostas simultâneas e escolher a ideal com base em critérios pessoais.
O modo Direct Chat permite interação contínua com um único modelo, ideal para pesquisas, escrita e criação de imagens.

‍A LM Arena também permite o upload e a geração de imagens, onde é possível comparar modelos diferentes, como Gemini e Qwen, observando qual produz resultados mais fiéis e estéticos, além de experimentar edições, como substituir elementos em imagens mantendo o estilo original.

Benefícios para o usuário

‍Ao usar a LM Arena, o usuário ajuda na pesquisa de IA, recebendo feedback imediato sobre o desempenho dos modelos e explorando capacidades variadas, incluindo busca na web, criação textual e visual, tudo sem custo. É uma ferramenta útil para conhecer as forças e limitações de cada modelo antes de investir financeiramente. A plataforma mantém um leaderboard com os melhores modelos em várias categorias, como texto, visão computacional e desenvolvimentos específicos, ajudando a monitorar a evolução dos sistemas de IA disponíveis.

Hora de CR_IAR!

Crie dois prompts diferentes (um texto e uma imagem) e use o modo Battle da LM Arena para comparar as respostas de dois modelos distintos. Avalie qual deles melhor atendeu à solicitação e justifique sua escolha levando em conta a qualidade, coerência e criatividade da resposta.

Transcrição da Aula

Olá, essa vai ser uma aula bem rapidinha, que eu acho que pode ser muito útil para você aprender mais sobre como a gente pode aprender sobre IA, descobrir novos modelos de inteligência artificial que podemos aplicar no nosso dia a dia, dependendo do que a gente precisa.

Para isso, gostaria de apresentar para vocês uma ferramenta que acho muito pouco utilizada e pouco falada, que é a LM Arena. Você pode criar uma conta gratuita lá, ela é totalmente gratuita.

Por que é gratuita? Porque o LM Arena não é exatamente uma ferramenta de inteligência artificial, ele é um centro de pesquisa de IA, basicamente. Todos os modelos disponibilizam um espaço para você usar gratuitamente ali dentro, vários modelos permitem gerar um ranking de qual modelo é melhor em cada coisa. E é gratuito porque, como é um material de pesquisa, o seu uso da ferramenta é pago pelo seu prompt. Uma coisa importante desde o começo: qualquer coisa que a gente colocar, qualquer pedido, qualquer ordem, isso vai ser um pedido público. Isso acontece porque estamos ajudando na pesquisa de inteligência artificial. Portanto, tudo se torna público, e é por isso que podemos usar essa ferramenta gratuitamente.

Como funciona o LM Arena? Ele faz uma "rinha", uma batalha das inteligências artificiais. Você tem alguns modos de batalha: Battle, Side by Side e Direct Chat. Vamos explorar um pouco cada um deles. O LM Arena ficou muito famoso porque foi o primeiro lugar em muitas avaliações, e muitas companhias que desenvolvem IAs testam seus modelos lá, para ter um teste em vida real, com pessoas utilizando e avaliando se o produto é bom ou não, e quais melhorias precisam ser feitas.

Essas companhias recebem as ferramentas de IA e também feedbacks baseados em cada prompt, se ele respondeu ou não respondeu, etc. Por isso, acabamos ajudando a avaliar a inteligência artificial como um todo. Ele ficou famoso justamente porque nesse modo Battle saiu o NanoBanana, que virou o novo modelo de imagem do Gemini. Ele ficou lá por umas duas semanas, até o Google confirmar que era um modelo deles porque foi ranqueado muito alto dentro da ferramenta.

No modo Battle, você pode escrever qualquer tipo de prompt, por exemplo:

"Faça um poema sobre a crise entre os Estados Unidos e a Venezuela, no estilo de Machado de Assis."

Vou colocar o prompt em português para a gente ver. Após dar o ok, ele pede o termo de uso, e então no modo Battle ele gera duas respostas. Por exemplo:

"O jogo das nações, no estilo de Machado de Assis. Entre o Norte, o soberbo, e o Sul ferido, joga-se o velho jogo do poder, um rico em armas e em ouro guarnecido..." A gente pode ler as respostas lado a lado e avaliar qual foi melhor, se é empate, ou se nenhum dos dois foi bom. Eu posso colocar que o da direita foi melhor, embora não seja necessariamente o que deveríamos fazer. Você pode testar de novo essa questão. Assim que você escolhe, ele te mostra qual modelo respondeu melhor. Isso é legal para fazer um teste cego dos modelos.

Por exemplo, esse aqui foi o DeepSeek, modelo V3, e esse outro da QueenMax 2025. Muitas vezes são modelos que a gente nunca pensou em usar, mas explorando a ferramenta, dá para ver se eles são bons para certas tarefas.

Você pode criar uma nova conversa e continuar gerando conteúdo usando os modelos. Vou usar a ferramenta de buscar na web, que é uma ferramenta de pesquisa. Vou pedir, por exemplo, "Me dê as cinco notícias mais importantes do mundo de IA generativa desta semana." Ele gera as respostas separando o assistente A versus assistente B, aí podemos avaliar a velocidade e a qualidade das respostas. Isso é muito legal porque, como a gente não sabe tudo, podemos descobrir quais ferramentas têm certas habilidades, quais conseguem fazer buscas, por exemplo.

Uma coisa importante: normalmente você não vai conseguir manter conversa contínua. Às vezes, mesmo a função "ask followup" não gera um acompanhamento real porque não tem essa função implementada. Então, é mais um prompt de uma coisa só, você dá o pedido e vê a resposta. Você pode usar isso para não pagar pelas plataformas, mas não esqueça que existem limitações, pois isso é um material de pesquisa, e você está sempre deixando seu prompt aberto para pesquisa.

Enquanto isso, já vou entrar de novo no LM Arena para mostrar outras coisas sem perder tempo. Além do texto, você pode subir uma imagem ou gerar imagens. Vou pedir para gerar uma foto em inglês, porque vários modelos não entendem muito bem português para criação de imagens. O prompt será:‍

"A photo of a cute 3D purple lion holding a sign written CR_IA."

Coloquei em inglês para garantir, porque vários modelos não entendem bem português.

Pedi a criação da imagem e ele gera a mesma resposta para assistente A versus assistente B, para decidirmos qual é melhor. Enquanto isso, a assistente A respondeu sobre as notícias mais importantes de IA: OpenAI lançou o modelo Sora 2 de geração de vídeos, Microsoft tornou o Sora 2 disponível no Azure, Google lançou Veo 3.1, pesquisa revela que 62% dos brasileiros já usaram IA generativa, GenAI acelera adoção corporativa globalmente, Google intensifica guerra na IA e liberou recursos gratuitos do Veo 3. Esse aqui da direita está muito mais interessante, com contexto do Brasil, pois perguntamos em português. Então, vou considerar que o da direita é o melhor.

O modelo é do Perplexity versus o Grok, modelo Fast Research do Grok, que é do Twitter (X), do Elon Musk. O Perplexity deu uma resposta muito melhor e mostrou até as fontes, enquanto o Grok foi mais vago. Esse modo de comparação, o Battle, é o que acho mais interessante, porque permite testar novas coisas. Aqui temos as duas imagens criadas, qual foi mais interessante? Acho essa daqui. Nas duas o erro é parecido, mas o rabinho do leão está certo nessa. Ele escreveu bem CR_IA, com underline, e o outro modelo colocou duas patas adicionais no personagem. Esse criador de imagens 3.0 é do Gemini, e o outro é o Qwen, um modelo chinês. Assim vamos aprendendo e podemos escolher o que usar.

Agora vou fazer uma batalha entre GPT Image One e Ideogram, que é uma ferramenta diferente. Coloco o prompt de novo, mas isso não gera conversa. Tentarei novamente, abrindo uma nova conversa, com os dois modelos que quero. Posso testar GPT versus Ideogram ou Flux, para descobrir novas coisas antes de pagar. Isso é importante para ver até onde as ferramentas vão. Esse aqui está meio horroroso em termos de escolha de cores, mas interessante. GPT não fez underline, mas está bonitinho. Vou colocar que os dois são bons, pois cada um tem suas qualidades.

O último modo é um chat direto, onde você escolhe um modelo só e cria coisas com ele, seja pesquisa, escrita, criação de imagens, etc. Conforme você tira as opções, ele mostra todos os modelos que têm aquela funcionalidade. Se eu tiro a função busca e coloco imagem, posso pegar modelos que trabalham com imagem. Depois eu posso editar a imagem, por exemplo, trocar o leão por uma capivara, mantendo o estilo do personagem. Vamos ver se essa edição funciona, no modo de edição, usando os assistentes A e B.

Assim, você tem três modos: Battle, Side by Side (lado a lado) e Direct Chat, para testar novas coisas, o que acho muito interessante. Além disso, você pode conferir o leaderboard, que mostra como as ferramentas estão sendo avaliadas. Isso é importante pois são muitas ferramentas e é difícil saber qual é a melhor.

Muitas vezes, o que é melhor depende do seu uso, de vários fatores. Por exemplo, para ferramentas de texto, o melhor avaliado é o Gemini 2.5 Pro, o ChatGPT-5 está em segundo lugar, quase empatado. No ranking para desenvolvimento web, o ChatGPT High está bem avaliado. Para modelos de visão, que leem imagens e interagem com elas, também temos os mais bem avaliados. Assim, conseguimos avaliar modelos para texto, imagem e outras funções.

Eu queria que vocês explorassem o LM Arena, acho que pode ser muito útil. Por exemplo, naquela edição para substituir o leão por uma capivara, mantendo o estilo, gerou uma capivara que parece que cruzou com o leão com juba, e o outro ficou mais estranho. Coloquei que os dois estavam ruins, e vamos descobrir o que é cada modelo.

Esse aqui é o Seedream, que é bom em várias coisas, apesar dessa tarefa difícil. Esse é o Gemini Flash, modelo antigo da criação de imagem, que não é muito bom. Mas poderíamos simplesmente ir no Direct Chat, abrir uma nova conversa para não complicar. Posso copiar o prompt usado anteriormente e colocar ali para testar num modelo de edição de imagem. Vou escolher o Imagen... não, esse deu errado, vou usar o Hunyuan. Porém, Hunyuan não permite enviar imagem. Temos que considerar essas limitações na hora de criar. Você consegue selecionar e fazer esses testes para aprender.

Enfim, gostaria que vocês testassem, brincassem um pouco com o LM Arena, e compartilhassem nos comentários o que acharam, qual modelo gostaram mais para cada aplicação e se já conheciam essa ferramenta.

Vejo vocês na próxima aula!

LM Arena: avalie modelos de IA em tempo real