Meta é acusada de trapaça em benchmark de modelo de IA; empresa rebate

A empresa Meta foi acusada de manipular um modelo de linguagem de inteligência artificial (IA) para conseguir resultados melhores do que os verdadeiros em testes. O caso denunciado envolve o recente Llama-4 e a plataforma de benchmarks LMArena.

Tudo começou após a revelação da nova geração de grandes modelos de linguagem (LLM) multimodais pela companhia. A versão intermediária da tecnologia, chamada de Maverick, foi mostrada superando os rivais GPT-4o (da OpenAI) e Google Gemini 2.0 Flash.

Na divulgação, a Meta cita que esse modelo oferece “desempenho líder na indústria e sem precedentes em compreensão de texto e imagem, permitindo a criação de aplicações sofisticadas de IA”. E ele é mesmo poderoso, mas a discrepância em respostas de diferentes versões do que deveria ser um mesmo modelo gerou toda a polêmica.

Como o próprio LMArena confirmou em uma postagem no X (antigo Twitter), a Meta enviou para a plataforma a versão Llama-4-Maverick-03-26-Experimental do serviço. Só que esse é um modelo personalizado, indisponível ao público por enquanto e otimizado para ter certos comportamentos em interações com humanos — exatamente o critério mais usado para qualificar os LLMs pelos avaliadores.

Testes independentes feitos por usuários no X indicam que o modelo experimental tende a usar mais emojis na comunicação e ser bem-humorado, enquanto o Maverick finalizado é mais formal e objetivo na entrega de conteúdos de um prompt.

The Llama 4 model that won in LM Arena is different than the released version. I have been comparing the answers from Arena to the released model. They aren”t close.
The data is worth a look also as it shows how LM Arena results can be manipulated to be more pleasing to humans. https://t.co/7yCd3CiJ42 pic.twitter.com/A6Yirn04g7
— Ethan Mollick (@emollick) April 8, 2025

Agora, o quadro de líderes do LMArena especifica que a versão do Maverick envolvida nos testes é experimental, enquanto o Gemini 2.5 Pro que atualmente lidera a lista e o GPT-4o, que ficou logo atrás no terceiro lugar, já são estáveis e foram disponibilizadas ao público.

O que a Meta diz sobre a trapaça?

A resposta da Meta por enquanto partiu de Ahmad Al-Dahle, chefe da divisão de IA generativa da companhia. O grupo, que também é dono dos serviços Facebook, Threads, WhatsApp e Instagram, ainda não se pronunciou oficialmente.

Também por meio de um post no X, o executivo rejeitou as acusações de manipulação e deu a versão da companhia sobre o que foi registrado nos benchmarks. Segundo ele, o problema está em resultados diferentes do LLM exibidos nestes primeiros momentos, enquanto ele ainda processa pedidos e respostas.

“Ouvimos alegações de que treinamos em conjuntos de teste — o que simplesmente não é verdade, nunca faríamos isso. Entendemos que a qualidade variável que as pessoas estão vendo é necessária até que as implementações sejam estabilizadas”, explica. Segundo Ahdmad, alguns dias seriam necessários até que a qualidade nas respostas seja unificada.

O que é o Llama 4 da Meta?

O Llama 4 é a nova versão dos LLMs multimodais da Meta, capazes de processar e gerar conteúdo envolvendo texto, áudio, imagem e vídeo.

Ela é composta por três variantes: o Scout, que é o modelo mais básico; o Maverick, para processar grandes quantidades de dados e voltada para empresas; e o Behemoth, que pode ser usado para criar até outros modelos de IA tamanha a performance.

07150442135014 Meta é acusada de trapaça em benchmark de modelo de IA; empresa rebate — A diferença entre os modelos Llama 4. (Imagem: Divulgação/Meta)

Além de fornecer os LLMs para aplicação em produtos e serviços de outras companhias, a Meta também começou a incorporar o Llama 4 em seu próprio ecossistema. Isso significa que logo será possível notar a diferença na interação com a Meta AI, por exemplo, e recursos inteligentes em plataformas como o Instagram.

Do trio, apenas o Behemoth ainda não foi disponibilizado e segue em desenvolvimento, apesar de ter “resultados promissores”. Os demais modelos já podem ser baixados e testados por fãs e desenvolvedores no site da Meta.

O TecMundo testou o ChatRTX, serviço da Nvidia para executar um chatbot de IA localmente, sem internet e em qualquer computador. Confira neste especial o que achamos da plataforma.

angeloapnascimento@gmail.com

Writer & Blogger

Considered an invitation do introduced sufficient understood instrument it. Of decisively friendship in as collecting at. No affixed be husband ye females brother garrets proceed. Least child who seven happy yet balls young. Discovery sweetness principle discourse shameless bed one excellent. Sentiments of surrounded friendship dispatched connection is he. Me or produce besides hastily up as pleased.

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Byangeloapnascimento@gmail.com

-26 de Maio de 2025

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Byangeloapnascimento@gmail.com

-26 de Maio de 2025

Posts Recentes

All Post
Devops
Finanças
Futebol
Sem categoria
Tecnologia

Ti Project

Want to Partnership with me? Book A Call

Popular Posts

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Categories

Meta é acusada de trapaça em benchmark de modelo de IA; empresa rebate

O que a Meta diz sobre a trapaça?

O que é o Llama 4 da Meta?

Share Article:

angeloapnascimento@gmail.com

Writer & Blogger

Leave a Reply Cancelar resposta

You May Also Like:

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Posts Recentes

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Junte-se à família!

Categorias

Tags

Posts Tendências

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Notícias quentes

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Os 6 melhores jogos grátis da Play Store para jogar no Android esta semana

Sobre

Tags

Post Recente

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Me siga

Want to Partnership with me? Book A Call

Popular Posts

Dream Life in Paris

Categories

Meta é acusada de trapaça em benchmark de modelo de IA; empresa rebate

O que a Meta diz sobre a trapaça?

O que é o Llama 4 da Meta?

Share Article:

angeloapnascimento@gmail.com

Leave a Reply Cancelar resposta

You May Also Like:

Posts Recentes

Junte-se à família!

Categorias

Tags

Posts Tendências

Notícias quentes

Sobre

Tags

Post Recente

Me siga