Want to Partnership with me? Book A Call

Popular Posts

Dream Life in Paris

Questions explained agreeable preferred strangers too him her son. Set put shyness offices his females him distant.

Categories

Edit Template

Meta é acusada de trapaça em benchmark de modelo de IA; empresa rebate

A empresa Meta foi acusada de manipular um modelo de linguagem de inteligência artificial (IA) para conseguir resultados melhores do que os verdadeiros em testes. O caso denunciado envolve o recente Llama-4 e a plataforma de benchmarks LMArena.

Tudo começou após a revelação da nova geração de grandes modelos de linguagem (LLM) multimodais pela companhia. A versão intermediária da tecnologia, chamada de Maverick, foi mostrada superando os rivais GPT-4o (da OpenAI) e Google Gemini 2.0 Flash.

Na divulgação, a Meta cita que esse modelo oferece “desempenho líder na indústria e sem precedentes em compreensão de texto e imagem, permitindo a criação de aplicações sofisticadas de IA”. E ele é mesmo poderoso, mas a discrepância em respostas de diferentes versões do que deveria ser um mesmo modelo gerou toda a polêmica.

Como o próprio LMArena confirmou em uma postagem no X (antigo Twitter), a Meta enviou para a plataforma a versão Llama-4-Maverick-03-26-Experimental do serviço. Só que esse é um modelo personalizado, indisponível ao público por enquanto e otimizado para ter certos comportamentos em interações com humanos — exatamente o critério mais usado para qualificar os LLMs pelos avaliadores.

Testes independentes feitos por usuários no X indicam que o modelo experimental tende a usar mais emojis na comunicação e ser bem-humorado, enquanto o Maverick finalizado é mais formal e objetivo na entrega de conteúdos de um prompt.

Agora, o quadro de líderes do LMArena especifica que a versão do Maverick envolvida nos testes é experimental, enquanto o Gemini 2.5 Pro que atualmente lidera a lista e o GPT-4o, que ficou logo atrás no terceiro lugar, já são estáveis e foram disponibilizadas ao público.

O que a Meta diz sobre a trapaça?

A resposta da Meta por enquanto partiu de Ahmad Al-Dahle, chefe da divisão de IA generativa da companhia. O grupo, que também é dono dos serviços Facebook, Threads, WhatsApp e Instagram, ainda não se pronunciou oficialmente.

Também por meio de um post no X, o executivo rejeitou as acusações de manipulação e deu a versão da companhia sobre o que foi registrado nos benchmarks. Segundo ele, o problema está em resultados diferentes do LLM exibidos nestes primeiros momentos, enquanto ele ainda processa pedidos e respostas.

“Ouvimos alegações de que treinamos em conjuntos de teste — o que simplesmente não é verdade, nunca faríamos isso. Entendemos que a qualidade variável que as pessoas estão vendo é necessária até que as implementações sejam estabilizadas”, explica. Segundo Ahdmad, alguns dias seriam necessários até que a qualidade nas respostas seja unificada.

O que é o Llama 4 da Meta?

O Llama 4 é a nova versão dos LLMs multimodais da Meta, capazes de processar e gerar conteúdo envolvendo texto, áudio, imagem e vídeo.

Ela é composta por três variantes: o Scout, que é o modelo mais básico; o Maverick, para processar grandes quantidades de dados e voltada para empresas; e o Behemoth, que pode ser usado para criar até outros modelos de IA tamanha a performance.

07150442135014 Meta é acusada de trapaça em benchmark de modelo de IA; empresa rebate
A diferença entre os modelos Llama 4. (Imagem: Divulgação/Meta)

Além de fornecer os LLMs para aplicação em produtos e serviços de outras companhias, a Meta também começou a incorporar o Llama 4 em seu próprio ecossistema. Isso significa que logo será possível notar a diferença na interação com a Meta AI, por exemplo, e recursos inteligentes em plataformas como o Instagram.

Do trio, apenas o Behemoth ainda não foi disponibilizado e segue em desenvolvimento, apesar de ter “resultados promissores”. Os demais modelos já podem ser baixados e testados por fãs e desenvolvedores no site da Meta.

O TecMundo testou o ChatRTX, serviço da Nvidia para executar um chatbot de IA localmente, sem internet e em qualquer computador. Confira neste especial o que achamos da plataforma.

Share Article:

angeloapnascimento@gmail.com

Writer & Blogger

Considered an invitation do introduced sufficient understood instrument it. Of decisively friendship in as collecting at. No affixed be husband ye females brother garrets proceed. Least child who seven happy yet balls young. Discovery sweetness principle discourse shameless bed one excellent. Sentiments of surrounded friendship dispatched connection is he. Me or produce besides hastily up as pleased. 

Leave a Reply

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Junte-se à família!

Inscreva-se para receber um boletim informativo.

Você foi inscrito com sucesso! Ops! Algo deu errado, tente novamente.

Tags

    Edit Template

    Sobre

    O apetite não humorado voltou informado. Posse, comparação, inquietação, ele não convence de forma decisiva.

    Tags

      © 2025 Created TI Project