{"id":42343,"date":"2025-04-09T13:04:07","date_gmt":"2025-04-09T16:04:07","guid":{"rendered":"https:\/\/tiproject.online\/index.php\/2025\/04\/09\/meta-e-acusada-de-trapaca-em-benchmark-de-modelo-de-ia-empresa-rebate\/"},"modified":"2025-04-09T13:04:07","modified_gmt":"2025-04-09T16:04:07","slug":"meta-e-acusada-de-trapaca-em-benchmark-de-modelo-de-ia-empresa-rebate","status":"publish","type":"post","link":"https:\/\/tiproject.online\/index.php\/2025\/04\/09\/meta-e-acusada-de-trapaca-em-benchmark-de-modelo-de-ia-empresa-rebate\/","title":{"rendered":"Meta \u00e9 acusada de trapa\u00e7a em benchmark de modelo de IA; empresa rebate"},"content":{"rendered":"<p><\/p>\n<div>\n<p>A empresa Meta foi acusada de manipular um modelo de linguagem de intelig\u00eancia artificial (IA) para conseguir resultados melhores do que os verdadeiros em testes. O caso denunciado envolve o recente Llama-4 e a plataforma de benchmarks LMArena.<\/p>\n<p>Tudo come\u00e7ou ap\u00f3s a revela\u00e7\u00e3o da nova gera\u00e7\u00e3o de grandes modelos de linguagem (LLM) multimodais pela companhia. A vers\u00e3o intermedi\u00e1ria da tecnologia, chamada de Maverick, foi mostrada superando os rivais <a href=\"https:\/\/www.tecmundo.com.br\/software\/282925-openai-revela-gpt-4o-modelo-ia-generativa-analisa-videos-tempo-real.htm\">GPT-4o (da OpenAI)<\/a> e Google Gemini 2.0 Flash.<\/p>\n<p>Na divulga\u00e7\u00e3o, a Meta cita que esse modelo oferece &#8220;desempenho l\u00edder na ind\u00fastria e sem precedentes em compreens\u00e3o de texto e imagem, permitindo a cria\u00e7\u00e3o de aplica\u00e7\u00f5es sofisticadas de IA&#8221;. E ele \u00e9 mesmo poderoso, mas<strong> a discrep\u00e2ncia em respostas de diferentes vers\u00f5es do que deveria ser um mesmo modelo gerou toda a pol\u00eamica.<\/strong><\/p>\n<p>Como o pr\u00f3prio LMArena confirmou <a href=\"https:\/\/x.com\/lmarena_ai\/status\/1909397817434816562\">em uma postagem no X (antigo Twitter)<\/a>, a Meta enviou para a plataforma a vers\u00e3o Llama-4-Maverick-03-26-Experimental do servi\u00e7o. S\u00f3 que <strong>esse \u00e9 um modelo personalizado, indispon\u00edvel ao p\u00fablico por enquanto e otimizado para ter certos comportamentos em intera\u00e7\u00f5es com humanos<\/strong> \u2014 exatamente o crit\u00e9rio mais usado para qualificar os LLMs pelos avaliadores.<\/p>\n<p>Testes independentes feitos por usu\u00e1rios no X indicam que <strong>o modelo experimental tende a usar mais emojis na comunica\u00e7\u00e3o e ser bem-humorado<\/strong>, enquanto o Maverick finalizado \u00e9 mais formal e objetivo na entrega de conte\u00fados de um prompt.<\/p>\n<div class=\"raw-html-embed\">\n<blockquote class=\"twitter-tweet\">\n<p lang=\"en\" dir=\"ltr\">The Llama 4 model that won in LM Arena is different than the released version. I have been comparing the answers from Arena to the released model. They aren&#8221;t close.<\/p>\n<p>The data is worth a look also as it shows how LM Arena results can be manipulated to be more pleasing to humans. <a href=\"https:\/\/t.co\/7yCd3CiJ42\">https:\/\/t.co\/7yCd3CiJ42<\/a> <a href=\"https:\/\/t.co\/A6Yirn04g7\">pic.twitter.com\/A6Yirn04g7<\/a><\/p>\n<p>\u2014 Ethan Mollick (@emollick) <a href=\"https:\/\/twitter.com\/emollick\/status\/1909414182962790467?ref_src=twsrc%5Etfw\">April 8, 2025<\/a><\/p><\/blockquote>\n<\/div>\n<p>Agora, <a href=\"https:\/\/lmarena.ai\/?leaderboard\">o quadro de l\u00edderes do LMArena<\/a> especifica que a vers\u00e3o do Maverick envolvida nos testes \u00e9 experimental, enquanto o <a href=\"https:\/\/www.tecmundo.com.br\/internet\/403583-gemini-25-confira-o-poder-do-modelo-de-ia-mais-inteligente-do-google.htm\">Gemini 2.5 Pro <\/a>que atualmente lidera a lista e o GPT-4o, que ficou logo atr\u00e1s no terceiro lugar, j\u00e1 s\u00e3o est\u00e1veis e foram disponibilizadas ao p\u00fablico.<\/p>\n<h2>O que a Meta diz sobre a trapa\u00e7a?<\/h2>\n<p>A resposta da Meta por enquanto partiu de Ahmad Al-Dahle, chefe da divis\u00e3o de IA generativa da companhia. O grupo, que tamb\u00e9m \u00e9 dono dos servi\u00e7os Facebook, Threads, WhatsApp e Instagram, ainda n\u00e3o se pronunciou oficialmente.<\/p>\n<p>Tamb\u00e9m <a href=\"https:\/\/x.com\/Ahmad_Al_Dahle\/status\/1909302532306092107\">por meio de um post no X<\/a>, o executivo rejeitou as acusa\u00e7\u00f5es de manipula\u00e7\u00e3o e deu a vers\u00e3o da companhia sobre o que foi registrado nos benchmarks. Segundo ele, <strong>o problema est\u00e1 em resultados diferentes do LLM exibidos nestes primeiros momentos<\/strong>, enquanto ele ainda processa pedidos e respostas.<\/p>\n<p>&#8220;Ouvimos alega\u00e7\u00f5es de que treinamos em conjuntos de teste \u2014 o que simplesmente n\u00e3o \u00e9 verdade, nunca far\u00edamos isso. Entendemos que a qualidade vari\u00e1vel que as pessoas est\u00e3o vendo \u00e9 necess\u00e1ria at\u00e9 que as implementa\u00e7\u00f5es sejam estabilizadas&#8221;, explica. Segundo Ahdmad, <strong>alguns dias seriam necess\u00e1rios at\u00e9 que a qualidade nas respostas seja unificada<\/strong>.<\/p>\n<h2>O que \u00e9 o Llama 4 da Meta?<\/h2>\n<p>O Llama 4 \u00e9 a nova vers\u00e3o dos LLMs multimodais da Meta, capazes de processar e gerar conte\u00fado envolvendo texto, \u00e1udio, imagem e v\u00eddeo.<\/p>\n<p>Ela \u00e9 composta por tr\u00eas variantes: o Scout, que \u00e9 o modelo mais b\u00e1sico; o Maverick, para processar grandes quantidades de dados e voltada para empresas; e o Behemoth, que pode ser usado para criar at\u00e9 outros modelos de IA tamanha a performance.<\/p>\n<figure class=\"image\"><img  title=\"\" decoding=\"async\" src=\"https:\/\/tm.ibxk.com.br\/2025\/04\/07\/07150442135014.jpg\"  alt=\"07150442135014 Meta \u00e9 acusada de trapa\u00e7a em benchmark de modelo de IA; empresa rebate\"  srcset=\"https:\/\/tm.ibxk.com.br\/2025\/04\/07\/07150442135013.jpg 245w,https:\/\/tm.ibxk.com.br\/2025\/04\/07\/07150442291017.jpg 500w,https:\/\/tm.ibxk.com.br\/2025\/04\/07\/07150442228016.jpg 750w,https:\/\/tm.ibxk.com.br\/2025\/04\/07\/07150442213015.jpg 1000w,\" sizes=\"100vw\"\/><figcaption>A diferen\u00e7a entre os modelos Llama 4. (Imagem: Divulga\u00e7\u00e3o\/Meta)<\/figcaption><\/figure>\n<p>Al\u00e9m de fornecer os LLMs para aplica\u00e7\u00e3o em produtos e servi\u00e7os de outras companhias, <strong>a Meta tamb\u00e9m come\u00e7ou a incorporar o Llama 4 em seu pr\u00f3prio ecossistema<\/strong>. Isso significa que logo ser\u00e1 poss\u00edvel notar a diferen\u00e7a <a href=\"https:\/\/www.tecmundo.com.br\/software\/294539-usar-meta-ai-whatsapp.htm\">na intera\u00e7\u00e3o com a Meta AI<\/a>, por exemplo, e recursos inteligentes em plataformas como o Instagram.<\/p>\n<p>Do trio, <strong>apenas o Behemoth ainda n\u00e3o foi disponibilizado e segue em desenvolvimento<\/strong>, apesar de ter &#8220;resultados promissores&#8221;. Os demais modelos j\u00e1 podem ser baixados e testados por f\u00e3s e desenvolvedores <a href=\"https:\/\/www.llama.com\/llama-downloads\/\">no site da Meta<\/a>.<\/p>\n<p>O TecMundo testou o ChatRTX, servi\u00e7o da Nvidia para executar um chatbot de IA localmente, sem internet e em qualquer computador. <a href=\"https:\/\/www.tecmundo.com.br\/mercado\/ChatRTX: voc\u00ea n\u00e3o precisa de um PC Copilot+ para rodar chatbots com IA de forma nativa [An\u00e1lise]\">Confira neste especial o que achamos da plataforma<\/a>.<\/p>\n<\/div>\n<p><script async src=\"\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n","protected":false},"excerpt":{"rendered":"<p>A empresa Meta foi acusada de manipular um modelo de linguagem de intelig\u00eancia artificial (IA) para conseguir resultados melhores do que os verdadeiros em testes. O caso denunciado envolve o recente Llama-4 e a plataforma de benchmarks LMArena. Tudo come\u00e7ou ap\u00f3s a revela\u00e7\u00e3o da nova gera\u00e7\u00e3o de grandes modelos de linguagem (LLM) multimodais pela companhia. A vers\u00e3o intermedi\u00e1ria da tecnologia, chamada de Maverick, foi mostrada superando os rivais GPT-4o (da OpenAI) e Google Gemini 2.0 Flash. Na divulga\u00e7\u00e3o, a Meta cita que esse modelo oferece &#8220;desempenho l\u00edder na ind\u00fastria e sem precedentes em compreens\u00e3o de texto e imagem, permitindo a cria\u00e7\u00e3o de aplica\u00e7\u00f5es sofisticadas de IA&#8221;. E ele \u00e9 mesmo poderoso, mas a discrep\u00e2ncia em respostas de diferentes vers\u00f5es do que deveria ser um mesmo modelo gerou toda a pol\u00eamica. Como o pr\u00f3prio LMArena confirmou em uma postagem no X (antigo Twitter), a Meta enviou para a plataforma a vers\u00e3o Llama-4-Maverick-03-26-Experimental do servi\u00e7o. S\u00f3 que esse \u00e9 um modelo personalizado, indispon\u00edvel ao p\u00fablico por enquanto e otimizado para ter certos comportamentos em intera\u00e7\u00f5es com humanos \u2014 exatamente o crit\u00e9rio mais usado para qualificar os LLMs pelos avaliadores. Testes independentes feitos por usu\u00e1rios no X indicam que o modelo experimental tende a usar mais emojis na comunica\u00e7\u00e3o e ser bem-humorado, enquanto o Maverick finalizado \u00e9 mais formal e objetivo na entrega de conte\u00fados de um prompt. The Llama 4 model that won in LM Arena is different than the released version. I have been comparing the answers from Arena to the released model. They aren&#8221;t close. The data is worth a look also as it shows how LM Arena results can be manipulated to be more pleasing to humans. https:\/\/t.co\/7yCd3CiJ42 pic.twitter.com\/A6Yirn04g7 \u2014 Ethan Mollick (@emollick) April 8, 2025 Agora, o quadro de l\u00edderes do LMArena especifica que a vers\u00e3o do Maverick envolvida nos testes \u00e9 experimental, enquanto o Gemini 2.5 Pro que atualmente lidera a lista e o GPT-4o, que ficou logo atr\u00e1s no terceiro lugar, j\u00e1 s\u00e3o est\u00e1veis e foram disponibilizadas ao p\u00fablico. O que a Meta diz sobre a trapa\u00e7a? A resposta da Meta por enquanto partiu de Ahmad Al-Dahle, chefe da divis\u00e3o de IA generativa da companhia. O grupo, que tamb\u00e9m \u00e9 dono dos servi\u00e7os Facebook, Threads, WhatsApp e Instagram, ainda n\u00e3o se pronunciou oficialmente. Tamb\u00e9m por meio de um post no X, o executivo rejeitou as acusa\u00e7\u00f5es de manipula\u00e7\u00e3o e deu a vers\u00e3o da companhia sobre o que foi registrado nos benchmarks. Segundo ele, o problema est\u00e1 em resultados diferentes do LLM exibidos nestes primeiros momentos, enquanto ele ainda processa pedidos e respostas. &#8220;Ouvimos alega\u00e7\u00f5es de que treinamos em conjuntos de teste \u2014 o que simplesmente n\u00e3o \u00e9 verdade, nunca far\u00edamos isso. Entendemos que a qualidade vari\u00e1vel que as pessoas est\u00e3o vendo \u00e9 necess\u00e1ria at\u00e9 que as implementa\u00e7\u00f5es sejam estabilizadas&#8221;, explica. Segundo Ahdmad, alguns dias seriam necess\u00e1rios at\u00e9 que a qualidade nas respostas seja unificada. O que \u00e9 o Llama 4 da Meta? O Llama 4 \u00e9 a nova vers\u00e3o dos LLMs multimodais da Meta, capazes de processar e gerar conte\u00fado envolvendo texto, \u00e1udio, imagem e v\u00eddeo. Ela \u00e9 composta por tr\u00eas variantes: o Scout, que \u00e9 o modelo mais b\u00e1sico; o Maverick, para processar grandes quantidades de dados e voltada para empresas; e o Behemoth, que pode ser usado para criar at\u00e9 outros modelos de IA tamanha a performance. A diferen\u00e7a entre os modelos Llama 4. (Imagem: Divulga\u00e7\u00e3o\/Meta) Al\u00e9m de fornecer os LLMs para aplica\u00e7\u00e3o em produtos e servi\u00e7os de outras companhias, a Meta tamb\u00e9m come\u00e7ou a incorporar o Llama 4 em seu pr\u00f3prio ecossistema. Isso significa que logo ser\u00e1 poss\u00edvel notar a diferen\u00e7a na intera\u00e7\u00e3o com a Meta AI, por exemplo, e recursos inteligentes em plataformas como o Instagram. Do trio, apenas o Behemoth ainda n\u00e3o foi disponibilizado e segue em desenvolvimento, apesar de ter &#8220;resultados promissores&#8221;. Os demais modelos j\u00e1 podem ser baixados e testados por f\u00e3s e desenvolvedores no site da Meta. O TecMundo testou o ChatRTX, servi\u00e7o da Nvidia para executar um chatbot de IA localmente, sem internet e em qualquer computador. Confira neste especial o que achamos da plataforma.<\/p>\n","protected":false},"author":1,"featured_media":42344,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[37],"tags":[],"class_list":["post-42343","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts\/42343","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/comments?post=42343"}],"version-history":[{"count":0,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts\/42343\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/media\/42344"}],"wp:attachment":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/media?parent=42343"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/categories?post=42343"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/tags?post=42343"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}