{"id":41772,"date":"2025-04-05T05:49:32","date_gmt":"2025-04-05T08:49:32","guid":{"rendered":"https:\/\/tiproject.online\/index.php\/2025\/04\/05\/como-sites-barram-a-coleta-de-dados\/"},"modified":"2025-04-05T05:49:32","modified_gmt":"2025-04-05T08:49:32","slug":"como-sites-barram-a-coleta-de-dados","status":"publish","type":"post","link":"https:\/\/tiproject.online\/index.php\/2025\/04\/05\/como-sites-barram-a-coleta-de-dados\/","title":{"rendered":"como sites barram a coleta de dados"},"content":{"rendered":"<p><\/p>\n<div data-v-232111b4=\"\" data-v-0413e3c7=\"\"><!----><\/p>\n<p dir=\"ltr\" class=\"bullet mt-0\" data-v-232111b4=\"\">Da mesma maneira que a IA pode aprender um estilo art\u00edstico de uma imagem, tamb\u00e9m captura os padr\u00f5es com os quais grandes escritores concatenam suas palavras. E o aprendizado n\u00e3o se restringe apenas \u00e0 forma, mas tamb\u00e9m invade o conte\u00fado.<\/p>\n<p dir=\"ltr\" class=\"bullet\" data-v-232111b4=\"\">Se a IA consegue responder sua pergunta, \u00e9 porque ela leu a resposta em algum lugar &#8211; certamente em algum texto escrito por algu\u00e9m.<\/p>\n<p dir=\"ltr\" class=\"bullet\" data-v-232111b4=\"\">N\u00e3o tem jeito, para a Intelig\u00eancia Artificial Generativa existir, os modelos precisam ser treinados com uma quantidade absurda de conte\u00fados em diferentes formatos: textos, imagens, v\u00eddeos, entre outros. E quanto mais dados, melhor ser\u00e1 o desempenho do modelo. \u00c9 por este motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permiss\u00e3o para os seus donos.<\/p>\n<p dir=\"ltr\" class=\"bullet\" data-v-232111b4=\"\">As t\u00e9cnicas para conseguir os conte\u00fados variam muito. Tudo \u00e9 poss\u00edvel. Recentemente, vazou que a Meta chegou at\u00e9 mesmo a baixar livros pirateados para treinar sua IA. No entanto, uma das t\u00e9cnicas mais comum \u00e9 o &#8220;web scraping&#8221;, que consiste no uso de &#8220;crawlers&#8221;, bots automatizados que acessam sites e coletam os conte\u00fados.<\/p>\n<p><!----><\/p>\n<p dir=\"ltr\" class=\"bullet\" data-v-232111b4=\"\">Jornais, revistas, artigos cient\u00edficos, livros, portais, blogs, tudo que est\u00e1 online \u00e9 alvo dos &#8220;crawlers&#8221;. Essa estrat\u00e9gia \u00e9 t\u00e3o agressiva que est\u00e1 sobrecarregando os servidores da Wikip\u00e9dia. A Funda\u00e7\u00e3o Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informa\u00e7\u00e3o e aumentado em 50% o uso de banda para download de conte\u00fado.<\/p>\n<p><!----><\/p>\n<h2 class=\"bullet\" data-v-232111b4=\"\">A resposta dos donos de conte\u00fados<\/h2>\n<p><!----><\/p>\n<p dir=\"ltr\" class=\"bullet\" data-v-232111b4=\"\">Os donos de portais, no entanto, est\u00e3o come\u00e7ando a reagir. E a resposta est\u00e1 vindo de muitas dire\u00e7\u00f5es. Desde a\u00e7\u00f5es jur\u00eddicas, como o <em>The New York Times<\/em> que processou a OpenAI, como tamb\u00e9m com solu\u00e7\u00f5es t\u00e9cnicas.<\/p>\n<p><!----><!----><\/div>\n<p><script>!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function() {n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window, document,'script', 'https:\/\/connect.facebook.net\/en_US\/fbevents.js'); fbq('init', '1425099884432564'); fbq('track', 'PageView', { content_name: 'Labirinto contra a IA: como sites enganam a coleta de dados', content_ids: [82664,13703,80789,79601,79220,77838,79222,82370,82487,82253,81430,83158], is_closed: true, });<\/script><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Da mesma maneira que a IA pode aprender um estilo art\u00edstico de uma imagem, tamb\u00e9m captura os padr\u00f5es com os quais grandes escritores concatenam suas palavras. E o aprendizado n\u00e3o se restringe apenas \u00e0 forma, mas tamb\u00e9m invade o conte\u00fado. Se a IA consegue responder sua pergunta, \u00e9 porque ela leu a resposta em algum lugar &#8211; certamente em algum texto escrito por algu\u00e9m. N\u00e3o tem jeito, para a Intelig\u00eancia Artificial Generativa existir, os modelos precisam ser treinados com uma quantidade absurda de conte\u00fados em diferentes formatos: textos, imagens, v\u00eddeos, entre outros. E quanto mais dados, melhor ser\u00e1 o desempenho do modelo. \u00c9 por este motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permiss\u00e3o para os seus donos. As t\u00e9cnicas para conseguir os conte\u00fados variam muito. Tudo \u00e9 poss\u00edvel. Recentemente, vazou que a Meta chegou at\u00e9 mesmo a baixar livros pirateados para treinar sua IA. No entanto, uma das t\u00e9cnicas mais comum \u00e9 o &#8220;web scraping&#8221;, que consiste no uso de &#8220;crawlers&#8221;, bots automatizados que acessam sites e coletam os conte\u00fados. Jornais, revistas, artigos cient\u00edficos, livros, portais, blogs, tudo que est\u00e1 online \u00e9 alvo dos &#8220;crawlers&#8221;. Essa estrat\u00e9gia \u00e9 t\u00e3o agressiva que est\u00e1 sobrecarregando os servidores da Wikip\u00e9dia. A Funda\u00e7\u00e3o Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informa\u00e7\u00e3o e aumentado em 50% o uso de banda para download de conte\u00fado. A resposta dos donos de conte\u00fados Os donos de portais, no entanto, est\u00e3o come\u00e7ando a reagir. E a resposta est\u00e1 vindo de muitas dire\u00e7\u00f5es. Desde a\u00e7\u00f5es jur\u00eddicas, como o The New York Times que processou a OpenAI, como tamb\u00e9m com solu\u00e7\u00f5es t\u00e9cnicas.<\/p>\n","protected":false},"author":1,"featured_media":41773,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[37],"tags":[],"class_list":["post-41772","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts\/41772","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/comments?post=41772"}],"version-history":[{"count":0,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts\/41772\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/media\/41773"}],"wp:attachment":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/media?parent=41772"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/categories?post=41772"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/tags?post=41772"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}