{"id":26362,"date":"2023-07-02T05:49:04","date_gmt":"2023-07-02T08:49:04","guid":{"rendered":"https:\/\/tiproject.online\/index.php\/2023\/07\/02\/brasileiro-cria-robo-que-entende-audio-mais-pop-mundo-nao-ganho-r-001-02-07-2023\/"},"modified":"2023-07-02T05:49:04","modified_gmt":"2023-07-02T08:49:04","slug":"brasileiro-cria-robo-que-entende-audio-mais-pop-mundo-nao-ganho-r-001-02-07-2023","status":"publish","type":"post","link":"https:\/\/tiproject.online\/index.php\/2023\/07\/02\/brasileiro-cria-robo-que-entende-audio-mais-pop-mundo-nao-ganho-r-001-02-07-2023\/","title":{"rendered":"Brasileiro cria rob\u00f4 que entende \u00e1udio mais pop mundo: \u2018n\u00e3o ganho R$ 0,01\u2019 &#8211; 02\/07\/2023"},"content":{"rendered":"<p><\/p>\n<div>\n<p>Curioso e nerd de carteirinha, o brasileiro Jonatas Grosman criou o modelo de transcri\u00e7\u00e3o de \u00e1udio mais baixado do mundo. Com isso, o doutor em ci\u00eancias da computa\u00e7\u00e3o superou as ferramentas de empresas como Facebook, Google e Microsoft.<\/p>\n<p><a href=\"https:\/\/huggingface.co\/models\">Baixado <\/a>mais 71,9 milh\u00f5es de vezes na plataforma de compartilhamento de c\u00f3digos de intelig\u00eancia artificial Hugging Face, o modelo em portugu\u00eas do brasileiro foi criado quando ele passava por um tratamento de c\u00e2ncer no pulm\u00e3o.<\/p>\n<p>A jornada do doutor pelo Departamento de Inform\u00e1tica do Centro T\u00e9cnico Cient\u00edfico da PUC (Pontif\u00edcia Universidade Cat\u00f3lica) do Rio de Janeiro foi longa. Assim que concluiu o mestrado, em 2017, sua ideia era continuar estudando processamento de lingagem natual (NLP, na sigla em ingl\u00eas). Mas n\u00e3o conseguiu.<\/p>\n<p>Durante os dois primeiros anos, mudou de tema diversas vezes. Quando se decidiu por um, optou por identificar vi\u00e9s de modelo de linguagem. A ideia era melhorar o resultado de trabalhos existentes. S\u00f3 que um c\u00e2ncer no pulm\u00e3o atrapalhou seus planos.<\/p>\n<p>Grosman deixou o doutorado de lado para ficar com a fam\u00edlia e fazer o tratamento, que envolveu cirurgia localizada e quimioterapia. Para se distrair da situa\u00e7\u00e3o adversa, ele procurou algo que pudesse fazer e envolvesse programa\u00e7\u00e3o.<\/p>\n<p><cite>Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha rela\u00e7\u00e3o com reconhecimento de fala, para transcrever \u00e1udio basicamente. Eles propuseram um modelo que achei interessante, e comecei a implement\u00e1-lo<\/cite><\/p>\n<p>Enquanto pesquisava como interagir com a rede neural, um complexo sistema que tenta fazer a intelig\u00eancia artificial funcionar como o c\u00e9rebro humano, Grosman participou da competi\u00e7\u00e3o de 2021 da Hugging Face, empresa que fomenta iniciativas de tecnologia aberta, que usam c\u00f3digo aberto e por isso s\u00e3o chamadas de &#8220;Open Source&#8221;.<\/p>\n<p>Ao final da disputa, ele construiu os melhores modelos de reconhecimento de fala para treinar rob\u00f4s a entender idiomas como Ingl\u00eas, Espanhol, Portugu\u00eas, Russo, Alem\u00e3o, Franc\u00eas, Italiano e Polon\u00eas. Assim, eles s\u00e3o capaz de transcrever em texto aquilo que ouviram em \u00e1udio.<\/p>\n<p>A experi\u00eancia mudou sua vida. Em 2022, de volta ao doutorado, nova mudan\u00e7a de tema. A partir dali, ele desenvolveria a tese &#8220;Avaliando a Robustez de Grandes Modelos Pr\u00e9-treinados no Reconhecimento de Fala&#8221;. Neste mesmo ano, ele venceu outra edi\u00e7\u00e3o do torneio da Hugging.<\/p>\n<p><cite>Fico muito lisonjeado por ter ganhado as duas competi\u00e7\u00f5es e quando vejo quantos downloads foram feitos do meu modelo<\/cite><\/p>\n<h2><strong>Colocando a tese em pr\u00e1tica<\/strong><\/h2>\n<p>S\u00f3cio da Lanx Capital Investimentos desde maio deste ano, Grosman conta que a solu\u00e7\u00e3o de IA, inicialmente usada para distra\u00ed-lo de um momento dif\u00edcil, agora passa a ajudar outras pessoas.<\/p>\n<p><cite>Qualquer um pode baixar os meus modelos e us\u00e1-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto n\u00e3o ganho um centavo. Meu intuito \u00e9 ajudar a galera do Open Source<\/cite><\/p>\n<p>Grosman explica que a solu\u00e7\u00e3o serve para diversas atividades, desde fazer a transcri\u00e7\u00e3o de entrevistas at\u00e9 produzir legendas autom\u00e1ticas no Youtube. &#8220;Muita gente j\u00e1 entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para us\u00e1-la para &#8216;laudar&#8217; raio-x. Ela gravava o \u00e1udio do laudo e depois usava o meu modelo para transcrever o \u00e1udio.&#8221;<\/p>\n<p>Como o modelo de Grosman foi treinado para identificar apenas o som de palavras comuns, o usu\u00e1rio precisou fazer alguns ajustes. Ap\u00f3s um tempo de treinamento, a solu\u00e7\u00e3o passou a identificar palavras comuns da \u00e1rea m\u00e9dica. Em outro momento, o modelo do doutor em ci\u00eancias da computa\u00e7\u00e3o foi usado para transcrever conversas de call center.<\/p>\n<h2><strong>Vida antes da cria\u00e7\u00e3o do modelo<\/strong><\/h2>\n<p>O cientista relembra que o interesse pela tecnologia foi despertado ainda na adolesc\u00eancia. Com 15 anos, ele come\u00e7ou a fazer manuten\u00e7\u00e3o de computadores, do hardware como do software. Trocava mem\u00f3ria RAM, arrumava pe\u00e7as, configurava a rede. O que era apenas hobby virou fonte de renda.<\/p>\n<p>Por gostar de mexer na parte f\u00edsica das m\u00e1quinas, ele at\u00e9 chegou a se inscrever no curso t\u00e9cnico de mec\u00e2nica durante o ensino m\u00e9dio. Mas o interesse n\u00e3o durou muito. Anos depois, ele se formou em sistemas da informa\u00e7\u00e3o na Faculdade de Educa\u00e7\u00e3o Tecnol\u00f3gica do Estado do Rio de Janeiro.<\/p>\n<p>Trabalhou como programador, assistente de pesquisa no Laborat\u00f3rio Nacional de Computa\u00e7\u00e3o Cient\u00edfica e depois no Observat\u00f3rio Nacional. A volta para a academia teve um empurr\u00e3ozinho do professor H\u00e9lio C\u00f4rtes Vieira Lopes, da PUC. <\/p>\n<p><cite>Com ele, defini que minha tese seria na \u00e1rea NLP, que \u00e9, com muitas aspas, um jeito de fazer o computador entender informa\u00e7\u00f5es, que podem vir em forma textual ou sonora. Tive que construir uma intelig\u00eancia para extrair informa\u00e7\u00f5es de textos<\/cite><\/p>\n<p>Agora, a cria\u00e7\u00e3o de Grosman est\u00e1 fazendo mais do que isso. Por ter c\u00f3digo aberto, a vers\u00e3o em ingl\u00eas do modelo dele j\u00e1 sofreu altera\u00e7\u00f5es. Um dos usu\u00e1rios que fez isso, por exemplo, treinou o rob\u00f4 para ela ir al\u00e9m das palavras e identificar as emo\u00e7\u00f5es nas falas.<\/p>\n<\/p><\/div>\n<p><a href=\"https:\/\/www.uol.com.br\/tilt\/noticias\/redacao\/2023\/07\/02\/brasileiro-cria-modelo-de-transcricao-de-audio-mais-baixado-do-mundo.htm\">Link da Materia direta da fonte <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Curioso e nerd de carteirinha, o brasileiro Jonatas Grosman criou o modelo de transcri\u00e7\u00e3o de \u00e1udio mais baixado do mundo. Com isso, o doutor em ci\u00eancias da computa\u00e7\u00e3o superou as ferramentas de empresas como Facebook, Google e Microsoft. Baixado mais 71,9 milh\u00f5es de vezes na plataforma de compartilhamento de c\u00f3digos de intelig\u00eancia artificial Hugging Face, o modelo em portugu\u00eas do brasileiro foi criado quando ele passava por um tratamento de c\u00e2ncer no pulm\u00e3o. A jornada do doutor pelo Departamento de Inform\u00e1tica do Centro T\u00e9cnico Cient\u00edfico da PUC (Pontif\u00edcia Universidade Cat\u00f3lica) do Rio de Janeiro foi longa. Assim que concluiu o mestrado, em 2017, sua ideia era continuar estudando processamento de lingagem natual (NLP, na sigla em ingl\u00eas). Mas n\u00e3o conseguiu. Durante os dois primeiros anos, mudou de tema diversas vezes. Quando se decidiu por um, optou por identificar vi\u00e9s de modelo de linguagem. A ideia era melhorar o resultado de trabalhos existentes. S\u00f3 que um c\u00e2ncer no pulm\u00e3o atrapalhou seus planos. Grosman deixou o doutorado de lado para ficar com a fam\u00edlia e fazer o tratamento, que envolveu cirurgia localizada e quimioterapia. Para se distrair da situa\u00e7\u00e3o adversa, ele procurou algo que pudesse fazer e envolvesse programa\u00e7\u00e3o. Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha rela\u00e7\u00e3o com reconhecimento de fala, para transcrever \u00e1udio basicamente. Eles propuseram um modelo que achei interessante, e comecei a implement\u00e1-lo Enquanto pesquisava como interagir com a rede neural, um complexo sistema que tenta fazer a intelig\u00eancia artificial funcionar como o c\u00e9rebro humano, Grosman participou da competi\u00e7\u00e3o de 2021 da Hugging Face, empresa que fomenta iniciativas de tecnologia aberta, que usam c\u00f3digo aberto e por isso s\u00e3o chamadas de &#8220;Open Source&#8221;. Ao final da disputa, ele construiu os melhores modelos de reconhecimento de fala para treinar rob\u00f4s a entender idiomas como Ingl\u00eas, Espanhol, Portugu\u00eas, Russo, Alem\u00e3o, Franc\u00eas, Italiano e Polon\u00eas. Assim, eles s\u00e3o capaz de transcrever em texto aquilo que ouviram em \u00e1udio. A experi\u00eancia mudou sua vida. Em 2022, de volta ao doutorado, nova mudan\u00e7a de tema. A partir dali, ele desenvolveria a tese &#8220;Avaliando a Robustez de Grandes Modelos Pr\u00e9-treinados no Reconhecimento de Fala&#8221;. Neste mesmo ano, ele venceu outra edi\u00e7\u00e3o do torneio da Hugging. Fico muito lisonjeado por ter ganhado as duas competi\u00e7\u00f5es e quando vejo quantos downloads foram feitos do meu modelo Colocando a tese em pr\u00e1tica S\u00f3cio da Lanx Capital Investimentos desde maio deste ano, Grosman conta que a solu\u00e7\u00e3o de IA, inicialmente usada para distra\u00ed-lo de um momento dif\u00edcil, agora passa a ajudar outras pessoas. Qualquer um pode baixar os meus modelos e us\u00e1-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto n\u00e3o ganho um centavo. Meu intuito \u00e9 ajudar a galera do Open Source Grosman explica que a solu\u00e7\u00e3o serve para diversas atividades, desde fazer a transcri\u00e7\u00e3o de entrevistas at\u00e9 produzir legendas autom\u00e1ticas no Youtube. &#8220;Muita gente j\u00e1 entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para us\u00e1-la para &#8216;laudar&#8217; raio-x. Ela gravava o \u00e1udio do laudo e depois usava o meu modelo para transcrever o \u00e1udio.&#8221; Como o modelo de Grosman foi treinado para identificar apenas o som de palavras comuns, o usu\u00e1rio precisou fazer alguns ajustes. Ap\u00f3s um tempo de treinamento, a solu\u00e7\u00e3o passou a identificar palavras comuns da \u00e1rea m\u00e9dica. Em outro momento, o modelo do doutor em ci\u00eancias da computa\u00e7\u00e3o foi usado para transcrever conversas de call center. Vida antes da cria\u00e7\u00e3o do modelo O cientista relembra que o interesse pela tecnologia foi despertado ainda na adolesc\u00eancia. Com 15 anos, ele come\u00e7ou a fazer manuten\u00e7\u00e3o de computadores, do hardware como do software. Trocava mem\u00f3ria RAM, arrumava pe\u00e7as, configurava a rede. O que era apenas hobby virou fonte de renda. Por gostar de mexer na parte f\u00edsica das m\u00e1quinas, ele at\u00e9 chegou a se inscrever no curso t\u00e9cnico de mec\u00e2nica durante o ensino m\u00e9dio. Mas o interesse n\u00e3o durou muito. Anos depois, ele se formou em sistemas da informa\u00e7\u00e3o na Faculdade de Educa\u00e7\u00e3o Tecnol\u00f3gica do Estado do Rio de Janeiro. Trabalhou como programador, assistente de pesquisa no Laborat\u00f3rio Nacional de Computa\u00e7\u00e3o Cient\u00edfica e depois no Observat\u00f3rio Nacional. A volta para a academia teve um empurr\u00e3ozinho do professor H\u00e9lio C\u00f4rtes Vieira Lopes, da PUC. Com ele, defini que minha tese seria na \u00e1rea NLP, que \u00e9, com muitas aspas, um jeito de fazer o computador entender informa\u00e7\u00f5es, que podem vir em forma textual ou sonora. Tive que construir uma intelig\u00eancia para extrair informa\u00e7\u00f5es de textos Agora, a cria\u00e7\u00e3o de Grosman est\u00e1 fazendo mais do que isso. Por ter c\u00f3digo aberto, a vers\u00e3o em ingl\u00eas do modelo dele j\u00e1 sofreu altera\u00e7\u00f5es. Um dos usu\u00e1rios que fez isso, por exemplo, treinou o rob\u00f4 para ela ir al\u00e9m das palavras e identificar as emo\u00e7\u00f5es nas falas. Link da Materia direta da fonte<\/p>\n","protected":false},"author":1,"featured_media":26363,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[37],"tags":[],"class_list":["post-26362","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts\/26362","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/comments?post=26362"}],"version-history":[{"count":0,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/posts\/26362\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/media\/26363"}],"wp:attachment":[{"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/media?parent=26362"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/categories?post=26362"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tiproject.online\/index.php\/wp-json\/wp\/v2\/tags?post=26362"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}