Brasileiro cria robô que entende áudio mais pop mundo: ‘não ganho R$ 0,01’ – 02/07/2023

Curioso e nerd de carteirinha, o brasileiro Jonatas Grosman criou o modelo de transcrição de áudio mais baixado do mundo. Com isso, o doutor em ciências da computação superou as ferramentas de empresas como Facebook, Google e Microsoft.

Baixado mais 71,9 milhões de vezes na plataforma de compartilhamento de códigos de inteligência artificial Hugging Face, o modelo em português do brasileiro foi criado quando ele passava por um tratamento de câncer no pulmão.

A jornada do doutor pelo Departamento de Informática do Centro Técnico Científico da PUC (Pontifícia Universidade Católica) do Rio de Janeiro foi longa. Assim que concluiu o mestrado, em 2017, sua ideia era continuar estudando processamento de lingagem natual (NLP, na sigla em inglês). Mas não conseguiu.

Durante os dois primeiros anos, mudou de tema diversas vezes. Quando se decidiu por um, optou por identificar viés de modelo de linguagem. A ideia era melhorar o resultado de trabalhos existentes. Só que um câncer no pulmão atrapalhou seus planos.

Grosman deixou o doutorado de lado para ficar com a família e fazer o tratamento, que envolveu cirurgia localizada e quimioterapia. Para se distrair da situação adversa, ele procurou algo que pudesse fazer e envolvesse programação.

Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha relação com reconhecimento de fala, para transcrever áudio basicamente. Eles propuseram um modelo que achei interessante, e comecei a implementá-lo

Enquanto pesquisava como interagir com a rede neural, um complexo sistema que tenta fazer a inteligência artificial funcionar como o cérebro humano, Grosman participou da competição de 2021 da Hugging Face, empresa que fomenta iniciativas de tecnologia aberta, que usam código aberto e por isso são chamadas de “Open Source”.

Ao final da disputa, ele construiu os melhores modelos de reconhecimento de fala para treinar robôs a entender idiomas como Inglês, Espanhol, Português, Russo, Alemão, Francês, Italiano e Polonês. Assim, eles são capaz de transcrever em texto aquilo que ouviram em áudio.

A experiência mudou sua vida. Em 2022, de volta ao doutorado, nova mudança de tema. A partir dali, ele desenvolveria a tese “Avaliando a Robustez de Grandes Modelos Pré-treinados no Reconhecimento de Fala”. Neste mesmo ano, ele venceu outra edição do torneio da Hugging.

Fico muito lisonjeado por ter ganhado as duas competições e quando vejo quantos downloads foram feitos do meu modelo

Colocando a tese em prática

Sócio da Lanx Capital Investimentos desde maio deste ano, Grosman conta que a solução de IA, inicialmente usada para distraí-lo de um momento difícil, agora passa a ajudar outras pessoas.

Qualquer um pode baixar os meus modelos e usá-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto não ganho um centavo. Meu intuito é ajudar a galera do Open Source

Grosman explica que a solução serve para diversas atividades, desde fazer a transcrição de entrevistas até produzir legendas automáticas no Youtube. “Muita gente já entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para usá-la para ‘laudar’ raio-x. Ela gravava o áudio do laudo e depois usava o meu modelo para transcrever o áudio.”

Como o modelo de Grosman foi treinado para identificar apenas o som de palavras comuns, o usuário precisou fazer alguns ajustes. Após um tempo de treinamento, a solução passou a identificar palavras comuns da área médica. Em outro momento, o modelo do doutor em ciências da computação foi usado para transcrever conversas de call center.

Vida antes da criação do modelo

O cientista relembra que o interesse pela tecnologia foi despertado ainda na adolescência. Com 15 anos, ele começou a fazer manutenção de computadores, do hardware como do software. Trocava memória RAM, arrumava peças, configurava a rede. O que era apenas hobby virou fonte de renda.

Por gostar de mexer na parte física das máquinas, ele até chegou a se inscrever no curso técnico de mecânica durante o ensino médio. Mas o interesse não durou muito. Anos depois, ele se formou em sistemas da informação na Faculdade de Educação Tecnológica do Estado do Rio de Janeiro.

Trabalhou como programador, assistente de pesquisa no Laboratório Nacional de Computação Científica e depois no Observatório Nacional. A volta para a academia teve um empurrãozinho do professor Hélio Côrtes Vieira Lopes, da PUC.

Com ele, defini que minha tese seria na área NLP, que é, com muitas aspas, um jeito de fazer o computador entender informações, que podem vir em forma textual ou sonora. Tive que construir uma inteligência para extrair informações de textos

Agora, a criação de Grosman está fazendo mais do que isso. Por ter código aberto, a versão em inglês do modelo dele já sofreu alterações. Um dos usuários que fez isso, por exemplo, treinou o robô para ela ir além das palavras e identificar as emoções nas falas.

Link da Materia direta da fonte

angeloapnascimento@gmail.com

Writer & Blogger

Considered an invitation do introduced sufficient understood instrument it. Of decisively friendship in as collecting at. No affixed be husband ye females brother garrets proceed. Least child who seven happy yet balls young. Discovery sweetness principle discourse shameless bed one excellent. Sentiments of surrounded friendship dispatched connection is he. Me or produce besides hastily up as pleased.

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Byangeloapnascimento@gmail.com

-26 de Maio de 2025

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Byangeloapnascimento@gmail.com

-26 de Maio de 2025

Posts Recentes

All Post
Devops
Finanças
Futebol
Sem categoria
Tecnologia

Ti Project

Want to Partnership with me? Book A Call

Popular Posts

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Categories

Brasileiro cria robô que entende áudio mais pop mundo: ‘não ganho R$ 0,01’ – 02/07/2023

Colocando a tese em prática

Vida antes da criação do modelo

Share Article:

angeloapnascimento@gmail.com

Writer & Blogger

Leave a Reply Cancelar resposta

You May Also Like:

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Posts Recentes

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Junte-se à família!

Categorias

Tags

Posts Tendências

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Notícias quentes

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Os 6 melhores jogos grátis da Play Store para jogar no Android esta semana

Sobre

Tags

Post Recente

Google vai exibir anúncios na “Visão Geral criada por IA” — mas só porque você os acha úteis

Relatório da ONU sugere que IAs podem auxiliar no desenvolvimento humano

Netflix recebe 7 lançamentos de peso nesta semana! Confira a lista

Me siga

Want to Partnership with me? Book A Call

Popular Posts

Dream Life in Paris

Categories

Brasileiro cria robô que entende áudio mais pop mundo: ‘não ganho R$ 0,01’ – 02/07/2023

Colocando a tese em prática

Vida antes da criação do modelo

Share Article:

angeloapnascimento@gmail.com

Leave a Reply Cancelar resposta

You May Also Like:

Posts Recentes

Junte-se à família!

Categorias

Tags

Posts Tendências

Notícias quentes

Sobre

Tags

Post Recente

Me siga