A corrida da inteligência artificial está esquentando nesse início de 2025. Depois da DeepSeek, a China aparece com mais uma IA generativa que promete imagens mais realistas para enfrentar a OpenAI, DALL-E e outras companhias multibilionárias dos Estados Unidos. Desta vez, é a ByteDance quem chega com a Goku AI, disponível por enquanto apenas para usuários selecionados.


O modelo da empresa dona do TikTok não é só o nome de um dos mais famosos personagens de anime do mundo. Segundo a desenvolvedora, sua IA consegue gerar imagens e vídeos com maior precisão graças ao modelo de Transformadores de Fluxo Retificados (RFT, na sigla em inglês). Trata-se, basicamente, de um tipo de arquitetura de generativa utilizada para criar vídeos e imagens animadas de alta qualidade a partir de prompts de texto.
A diferença para os modelos de difusão (DiT) é que o RFT tenta criar imagens mais suaves e naturais. O modelo utiliza propriedades teóricas aprimoradas, com clareza conceitual e convergência mais rápida na distribuição de dados.
Que diabos é um transformador de fluxo retificado?
Sim, o nome parece vindo de um filme de ficção, tipo um capacitor de fluxo do DeLorean que permitia a viagem no tempo em De Volta para o Futuro. E a explicação ficou quase tão complexa quanto a de Doc Brown a Marty McFly, então vamos tentar traduzir um pouco melhor.
O fluxo retificado, dentro do contexto do aprendizado de máquina, é um conjunto de transformações projetadas para serem estáveis e eficientes. Isso permite que os modelos aprendam melhor para gerar distribuições de dados complexas. Por exemplo: para transformar um quadrado em uma estrela, você pode dobrar um papel em uma série de etapas, certo? E cada etapa lhe deixa mais perto do resultado final.
É basicamente isso o que acontece no fluxo retificado de uma IA. Para gerar um vídeo, ela precisa transformar uma imagem simples em algo mais complexo. O fluxo retificado é uma espécie de conjunto de instruções (ou etapas) que definem como executar essa transformação, ou seja, são as etapas da dobra do papel que torna um quadrado em uma estrela.
Aprendendo com o usuário
A ByteDance também quer feedbacks do usuário para que Goku continue a aprender conforme é usada. Para isso, será possível dizer qual imagem serve e qual não serve para o seu propósito. A IA deve apresentar uma série de opções, e você escolhe qual é boa, se é que alguma realmente atende aos seus requisitos.

Já existem vários exemplos de imagens e vídeos criados com Goku na internet. Uma das mais disseminadas até agora é a foto de um frango feito de frango frito. Mas a inteligência artificial generativa vai muito além: é capaz de criar vídeos em modo retrato ou paisagem simulando pessoas apresentando algo nas redes sociais e muito mais.
E a ideia é aprender com o tempo para refinar cada vez mais os resultados. Assim, o uso de recursos fica mais eficiente, também, já que deve reduzir a quantidade de novas gerações de imagens para chegar ao resultado esperado.
Ainda não há informações sobre quando a Goku AI será disponibilizada para o público. O modelo possui código aberto e deve ser disponibilizado gratuitamente, inclusive para quem quiser implementá-lo em suas próprias aplicações.
Fonte: GitHub, Forbes, Data Science in your pocket