Durante o Google I/O 2025, o destaque absoluto ficou por conta do avanço da inteligência artificial aplicada à criação audiovisual. O Google apresentou ao público o Veo 3, um modelo de geração de vídeos por IA que adiciona um novo elemento até então ausente nesse tipo de tecnologia: o som. A novidade permite que cenas sejam criadas com efeitos sonoros, ruídos de fundo e até diálogos, tudo a partir de descrições em texto ou imagens. Essa capacidade eleva o patamar da produção com IA, transformando simples comandos em conteúdos audiovisuais completos, com imagem e áudio sincronizados.
Pontos Principais:
- Veo 3 permite gerar vídeos com sons, ruídos e falas a partir de texto ou imagens.
- Google integrou o Veo 3 ao Gemini para usuários do plano AI Ultra com acesso completo.
- Flow facilita montagem de vídeos curtos com IA, ideal para testes de cenas rápidas.
- Imagen 4 e Veo 2 também foram atualizados com novos recursos visuais e de edição.
A proposta vai além da criação visual. O Google integrou ao Veo 3 a capacidade de interpretar descrições não só de ambientes e personagens, mas também de entonações de voz, estilo de som e contexto. Isso permite que o conteúdo gerado se aproxime da linguagem cinematográfica, com atmosferas coerentes e trilha sonora condizente com a proposta da cena. O nível de sofisticação alcançado foi possível graças à evolução dos estudos da DeepMind em IA de vídeo para áudio, o que possibilita a sincronização automática entre a imagem e os elementos sonoros, diretamente a partir dos pixels brutos.
A nova geração do modelo Veo foi incorporada ao aplicativo Gemini, acessível exclusivamente para os usuários do plano AI Ultra, com valor mensal de US$ 249,99. A segmentação por planos reflete o foco da empresa em oferecer uma solução voltada a profissionais e criadores que dependem de agilidade e precisão na prototipagem de conteúdos multimídia. Mesmo com esse nível de refinamento, o Google afirma utilizar a tecnologia SynthID para aplicar marcas d’água invisíveis aos frames, tentando mitigar o risco de uso indevido, como a fabricação de deepfakes, embora ainda não haja transparência sobre os bancos de dados usados para treinar os modelos.
Paralelamente ao Veo 3, a empresa revelou o Flow, um editor de vídeos com foco em montagem de cenas curtas a partir de materiais gerados por IA. A ferramenta é pensada como uma solução leve e ágil para quem deseja testar ideias visuais com rapidez, sem a complexidade de softwares profissionais. O funcionamento do Flow é centrado em comandos textuais e imagens de referência, possibilitando que os usuários criem clipes de até oito segundos, combinando múltiplas cenas com transições suaves por meio da função scenebuilder, apresentada como destaque durante a demonstração do produto.

O recurso Flow está inicialmente disponível apenas nos Estados Unidos, também limitado aos planos pagos AI Pro e Ultra. Enquanto o plano Pro oferece até 100 gerações mensais, o plano Ultra concede acesso completo ao Veo 3 e suas capacidades de geração de áudio. Na prática, isso posiciona o Flow como um espaço de experimentação para criadores visuais, sendo ideal para cineastas, publicitários e produtores de conteúdo que precisam validar visualmente roteiros ou conceitos antes de entrar em produção.
- Google Flow é uma nova IA que cria vídeos com som e controle de câmera total
- Google Fotos recebe edição rápida para imagens no Android 14 com foco em usabilidade
Além dessas duas ferramentas principais, o Google também promoveu melhorias nos modelos já existentes. O Veo 2, por exemplo, recebeu atualizações significativas, como a capacidade de identificar e responder a comandos de câmera, como zooms e panorâmicas, além da possibilidade de alterar elementos dentro de um vídeo, como adicionar ou remover objetos em tempo real. Outro avanço importante está na conversão de vídeos gravados na vertical para o formato horizontal, o que amplia a adaptabilidade dos conteúdos para diferentes plataformas e dispositivos de exibição.
O pacote de novidades foi complementado com o lançamento do Imagen 4, modelo voltado à geração de imagens por IA. Entre as melhorias, destaca-se a capacidade de produzir textos legíveis nas imagens criadas, um dos principais desafios superados nesta nova versão. Essa função amplia as possibilidades de aplicação comercial do modelo, permitindo a criação de imagens promocionais, material educativo e outros conteúdos visuais que exigem comunicação textual integrada. Além disso, o Imagen 4 também oferece mais opções de exportação, com qualidade superior e suporte a múltiplos formatos.
Fonte: Google.
O post Google surpreende ao lançar IA Veo 3 que cria vídeos com falas, ruídos e efeitos sonoros em tempo real apareceu primeiro em Carro.Blog.Br.