Qwen 3.5 Omni: O Modelo de IA da Alibaba Agora Pode Ouvir, Ver e Clonar a Sua Voz

Em resumo

O Qwen 3.5 Omni da Alibaba traz IA omnimodal verdadeiramente em tempo real para a corrida de vanguarda.
O processamento audiovisual nativo supera os pipelines multimodais combinados em velocidade e coerência.
A clonagem de voz, a interrupção semântica e a programação por ambiente sinalizam uma mudança para agentes de IA totalmente interativos.

A Alibaba acaba de lançar a sua atualização de IA mais ambiciosa até à data.

A equipa Qwen da empresa lançou o Qwen 3.5 Omni no domingo, uma nova versão da sua IA "omnimodal" que processa simultaneamente texto, imagens, áudio e vídeo, e responde em tempo real em 36 idiomas, colocando o seu modelo no mesmo campo de batalha que os mais recentes modelos fundamentais de IA de última geração atualmente disponíveis.

"Omni" não é apenas uma palavra-chave de marketing aqui. A maioria dos modelos de IA com os quais interage são principalmente sistemas de texto de entrada e texto de saída. Alguns lidam com imagens, alguns com voz. O Qwen 3.5 Omni lida com todos eles de forma nativa, ao mesmo tempo, sem a necessidade de converter tudo em texto através de ferramentas de terceiros.

O novo modelo vem em três tamanhos—Plus, Flash e Light—todos suportando uma janela de contexto pequena (pelos padrões atuais) de 256.000 tokens. Foi treinado em mais de 100 milhões de horas de dados audiovisuais—uma escala que o coloca numa categoria de peso diferente da maioria dos concorrentes.

O Qwen 3.5 Omni é uma evolução do Qwen 3 Omni Flash, o modelo omnimodal anterior da Alibaba lançado em dezembro de 2025. Essa versão já impressionava com a sua capacidade de processar vídeo e áudio simultaneamente—podia lidar com instruções de edição de imagem combinando múltiplas entradas visuais de formas que os concorrentes não conseguiam—e transmitia respostas de voz com latência tão baixa quanto 234 milissegundos.

Foi também o primeiro modelo a tentar uma alternativa ao NotebookLM da Google. Conseguiu algo, mas a qualidade não estava ao nível da oferta da Google.

O Qwen 3.5 Omni pega em tudo isso e adiciona uma janela de contexto mais longa, melhor raciocínio, uma biblioteca de idiomas muito mais ampla e um conjunto de funcionalidades de interação em tempo real que a geração anterior não tinha.

A atualização principal é o que acontece quando realmente fala com ele. O Qwen3.5-Omni agora suporta interrupção semântica: consegue distinguir entre dizer "uh-huh" a meio da frase e realmente querer interromper, por isso não vai parar a meio do pensamento sempre que alguém tosse ao fundo, tornando a interação falada mais fluida.

Uma nova técnica chamada ARIA, abreviatura de Adaptive Rate Interleave Alignment, também corrige um aborrecimento subtil mas persistente: sistemas de IA que deturpam números ou palavras incomuns ao ler em voz alta. A ARIA sincroniza dinamicamente texto e fala para manter a saída natural e precisa.

Depois há a clonagem de voz. Os utilizadores podem carregar uma amostra de voz e fazer com que o modelo adote essa voz nas suas respostas, uma funcionalidade que coloca o Qwen em competição direta com a ElevenLabs e outras ferramentas de voz dedicadas. No entanto, não conseguimos aceder a esta funcionalidade, porque esta é uma funcionalidade que, pelo menos por enquanto, só está disponível via API.

Em benchmarks de estabilidade de voz multilíngue, o Qwen3.5 Omni-Plus superou a ElevenLabs, GPT-Audio e Minimax em 20 idiomas. O modelo também suporta agora pesquisa web em tempo real, o que significa que pode responder a perguntas sobre notícias de última hora ou dados de mercado em tempo real sem fingir que já sabe.

A equipa também está a destacar o que chamam de "Audio-Visual Vibe Coding", o modelo pode assistir a uma gravação de ecrã ou vídeo de uma tarefa de programação e escrever código funcional com base puramente no que vê e ouve, sem necessidade de prompt de texto. É uma pequena antevisão de como os assistentes de IA poderão eventualmente operar dentro do seu fluxo de trabalho em vez de ao lado dele.

Para entender o que "omnimodal" realmente significa na prática, fizemos um teste rápido: alimentámos tanto o Qwen3.5-Omni como o ChatGPT 5.4 em modo "thinking" com o mesmo YouTube Short—um clip do Presidente da Dastan (a Dastan é a empresa-mãe da Decrypt) e do comentador Farokh a discutir notícias de última hora. O Qwen 3.5 Omni processou o vídeo de forma nativa e devolveu uma análise completa em cerca de um minuto: quem estava a falar, o que estavam a discutir e um comentário substantivo sobre o tópico com base no seu próprio conhecimento da área temática.

O ChatGPT 5.4, que não é omnimodal, teve de gerir com o que tinha. Extraiu frames do vídeo, passou-os por um modelo de visão, usou o Whisper para transcrever o áudio e aplicou uma ferramenta OCR para ler legendas incorporadas—três processos separados combinados para aproximar o que o Qwen3.5-Omni faz numa única passagem. O resultado demorou nove minutos, e isso em condições ideais: um vídeo bem iluminado com áudio limpo e legendas fixas. O conteúdo do mundo real raramente oferece os três.

Nos nossos testes rápidos com múltiplas entradas, o modelo também lidou com prompts em espanhol, português e inglês sem problemas—mudando de idiomas a meio da conversa sem perder contexto.

Em benchmarks padrão, o Qwen 3.5 Omni Plus superou o Gemini 3.1 Pro em compreensão geral de áudio, raciocínio e tarefas de tradução, e igualou-o na compreensão audiovisual. O reconhecimento de fala cobre agora 113 idiomas e dialetos—acima dos 19 da geração anterior.

Este é o segundo grande lançamento de IA da Alibaba em seis semanas. Em fevereiro, lançou o Qwen 3.5, um modelo de texto e visão que igualou ou superou modelos de vanguarda em benchmarks de raciocínio e programação—parte de uma sequência que também incluiu o Qwen Deep Research e uma linha de ferramentas rivalizando com a OpenAI e a Google. O Qwen 3.5 Omni estende esse momentum para território multimodal completo, numa altura em que todos os principais laboratórios de IA estão numa corrida para construir sistemas que lidem com todo o espectro da comunicação humana—não apenas palavras num ecrã.

O modelo está disponível agora através da API da Alibaba Cloud e pode ser testado diretamente no Qwen Chat ou através da demonstração online do Hugging Face.