A publicação Qwen 3.5 Omni: O Modelo de IA da Alibaba Agora Pode Ouvir, Ver e Clonar a Sua Voz apareceu em BitcoinEthereumNews.com. Em resumo, o Qwen 3.5 Omni da Alibaba trazA publicação Qwen 3.5 Omni: O Modelo de IA da Alibaba Agora Pode Ouvir, Ver e Clonar a Sua Voz apareceu em BitcoinEthereumNews.com. Em resumo, o Qwen 3.5 Omni da Alibaba traz

Qwen 3.5 Omni: O Modelo de IA da Alibaba Agora Pode Ouvir, Ver e Clonar a Sua Voz

2026/03/31 04:07
Leu 6 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Em resumo

  • O Qwen 3.5 Omni da Alibaba traz IA omnimodal verdadeiramente em tempo real para a corrida de vanguarda.
  • O processamento audiovisual nativo supera os pipelines multimodais combinados em velocidade e coerência.
  • A clonagem de voz, a interrupção semântica e a programação por ambiente sinalizam uma mudança para agentes de IA totalmente interativos.

A Alibaba acaba de lançar a sua atualização de IA mais ambiciosa até à data.

A equipa Qwen da empresa lançou o Qwen 3.5 Omni no domingo, uma nova versão da sua IA "omnimodal" que processa simultaneamente texto, imagens, áudio e vídeo, e responde em tempo real em 36 idiomas, colocando o seu modelo no mesmo campo de batalha que os mais recentes modelos fundamentais de IA de última geração atualmente disponíveis.

"Omni" não é apenas uma palavra-chave de marketing aqui. A maioria dos modelos de IA com os quais interage são principalmente sistemas de texto de entrada e texto de saída. Alguns lidam com imagens, alguns com voz. O Qwen 3.5 Omni lida com todos eles de forma nativa, ao mesmo tempo, sem a necessidade de converter tudo em texto através de ferramentas de terceiros.

O novo modelo vem em três tamanhos—Plus, Flash e Light—todos suportando uma janela de contexto pequena (pelos padrões atuais) de 256.000 tokens. Foi treinado em mais de 100 milhões de horas de dados audiovisuais—uma escala que o coloca numa categoria de peso diferente da maioria dos concorrentes.

O Qwen 3.5 Omni é uma evolução do Qwen 3 Omni Flash, o modelo omnimodal anterior da Alibaba lançado em dezembro de 2025. Essa versão já impressionava com a sua capacidade de processar vídeo e áudio simultaneamente—podia lidar com instruções de edição de imagem combinando múltiplas entradas visuais de formas que os concorrentes não conseguiam—e transmitia respostas de voz com latência tão baixa quanto 234 milissegundos.

Foi também o primeiro modelo a tentar uma alternativa ao NotebookLM da Google. Conseguiu algo, mas a qualidade não estava ao nível da oferta da Google.

O Qwen 3.5 Omni pega em tudo isso e adiciona uma janela de contexto mais longa, melhor raciocínio, uma biblioteca de idiomas muito mais ampla e um conjunto de funcionalidades de interação em tempo real que a geração anterior não tinha.

A atualização principal é o que acontece quando realmente fala com ele. O Qwen3.5-Omni agora suporta interrupção semântica: consegue distinguir entre dizer "uh-huh" a meio da frase e realmente querer interromper, por isso não vai parar a meio do pensamento sempre que alguém tosse ao fundo, tornando a interação falada mais fluida.

Uma nova técnica chamada ARIA, abreviatura de Adaptive Rate Interleave Alignment, também corrige um aborrecimento subtil mas persistente: sistemas de IA que deturpam números ou palavras incomuns ao ler em voz alta. A ARIA sincroniza dinamicamente texto e fala para manter a saída natural e precisa.

Depois há a clonagem de voz. Os utilizadores podem carregar uma amostra de voz e fazer com que o modelo adote essa voz nas suas respostas, uma funcionalidade que coloca o Qwen em competição direta com a ElevenLabs e outras ferramentas de voz dedicadas. No entanto, não conseguimos aceder a esta funcionalidade, porque esta é uma funcionalidade que, pelo menos por enquanto, só está disponível via API.

Em benchmarks de estabilidade de voz multilíngue, o Qwen3.5 Omni-Plus superou a ElevenLabs, GPT-Audio e Minimax em 20 idiomas. O modelo também suporta agora pesquisa web em tempo real, o que significa que pode responder a perguntas sobre notícias de última hora ou dados de mercado em tempo real sem fingir que já sabe.

A equipa também está a destacar o que chamam de "Audio-Visual Vibe Coding", o modelo pode assistir a uma gravação de ecrã ou vídeo de uma tarefa de programação e escrever código funcional com base puramente no que vê e ouve, sem necessidade de prompt de texto. É uma pequena antevisão de como os assistentes de IA poderão eventualmente operar dentro do seu fluxo de trabalho em vez de ao lado dele.

Para entender o que "omnimodal" realmente significa na prática, fizemos um teste rápido: alimentámos tanto o Qwen3.5-Omni como o ChatGPT 5.4 em modo "thinking" com o mesmo YouTube Short—um clip do Presidente da Dastan (a Dastan é a empresa-mãe da Decrypt) e do comentador Farokh a discutir notícias de última hora. O Qwen 3.5 Omni processou o vídeo de forma nativa e devolveu uma análise completa em cerca de um minuto: quem estava a falar, o que estavam a discutir e um comentário substantivo sobre o tópico com base no seu próprio conhecimento da área temática.

O ChatGPT 5.4, que não é omnimodal, teve de gerir com o que tinha. Extraiu frames do vídeo, passou-os por um modelo de visão, usou o Whisper para transcrever o áudio e aplicou uma ferramenta OCR para ler legendas incorporadas—três processos separados combinados para aproximar o que o Qwen3.5-Omni faz numa única passagem. O resultado demorou nove minutos, e isso em condições ideais: um vídeo bem iluminado com áudio limpo e legendas fixas. O conteúdo do mundo real raramente oferece os três.

Nos nossos testes rápidos com múltiplas entradas, o modelo também lidou com prompts em espanhol, português e inglês sem problemas—mudando de idiomas a meio da conversa sem perder contexto.

Em benchmarks padrão, o Qwen 3.5 Omni Plus superou o Gemini 3.1 Pro em compreensão geral de áudio, raciocínio e tarefas de tradução, e igualou-o na compreensão audiovisual. O reconhecimento de fala cobre agora 113 idiomas e dialetos—acima dos 19 da geração anterior.

Este é o segundo grande lançamento de IA da Alibaba em seis semanas. Em fevereiro, lançou o Qwen 3.5, um modelo de texto e visão que igualou ou superou modelos de vanguarda em benchmarks de raciocínio e programação—parte de uma sequência que também incluiu o Qwen Deep Research e uma linha de ferramentas rivalizando com a OpenAI e a Google. O Qwen 3.5 Omni estende esse momentum para território multimodal completo, numa altura em que todos os principais laboratórios de IA estão numa corrida para construir sistemas que lidem com todo o espectro da comunicação humana—não apenas palavras num ecrã.

O modelo está disponível agora através da API da Alibaba Cloud e pode ser testado diretamente no Qwen Chat ou através da demonstração online do Hugging Face.

Daily Debrief Newsletter

Comece todos os dias com as principais notícias de agora, mais funcionalidades originais, um podcast, vídeos e muito mais.

Fonte: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Oportunidade de mercado
Logo de Confidential Layer
Cotação Confidential Layer (CLONE)
$0.005123
$0.005123$0.005123
+1.60%
USD
Gráfico de preço em tempo real de Confidential Layer (CLONE)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

Você também pode gostar

Optopia e EDITH unem forças para impulsionar o cálculo de IA do mundo real na blockchain

Optopia e EDITH unem forças para impulsionar o cálculo de IA do mundo real na blockchain

A Optopia pretende resolver desafios no setor de Web3 e IA oferecendo poder computacional fiável, tokenizado e eficiente para impulsionar agentes inteligentes.
Compartilhar
Blockchainreporter2025/09/18 20:15
Analista prevê rally de "Uptober" para BTC independentemente da decisão do FOMC

Analista prevê rally de "Uptober" para BTC independentemente da decisão do FOMC

O post Analista Prevê Rally 'Uptober' para BTC Independentemente da Decisão do FOMC apareceu no BitcoinEthereumNews.com. Bitcoin negociou a $116.236 às 14:04 UTC em 17 de setembro, subindo cerca de 1% nas últimas 24 horas, mantendo-se acima de um nível chave enquanto os mercados aguardam o anúncio da política do Federal Reserve. Comentários dos Analistas Dean Crypto Trades observou no X que o bitcoin está apenas cerca de 7% acima do seu pico local pós-eleição, enquanto o S&P 500 subiu 9% e o ouro disparou 36% durante o mesmo período. Ele disse que o bitcoin comprimiu mais do que esses ativos, tornando provável que lidere o próximo movimento maior, embora possa formar um "máximo mais baixo" antes de se estender mais. Ele acrescentou que o ether poderia se juntar uma vez que quebre os $5.000 e entre em descoberta de preço. Lark Davis apontou para o histórico do bitcoin em torno das reuniões do FOMC de setembro, dizendo que cada decisão de setembro desde 2020 — exceto durante o mercado baixista de 2022 — precedeu um forte rally. Ele enfatizou que o padrão tem menos a ver com a escolha da taxa do Fed em si e mais com a dinâmica sazonal, argumentando que o bitcoin tende a prosperar neste período que antecede o "Uptober". Análise técnica da CoinDesk Research De acordo com o modelo de dados de análise técnica da CoinDesk Research, o bitcoin subiu cerca de 0,9% durante a janela de análise de 16-17 de setembro, subindo de $115.461 para $116.520. BTC atingiu um máximo de sessão de $117.317 às 07:00 UTC em 17 de setembro antes de consolidar. Após esse pico, o bitcoin testou a faixa de $116.400-$116.600 várias vezes, confirmando-a como uma zona de suporte de curto prazo. Na hora final da sessão, entre 11:39 e 12:38 UTC, o BTC tentou uma ruptura: os preços moveram-se estreitamente entre $116.351 e $116.376 antes de disparar para $116.551 às 12:34 com volume mais alto. Isso confirmou um padrão de consolidação-ruptura, embora os ganhos tenham sido modestos. No geral, o bitcoin permanece firme acima de $116.000, com suporte em torno de $116.400 e resistência próxima a $117.300. Análise do gráfico das últimas 24 horas e de um mês O gráfico de dados mais recente da CoinDesk de 24 horas, terminando às 14:04 UTC em...
Compartilhar
BitcoinEthereumNews2025/09/18 12:42
ETF Bitcoin spot rút ròng 171 triệu USD, IBIT rút mạnh nhất

ETF Bitcoin spot rút ròng 171 triệu USD, IBIT rút mạnh nhất

Bitcoin spot ETF ghi nhận tổng dòng tiền rút ròng 171 triệu USD trong ngày 26/3 (giờ miền Đông Mỹ), với IBIT của BlackRock bị rút ròng 41,9191 triệu USD và BITB
Compartilhar
TintucBitcoin2026/04/02 03:44

Negocie GOLD, Ganhe 1M USDT

Negocie GOLD, Ganhe 1M USDTNegocie GOLD, Ganhe 1M USDT

Taxa 0, até 1,000x de alavancagem, liquidez profunda