Novo modelo visual da Apple permite processar imagens em instantes

No fim de 2023, falamos aqui sobre o MLX, framework aberto de machine learning da Maçã feito especificamente…

Mai 13, 2025 - 18:38
 0
Novo modelo visual da Apple permite processar imagens em instantes
Visual Intelligence

No fim de 2023, falamos aqui sobre o MLX, framework aberto de machine learning da Maçã feito especificamente para chips da família Apple Silicon, com o objetivo de facilitar o treinamento de modelos de inteligência artificial que rodam localmente.

Agora, como notado pelo 9to5Mac, a empresa apresentou outro avanço nessa área: o FastVLM — um modelo de linguagem visual (VLM, na sigla em inglês) que se aproveita do MLX para processar imagens quase que instantaneamente ao mesmo tempo em que exige poucos recursos do sistema.

De acordo com a Apple, o novo modelo é 3,2x mais rápido e 3,6x menor do que soluções concorrentes, além de ganhar no quesito privacidade — uma vez que nada está sendo enviado para um computador na nuvem para processamento. Projetado para gerar menos tokens, ele também começa a entregar sua resposta 85 vezes mais rápido que modelos similares a partir do momento que o usuário envia seu prompt.

Além disso, FastVLM é baseado no encoder FastViTHD, que foi projetado para aumentar a eficiência desse tipo de modelo em imagens com resoluções maiores, permitindo resultados como os dos GIFs acima.

Embora essa tecnologia seja perfeita para o recurso inteligência visual (visual intelligence) do iOS 18, é bem possível que ela tenha sido desenvolvida com os rumorados óculos inteligentes da Apple em mente, os quais, como comentamos aqui, deverão contar com câmeras para escanear o ambiente ao redor do usuário.

Caso tudo corra como esperado, veremos o “Apple Glass” finalmente chegar ao mercado em aproximadamente dois anos — e, aí sim, provavelmente veremos o FastVLM em toda a sua glória.

O FastVLM está disponível no GitHub. Interessados em saber mais sobre o modelo podem ler o seu relatório no arXiv — mas prepare-se, pois trata-se de um texto extremamente denso/técnico.