OpenAI lança novos modelos AI de voz

A OpenAI tem novos modelos AI para geração de voz com emoções naturais, e também para transcrição - mas o preço dos seus modelos gera preocupações. A OpenAI apresentou novos modelos de inteligência artificial para transcrição de voz e geração de fala, prometendo melhorias significativas face às versões anteriores. Os modelos mais recentes, denominados gpt-4o-mini-tts e gpt-4o-transcribe, oferecem resultados mais precisos e naturais. O gpt-4o-mini-tts destaca-se pela sua capacidade de criar vozes mais realistas e expressivas. Os programadores podem ajustar o tom da voz com instruções simples, como pedir uma entoação de alguém a contar uma história de crianças, de um vendedor ou treinador, ou até personagens mais peculiares, como piratas ou cientistas loucos. É algo que acaba por ser indispensável, já que todo o panorama da voz mudou com a chegada da Sesame, cujo modelo de voz AI se tornou na nova referência a nível de vozes "humanas". Por outro lado, os modelos de transcrição gpt-4o-transcribe e gpt-4o-mini-transcribe substituem o antigo Whisper, oferecendo uma precisão superior de conversão de voz para texto, até cenários mais complicados com ambientes ruidosos e com diversos sotaques linguísticos. Além disso, apresentam menor probabilidade de gerar conversões incorrectas, um problema comum nas versões anteriores. Pela parte negativa, e dando razão aos críticos que dizem que, contrariamente ao nome "Open" AI que utiliza, a OpenAI é actualmente uma das empresas mais "fechadas" a nível dos modelos AI que lança, também aqui a OpenAI dá a má notícia de que não irá disponibilizar estes modelos como open-source, ou contrário do que fez com o anterior Whisper. A desculpa é a de que estes modelos são significativamente maiores e mais complexos, não sendo adequados para execução local, direccionando os developers para os usarem através das suas APIs. É um pedido que também relembra um dos maiores problemas actuais da OpenAI: o preço de utilização dos seus modelos mais complexos. O modelo o1 tem um custo de $15/$60 por cada milhão de tokens de entrada / saída, e isso já não é barato, até quase parece, já que o mais recente GPT-4.5 custa $75/$150. E se acham estes preços demasiado elevados, então nem olhem para o custo do mais poderoso o1-pro, pelo qual a OpenAI pede $150/$600 por milhão de tokens! Para por estes preços em perspectiva - e demonstrar porque motivo a OpenAI está a tentar bloquear os modelos AI chineses - compare-se com o custo de utilização do DeepSeek R1, um modelo AI que, não estando completamente ao nível do o1-pro, fica muito lá perto: Enquanto o o1-pro custa $150/$600 por cada 1M de tokens, o DeepSeek-R1 pode ser usado por apenas $0.55/$2.19 - uma diferença substancial, que se torna ainda mais dramática se consideramos que o DeepSeek-R1 também oferece preço com 75% de desconto entre as 16h30 e 0h30, ficando a $0.135/$0.550, valores ridiculamente insignificantes para um modelo desta capacidade. Pode ser que a OpenAI tenha sorte a comercializar estes modelos a estes preços, e que efectivamente encontre muitos clientes interessados. Mas, pode também ser um factor que sirva para empurrar até actuais clientes para alternativas mais baratas que oferecem capacidades idênticas por uma fracção do valor. Junte-se a isto o facto de muitas dessas alternativas disponibilizarem os seus modelos como open-source, e as coisas depressa se podem complicar para a OpenAI a nível de tentar obter a sustentabilidade financeira que será indispensável obter para sobreviver por muitos e longos anos.

Mar 21, 2025 - 16:55

A OpenAI tem novos modelos AI para geração de voz com emoções naturais, e também para transcrição - mas o preço dos seus modelos gera preocupações.

A OpenAI apresentou novos modelos de inteligência artificial para transcrição de voz e geração de fala, prometendo melhorias significativas face às versões anteriores. Os modelos mais recentes, denominados gpt-4o-mini-tts e gpt-4o-transcribe, oferecem resultados mais precisos e naturais.

O gpt-4o-mini-tts destaca-se pela sua capacidade de criar vozes mais realistas e expressivas. Os programadores podem ajustar o tom da voz com instruções simples, como pedir uma entoação de alguém a contar uma história de crianças, de um vendedor ou treinador, ou até personagens mais peculiares, como piratas ou cientistas loucos. É algo que acaba por ser indispensável, já que todo o panorama da voz mudou com a chegada da Sesame, cujo modelo de voz AI se tornou na nova referência a nível de vozes "humanas".

Por outro lado, os modelos de transcrição gpt-4o-transcribe e gpt-4o-mini-transcribe substituem o antigo Whisper, oferecendo uma precisão superior de conversão de voz para texto, até cenários mais complicados com ambientes ruidosos e com diversos sotaques linguísticos. Além disso, apresentam menor probabilidade de gerar conversões incorrectas, um problema comum nas versões anteriores.

Pela parte negativa, e dando razão aos críticos que dizem que, contrariamente ao nome "Open" AI que utiliza, a OpenAI é actualmente uma das empresas mais "fechadas" a nível dos modelos AI que lança, também aqui a OpenAI dá a má notícia de que não irá disponibilizar estes modelos como open-source, ou contrário do que fez com o anterior Whisper. A desculpa é a de que estes modelos são significativamente maiores e mais complexos, não sendo adequados para execução local, direccionando os developers para os usarem através das suas APIs.

É um pedido que também relembra um dos maiores problemas actuais da OpenAI: o preço de utilização dos seus modelos mais complexos. O modelo o1 tem um custo de $15/$60 por cada milhão de tokens de entrada / saída, e isso já não é barato, até quase parece, já que o mais recente GPT-4.5 custa $75/$150. E se acham estes preços demasiado elevados, então nem olhem para o custo do mais poderoso o1-pro, pelo qual a OpenAI pede $150/$600 por milhão de tokens!

Para por estes preços em perspectiva - e demonstrar porque motivo a OpenAI está a tentar bloquear os modelos AI chineses - compare-se com o custo de utilização do DeepSeek R1, um modelo AI que, não estando completamente ao nível do o1-pro, fica muito lá perto:

Enquanto o o1-pro custa $150/$600 por cada 1M de tokens, o DeepSeek-R1 pode ser usado por apenas $0.55/$2.19 - uma diferença substancial, que se torna ainda mais dramática se consideramos que o DeepSeek-R1 também oferece preço com 75% de desconto entre as 16h30 e 0h30, ficando a $0.135/$0.550, valores ridiculamente insignificantes para um modelo desta capacidade.

Pode ser que a OpenAI tenha sorte a comercializar estes modelos a estes preços, e que efectivamente encontre muitos clientes interessados. Mas, pode também ser um factor que sirva para empurrar até actuais clientes para alternativas mais baratas que oferecem capacidades idênticas por uma fracção do valor. Junte-se a isto o facto de muitas dessas alternativas disponibilizarem os seus modelos como open-source, e as coisas depressa se podem complicar para a OpenAI a nível de tentar obter a sustentabilidade financeira que será indispensável obter para sobreviver por muitos e longos anos.

Ler Mais