Google atualiza cache do Gemini para ajudar a reduzir custos ao usar a IA

O Google ativou nesta quinta-feira (8) o cache implícito em todos os modelos do Gemini 2.5 em sua API. O recurso ajuda desenvolvedores a economizarem tokens em suas requisições e funciona de forma automática. Vale a pena pagar por uma IA? Entenda os benefícios de assinar um chatbot DeepSeek vs Gemini: conheça 5 diferenças entre os chatbots De acordo com o gerente sênior de Produto da API do Gemini e do Google AI Studio, Logan Kilpatrick, quando o usuário digitar um comando com termos iguais a um que esteja salvo no cache, economiza até 75% dos tokens necessários para a ação. Kilpatrick fez o anúncio em seu perfil no X na tarde de ontem, e o Google também lançou uma nota em seu blog oficial para desenvolvedores. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- O cache implícito funciona de forma automática. Segundo o Google, ao enviar comandos semelhantes para a API do Gemini, haverá a economia esperada, uma vez que as informações não precisarão ser processadas novamente. A empresa recomenda os seguintes caminhos para aumentar as chances de bater o cache implícito: Coloque conteúdos grandes e comuns aos anteriores no início do prompt; Envie solicitações com prefixo semelhante em um curto espaço de tempo. Para conferir seus acertos de cache implícito, basta acessar o ‘usage_metadata” do objeto de resposta. O Google ainda diminuiu a quantidade mínima necessária de tokens de entrada para bater o cache de contexto, para 1.024 tokens no Gemini 2.5 Flash e 2.048 tokens no Pro 2.5. Qual a diferença entre o cache implícito e o explícito? A API do Gemini deixa que o desenvolvedor escolha entre tipos de armazenamento em cache: implícito e explícito. O implícito é automático, e não garante que o usuário terá economia de custos, pois depende do uso. Neste caso, quem utiliza o mecanismo deve se atentar ao que manda durante o trabalho e entender o funcionamento para conseguir mais economia. Já o explícito funciona de forma manual, o usuário define por quanto tempo o cache vai existir antes que os tokens sejam excluídos, e também consultá-los em solicitações futuras. O desenvolvedor que escolhe o cache explícito tem uma maior garantia de economia, mas há um esforço maior para definir o que será armazenado. Veja também: Qual é a diferença entre IA generativa e agentes de IA? 5 diferenças entre a chinesa DeepSeek e o ChatGPT O que é Manus AI? Agente de IA chinês funciona de forma autônoma VÍDEO: Chat GPT, Perplexity, Claude, Gemini: QUAL escolher? Leia a matéria no Canaltech.

Mai 9, 2025 - 17:24

Google atualiza cache do Gemini para ajudar a reduzir custos ao usar a IA

O Google ativou nesta quinta-feira (8) o cache implícito em todos os modelos do Gemini 2.5 em sua API. O recurso ajuda desenvolvedores a economizarem tokens em suas requisições e funciona de forma automática.

De acordo com o gerente sênior de Produto da API do Gemini e do Google AI Studio, Logan Kilpatrick, quando o usuário digitar um comando com termos iguais a um que esteja salvo no cache, economiza até 75% dos tokens necessários para a ação.

Kilpatrick fez o anúncio em seu perfil no X na tarde de ontem, e o Google também lançou uma nota em seu blog oficial para desenvolvedores.

-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-

O cache implícito funciona de forma automática. Segundo o Google, ao enviar comandos semelhantes para a API do Gemini, haverá a economia esperada, uma vez que as informações não precisarão ser processadas novamente.

A empresa recomenda os seguintes caminhos para aumentar as chances de bater o cache implícito:

Coloque conteúdos grandes e comuns aos anteriores no início do prompt;
Envie solicitações com prefixo semelhante em um curto espaço de tempo.

Para conferir seus acertos de cache implícito, basta acessar o ‘usage_metadata” do objeto de resposta.

O Google ainda diminuiu a quantidade mínima necessária de tokens de entrada para bater o cache de contexto, para 1.024 tokens no Gemini 2.5 Flash e 2.048 tokens no Pro 2.5.

Qual a diferença entre o cache implícito e o explícito?

A API do Gemini deixa que o desenvolvedor escolha entre tipos de armazenamento em cache: implícito e explícito.

O implícito é automático, e não garante que o usuário terá economia de custos, pois depende do uso. Neste caso, quem utiliza o mecanismo deve se atentar ao que manda durante o trabalho e entender o funcionamento para conseguir mais economia.

Já o explícito funciona de forma manual, o usuário define por quanto tempo o cache vai existir antes que os tokens sejam excluídos, e também consultá-los em solicitações futuras.

O desenvolvedor que escolhe o cache explícito tem uma maior garantia de economia, mas há um esforço maior para definir o que será armazenado.

Veja também:

VÍDEO: Chat GPT, Perplexity, Claude, Gemini: QUAL escolher?

Leia a matéria no Canaltech.

Ler Mais