Estudo mostra que modelos de IA ainda não são bons em corrigir bugs
Experimento conduzido por pesquisadores da Microsoft Research mostra que Claude 3.7 Sonnet teve o resultado "menos pior", com 48,4% de sucesso. Estudo mostra que modelos de IA ainda não são bons em corrigir bugs


O uso de inteligência artificial para geração de código no desenvolvimento de software já é realidade para numerosas organizações. Mas é preciso cautela com essa prática: um estudo da Microsoft Research aponta que os atuais modelos de IA não são bons em identificar e códigos erros de programação, isto é, bugs.
Em linhas gerais, as organizações que recorrem à IA generativa no desenvolvimento de software o fazem para executar projetos mais rapidamente e, claro, diminuir a necessidade de contratar pessoas para conduzir essas atividades.
Mas a Microsoft Research enfatiza que “a maioria dos desenvolvedores passa a maior parte do tempo depurando, e não escrevendo código”. É por isso que o uso de IA na programação precisa tratar a identificação e correção de erros como uma atribuição fundamental.
Para avaliar esse aspecto, os pesquisadores da Microsoft Research fizeram testes de depuração de software usando a ferramenta de benchmark SWE-bench Lite.
Os resultados mostraram resultados um tanto decepcionantes. O Claude 3.7 Sonnet, da Anthropic, apresentou a maior taxa média de sucesso: 48,4%. Já os modelos o1 e o3-mini, da OpenAI, registraram taxas de acerto de apenas 30,2% e 22,1%, respectivamente.
Por que os modelos de IA ainda não são bons em depurar código?
Os motivos são variados, mas os pesquisadores destacam as dificuldades dos modelos de IA testados em lidar com as ferramentas de depuração disponíveis. Há várias ferramentas para esse fim e elas podem ser usadas para problemas distintos, mas os modelos de IA não demostraram habilidades para fazer escolhas condizentes com cada tipo de problema.
Mas a maior limitação encontrada pelos pesquisadores está na ausência de um volume de dados grande o suficiente para os modelos serem treinados para depuração. Para eles, há uma escassez de dados relacionados a “processos sequenciais de tomada de decisão” que correspondem às ações que desenvolvedores humanos executam para depurar código.
Os pesquisadores dão a entender que é só questão de tempo para os modelos de IA ficarem melhores na resolução de bugs em softwares, mas enfatizam que “isso exigirá dados especializados para realizar o treinamento do modelo”.
Apesar das limitações atuais, o uso da IA no desenvolvimento de software deve continuar em alta. Um exemplo dessa tendência vem do CEO da Shopify, que declarou que só contrata mais funcionários quando a IA não dá conta de novas tarefas.
Com informações do TechCrunch e da Microsoft Research
Estudo mostra que modelos de IA ainda não são bons em corrigir bugs