CRISP-DM (Cross-Industry Standard Process for Data Mining)

O CRISP-DM, considerado o framework mais geral e amplamente utilizado, serve como base para a maioria dos projetos analíticos atuais, com suas seis fases inter-relacionadas ainda sendo adotadas por metodologias modernas; ele ajuda a organizar projetos de análise de dados, mesmo individuais, e compreender suas fases facilita a adaptação para outros frameworks. As seis fases são: Compreensão do Negócio (Business Understanding) Objetivo: Entender o problema de negócio a ser resolvido. Entregáveis: Objetivos de negócio, critérios de sucesso, definição do problema. Atividades: Levantamento de contexto. Identificação de stakeholders. Avaliação de restrições e riscos. Formulação de perguntas analíticas. Compreensão dos Dados (Data Understanding) Objetivo: Coletar e familiarizar-se com os dados. Entregáveis: Relatórios iniciais, qualidade dos dados, insights preliminares. Atividades: Exploração dos dados. Verificação de formatos, tipos, integridade. Análise descritiva inicial (distribuições, correlações). Preparação dos Dados (Data Preparation) Objetivo: Criar o dataset que será usado na modelagem. Entregáveis: Dataset limpo, transformado e pronto para análise. Atividades: Seleção de atributos. Limpeza e transformação (normalização, encoding). Integração de múltiplas fontes. Modelagem (Modeling) Objetivo: Construir modelos preditivos ou descritivos. Entregáveis: Modelos treinados e documentados. Atividades: Tabelas e gráficos de vendas por mês. Análise de cestas de mercado (Market Basket Analysis). Escolha de técnicas (regressão, classificação, clustering...). Regressão Linear (previsão de vendas futuras). Modelos de Classificação (prever se um cliente vai churnar ou não). Séries Temporais (forecasting de demanda). Treinamento e tuning de hiperparâmetros. Validação cruzada, métricas. Avaliação (Evaluation) Objetivo: Verificar se os modelos resolvem o problema de negócio. Entregáveis: Relatórios de avaliação, recomendação de ações. Atividades: Interpretação dos resultados. Comparação com os critérios de sucesso do negócio. Validação com stakeholders. Implantação (Deployment) Objetivo: Implementar a solução para uso real. Entregáveis: Sistema ou processo em produção. Atividades: Automação de pipelines. Documentação e treinamento de usuários. Monitoramento e manutenção. A fase de Business Understanding é o início do projeto analítico e é considerada a mais importante, pois é onde o problema a ser abordado é determinado. Nela, analistas de negócio estão envolvidos para investigar questões, entender impactos e formular a definição do problema. A definição do problema inclui contexto, uma declaração, suposições, cronograma, restrições e os resultados esperados da resolução do problema. É crucial a participação dos analistas de negócio para garantir que o problema certo está sendo abordado, evitando focar no problema errado ou propor uma solução antes que o problema real seja compreendido. Os resultados primários desta fase incluem determinar os objetivos de negócio, avaliar a situação (contexto), identificar as metas (resultados) e confirmar a abordagem e o plano do projeto. Ao seguir o framework CRISP-DM, há diferentes passos que se baseiam uns nos outros e precisam ser estimados no plano do projeto. No entanto, isso não significa seguir os passos sem pensar, pois há muitas decisões e consequências a considerar. Métodos analíticos podem exigir um formato de dado ou plataforma específica. Uma avaliação rápida do modelo em dados de amostra pode levar de volta à etapa de transformação de dados. Fazer uma avaliação inicial das ferramentas no início do processo é importante, pois a seleção de ferramentas e técnicas pode influenciar todo o projeto. Ao enfrentar novos tipos de problemas de análise de dados de negócio, ter um plano estruturado como o CRISP-DM é crucial para guiar a análise. O framework encapsula o conhecimento de mais de 200 membros do grupo de interesse especial CRISP-DM que construíram a diretriz (Chapman et al., 1999). Ele é projetado para ajudar quando não se está familiarizado com o problema enfrentado. Seguir o framework e as atividades nele garante que todos os aspectos necessários do problema sejam abordados sistemática e eficientemente. O CRISP-DM ainda é considerado a principal metodologia para análise, mineração de dados ou dados. Em suma, o CRISP-DM é um processo padronizado e estruturado que guia projetos de análise de dados através de seis fases principais, desde a compreensão inicial do problema de negócio até a implantação do resultado. É amplamente adotado na indústria e útil para abordar problemas familiares e novos. Há checklists no final de cada capítulo de The Modern Business Data Analyst A Case Study Introduction into Business Data Analytics with CRISP-DM and R sobre as fases do CRISP-DM que servem como ferramentas para verificar a conclusão de tarefas e resultados dentro de cada fase. Esses checklists, adaptados da diretriz

Apr 25, 2025 - 20:38
 0
CRISP-DM (Cross-Industry Standard Process for Data Mining)

O CRISP-DM, considerado o framework mais geral e amplamente utilizado, serve como base para a maioria dos projetos analíticos atuais, com suas seis fases inter-relacionadas ainda sendo adotadas por metodologias modernas; ele ajuda a organizar projetos de análise de dados, mesmo individuais, e compreender suas fases facilita a adaptação para outros frameworks.

As seis fases são:

  1. Compreensão do Negócio (Business Understanding)

    • Objetivo: Entender o problema de negócio a ser resolvido.
    • Entregáveis: Objetivos de negócio, critérios de sucesso, definição do problema.
    • Atividades:
      • Levantamento de contexto.
      • Identificação de stakeholders.
      • Avaliação de restrições e riscos.
      • Formulação de perguntas analíticas.
  2. Compreensão dos Dados (Data Understanding)

    • Objetivo: Coletar e familiarizar-se com os dados.
    • Entregáveis: Relatórios iniciais, qualidade dos dados, insights preliminares.
    • Atividades:
      • Exploração dos dados.
      • Verificação de formatos, tipos, integridade.
      • Análise descritiva inicial (distribuições, correlações).
  3. Preparação dos Dados (Data Preparation)

    • Objetivo: Criar o dataset que será usado na modelagem.
    • Entregáveis: Dataset limpo, transformado e pronto para análise.
    • Atividades:
      • Seleção de atributos.
      • Limpeza e transformação (normalização, encoding).
      • Integração de múltiplas fontes.
  4. Modelagem (Modeling)

    • Objetivo: Construir modelos preditivos ou descritivos.
    • Entregáveis: Modelos treinados e documentados.
    • Atividades:
      • Tabelas e gráficos de vendas por mês.
      • Análise de cestas de mercado (Market Basket Analysis).
      • Escolha de técnicas (regressão, classificação, clustering...).
      • Regressão Linear (previsão de vendas futuras).
      • Modelos de Classificação (prever se um cliente vai churnar ou não).
      • Séries Temporais (forecasting de demanda).
      • Treinamento e tuning de hiperparâmetros.
      • Validação cruzada, métricas.
  5. Avaliação (Evaluation)

    • Objetivo: Verificar se os modelos resolvem o problema de negócio.
    • Entregáveis: Relatórios de avaliação, recomendação de ações.
    • Atividades:
      • Interpretação dos resultados.
      • Comparação com os critérios de sucesso do negócio.
      • Validação com stakeholders.
  6. Implantação (Deployment)

    • Objetivo: Implementar a solução para uso real.
    • Entregáveis: Sistema ou processo em produção.
    • Atividades:
      • Automação de pipelines.
      • Documentação e treinamento de usuários.
      • Monitoramento e manutenção.

A fase de Business Understanding é o início do projeto analítico e é considerada a mais importante, pois é onde o problema a ser abordado é determinado. Nela, analistas de negócio estão envolvidos para investigar questões, entender impactos e formular a definição do problema. A definição do problema inclui contexto, uma declaração, suposições, cronograma, restrições e os resultados esperados da resolução do problema. É crucial a participação dos analistas de negócio para garantir que o problema certo está sendo abordado, evitando focar no problema errado ou propor uma solução antes que o problema real seja compreendido. Os resultados primários desta fase incluem determinar os objetivos de negócio, avaliar a situação (contexto), identificar as metas (resultados) e confirmar a abordagem e o plano do projeto.

Ao seguir o framework CRISP-DM, há diferentes passos que se baseiam uns nos outros e precisam ser estimados no plano do projeto. No entanto, isso não significa seguir os passos sem pensar, pois há muitas decisões e consequências a considerar. Métodos analíticos podem exigir um formato de dado ou plataforma específica. Uma avaliação rápida do modelo em dados de amostra pode levar de volta à etapa de transformação de dados. Fazer uma avaliação inicial das ferramentas no início do processo é importante, pois a seleção de ferramentas e técnicas pode influenciar todo o projeto.

Ao enfrentar novos tipos de problemas de análise de dados de negócio, ter um plano estruturado como o CRISP-DM é crucial para guiar a análise. O framework encapsula o conhecimento de mais de 200 membros do grupo de interesse especial CRISP-DM que construíram a diretriz (Chapman et al., 1999). Ele é projetado para ajudar quando não se está familiarizado com o problema enfrentado. Seguir o framework e as atividades nele garante que todos os aspectos necessários do problema sejam abordados sistemática e eficientemente.

O CRISP-DM ainda é considerado a principal metodologia para análise, mineração de dados ou dados.

Em suma, o CRISP-DM é um processo padronizado e estruturado que guia projetos de análise de dados através de seis fases principais, desde a compreensão inicial do problema de negócio até a implantação do resultado. É amplamente adotado na indústria e útil para abordar problemas familiares e novos.

Há checklists no final de cada capítulo de The Modern Business Data Analyst A Case Study Introduction into Business Data Analytics with CRISP-DM and R sobre as fases do CRISP-DM que servem como ferramentas para verificar a conclusão de tarefas e resultados dentro de cada fase. Esses checklists, adaptados da diretriz oficial do CRISP-DM (Chapman et al., 1999), detalham tarefas genéricas e resultados esperados para ajudar a manter a consistência com o framework.

A Fase de Business Understanding (Compreensão do Negócio)