O CRISP-DM (Cross-Industry Standard Process for Data Mining) é uma metodologia amplamente utilizada para a análise e mineração de dados. Ela fornece um framework estruturado para realizar projetos de análise de dados, cobrindo desde a compreensão inicial do problema até a implementação das soluções. O ciclo CRISP-DM é composto por seis etapas principais: (i) Compreensão do negócio; (ii) Compreensão dos dados; (iii) Preparação dos dados; (iv) Modelagem; (v) Avaliação; (vi) Desenvolvimento.
Na fase de compreensão dos dados, as tarefas desempenhadas são:
limpeza dos dados, tratando dados faltantes, corrigindo erros e removendo outliers.
transformação e integração dos dados, com normalização, agregação e criação de novas variáveis.
análise e entendimento das características dos dados e de como eles se relacionam com os objetivos do negócio.
seleção de técnicas de modelagem apropriadas (regressão, classificação, clustering e outras).
ajuste dos parâmetros dos modelos e validação dos resultados.