1.1.1 Modelos de Data Mining
Os softwares de inteligência analítica atualmente disponíveis no mercado utilizam modelos específicos para extrair informações relevantes da camada do negócio. Carvalho (2005) relaciona alguns destes modelos e suas características, conforme apresentado abaixo:
- Classificação: A classificação é responsável pelo reconhecimento de padrões e relacionamentos dos registros de acordo com seus atributos. Os algoritmos aplicados neste processo utilizam técnicas de árvores de decisão e / ou redes neurais; geralmente são utilizados algoritmos de estimativa para verificar se o dado está de acordo com a classificação.
- Modelos de Predição (Forecasting): os modelos de predição baseiam-se em uma série de relações e padrões hipotéticos, utilizando técnicas estatísticas para prever uma situação em um campo dos dados, baseando-se nas informações dos demais campos do objeto. Por exemplo, ao utilizar uma série de dados de transações bancárias, um modelo poderá predizer se a natureza de uma transação é fraudulenta. Um exemplo de sua aplicação está nas previsões meteorológicas.
- Modelos de Estimativa: estimam um valor aproximado com base em outros valores referente a situações semelhantes na qual se tem conhecimento. As ferramentas mais utilizadas para estimar grandezas são também Redes Neurais Artificiais, Estatística, Algoritmos Genéticos e Simulated Annealing.
- Relacionamento entre Variáveis: explora relacionamentos independentes que podem existir entre os itens de acordo com suas variáveis. São utilizadas técnicas estatísticas como regressão linear simples, múltipla e modelos lineares por transformação para verificar o relacionamento funcional que possa existir entre duas variáveis quantitativas. A associação pode ocorrer através de atributos de um mesmo item, por exemplo: “De todos os consumidores que compram leite, 64% compram pão” - ou associações entre diferentes itens, por exemplo: “Toda vez que o estoque de um item abaixa 5%, um estoque de outro item aumenta 13% entre 2 a 6 semanas depois”.
- Análise de Agrupamento (Cluster): utiliza algoritmos capazes de agrupar os objetos que possuem semelhanças entre seus atributos, formando grupos com registros similares. O objetivo do agrupamento é descobrir os diferentes grupos existentes em dados poucos conhecidos, como, por exemplo, grupos de clientes que possuem um comportamento de compra semelhante.
- Sumarização: O processo de sumarização visa descartar valores inválidos durante o pré-processamento dos dados. Estes valores são obtidos através do cálculo de medidas estatísticas, como mínimo, máximo, média, mediana e desvio padrão e distribuição de freqüência.
- Descoberta não-supervisionada de Relações: consistem em técnicas automáticas do Data Mining encontrem padrões e relacionamentos.
- Modelos de Visualização: A visualização dos dados em forma de gráficos permite que a informação descoberta possa ser facilmente compreendida por analistas humanos. As técnicas de visualizações estão se tornando comuns para descoberta de novos padrões.