São Paulo, 20 de Maio de 2012
INTELIGÊNCIA ANALÍTICA – CONCEITOS E METODOLOGIA
Por DANIEL MONTEIRO VAZ (DANIEL_M_VAZ@YAHOO.COM.BR)

1.1.1 Modelos de Data Mining

Os softwares de inteligência analítica atualmente disponíveis no mercado utilizam modelos específicos para extrair informações relevantes da camada do negócio. Carvalho (2005) relaciona alguns destes modelos e suas características, conforme apresentado abaixo:

-               Classificação: A classificação é responsável pelo reconhecimento de padrões e relacionamentos dos registros de acordo com seus atributos. Os algoritmos aplicados neste processo utilizam técnicas de árvores de decisão e / ou redes neurais; geralmente são utilizados algoritmos de estimativa para verificar se o dado está de acordo com a classificação.

-               Modelos de Predição (Forecasting): os modelos de predição baseiam-se em uma série de relações e padrões hipotéticos, utilizando técnicas estatísticas para prever uma situação em um campo dos dados, baseando-se nas informações dos demais campos do objeto. Por exemplo, ao utilizar uma série de dados de transações bancárias, um modelo poderá predizer se a natureza de uma transação é fraudulenta. Um exemplo de sua aplicação está nas previsões meteorológicas.

-               Modelos de Estimativa: estimam um valor aproximado com base em outros valores referente a situações semelhantes na qual se tem conhecimento. As ferramentas mais utilizadas para estimar grandezas são também Redes Neurais Artificiais, Estatística, Algoritmos Genéticos e Simulated Annealing.

-               Relacionamento entre Variáveis: explora relacionamentos independentes que podem existir entre os itens de acordo com suas variáveis. São utilizadas técnicas estatísticas como regressão linear simples, múltipla e modelos lineares por transformação para verificar o relacionamento funcional que possa existir entre duas variáveis quantitativas. A associação pode ocorrer através de atributos de um mesmo item, por exemplo: “De todos os consumidores que compram leite, 64% compram pão” - ou associações entre diferentes itens, por exemplo: “Toda vez que o estoque de um item abaixa 5%, um estoque de outro item aumenta 13% entre 2 a 6 semanas depois”.

-               Análise de Agrupamento (Cluster): utiliza algoritmos capazes de agrupar os objetos que possuem semelhanças entre seus atributos, formando grupos com registros similares. O objetivo do agrupamento é descobrir os diferentes grupos existentes em dados poucos conhecidos, como, por exemplo, grupos de clientes que possuem um comportamento de compra semelhante.

-               Sumarização: O processo de sumarização visa descartar valores inválidos durante o pré-processamento dos dados. Estes valores são obtidos através do cálculo de medidas estatísticas, como mínimo, máximo, média, mediana e desvio padrão e distribuição de freqüência.

-               Descoberta não-supervisionada de Relações: consistem em técnicas automáticas do Data Mining encontrem padrões e relacionamentos.

-               Modelos de Visualização: A visualização dos dados em forma de gráficos permite que a informação descoberta possa ser facilmente compreendida por analistas humanos. As técnicas de visualizações estão se tornando comuns para descoberta de novos padrões.