Minerando dados com regras de associação
Aprenda a minerar dados utilizando regras de associação através de um exemplo simples sobre partidas de um time de futebol.

PUBLICADO POR AYLTON INACIO
Tutoriais e Artigos > Gerenciamento de dados
🤝 Precisa de ajuda em algum projeto? Fale comigo pelo WhatsApp (19) 99356-4871
Fala pessoal, bora lá começar o mês com mais um post. Hoje o assunto é mineração de dados, ou seja, realmente ser um garimpeiro em busca de "ouro", mas no nosso caso o ouro é aquela informação valiosa, que não tem preço, normalmente escondida em conjuntos de bases de dados gigantes e complexas.
Como o assunto é avançado, nada melhor que estudar através de um exemplo do dia a dia, então nossa base de dados será sobre futebol, para que qualquer pessoa entenda o conteúdo, e nem precisa ter um time do coração, então vamos lá!
O que é mineração de dados?
A mineração de dados, também conhecida como data mining, é o processo de explorar grandes quantidades de dados procurando padrões, como associações de dados e relacionamentos sistemáticos, gerando assim novas bases de dados.
Agora olha só a definição segundo o Wikipédia:
"Prospecção de dados (português europeu) ou mineração de dados (português brasileiro) (também conhecida pelo termo inglês data mining) é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados."
Bom, pra entender melhor isso, você costuma ir ao supermercado certo? Já parou para pensar o motivo que justifica o posicionamento dos produtos nas prateleiras?

Através de técnicas de mineração de dados, é possível definir e melhorar o posicionamento estratégico de produtos em um mercado para o aumento de vendas. Claro que algumas coisas não precisam disso, como colocar aveia do lado de banana, mas outras com certeza necessitam de mineração de dados, e quais são? Aí que está, procure o ouro!
A base de dados sobre futebol
Para o nosso artigo, vamos usar uma base sobre futebol com 20 registros que representam os jogos de um time, ou seja, cada linha na tabela é um jogo.

As colunas mostram: se o time ganhou o jogo; se o jogo foi em casa; se o time jogou com os jogadores titulares; se o time teve mais posse de bola que o adversário; e por último, se o jogo foi de noite.
A mineração de dados com regras de associação
A mineração de dados utiliza diversas técnicas e regras para descobrir padrões de dados dos mais diversos tipos. As regras de associação podem ser usadas para identificar as relações de comportamento entre diversos itens, por exemplo, quando se compra banana no mercado ABC, também se compra aveia, isso em 90% dos casos, o que justifica o posicionamento dos dois itens lado a lado nas prateleiras.
No nosso caso, com a base de futebol, podemos descobrir coisas como:
- Será que nosso time ganha mais jogando em casa?
- Será que o time reserva tem o mesmo desempenho do titular?
- Será que o nosso time joga pior quando o jogo não é de noite?
- Qual a chance do nosso time ganhar jogando em casa mantendo mais a posse de bola?
Bom, esses são apenas alguns exemplos de muita coisa que se pode descobrir apenas com regras de associação em mineração de dados.
Suporte e confiança
Antes de iniciar o estudo de mineração de dados com regras de associação, você precisa entender que o parâmetro Suporte é a frequência que um item aparece na base de dados (pode ser um conjunto também), e que o tipo de métrica Confiança vai dizer o quanto você pode confiar em uma regra gerada. Ficou confuso? Vamos ver na prática!
Analisando a nossa base de dados sobre futebol, você sabe dizer quantos jogos o nosso time venceu? O resultado será um parâmetro do tipo Suporte.

Foram 13 vitórias, então a fórmula deve ficar assim:
=13/20 = 0,65 ou 65%
Agora me diga, de todos os jogos, quantos foram em casa e com vitória?

=8/20 = 0,40 ou 40%
Você pode gerar quantos parâmetros de Suporte quiser, com um item ou agrupando vários, como anteriormente. Na sequência, é possível montar algumas regras de associação e depois medir a Confiança de cada uma.
- SE ganhou, ENTÃO o jogo foi de noite
- SE o jogo foi de noite, ENTÃO ganhou
- SE teve mais posse de bola, ENTÃO ganhou
- SE o jogo foi de dia, ENTÃO ganhou
- SE jogou em casa com time titular, ENTÃO ganhou
Agora olhando para essas regras e analisando nossa base de dados, vamos para um desafio. Você sabe dizer qual é a mais confiável? Por exemplo, se o próximo jogo do time for em casa utilizando os jogadores titulares, você aposta na vitória?
Neste ponto, você precisa medir a Confiança de cada regra, então olha só como se faz com um exemplo mais simples, antes de ir para o desafio apresentado anteriormente.
SE ganhou, ENTÃO o jogo foi de noite
Pra começar, você precisa contar a quantidade de jogos com vitória e que foram de noite, ou seja, contar quantas vezes os itens da regra aparecem em conjunto na base de dados.

Pra finalizar, você precisar dividir o resultado (11) pela quantidade de itens em conjunto antes do ENTÃO na regra, ou seja, o "ganhou". Sendo assim, a conta fica 11 / 13 = 0,84 ou 84%. Isso significa que você pode confiar nessa regra em 84% das vezes, um valor considerável.
Agora, vamos calcular a Confiança do desafio, que é ligado com essa regra aqui:
SE jogou em casa com time titular, ENTÃO ganhou
O primeiro passo é contar a quantidade de jogos em casa com vitória e usando o time titular.

O resultado será 8, dividido pela quantidade de jogos em casa com o time titular, que também será 8, então 8 / 8 = 1 ou 100%.
Podemos dizer que nosso time sempre venceu jogando em casa com o time titular, e até que se prove o contrário, a probabilidade disso acontecer no próximo jogo seguindo os mesmos critérios é de 100%.
O Weka
O Weka é um software que conta com uma coleção de algoritmos para serem utilizados em aprendizado de máquina e mineração de dados, então ele pode gerar muitas regras de associação de forma automática.
Como dito no começo, a mineração de dados trabalha com bases de dados muito grandes, então um software como o Weka é necessário.

Na imagem anterior, foram geradas 20 regras onde o ==> significa o ENTÃO e o conf:
representa a confiança. Com isso é só ter paciência e fazer as melhores análises de dados para extrair o "ouro" que tanto se deseja.
Lembrando que tudo isso é apenas o básico, mas tenho certeza que serviu para te mostrar o caminho de como trabalhar com mineração de dados.
Então é isso, eu espero que você tenha gostado desta publicação. Fique à vontade para compartilhar nas suas redes sociais para ajudar na divulgação e crescimento do site.
Aproveite para se inscrever no meu canal do YouTube e também na News do site pra ficar por dentro das novidades em artigos, tutoriais e cursos online.
Abraço e até a próxima!