Redes Bayesianas para Extração de Conhecimento de Bases de Dados, Considerando a Incorporação de Conhecimento de Fundo e o Tratamento de Dados Incompletos

Autor: Cláudio Alex Jorge da Rocha

Orientadora: Profa. Dra. Solange Oliveira Rezende

O constante avanço dos mecanismos de coleta e armazenamento de dados, além da preocupação das empresas públicas e privadas em visualizar a informação como seu maior patrimônio, tem direcionado várias pesquisas para o estudo da transformação desses dados em conhecimento, o que pode proporcionar um auxílio efetivamente inteligente ao processo de tomada de decisão. A transformação de dados em conhecimento tem utilizado métodos eminentemente manuais para análise e interpretação de dados, o que torna o processo de extração de padrões em bases de dados muitas vezes caro, lento e altamente subjetivo, além de inviável em se tratando de grande volume de dados. Como forma de solucionar esse problema, o processo KDD desponta como uma tecnologia capaz de cooperar amplamente na busca do conhecimento embutido nos dados. O KDD pode ser entendido como um processo de extração de conhecimento de bases de dados, adquirindo relações de interesse não observadas pelo especialista do domínio, bem como auxiliando a validação de conhecimento extraído por esse especialista. A extração de conhecimento de bases de dados deve ser vista como um processo interativo, e não como um sistema de análise automática. Dessa forma, sem uma forte ênfase na interação entre os usuários do processo (identificados neste trabalho como usuários finais, especialistas do domínio e analistas do processo), é um pouco provável que se consiga encontrar padrões válidos e potencialmente úteis nos dados. A busca de padrões pode ser realizada sob vários paradigmas, utilizando os mais variados métodos de aprendizado. Neste trabalho, esses padrões foram extraídos utilizando métodos baseados no aprendizado de redes bayesianas, amplamente aplicadas na análise de relações de dependência entre os dados. As redes bayesianas constituem um modelo do ambiente(domínio de uma aplicação) e não apenas, como em muitops outros esquemas de representação(e.g. redes neurais e sistemas baseados em regras), um modelo de raciocínio. Apesar de já existirem várias representações(e.g. árvores de decisões e regras de produção) e técnica(e.g. classificação e clustering) para análise de dados, as redes bayesianas tem sido alvo de pesquisas por várias razões. Este trabalho enfatizou duas das mais proeminentes razões – incorporação de conhecimento de fundo e tratamento de dados incompletos. A incorporação de conhecimento de fundo merece ser destacada, principalmente, por proporcionar uma diminuição do esforço computacional no processo KDD, uma vez que conhecimentos prévios do domínio podem ser incorporados a esse processo. E tratamento de dados incompletos é de relevante interesse, basicamente, por razão de bases de dados comerciais apresentarem, com muita frequência, valores atribuídos ausentes. A principal contribuição deste trabalho foi investigar os métodos de aprendizados Bayesianos a fim de explorar suas potencialidades no tocante: a) identificação de relações de dependências entre os atributos de uma base de dados. Sendo essas relações modeladas na forma de redes Bayesianas e medidas em termos probabilísticos; b) utilização dos recursos de inferências sobre redes bayesianas, que, pela própria facilidade de entendimento e praticidade dessas redes, podem ser utilizados para auxílio efetivo à tomada de decisão; c) incorporação de conhecimento de fundo; d) tratamento de dados incompletos. Além disso, podem ser destacadas algumas outras contribuições em caráter mais específico: a) levantamento dos requisitos de cada uma das etapas do processo KDD enfatizando a interação entre os envolvidos nesse processo, identificando problemas e apresentando possíveis soluções; b) investigação das redes Bayesianas no contexto de extração de conhecimento de dados, estabelendo interseções entre a abordagem estatístico-Bayesiano e a manipulação de incerteza, aprendizado de máquina e ao próprio processo KDD; c) análise do estado da arte dos métodos para tratamento de dados incompletos e incorporação de conhecimento de fundo; d) aplicação do processo KDD em um estudo de caso real, utilizando os dados do Programa de Melhoramento da Raça Nelore, com o objetivo precípuo de encontrar padrões de acasalamento nos animais dessa raça. Vale destacar que alguns resultados preliminares deste estudo de caso foram publicados na seção de pesquisa do sumário anual desse programa (Lobo et al.,1998). Baseado nos resultados desta dissertação, os seguintes trabalhos podem ser sugeridos para o PMGRN: a) analisar mais explicitamente os efeitos do ambiente sobre a produtividade dos animais da raça Nelore; b) propor um rede Bayesiana "ideal" para cada uma das características estudadas, com o objetivo de que o criador possa utilizá-la, efetivamente, para apoio a um processo de tomada de decisão; c) investigar formas de identificar erros, dolosos ou não, cometidos pelos criadores, durante as pesagens dos animais de seu rebanho.

Pesquisas