QUAIS PASSOS DEVO SEGUIR?
Não é processo simples extrair valor de uma tabela ou um banco de dados qualquer. A informação não “salta” aos olhos. É preciso um processo estruturado, seguro e sequencial, para revelar o que o dado ou conjunto deles representa no mundo real e no contexto do processo de fiscalização ou instrução processual. Existem diversos modelos teóricos que tratam sobre o processo de descoberta de conhecimento em bases de dados.
METODOLOGIA
4.1 Inicialização do projeto
iniciam pelo entendimento do negócio, problema ou objeto do trabalho. Esse passo é essencial, pois permite avaliar a necessidade ou possibilidade de se utilizar a análise de dados no trabalho que será executado.
A análise das regras de negócio consiste na análise dos normativos que regem o objeto a ser auditado e do contexto em que está inserida a entidade auditada. Com base nessa análise, são definidas as tipologias, que podem ser diretas (semelhante ao dispositivo da norma) ou indiretas
(aproximação que evidencia descompasso com a norma).
Destaca-se que também é possível a definição de tipologias que decorram do julgamento profissional e não apenas da literalidade da norma.
Por fim, recomenda-se que a definição de tipologias não fique adstrita à existência ou não de base
de dados. Assim, o ideal é uma ou duas sessões de brainstorming com a equipe de auditoria, o supervisor e o coordenador, se possível, para enumerar possíveis tipologias.
4.2 Acesso aos dados
É possível obter dados de diversas formas, como baixar diretamente da internet, solicitar por meio de um ofício de requisição ao órgão gestor da base (ver Apêndices A e B), construir uma aplicação que extraia informações de páginas da internet etc.
Além disso, é importante verificar se a base de dados contém todas as informações necessárias para a implementação das tipologias definidas na etapa anterior, pois há bases que se referem a
períodos anteriores e não recebem atualizações ou os dados nela constantes podem estar incompletos.
Constatado que a base de dados de seu interesse não está disponível no Website do órgão público,
é necessário o requerimento de informações, por meio da expedição de um ofício de requisição ou de diligência. Nos Apêndices A e
B, são apresentadas duas sugestões de modelo de ofício de requisição/
diligência.
Ao ser feita a requisição/diligência, é possível solicitar o dump do banco de dados de determinado sistema, ou seja, você receberá o banco de dados completo, inclusive com informações que não são necessárias para o seu trabalho, mas podem ser interessantes para outros trabalhos.
4.3 Transformação dos dados
Eventualmente é necessária alguma transformação ou limpeza dos dados recebidos/obtidos, ou seja, extração, transformação e carga. De forma
simples e direta, é o processo para obter o dado, ajustá-lo, para melhorar a qualidade da informação, e colocá-lo em um ambiente para consumo.
Regra geral, o processo de ETL é realizado em três etapas integradas e visa a obter uma visão consolidada dos dados a serem utilizados no processo de fiscalização.
EXTRAÇÃO
Nesta etapa, os dados são identificados e extraídos de uma ou mais fontes (arquivos, planilhas, banco
de dados). Geralmente, não é possível identificar o exato conjunto de interesse, assim mais dados do
que é necessário podem ser extraídos, para garantir que aquilo que é essencial esteja no conjunto de
dados obtido. O volume de dados extraídos, bem como o intervalo de tempo entre as extrações, podem
variar muito, dependendo dos requisitos e das necessidades do negócio, definidos na etapa inicial do
trabalho (planejamento).
TRANSFORMAÇÃO
Nesta etapa, o conjunto de dados está sujeito a diversas operações, para melhorar sua qualidade,
tais como: limpeza, junção com outro conjunto de dados, validação de formato e/ou, até mesmo,
geração de novos dados, a partir dos dados preexistentes
CARGA
É a etapa final do processo. Consiste em colocar o dado transformado no local de destino. A carga pode ser completa ou incremental. A completa geralmente ocorre quando os dados são carregados de uma só vez. Já a incremental ocorre em intervalos regulares – os dados novos vão gradativamente complementando os dados recebidos anteriormente. Normalmente são feitas as duas coisas. Em uma primeira etapa, carga completa com dados históricos (ex: exercicios anteriores) e depois uma incrementação (mensal, semanal).
4.4 Construção do modelo
A construção do modelo está relacionada com o desenvolvimento de algum algoritmo. Podemos enxergar essa etapa como a fase de mineração de dados propriamente dita. É nessa fase que as tipologias desenhadas no começo do nosso trabalho ganham forma, por meio de códigos SQL, planilhas Excel, painéis de informação (QlikView, PowerBI, SAS VA), aplicações em Apex-Oracle ou outras ferramentas que sejam mais adequadas ao objetivo do trabalho.
Assim, é salutar que os recursos necessários para a execução desta etapa sejam obtidos previamente, em especial pessoas na equipe ou unidade com conhecimentos em programação ou facilidade para aprender.
A etapa se caracteriza pela aplicação do conhecimento do negócio à análise de dados realizada no(s) banco(s) de dados. Assim, as tipologias desenhadas na fase inicial podem não ter relevância, devido à baixa ocorrência
da suposta irregularidade, ou ser inviáveis, em razão de não existirem dados que permitam aferir a ocorrência da irregularidade. A construção do modelo pode variar em razão do escopo do trabalho.
4.5 Avaliação do projeto
A avaliação é composta de três tarefas básicas:
1) avaliação do resultado;
2) revisão do processo;
3) determinação dos próximos passos.
Na avaliação do resultado, deve-se avaliar o provável impacto, se há alguma questão importante do negócio que não foi suficientemente considerada, bem como quais as possíveis implicações do uso do modelo, em especial
para se determinar se há algum efeito potencial colateral negativo. Já a revisão do processo tem o condão de verificar se o modelo foi construído
corretamente, as variáveis escolhidas são consistentes e estarão disponíveis em análises futuras. Por fim, a determinação dos próximos passos está relacionada com o processo decisório da equipe do projeto de implantar o modelo definido ou revisitar as fases do projeto, para aprimorá-lo.
No entanto, essas etapas estão relacionadas com o desenvolvimento de um algoritmo. Nesse
sentido, entende-se que a avaliação do projeto pode ser dividida em duas etapas: validação com a equipe de auditoria e os gestores. É possível encontrar alguma impropriedade no resultado, causada por uma interpretação equivocada da tipologia ou um eventual erro no algoritmo utilizado. A validação deve ocorrer em
momento anterior à fase de conclusão do relatório.
4.6 Finalização do projeto
Esta etapa pode variar conforme o escopo do trabalho. Em processos de
Levantamento, por exemplo, cujo objetivo é conhecer melhor determinado
objeto, a finalização do projeto envolve comunicar efetivamente o conhecimento adquirido, o que pode ser feito por meio da divulgação de um painel de
informações, por exemplo. Já em modelos preditivos, é importante adequar os processos de trabalho, para utilizarem a informação resultante do modelo.
Esta etapa consiste em quatro tarefas:
1) planejar a implantação;
2) planejar o monitoramento e a manutenção;
3) produzir um relatório final; e
4) revisar o trabalho.
O planejamento da implantação deve determinar quem, deve ser informado do resultado do trabalho e qual a melhor forma de divulgá-lo. Já a etapa de planejamento do monitoramento e da manutenção deve contemplar as possíveis mudanças futuras que implicariam a revisão do modelo utilizado e o agendamento de testes periódicos para avaliar a acurácia do modelo, qualidade da informação disponibilizada e, se for o caso, atualização do modelo.
Além do relatório de auditoria ou da instrução processual correspondente, recomenda-se a documentação dos resultados e scripts, por meio da elaboração de um relatório de cruzamento de dados ou de um instrumento similar que resuma as lições aprendidas no trabalho (cruzamento de dados, desenvolvimento de painel de auditoria, criação de algoritmo de aprendizagem de máquina etc.) e os aspectos relevantes, com uma explicação detalhada dos resultados da análise de dados realizada.
O relatório deve permitir que os leitores compreendam como foi realizado o procedimento, devendo ser juntado ao processo de controle externo, permitindo o contraditório e a ampla defesa. Além do relatório, é interessante
a elaboração de uma apresentação, para comunicar os resultados. Por fim, a revisão do trabalho consiste na avaliação daquilo que deu certo e errado, no intuito de aprender com o que foi feito, para repetir ou fazer diferente em trabalhos futuros, ou reproduzí-lo em situações análogas.