TEMAS

De olho no Bolsa Família com o HAL 9000

Pesquisas mostram que só nos EUA, fraudes são responsáveis por prejuízos na ordem de 5% do faturamento em pelo menos 30% das empresas. Pense nas empresas bilionárias que existem por lá e fica fácil imaginar o tamanho do problema, e no Brasil esse número certamente seja ainda maior. De acordo com matéria do jornal O Globo de janeiro deste ano, as fraudes do programa Bolsa Família geram prejuízos na ordem de 1.3 bilhão ao ano. O fato é que a fraude sempre esteve entre nós. Organizações criminosas ou mesmo uma ação isolada podem levar a prejuízos financeiros, desvios orçamentários, contratos fraudulentos dentre outras possibilidades.

Ficamos maravilhados com os resultados obtidos no HAL 9000. Sua performance, usabilidade e principalmente sua precisão o tornam um poderoso aliado na luta contra fraudes.

Caio Azevedo Fundador Big Data HAL

Fraude envolve uma ou mais pessoas que intencionalmente atuam secretamente para privar outro de algo de valor, para seu próprio benefício. Fraude é um evento criminoso, incomum, imperceptível, que requer tempo para ser concretizado e pode aparecer de muitas e diferentes formas, tais como: fraude com cartão de crédito, seguros, planos de saúde, benefícios advindos de projetos sociais, manipulação de valores ou sistemas, corrupção, lavagem de dinheiro, cyber crime e a lista poderia seguir indefinidamente.

Mas o que é fraude ?

Fraude envolve uma ou mais pessoas que intencionalmente atuam secretamente para privar outro(s) de algo de valor, para seu próprio benefício. Fraude é um evento criminoso, incomum, imperceptível, que requer tempo para ser concretizado e pode aparecer de muitas e diferentes formas, tais como: fraude com cartão de crédito, seguros, planos de saúde, benefícios advindos de projetos sociais, manipulação de valores ou sistemas, corrupção, lavagem de dinheiro, cyber crime, desvios por invasões em sistemas bancários e a lista poderia seguir indefinidamente.

A fraude ocorre por diversas razões. Seja por um problema financeiro, que leve a buscar formas de se ganhar mais dinheiro, seja por pura falta de caráter ou apenas uma oportunidade. Como diz o velho ditado brasileiro: “a ocasião faz o ladrão”. Independente da razão que motivou a fraude, detecção e prevenção de fraude são dois temas bastante abordados em eventos de Data Science pelo mundo e Cientistas de Dados capazes de lidar com este tipo de problema, estão sendo disputados pelas maiores empresas do mundo.

Os dois principais componentes no combate às fraudes, são a detecção e a prevenção. A detecção de fraudes refere-se à habilidade de detectar o evento fraudulento, buscando padrões e reconhecendo a ocorrência do evento. Ou seja, buscamos formas de identificar se a fraude ocorreu. Já a prevenção, esta sim bem mais complicada, busca analisar e prever os eventos fraudulentos, antes que ocorram.

Dados x Fraudes

A detecção e prevenção de fraudes é um campo em crescimento. Governos, empresas, mídia e o público em geral tem visto a fraude não apenas como um problema econômico, mas também social e embora muito avanço tenha ocorrido na detecção de fraudes, através da adoção de metodologias estatísticas na análise de quantidades massivas de dados, ainda é difícil detectar e prever a ocorrência de eventos fraudulentos.

fraude em si é um fenômeno dinâmico, que muda e se adapta ao longo do tempo e as pessoas que cometem fraudes, são normalmente experts naquilo que fazem, o que torna o desafio de combate à fraude ainda maior. E por isso mesmo os métodos tradicionais de análises de dados não têm sido capazes de identificar e prever as fraudes, mesmo com os dados disponíveis.

É quando entra em ação o Cientista de Dados no campo de Data Analytics. O volume de dados gerado pelo Big Data e as técnicas e ferramentas de análises estão criando um novo nicho profissional. O combate à fraude está se tornando um departamento dentro das empresas, atuando em parceria com os programas de Auditoria, Compliance, Due Diligence e indo ao encontro da LAC (Lei Anti Corrupção), focando não apenas no combate às fraudes internas, mas externas também. Operadoras de cartão de crédito, de telefonia, bancos e indústrias, todos estão criando seus departamentos de combate à fraude, e usando a Ciência de Dados para isso.

Técnicas de Detecção de Fraudes

As técnicas de Analytics tradicionais orientadas a extrair insights, ajudam no processo de gerar conhecimento a partir do datasets.

Um sistema de análise de dados para detecção e prevenção de fraudes deve estar equipado com uma quantidade substancial de parâmetros e ser capaz de executar rapidamente milhares de cálculos e comparações por meio de distribuições estatísticas, testes, tendências e desvios, para gerar informações das quais se posam extrair insights que nos coloque diante do evento suspeito.

Algoritmos de Data Analytics permitem automatizar o processo de detecção e combate às fraudes, sejam este em demonstrativos financeiros, planilhas orçamentárias, densidade demográfica e até mesmo endereços em campanhas de marketing de incentivos, dentre outras aplicações que carecem de uma análise prévia.

Um exemplo que tem elevado reconhecimento no exterior e vem ganhando relevância no Brasil é o modelo de Auditoria dos Números desenvolvida nos Estados Unidos, onde tornou- se prova de acusação em um dos maiores escândalos de fraudes em demonstrações financeiras, no Brasil foi utilizada para identificação de sobre preços nas planilhas orçamentárias da reforma do Estádio do Maracanã em 2013, relatado na Revista do TCU por Flavia Ceccato. Fazendo uso da técnica de Auditoria dos Números, de acordo com a autora, foi possível rastrear e identificar mais de 70% das irregularidades presentes na fraude.

Uma Aplicacação Prática

Como um caso de uso, aprofundamos nossos estudos nesta técnica e a combinamos com outras análises estatísticas, aplicando-as na base de dados de Benefícios pagos a título de Bolsa Família relativos ao mês de janeiro de 2018, dados estes disponíveis no portal da transparência do Governo Federal.

Para análise desta base de dados com aproximadamente 15 milhões de beneficiários, realizamos previamente um agrupamento dos valores pagos aos beneficiários por município, totalizando em 5570 municípios.

Todo o processamento e análise de dados foi realizado através do BigDataHAL, plataforma desenvolvida por Caio Azevedo, Carlos Prado, Glauber Romão e Victor Venites, produto de uma startup de Big Data Analytics.

A análise da nossa base de dados de benefícios pagos à título de Bolsa Família está em conformidades com os padrões esperados, porém apresenta indícios de inconformidades especificas em determinados municípios, nos quais os somatórios valores pagos não passaram nos algoritmos e testes estatísticos, em especial para as seguintes localidades listados abaixo:

Município (Localidade) Benefícios Pagos (R$)

  • Salvador ( BA ) 25.371.994
  • Santarém ( PA ) 4.870.679
  • São Jose De Ribamar ( MA ) 3.931.810
  • Aguas Lindas De Goiás ( GO ) 3.547.983
  • Campo Grande ( MS ) 3.547.283
  • Porto Velho ( RO) 3.442.008
  • Serra ( ES ) 3.425.444
  • Araripina ( PE ) 3.421.026
  • Santana ( AP ) 2.629.394
  • Niterói ( RJ ) 2.596.912
  • Barreirinhas ( MA ) 2.579.779
  • Várzea Grande ( MG ) 2.507.538
  • Maracanaú ( CE ) 2.501.001
  • Esperança ( PB ) 986.321

Fonte: bigdatahal.com.br

Vale destacar que neste caso estudado, a conclusão é que as distorções não estão nos valores pagos em si, pois estes seguem regras previamente estabelecidas, porém seja provável que existam mais favorecidos recebendo o benefício do que a quantidade que realmente deveria o receber.

Coincidentemente, nossas análises culminaram com matérias veiculadas no portal G1 e jornal A Tarde de Salvador, que noticiaram “Salvador tem 10 mil beneficiários do Bolsa Família com pendências”.

A conclusão é que identificamos 56,81% da base de dados apresentam algum tipo de divergência com relação às análises preliminares antifraudes aplicadas pela plataforma, portanto merecem uma análise mais cuidadosa, iniciando pelos municípios destacados e considerando uma análise ABC. Observe que este percentual é praticamente igual ao noticiado pelo o Globo, no início deste artigo.

Entendemos também que estudos mais aprofundados carecem de ser realizados e outros algoritmos aplicados para aumentar a efetividade e assertividade da análise. Estas técnicas se complementam e podem focar em diferentes aspectos de uma fraude. Um sistema mais completo de combate à fraude, combina estas técnicas, que juntas se tornam ainda mais eficazes e eficientes.

Bibliografia digital:
https://oglobo.globo.com/economia/fraudes-no-bolsa-familia-geram-prejuizo-de-13-bilhao-22255818
https://g1.globo.com/politica/noticia/quase-350-mil-cadastros-do-bolsa-familia-foram-fraudados-diz-auditoria.ghtml
http://atarde.uol.com.br/bahia/salvador/noticias/1924004-salvador-tem-10-mil-beneficiarios-do-bolsa-familia-com-pendencias
http://www.cienciaedados.com/usando-data-science-no-combate-a-fraudes/
http://www.portaltransparencia.gov.br/

  • Por Carlos Prado, Caio Azevedo, Glauber Rocha
  • 11/09/2018
  • 17
  • Big Data HAL, Caio Azevedo, Auditoria


Últimas Notícias

Fraudes Bolsa Família

Desvendamos os números do programa Bolsa Família

Big Data HAL na São Judas

Nos dias 12 e 13/09 estaremos na Jornada de Gestão

Eleições 2018

As armas do marketing político para as eleições de 2018

Galeria