Aprenda a Detectar Fraudes com Machine Learning

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News PT Aprenda a Detectar Fraudes com Machine Learning

Aprenda a Detectar Fraudes com Machine Learning

Índice

Introdução
Conectando os dados
Entendendo o conjunto de dados
Criação do primeiro modelo
Técnicas para lidar com o desequilíbrio de classes
Avaliando os modelos
Destaques
Perguntas frequentes (FAQ)

Introdução

Neste artigo, vamos abordar como construir um modelo de detecção de fraudes de ponta a ponta usando a plataforma Pretty Base. Vamos mostrar como conectar os dados, treinar modelos basais de maneira declarativa e consultá-los usando uma linguagem chamada People. Primeiro, vamos começar conectando os dados em Pretty Base, tornando esse processo rápido e fácil. Você poderá conectar facilmente seus dados estruturados, independentemente de onde eles estejam armazenados, incluindo fontes como Snowflake e BigQuery. Além disso, também será possível conectar dados não estruturados, como imagens e textos, armazenados no Amazon S3 ou Google Cloud Storage. Se você tiver seus dados armazenados em um diretório local, poderá carregá-los usando o Pretty Base. Hoje, usaremos um conjunto de dados de cartões de crédito, originalmente do Kaggle, que disponibilizamos no Pretty Base. Esse conjunto de dados contém transações feitas com cartões de crédito e inclui apenas variáveis numéricas por motivos de confidencialidade. Vamos explorar o conjunto de dados e criar nosso primeiro modelo para detectar fraudes de cartão de crédito.

Conectando os dados

Para conectar os dados em Pretty Base, siga os seguintes passos:

Faça login em sua conta Pretty Base.
Clique em "Conectar Dados" no painel de controle.
Selecione a fonte de dados estruturados desejada, como Snowflake ou BigQuery.
Selecione a fonte de dados não estruturados desejada, como Amazon S3 ou Google Cloud Storage.
Se os dados estiverem armazenados em seu diretório local, clique em "Carregar Arquivos" para enviá-los para o Pretty Base.

Após conectar os dados, eles estarão prontos para serem usados em nossos modelos.

Entendendo o conjunto de dados

Antes de criarmos nosso primeiro modelo, é importante entender um pouco mais sobre o conjunto de dados de cartões de crédito. Este conjunto de dados inclui transações feitas com cartões de crédito e contém variáveis numéricas. Por motivos de confidencialidade, as variáveis originais não podem ser fornecidas, mas as variáveis principais (V1 a V28) são componentes principais dos conjuntos de dados originais. Além das variáveis principais, as únicas outras características presentes são tempo (representando o horário da transação) e valor (representando o valor da transação). A variável alvo, chamada "classe", tem valor "1" para transações fraudulentas e "0" para transações legítimas. É importante notar que o conjunto de dados é altamente desequilibrado, com a maioria das transações sendo legítimas. Vamos explorar os valores das variáveis do conjunto de dados usando a ferramenta de consulta do Pretty Base.

Criação do primeiro modelo

Antes de criarmos nosso primeiro modelo, precisamos criar um repositório de modelos. O repositório de modelos funciona como um repositório Git, permitindo que você colabore com sua equipe e rastreie a linhagem do modelo. No Pretty Base, criaremos um novo repositório de modelo chamado "Detecção de Fraudes em Cartões de Crédito - Demo 1". Em seguida, selecionaremos o conjunto de dados de cartões de crédito para usar em nosso modelo e escolheremos a variável alvo "classe" que queremos prever. O Pretty Base também nos permite remover outras variáveis desnecessárias e definir as divisões padrões de treinamento, teste e validação. Para este exemplo, selecionaremos o método "Explorar Modelos Sugeridos" para obter um conjunto de modelos basais que nos ajudarão a escolher o melhor modelo. Após a configuração, clicaremos em "Treinar" para treinar o modelo. O Pretty Base nos fornecerá os resultados do treinamento dos modelos e as métricas de desempenho, como a pontuação ROC, que nos ajudarão a avaliar os modelos e escolher o mais adequado para detectar fraudes em cartões de crédito.

Técnicas para lidar com o desequilíbrio de classes

Ao lidar com um conjunto de dados altamente desequilibrado, como o conjunto de dados de cartões de crédito, é importante utilizar técnicas apropriadas para melhorar o desempenho do modelo na detecção de fraudes. No Pretty Base, existem três técnicas principais que podem ser usadas: oversampling da classe minoritária, undersampling da classe majoritária e ajuste do peso das classes no cálculo da função de perda. O oversampling da classe minoritária envolve a criação de novas instâncias da classe minoritária para aumentar sua representação no conjunto de dados. O undersampling da classe majoritária envolve a remoção de instâncias da classe majoritária para reduzir sua representação no conjunto de dados. O ajuste do peso das classes no cálculo da função de perda envolve a atribuição de um peso maior à classe minoritária para dar mais importância à sua detecção. No Pretty Base, você pode ajustar essas técnicas no painel de parâmetros do modelo para melhor lidar com o desequilíbrio de classes e melhorar o desempenho na detecção de fraudes.

Avaliando os modelos

Após o treinamento dos modelos, é importante avaliar seu desempenho para determinar qual deles é o mais adequado para a detecção de fraudes em cartões de crédito. No Pretty Base, você pode visualizar as pontuações ROC, as curvas de precision-recall e as matrizes de confusão de cada modelo treinado. A pontuação ROC é uma métrica que mostra a capacidade do modelo de distinguir entre as classes positiva e negativa. Quanto mais próximo da área sob a curva (AUC) for de 1, melhor será o desempenho do modelo. As curvas de precision-recall mostram a relação entre a precisão e a revocação do modelo em diferentes pontos de corte. Uma curva suave e próxima do canto superior direito indica um bom desempenho do modelo. A matriz de confusão mostra a contagem de instâncias classificadas corretamente e incorretamente pelo modelo. É importante observar tanto a precisão quanto a revocação para determinar se o modelo está classificando corretamente as fraudes. Após avaliar os modelos, você pode escolher aquele que apresentou o melhor desempenho e usá-lo para detectar fraudes em cartões de crédito.

Destaques

Conecte facilmente seus dados estruturados e não estruturados em Pretty Base.
Use o conjunto de dados de cartões de crédito para treinar modelos de detecção de fraudes.
Aplique técnicas para lidar com o desequilíbrio de classes, como oversampling, undersampling e ajuste do peso das classes.
Avalie o desempenho dos modelos usando pontuações ROC, curvas de precision-recall e matrizes de confusão.
Escolha o modelo com melhor desempenho e utilize-o para detectar fraudes em cartões de crédito.

(Fonte: Pretty Base)

Perguntas Frequentes (FAQ)

Q: Posso conectar arquivos armazenados localmente no Pretty Base? R: Sim, você pode carregar arquivos armazenados localmente diretamente no Pretty Base para uso em seus modelos.

Q: Quais técnicas são recomendadas para lidar com o desequilíbrio de classes em conjuntos de dados como o de cartões de crédito? R: No Pretty Base, é recomendado usar técnicas como oversampling da classe minoritária, undersampling da classe majoritária e ajuste do peso das classes para melhor lidar com o desequilíbrio de classes em conjuntos de dados desse tipo.

Q: Como posso avaliar o desempenho dos modelos treinados em Pretty Base? R: Em Pretty Base, você pode avaliar o desempenho dos modelos visualizando as pontuações ROC, as curvas de precision-recall e as matrizes de confusão de cada modelo treinado.

Q: Como escolher o melhor modelo para detecção de fraudes em cartões de crédito? R: Ao avaliar os modelos treinados em Pretty Base, é importante observar as pontuações ROC, as curvas de precision-recall e as matrizes de confusão. Também é importante considerar tanto a precisão quanto a revocação do modelo na detecção de fraudes.

Q: O Pretty Base oferece alguma integração com outras ferramentas de análise de dados? R: Sim, o Pretty Base oferece integração com várias ferramentas populares de análise de dados, como Snowflake, BigQuery, Amazon S3 e Google Cloud Storage.

Q: Posso colaborar com minha equipe no desenvolvimento de modelos em Pretty Base? R: Sim, o Pretty Base permite criar repositórios de modelos que funcionam como repositórios Git, permitindo a colaboração em equipe e o rastreamento da linhagem de modelos.

Q: Quais métricas são mais importantes para avaliar o desempenho dos modelos de detecção de fraudes? R: Ao avaliar modelos de detecção de fraudes, as métricas mais importantes incluem pontuações ROC, curvas de precision-recall e matrizes de confusão. Essas métricas fornecem informações sobre a capacidade do modelo de distinguir entre transações fraudulentas e legítimas e a precisão do modelo na classificação das fraudes.

Q: Quais são as vantagens de usar Pretty Base na detecção de fraudes em cartões de crédito? R: Pretty Base oferece uma plataforma fácil de usar para conectar dados, treinar modelos e avaliar seu desempenho na detecção de fraudes em cartões de crédito. Suas técnicas avançadas para lidar com o desequilíbrio de classes e sua integração com outras ferramentas de análise de dados tornam-no uma escolha eficiente e eficaz para detecção de fraudes.

Q: Quais tipos de modelos estão disponíveis no Pretty Base? R: O Pretty Base oferece uma variedade de modelos que podem ser aplicados em diferentes conjuntos de dados. Alguns exemplos incluem redes neurais básicas, modelos de árvores de decisão e modelos baseados em gradient boosting.

Q: O Pretty Base fornece suporte para consultas SQL? R: Sim, o Pretty Base suporta consultas SQL, permitindo que você explore seus dados e faça consultas personalizadas para a análise dos resultados de seus modelos.

Ferramentas pragmáticas para considerar e gerenciar riscos éticos em IA militar

Sistemas de Aprendizado de Máquina Declarativos: Ludwig e Predibase