0% found this document useful (0 votes)

39 views

Fraud Detection in Python Chapter3

This document discusses using unsupervised learning techniques like clustering algorithms to perform fraud detection when labeled data is unavailable. It describes how to use k-means clustering and identify normal versus abnormal behavior by segmenting customers into groups and flagging transactions far from the cluster centroids as potentially fraudulent. The document also introduces other clustering methods like DBSCAN and discusses validating potential fraud cases with domain experts.

Uploaded by

Fgpeqw

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

39 views

Fraud Detection in Python Chapter3

Uploaded by

Fgpeqw

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 33

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Normal versus
abnormal behaviour

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Fraud detection without labels

Using unsupervised learning to distinguish normal from abnormal
behaviour
Abnormal behaviour by deﬁnition is not always fraudulent
Challenging because diﬃcult to validate
But...realistic because very often you don't have reliable labels
DataCamp Fraud Detection in Python

What is normal behaviour?

Thoroughly describe your data: plot histograms, check for outliers,
investigate correlations and talk to the fraud analyst
Are there any known historic cases of fraud? What typiﬁes those
cases?
Normal behaviour of one type of client may not be normal for another
Check patterns within subgroups of data: is your data homogenous?
DataCamp Fraud Detection in Python

Customer segmentation: normal behaviour within

segments
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Refresher on clustering
methods

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Clustering: trying to detect patterns in data

DataCamp Fraud Detection in Python

K-means clustering: using the distance to cluster centroids

DataCamp Fraud Detection in Python

K-means clustering: using the distance to cluster centroids

DataCamp Fraud Detection in Python

K-means clustering: using the distance to cluster centroids

DataCamp Fraud Detection in Python
DataCamp Fraud Detection in Python
DataCamp Fraud Detection in Python
DataCamp Fraud Detection in Python

K-means clustering in Python

# Import the packages
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

# Transform and scale your data

X = np.array(df).astype(np.float)

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Define the k-means model and fit to the data

kmeans = KMeans(n_clusters=6, random_state=42).fit(X_scaled)
DataCamp Fraud Detection in Python

The right amount of clusters

Checking the number of clusters:

Silhouette method
Elbow curve
clust = range(1, 10)
kmeans = [KMeans(n_clusters=i) for i in clust]

score = [kmeans[i].fit(X_scaled).score(X_scaled) for i in range(len(kmeans)

plt.plot(clust,score)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()
DataCamp Fraud Detection in Python

The Elbow Curve

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Assigning fraud versus

non-fraud cases

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Starting with clustered data

DataCamp Fraud Detection in Python

Assign the cluster centroids

DataCamp Fraud Detection in Python

Deﬁne distances from the cluster centroid

DataCamp Fraud Detection in Python

Flag fraud for those furthest away from cluster centroid

DataCamp Fraud Detection in Python

Flagging fraud based on distance to centroid

# Run the kmeans model on scaled data
kmeans = KMeans(n_clusters=6, random_state=42,n_jobs=-1).fit(X_scaled)

# Get the cluster number for each datapoint

X_clusters = kmeans.predict(X_scaled)

# Save the cluster centroids

X_clusters_centers = kmeans.cluster_centers_

# Calculate the distance to the cluster centroid for each point

dist = [np.linalg.norm(x-y) for x,y in zip(X_scaled,
X_clusters_centers[X_clusters])]

# Create predictions based on distance

km_y_pred = np.array(dist)
km_y_pred[dist>=np.percentile(dist, 93)] = 1
km_y_pred[dist<np.percentile(dist, 93)] = 0
DataCamp Fraud Detection in Python

Validating your model results

Check with the fraud analyst
Investigate and describe cases that are ﬂagged in more detail
Compare to past known cases of fraud
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Other clustering fraud

detection methods

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

There are many diﬀerent clustering methods

DataCamp Fraud Detection in Python

And diﬀerent ways of ﬂagging fraud: using smallest

clusters
DataCamp Fraud Detection in Python

In reality it looks more like this

DataCamp Fraud Detection in Python

DBScan versus K-means

No need to predeﬁne amount of clusters
Adjust maximum distance between points within clusters
Assign minimum amount of samples in clusters
Better performance on weirdly shaped data
But..higher computational costs
DataCamp Fraud Detection in Python

Implementing DBscan
from sklearn.cluster import DBSCAN
db = DBSCAN(eps=0.5, min_samples=10, n_jobs=-1).fit(X_scaled)

# Get the cluster labels (aka numbers)

pred_labels = db.labels_

# Count the total number of clusters

n_clusters_ = len(set(pred_labels)) - (1 if -1 in pred_labels else 0)

# Print model results

print('Estimated number of clusters: %d' % n_clusters_)

Estimated number of clusters: 31

DataCamp Fraud Detection in Python

Checking the size of the clusters

# Print model results
print("Silhouette Coefficient: %0.3f"
% metrics.silhouette_score(X_scaled, pred_labels))

Silhouette Coefficient: 0.359

# Get sample counts in each cluster

counts = np.bincount(pred_labels[pred_labels>=0])
print (counts)

[ 763 496 840 355 1086 676 63 306 560 134 28 18 262 128 332
22 22 13 31 38 36 28 14 12 30 10 11 10 21 10
5]
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!

Credit Risk Modeling in Python Chapter3
No ratings yet
Credit Risk Modeling in Python Chapter3
35 pages
Data Smart Book Summary
0% (1)
Data Smart Book Summary
53 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
20 pages
Designing Machine Learning Workflows in Python Chapter2
No ratings yet
Designing Machine Learning Workflows in Python Chapter2
39 pages
Analyzing IoT Data in Python Chapter3
No ratings yet
Analyzing IoT Data in Python Chapter3
30 pages
Fraud Detection in Python Chapter1
No ratings yet
Fraud Detection in Python Chapter1
25 pages
Fraud Detection in Python Chapter2
No ratings yet
Fraud Detection in Python Chapter2
30 pages
04 03 Behavior Cluster Credit Card
No ratings yet
04 03 Behavior Cluster Credit Card
24 pages
Fraud Detection in Python Chapter4
No ratings yet
Fraud Detection in Python Chapter4
33 pages
IDS26 Clustering and Classification
No ratings yet
IDS26 Clustering and Classification
30 pages
DSE Lab Assignment - Writeup - 7
No ratings yet
DSE Lab Assignment - Writeup - 7
4 pages
Capstone Project - Credit Card Fraud Prediction - Alexandre Daltro
No ratings yet
Capstone Project - Credit Card Fraud Prediction - Alexandre Daltro
15 pages
DBNex Deep Belief Network and Explainable AI Based Financial Fraud Detection
No ratings yet
DBNex Deep Belief Network and Explainable AI Based Financial Fraud Detection
10 pages
Module 3.4 Classification Models, Case Study
No ratings yet
Module 3.4 Classification Models, Case Study
12 pages
Untitled
No ratings yet
Untitled
14 pages
ML - K-Means
No ratings yet
ML - K-Means
12 pages
DBNex_Deep_Belief_Network_and_Explainable_AI_based_Financial_Fraud_Detection
No ratings yet
DBNex_Deep_Belief_Network_and_Explainable_AI_based_Financial_Fraud_Detection
10 pages
Anomaly Detection
No ratings yet
Anomaly Detection
7 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
59 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
169 pages
CC Unit IV
No ratings yet
CC Unit IV
30 pages
Supervised Learning: Hadrien Lacroix
No ratings yet
Supervised Learning: Hadrien Lacroix
85 pages
K Means Clustering - Experiment 12
No ratings yet
K Means Clustering - Experiment 12
3 pages
10 Techniques To Deal With Class Imbalance in Machine Learning
No ratings yet
10 Techniques To Deal With Class Imbalance in Machine Learning
10 pages
statistic inference unit 2 notes
No ratings yet
statistic inference unit 2 notes
34 pages
Anomaly Detection: World-Leading Research With Real-World Impact!
No ratings yet
Anomaly Detection: World-Leading Research With Real-World Impact!
72 pages
FD Rout, 2024
No ratings yet
FD Rout, 2024
5 pages
PICALO - Frauddetectionusingpicalo 091205200125 Phpapp02
No ratings yet
PICALO - Frauddetectionusingpicalo 091205200125 Phpapp02
52 pages
Anomaly Detection: Jing Gao
No ratings yet
Anomaly Detection: Jing Gao
51 pages
Presentation 1
No ratings yet
Presentation 1
22 pages
Py_ Clustering Credit Card Fraud — Actuaries' Analytical Cookbook
No ratings yet
Py_ Clustering Credit Card Fraud — Actuaries' Analytical Cookbook
58 pages
01 K Means - Merged
No ratings yet
01 K Means - Merged
26 pages
Disaster
No ratings yet
Disaster
20 pages
Credit Card Fraud Analysis Ashutosh
No ratings yet
Credit Card Fraud Analysis Ashutosh
3 pages
AI With Python - Unsupervised Learning - Clustering
No ratings yet
AI With Python - Unsupervised Learning - Clustering
12 pages
Practical Data Analysis Cookbook - Sample Chapter
100% (1)
Practical Data Analysis Cookbook - Sample Chapter
31 pages
Module5 - Outlier - Analysis: Reference: "Data Mining The Text Book", Charu C. Aggarwal, Springer, 2015. (Chapters 8)
No ratings yet
Module5 - Outlier - Analysis: Reference: "Data Mining The Text Book", Charu C. Aggarwal, Springer, 2015. (Chapters 8)
21 pages
Banknote Authentication Analysis Using Python K-Means Clustering
No ratings yet
Banknote Authentication Analysis Using Python K-Means Clustering
3 pages
AML - LAB (1-6)
No ratings yet
AML - LAB (1-6)
15 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Ec 2645704571
No ratings yet
Ec 2645704571
2 pages
Fraud Detection in Banking Data Using Machine Learning
No ratings yet
Fraud Detection in Banking Data Using Machine Learning
17 pages
Machine Learning With Python - Machine Learning Algorithms - K-Means Clustering Algo
No ratings yet
Machine Learning With Python - Machine Learning Algorithms - K-Means Clustering Algo
25 pages
Credit Card Fraud Detection Using Machine Learning
No ratings yet
Credit Card Fraud Detection Using Machine Learning
28 pages
B17 Discrete Report
No ratings yet
B17 Discrete Report
16 pages
Unsupervised ML Clustering
No ratings yet
Unsupervised ML Clustering
15 pages
LP3 Soft Computing 4 Practical
No ratings yet
LP3 Soft Computing 4 Practical
7 pages
K_means.ipynb_-_Colab
No ratings yet
K_means.ipynb_-_Colab
10 pages
Cheat_Sheet_Machine_Learning
No ratings yet
Cheat_Sheet_Machine_Learning
2 pages
Meng - 2020 - J. - Phys. - Conf. - Ser. - 1601 - 052016
No ratings yet
Meng - 2020 - J. - Phys. - Conf. - Ser. - 1601 - 052016
7 pages
Imbalanced Data: How To Handle Imbalanced Classification Problems
No ratings yet
Imbalanced Data: How To Handle Imbalanced Classification Problems
17 pages
Unit 3 & 4 (p18)
No ratings yet
Unit 3 & 4 (p18)
18 pages
Avishek Nag - Pragmatic Machine Learning With Python-BPB Publications (2020) - Pages-248-260
No ratings yet
Avishek Nag - Pragmatic Machine Learning With Python-BPB Publications (2020) - Pages-248-260
13 pages
8ad59658 1701235711480
No ratings yet
8ad59658 1701235711480
36 pages
Credit Card Fraud Detection Using Machine Learning
No ratings yet
Credit Card Fraud Detection Using Machine Learning
6 pages
DWDM Project E3
No ratings yet
DWDM Project E3
12 pages
Zara
No ratings yet
Zara
47 pages
Data Mining for Fraud Detection1
No ratings yet
Data Mining for Fraud Detection1
12 pages
Session 5
No ratings yet
Session 5
21 pages
SE_KMeansClustering
No ratings yet
SE_KMeansClustering
21 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
14 pages
Cracking Codes with Python: An Introduction to Building and Breaking Ciphers
From Everand
Cracking Codes with Python: An Introduction to Building and Breaking Ciphers
Al Sweigart
No ratings yet
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
Spoken Language Processing in Python Chapter3
No ratings yet
Spoken Language Processing in Python Chapter3
26 pages
Introduction To Data Visualization With Matplotlib: Ariel Rokem
No ratings yet
Introduction To Data Visualization With Matplotlib: Ariel Rokem
30 pages
Spoken Language Processing in Python Chapter4
No ratings yet
Spoken Language Processing in Python Chapter4
46 pages
Spoken Language Processing in Python Chapter1
No ratings yet
Spoken Language Processing in Python Chapter1
17 pages
Introduction To Data Visualization With Seaborn Chapter2
No ratings yet
Introduction To Data Visualization With Seaborn Chapter2
38 pages
Spoken Language Processing in Python Chapter2
No ratings yet
Spoken Language Processing in Python Chapter2
23 pages
Preparing Your Gures To Share With Others: Ariel Rokem
No ratings yet
Preparing Your Gures To Share With Others: Ariel Rokem
35 pages
Chapter3 PDF
No ratings yet
Chapter3 PDF
36 pages
Introduction To Data Visualization With Matplotlib Chapter2
No ratings yet
Introduction To Data Visualization With Matplotlib Chapter2
27 pages
Changing Plot Style and Color: Erin Case
No ratings yet
Changing Plot Style and Color: Erin Case
54 pages
Introduction To Data Visualization With Seaborn Chapter3
100% (1)
Introduction To Data Visualization With Seaborn Chapter3
32 pages
Designing Machine Learning Workflows in Python Chapter4
No ratings yet
Designing Machine Learning Workflows in Python Chapter4
38 pages
Introduction To Data Visualization With Seaborn Chapter1
No ratings yet
Introduction To Data Visualization With Seaborn Chapter1
26 pages
Cleaning Data With PySpark Chapter2
100% (1)
Cleaning Data With PySpark Chapter2
25 pages
Designing Machine Learning Workflows in Python Chapter3
No ratings yet
Designing Machine Learning Workflows in Python Chapter3
42 pages
Customer Segmentation in Python Chapter3
No ratings yet
Customer Segmentation in Python Chapter3
25 pages
Designing Machine Learning Workflows in Python Chapter1
No ratings yet
Designing Machine Learning Workflows in Python Chapter1
32 pages
Credit Risk Modeling in Python Chapter4
100% (1)
Credit Risk Modeling in Python Chapter4
35 pages
Building Chatbots in Python Chapter4
No ratings yet
Building Chatbots in Python Chapter4
20 pages
Cleaning Data With PySpark Chapter4
No ratings yet
Cleaning Data With PySpark Chapter4
23 pages
Customer Segmentation in Python Chapter4
No ratings yet
Customer Segmentation in Python Chapter4
37 pages
Cleaning Data With PySpark Chapter3
No ratings yet
Cleaning Data With PySpark Chapter3
25 pages
Cleaning Data With PySpark Chapter1
0% (1)
Cleaning Data With PySpark Chapter1
20 pages
Analyzing IoT Data in Python Chapter4
No ratings yet
Analyzing IoT Data in Python Chapter4
34 pages
Analyzing IoT Data in Python Chapter2
No ratings yet
Analyzing IoT Data in Python Chapter2
35 pages
Building Chatbots in Python Chapter2 PDF
No ratings yet
Building Chatbots in Python Chapter2 PDF
41 pages
Analyzing IoT Data in Python Chapter1
100% (1)
Analyzing IoT Data in Python Chapter1
27 pages
Analysis of Student Academic Performance Using Machine Learning Algorithms: - A Study
No ratings yet
Analysis of Student Academic Performance Using Machine Learning Algorithms: - A Study
15 pages
Data Science Process and Machine Learning
No ratings yet
Data Science Process and Machine Learning
6 pages
Saurav Gupta Resume 2016
No ratings yet
Saurav Gupta Resume 2016
1 page
ADA Chapter5
No ratings yet
ADA Chapter5
6 pages
73 11 Prasanna Survey
No ratings yet
73 11 Prasanna Survey
8 pages
2018 April CS362-A - Ktu Qbank
No ratings yet
2018 April CS362-A - Ktu Qbank
2 pages
Boban 2020
No ratings yet
Boban 2020
6 pages
Dav Assignment 5
No ratings yet
Dav Assignment 5
2 pages
Breast Cancer Classification Using Transfer Learning
No ratings yet
Breast Cancer Classification Using Transfer Learning
57 pages
Handbook of Research On Machine Learning Applications and Trends Algorithms Methods and Techniques 1st Edition Emilio Soria Olivas Download PDF
100% (7)
Handbook of Research On Machine Learning Applications and Trends Algorithms Methods and Techniques 1st Edition Emilio Soria Olivas Download PDF
84 pages
Fairness-Aware Machine Learning
No ratings yet
Fairness-Aware Machine Learning
60 pages
A296 D Stamped
No ratings yet
A296 D Stamped
4 pages
ADASYN: Adaptive Synthetic Sampling Approach For Imbalanced Learning
No ratings yet
ADASYN: Adaptive Synthetic Sampling Approach For Imbalanced Learning
7 pages
1 IntroductionDL
No ratings yet
1 IntroductionDL
69 pages
Credit Card Fraud Detection by Improving K-Means: Mahesh Singh, Aashima, Sangeeta Raheja
No ratings yet
Credit Card Fraud Detection by Improving K-Means: Mahesh Singh, Aashima, Sangeeta Raheja
5 pages
Pattern Recognition
No ratings yet
Pattern Recognition
45 pages
Combining Internal - and External-Training-Loads To Predict Non-Contact
No ratings yet
Combining Internal - and External-Training-Loads To Predict Non-Contact
21 pages
BIS 541 Ch01 20-21 S
No ratings yet
BIS 541 Ch01 20-21 S
129 pages
@machine Learning Applied To The Design and Inspection of Reinforced Concrete Bridges Resilient Methods and Emerging Applications
No ratings yet
@machine Learning Applied To The Design and Inspection of Reinforced Concrete Bridges Resilient Methods and Emerging Applications
10 pages
Klasifikasi Tingkat Kematangan Buah Markisa Menggunakan Jaringan Syaraf Tiruan Berbasis Pengolahan Citra
No ratings yet
Klasifikasi Tingkat Kematangan Buah Markisa Menggunakan Jaringan Syaraf Tiruan Berbasis Pengolahan Citra
8 pages
GRP 5 Tan Yi Xuen
No ratings yet
GRP 5 Tan Yi Xuen
122 pages
Journal On Software Engineering: I-Manager's
No ratings yet
Journal On Software Engineering: I-Manager's
12 pages
ML MCQ Unit 1
No ratings yet
ML MCQ Unit 1
8 pages
Unit 3 - Data Mining - WWW - Rgpvnotes.in PDF
No ratings yet
Unit 3 - Data Mining - WWW - Rgpvnotes.in PDF
10 pages
1 s2.0 S0167865516303324 Main
No ratings yet
1 s2.0 S0167865516303324 Main
7 pages
F21DL 2024-25 Coursework-1 - 240918 - 110502
No ratings yet
F21DL 2024-25 Coursework-1 - 240918 - 110502
7 pages
Unec 1700728516
No ratings yet
Unec 1700728516
105 pages
Machinelearning Algorithm Basics2 NOTES
No ratings yet
Machinelearning Algorithm Basics2 NOTES
72 pages
R20A6610 DL Syllabus
No ratings yet
R20A6610 DL Syllabus
2 pages
Heart Disease Prediction
No ratings yet
Heart Disease Prediction
11 pages