Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
Anomaly Detection
Softnix Technology
Chakrit Phain
Agenda
2
• Part 1
• Introduction
• Application for Anomaly Detection
• AIOps
• GraphDB
• Part 2
• Type Of Anomaly Detection
• How to Identify Outliers in your Data
• Part 3
• Anomaly Detection for Timeseries Technique
Introduction
3https://en.wikipedia.org/wiki/Anomaly_detection
In data mining, anomaly detection (also outlier detection[1]) is the
identification of rare items, events or observations which raise suspicions by
differing significantly from the majority of the data.
Introduction
4
https://www.anodot.com/blog/what-is-anomaly-detection/
https://developer.mindsphere.io/apis/analytics-anomalydetection/api-anomalydetection-overview.html
Introduction
5
Introduction
6
Applications of Anomaly Detection in the Business
world
7
• Intrusion detection
• Attacks on computer systems and computer networks.
• Fraud detection
• The purchasing behavior of some one who steals a credit card is probably
different from that of the original owner.
• Ecosystem Disturbance.
• Hurricanes , floods , heat waves … etc
• Medicine.
• Unusual symptoms or test result may indicate potential health problem.
https://zindi.africa/blog/introduction-to-anomaly-detection-using-machine-learning-with-a-case-study
Introduction
8https://www.datasciencecentral.com/profiles/blogs/driving-ai-revolution-with-pre-built-analytic-modules
AIOps
AIOps
10
https://aiops.fatpipes.biz/2019/09/aiops-best-for-anomalies-noise-alert.html?utm_source=dlvr.it&utm_medium=twitter
AIOps
11
AIOps
12
AIOps
13https://infrastructureedge.blogspot.com/2019/09/enterprise-it-managers-say-aiops-works.html?utm_source=dlvr.it&utm_medium
AIOps
14
GRAPH DATABASE
Fraud Detection for Graph analytic
16
https://neo4j.com/whitepapers/fraud-detection-graph-databases/?ref=blog
Insurance Fraud
17
https://neo4j.com/whitepapers/fraud-detection-graph-databases/?ref=blog
Fraud Prevention Approach
18
Type Of Anomaly
Anomalies can be broadly categorized as
20
1. Point Anomalies
2. Contextual Anomalies
3. Collective Anomalies
If an individual data instance can be considered as
anomalous with respect to the rest of data, then the instance is
termed as a point anomaly.
Chandola, V., Banerjee, A. & Kumar, V., 2009. Anomaly Detection: A Survey. ACM Computing Surveys, July. 41(3).
Anomalies can be broadly categorized as
21
1. Point Anomalies
2. Contextual Anomalies
3. Collective Anomalies
If a data instance is anomalous in a specific context
(but not otherwise), then it is termed as a
contextual anomaly
Chandola, V., Banerjee, A. & Kumar, V., 2009. Anomaly Detection: A Survey. ACM Computing Surveys, July. 41(3).
Anomalies can be broadly categorized as
22
1. Point Anomalies
2. Contextual Anomalies
3. Collective Anomalies
Chandola, V., Banerjee, A. & Kumar, V., 2009. Anomaly Detection: A Survey. ACM Computing Surveys, July. 41(3).
If a collection of related data instances is
anomalous with respect to the entire data set, it
is termed as a collective anomaly
How to Identify Outliers in your Data
24
1. Extreme Value Analysis
2. Proximity Methods
3. Projection Methods
4. Methods Robust to Outliers
https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
How to Identify Outliers in your Data
25
1. Extreme Value Analysis
2. Proximity Methods
3. Projection Methods
4. Methods Robust to Outliers
https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
1. Focus on univariate methods
2. Visualize the data using scatterplots, histograms and box
and whisker plots and look for extreme values
3. Assume a distribution (Gaussian) and look for values more
than 2 or 3 standard deviations from the mean or 1.5 times
from the first or third quartile
4. Filter out outliers candidate from training dataset and
assess your models performance
https://en.wikipedia.org/wiki/Multivariate_normal_distribution
How to Identify Outliers in your Data
26
1. Extreme Value Analysis
2. Proximity Methods
3. Projection Methods
4. Methods Robust to Outliers
https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
How to Identify Outliers in your Data
27
1. Extreme Value Analysis
2. Proximity Methods
3. Projection Methods
4. Methods Robust to Outliers
https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
How to Identify Outliers in your Data
28
1. Extreme Value Analysis
2. Proximity Methods
3. Projection Methods
4. Methods Robust to Outliers
https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
Typology of Anomalies
29https://tunguska.home.xs4all.nl/Publications/AD_Typology.htm
Anomaly based IDS using Backpropagation Neural Network
https://pdfs.semanticscholar.org/3ac9/37cb50bad238091fba6d1076a78136fe8691.pdf
• Vrushali D. Mane ME (Electronics) JNEC, Aurangabad
• S.N. Pawar Associate Professor JNEC, Aurangabad
• Neural Network detect 98% accuracy
Anomaly Detection for Timeseries
Recurrent neural network (RNN)
Recurrent neural network (GRU)
n=24
Recurrent neural network (GRU)
Historical
Historical
DB-Scan
Historical with DB-Scan
https://en.wikipedia.org/wiki/DBSCAN https://www.mathworks.com/matlabcentral/fileexchange/53842-dbscan
Historical with DB-Scan
RNN with DB-Scan
Historical with DB-Scan
Time Shift Detection
Create new graph with shift to 1 step
Zoom your graph and shift first 3 step
Zoom your graph and shift first 3 step
Zoom your graph and shift first 3 step
Zoom your graph and shift first 3 step
Cosine Similarity
https://www.softnix.co.th/2019/05/29/similarity-%E0%B8%84%E0%B8%A7%E0%B8%B2%E0%B8%A1%E0%B9%80%E0%B8%AB%E0
Rotate graph next 3 step and compare with cosine similarity
Remark when value lower than threshold
Compare with anomaly detection (left) and correlation values (right)
Pros & Cons
Time shift Detection DB-Scan
Work well on slope data like
temperature
Like Time shift compare
Not work on many spikes data Must defined eps and min_samples
Anomaly Detection Technique
Thank you

More Related Content

Anomaly Detection Technique

Editor's Notes

  1. ในการทำเหมืองข้อมูลการตรวจจับความผิดปกติคือการระบุรายการกิจกรรมหรือข้อสังเกตที่หายากซึ่งก่อให้เกิดความสงสัยโดยมีความหมายแตกต่างจากข้อมูลส่วนใหญ่
  2. ในการทำเหมืองข้อมูลการตรวจจับความผิดปกติคือการระบุรายการกิจกรรมหรือข้อสังเกตที่หายากซึ่งก่อให้เกิดความสงสัยโดยมีความหมายแตกต่างจากข้อมูลส่วนใหญ่
  3. ในการทำเหมืองข้อมูลการตรวจจับความผิดปกติคือการระบุรายการกิจกรรมหรือข้อสังเกตที่หายากซึ่งก่อให้เกิดความสงสัยโดยมีความหมายแตกต่างจากข้อมูลส่วนใหญ่
  4. ติดตามปัญหาที่มีความรุนแรงสูงอย่างต่อเนื่องเพื่อไม่ให้เกิดปัญหาอีก โดย วิเคราะห์ root cause ปัญหาที่ it opt มีโอกาสผิดพลาดได้
  5. Point Anomalies ค่าที่ต่างจากค่าส่วนใหญ่ ใช้ Distribution หาได้ Contextual Anomalies ดูตาม Pattern หรือตามบริบท เช่น ตามห้างสรรพสินค้าทุกวันเสาร์อาทิตย์จะมีรายได้มากกว่าวันปรกติแต่หาก เกิดรายได้น้อย แสดงว่าผิดปรกติ เป็นค้น Data ที่พบก็เป็น Time Series เป็นค้น Collective Anomalies คือ Anomaly ที่ต้องใช้ปัจจัยหลายๆอย่างมาวิเคราะห์ร่วม (Collection) เช่นต้องการหาคนที่พยายาม copy ข้อมูลจากเครื่องหนึ่งไปยังเครื่องปลายทาง
  6. Point Anomalies ค่าที่ต่างจากค่าส่วนใหญ่ ใช้ Distribution หาได้ Contextual Anomalies ดูตาม Pattern หรือตามบริบท เช่น ตามห้างสรรพสินค้าทุกวันเสาร์อาทิตย์จะมีรายได้มากกว่าวันปรกติแต่หาก เกิดรายได้น้อย แสดงว่าผิดปรกติ เป็นค้น Data ที่พบก็เป็น Time Series เป็นค้น Collective Anomalies คือ Anomaly ที่ต้องใช้ปัจจัยหลายๆอย่างมาวิเคราะห์ร่วม (Collection) เช่นต้องการหาคนที่พยายาม copy ข้อมูลจากเครื่องหนึ่งไปยังเครื่องปลายทาง
  7. Point Anomalies ค่าที่ต่างจากค่าส่วนใหญ่ ใช้ Distribution หาได้ Contextual Anomalies ดูตาม Pattern หรือตามบริบท เช่น ตามห้างสรรพสินค้าทุกวันเสาร์อาทิตย์จะมีรายได้มากกว่าวันปรกติแต่หาก เกิดรายได้น้อย แสดงว่าผิดปรกติ เป็นค้น Data ที่พบก็เป็น Time Series เป็นค้น Collective Anomalies คือ Anomaly ที่ต้องใช้ปัจจัยหลายๆอย่างมาวิเคราะห์ร่วม (Collection) เช่นต้องการหาคนที่พยายาม copy ข้อมูลจากเครื่องหนึ่งไปยังเครื่องปลายทาง
  8. Supervised Deep Anomaly Detection การหาสินค้าที่ขายได้ยากหรือขายไม่ได้เลย , ชื่อยาที่ถูกสั่งห้าม , หาการโกงจากข้อมูล Transaction (Fraudulent)
  9. Type I - Extreme value anomaly: A case with an extremely high, low or otherwise rare value for one or multiple individual numerical attributes. A case can be an anomaly with respect to one individual variable, so Type I anomalies do not depend on relationships between attributes. Such a case has one or more values that can be considered extreme or rare when the entire dataset is taken into account. Traditional univariate statistics typically considers this type of outlier, e.g. by using a measure of central tendency plus or minus 3 times the standard deviation or the median absolute deviation. Type II - Rare class anomaly: A case with an uncommon class value for one or multiple categorical variables. A case can be an anomaly with respect to one individual attribute, so Type II anomalies do not depend on relationships between attributes. Type III - Simple mixed data anomaly: A case that is both a Type I and Type II anomaly, i.e. with at least one extreme value and one rare class. This anomaly type deviates with regard to multiple data types. This requires deviant values for at least two attributes, each anomalous in its own right. These can thus be analyzed separately; analyzing the attributes jointly is not necessary because the case is not anomalous in terms of a combination of values. Type IV - Multidimensional numerical anomaly: A case that does not conform to the general patterns when the relationship between multiple continuous attributes is taken into account, but which does not have extreme values for any of the individual attributes that partake in this relationship. The anomalous nature of a case of this type lies in the deviant or rare combination of its continuous attribute values, and as such hides in multidimensionality. It therefore requires several continuous attributes to be analyzed jointly to detect this type. Type V - Multidimensional rare class anomaly: A case with a rare combination of class values. In datasets with independent data points a minimum of two substantive categorical attributes needs to be analyzed jointly to discover a multidimensional rare class anomaly. An example is this curious combination of values from three attributes used to describe dogs: 'MALE', 'PUPPY' and 'PREGNANT'. Type VI - Multidimensional mixed data anomaly: A case with a deviant relationship between its continuous and categorical attributes. The anomalous case generally has a categorical value or a combination of categorical values that in itself is not rare in the dataset as a whole, but is only rare in its neighborhood (numerical area) or local pattern. As with Type IV and V anomalies, such cases hide in multidimensionality and multiple attributes need thus to be jointly taken into account to identify them. In fact, multiple datatypes need to be used, as a Type VI anomaly per definition requires both numerical and categorical data.