0% found this document useful (0 votes)

19 views

Code

The document discusses building a machine learning model to classify SMS messages as spam or ham. It covers data cleaning, exploratory data analysis, text preprocessing, feature extraction, training various classifiers and evaluating their performance, and deploying the best model as a web application.

Uploaded by

Keerti Gulati

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views

Code

Uploaded by

Keerti Gulati

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 6

import numpy as np

import pandas as pd
df = pd.read_csv('spam.csv')
df.sample(5)
df.shape

1. Data Cleaning
df.info()
df.drop(columns=['Unnamed: 2','Unnamed: 3','Unnamed: 4'],inplace=True)
df.rename(columns={'v1':'target','v2':'text'},inplace=True)
df.sample(5)
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
df['target'] = encoder.fit_transform(df['target'])
df.isnull().sum()
df.duplicated().sum()
df = df.drop_duplicates(keep='first')
df.duplicated().sum()
df.shape

2. EDA
import matplotlib.pyplot as plt
plt.pie(df['target'].value_counts(), labels=['ham','spam'],autopct="%0.2f")
plt.show()
import nltk
df['num_characters'] = df['text'].apply(len)
df['num_words'] = df['text'].apply(lambda x:len(nltk.word_tokenize(x)))
df['num_sentences'] = df['text'].apply(lambda x:len(nltk.sent_tokenize(x)))
df[['num_characters','num_words','num_sentences']].describe()
df[df['target'] == 0][['num_characters','num_words','num_sentences']].describe()
df[df['target'] == 1][['num_characters','num_words','num_sentences']].describe()
import seaborn as sns
plt.figure(figsize=(12,6))
sns.histplot(df[df['target'] == 0]['num_characters'])
sns.histplot(df[df['target'] == 1]['num_characters'],color='red')
plt.figure(figsize=(12,6))
sns.histplot(df[df['target'] == 0]['num_characters'])
sns.histplot(df[df['target'] == 1]['num_characters'],color='red')
sns.pairplot(df,hue='target')
sns.heatmap(df.corr(),annot=True)

3. Data Pre-processing
-Lower case
- Tokenization
- Removing special characters
- Removing stop words and punctuation
- Stemming
def transform_text(text):
text = text.lower()
text = nltk.word_tokenize(text)

y = []
for i in text:
if i.isalnum():
y.append(i)

text = y[:]
y.clear()
for i in text:
if i not in stopwords.words('english') and i not in string.punctuation:
y.append(i)

text = y[:]
y.clear()

for i in text:
y.append(ps.stem(i))

return " ".join(y)

from nltk.stem.porter import PorterStemmer

ps = PorterStemmer()
df['transformed_text'] = df['text'].apply(transform_text)
from wordcloud import WordCloud
wc = WordCloud(width=500,height=500,min_font_size=10,background_color='white')
spam_wc = wc.generate(df[df['target'] == 1]['transformed_text'].str.cat(sep=" "))
plt.figure(figsize=(15,6))
plt.imshow(spam_wc)
ham_wc = wc.generate(df[df['target'] == 0]['transformed_text'].str.cat(sep=" "))
plt.figure(figsize=(15,6))
plt.imshow(ham_wc)
spam_corpus = []
for msg in df[df['target'] == 1]['transformed_text'].tolist():
for word in msg.split():
spam_corpus.append(word)
from collections import Counter
sns.barplot(pd.DataFrame(Counter(spam_corpus).most_common(30))
[0],pd.DataFrame(Counter(spam_corpus).most_common(30))[1])
plt.xticks(rotation='vertical')
plt.show()
ham_corpus = []
for msg in df[df['target'] == 0]['transformed_text'].tolist():
for word in msg.split():
ham_corpus.append(word)
from collections import Counter
sns.barplot(pd.DataFrame(Counter(ham_corpus).most_common(30))
[0],pd.DataFrame(Counter(ham_corpus).most_common(30))[1])
plt.xticks(rotation='vertical')
plt.show()
df.head()

X----------------------------------------------------------------------------------
---------------------------------------------------X

4.Model Building
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
cv = CountVectorizer()
tfidf = TfidfVectorizer(max_features=3000)
X = tfidf.fit_transform(df['transformed_text']).toarray()
y = df['target'].values
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=2)

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from sklearn.metrics import accuracy_score,confusion_matrix,precision_score
gnb = GaussianNB()
mnb = MultinomialNB()
bnb = BernoulliNB()
gnb.fit(X_train,y_train)
y_pred1 = gnb.predict(X_test)
print(accuracy_score(y_test,y_pred1))
print(confusion_matrix(y_test,y_pred1))
print(precision_score(y_test,y_pred1))
mnb.fit(X_train,y_train) <------------->
y_pred2 = mnb.predict(X_test)
print(accuracy_score(y_test,y_pred2))
print(confusion_matrix(y_test,y_pred2))
print(precision_score(y_test,y_pred2))
bnb.fit(X_train,y_train)
y_pred3 = bnb.predict(X_test)
print(accuracy_score(y_test,y_pred3))
print(confusion_matrix(y_test,y_pred3))
print(precision_score(y_test,y_pred3))

from sklearn.linear_model import LogisticRegression

from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import BaggingClassifier

svc = SVC(kernel='sigmoid', gamma=1.0)

knc = KNeighborsClassifier()
mnb = MultinomialNB()
dtc = DecisionTreeClassifier(max_depth=5)
lrc = LogisticRegression(solver='liblinear', penalty='l1')
rfc = RandomForestClassifier(n_estimators=50, random_state=2)
abc = AdaBoostClassifier(n_estimators=50, random_state=2)
bc = BaggingClassifier(n_estimators=50, random_state=2)

clfs = {
'SVC' : svc,
'KN' : knc,
'NB': mnb,
'DT': dtc,
'LR': lrc,
'RF': rfc,
'AdaBoost': abc,
'BgC': bc,
}

def train_classifier(clf,X_train,y_train,X_test,y_test):
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test,y_pred)
precision = precision_score(y_test,y_pred)

return accuracy,precision
accuracy_scores = []
precision_scores = []

for name,clf in clfs.items():

current_accuracy,current_precision = train_classifier(clf,
X_train,y_train,X_test,y_test)

print("For ",name)
print("Accuracy - ",current_accuracy)
print("Precision - ",current_precision)

accuracy_scores.append(current_accuracy)
precision_scores.append(current_precision)
performance_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy':accuracy_scores,'Precision':precis
ion_scores}).sort_values('Precision',ascending=False)

performance_df1 = pd.melt(performance_df, id_vars = "Algorithm")

# 1. Change the max_features parameter of TfIdf

<----------------------------------------->
temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_max_ft_3000':accuracy_scores,'Preci
sion_max_ft_3000':precision_scores}).sort_values('Precision_max_ft_3000',ascending=
False)
temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_scaling':accuracy_scores,'Precision
_scaling':precision_scores}).sort_values('Precision_scaling',ascending=False)
new_df = performance_df.merge(temp_df,on='Algorithm')
new_df_scaled = new_df.merge(temp_df,on='Algorithm')
temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_num_chars':accuracy_scores,'Precisi
on_num_chars':precision_scores}).sort_values('Precision_num_chars',ascending=False)
new_df_scaled.merge(temp_df,on='Algorithm')

# Applying stacking
estimators=[('svm', svc), ('nb', mnb), ('et', etc)]
final_estimator=RandomForestClassifier()
from sklearn.ensemble import StackingClassifier
clf = StackingClassifier(estimators=estimators, final_estimator=final_estimator)
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print("Accuracy",accuracy_score(y_test,y_pred))
print("Precision",precision_score(y_test,y_pred))
import pickle
pickle.dump(tfidf,open('vectorizer.pkl','wb'))
pickle.dump(mnb,open('model.pkl','wb'))

X----------------------------------------------------------------------------------
------------------------------------------------------X

Website:
import streamlit as st
import pickle
import string
from nltk.corpus import stopwords
import nltk
from nltk.stem.porter import PorterStemmer

ps = PorterStemmer()
def transform_text(text):
text = text.lower()
text = nltk.word_tokenize(text)

y = []
for i in text:
if i.isalnum():
y.append(i)

text = y[:]
y.clear()

for i in text:
if i not in stopwords.words('english') and i not in string.punctuation:
y.append(i)

text = y[:]
y.clear()

for i in text:
y.append(ps.stem(i))

return " ".join(y)

tfidf = pickle.load(open('vectorizer.pkl','rb'))
model = pickle.load(open('model.pkl','rb'))

st.title("Email/SMS Spam Classifier")

input_sms = st.text_area("Enter the message")

if st.button('Predict'):

# 1. preprocess
transformed_sms = transform_text(input_sms)
# 2. vectorize
vector_input = tfidf.transform([transformed_sms])
# 3. predict
result = model.predict(vector_input)[0]
# 4. Display
if result == 1:
st.header("Spam")
else:
st.header("Not Spam")

29-36

Unstructtured Data Classification Fresco
100% (1)
Unstructtured Data Classification Fresco
4 pages
Basic Concept of Purchase Account Management
100% (1)
Basic Concept of Purchase Account Management
3 pages
Sharp Delta Dps-126cp-1 A Runtka685wjqz Psu SCH PCB
100% (3)
Sharp Delta Dps-126cp-1 A Runtka685wjqz Psu SCH PCB
4 pages
Python CA 4
No ratings yet
Python CA 4
9 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
Email spam detection
No ratings yet
Email spam detection
3 pages
Spam Detection Using Tensorflow
No ratings yet
Spam Detection Using Tensorflow
13 pages
AI Phash3
No ratings yet
AI Phash3
11 pages
Artificial Intelligence (18Csc305J) Lab: EXPERIMENT 13: Implementation of NLP Problem
No ratings yet
Artificial Intelligence (18Csc305J) Lab: EXPERIMENT 13: Implementation of NLP Problem
9 pages
IR 4 E-Mail Spam Filtering Spam - Dataset
No ratings yet
IR 4 E-Mail Spam Filtering Spam - Dataset
2 pages
Report On - Social Media Research Topic Modeling
No ratings yet
Report On - Social Media Research Topic Modeling
26 pages
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
Machine Learning Code Explanation
No ratings yet
Machine Learning Code Explanation
33 pages
Aped For Fake News
No ratings yet
Aped For Fake News
6 pages
Lab 78
No ratings yet
Lab 78
6 pages
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
No ratings yet
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
8 pages
Exp-9 - Jupyter Notebook
No ratings yet
Exp-9 - Jupyter Notebook
2 pages
Arnav MLlab04
No ratings yet
Arnav MLlab04
7 pages
Machine Learning Learning With Email Spam Detection
No ratings yet
Machine Learning Learning With Email Spam Detection
5 pages
Email Spam Classifier Phase1
No ratings yet
Email Spam Classifier Phase1
4 pages
Microproject Report
No ratings yet
Microproject Report
23 pages
AI Phash 5
No ratings yet
AI Phash 5
14 pages
7 Aiml
No ratings yet
7 Aiml
4 pages
Spam Detection
No ratings yet
Spam Detection
10 pages
ML Week10.1
No ratings yet
ML Week10.1
5 pages
cyberbullying code
No ratings yet
cyberbullying code
6 pages
pr10_fam
No ratings yet
pr10_fam
3 pages
CS 471 HW 3 - Spam Detection
No ratings yet
CS 471 HW 3 - Spam Detection
6 pages
Sample
No ratings yet
Sample
6 pages
SMA EXP 10 CODE PRINT
No ratings yet
SMA EXP 10 CODE PRINT
7 pages
Manual
No ratings yet
Manual
48 pages
implemention of sms spam filtering
No ratings yet
implemention of sms spam filtering
27 pages
Information Retrival
No ratings yet
Information Retrival
43 pages
Fake News Classifier
No ratings yet
Fake News Classifier
5 pages
spamdetection
No ratings yet
spamdetection
6 pages
code text
No ratings yet
code text
4 pages
A Comprehensive Guide To Understand and Implement Text Classification in Python
No ratings yet
A Comprehensive Guide To Understand and Implement Text Classification in Python
34 pages
FAM PR-10
No ratings yet
FAM PR-10
4 pages
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
No ratings yet
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
25 pages
Spam Detection Model
No ratings yet
Spam Detection Model
4 pages
DWDM_pavan_final[1]
No ratings yet
DWDM_pavan_final[1]
10 pages
NLP Tushar
No ratings yet
NLP Tushar
21 pages
AI PROJECT FILE
No ratings yet
AI PROJECT FILE
11 pages
Cv prince
No ratings yet
Cv prince
120 pages
notebook - text classification
No ratings yet
notebook - text classification
7 pages
AI Lab - Manual - 136
No ratings yet
AI Lab - Manual - 136
17 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
02 - Email - Spam - Ipynb - Colab
No ratings yet
02 - Email - Spam - Ipynb - Colab
11 pages
IRT Lab Programs
No ratings yet
IRT Lab Programs
9 pages
ML Assignment 4
No ratings yet
ML Assignment 4
10 pages
Lab Report 8
No ratings yet
Lab Report 8
11 pages
ASTW RA03 PracticalManual
No ratings yet
ASTW RA03 PracticalManual
18 pages
Spam Filter Project Report logistic regression
No ratings yet
Spam Filter Project Report logistic regression
10 pages
Ie ML Project (Getting Started)
No ratings yet
Ie ML Project (Getting Started)
3 pages
Blue Doodle Project Presentation
No ratings yet
Blue Doodle Project Presentation
15 pages
Pricing Mercari
No ratings yet
Pricing Mercari
41 pages
Ir Practical Manual 2
No ratings yet
Ir Practical Manual 2
24 pages
Lab5 Example Fall 23
No ratings yet
Lab5 Example Fall 23
4 pages
Python Assignment 3
No ratings yet
Python Assignment 3
3 pages
WDM - Week - I
No ratings yet
WDM - Week - I
24 pages
Introduction To ICT
No ratings yet
Introduction To ICT
37 pages
Session 11 The Dark Side of Entrepreneurship
No ratings yet
Session 11 The Dark Side of Entrepreneurship
7 pages
Don Salvador Araneta Reporting
No ratings yet
Don Salvador Araneta Reporting
12 pages
Lemke Probe
No ratings yet
Lemke Probe
6 pages
WSB 203
No ratings yet
WSB 203
2 pages
Q3 English 3 Week 2
No ratings yet
Q3 English 3 Week 2
4 pages
CMCA/M-21 Compiler Design: Paper-MCA-20-24 Option - (Iii)
No ratings yet
CMCA/M-21 Compiler Design: Paper-MCA-20-24 Option - (Iii)
2 pages
Distinct Responses of The Low Latitude Ionosphere To CME and HSSWS The Role of The IMF BZ Oscillation Frequency
No ratings yet
Distinct Responses of The Low Latitude Ionosphere To CME and HSSWS The Role of The IMF BZ Oscillation Frequency
21 pages
ARCHITECTURE THESIS PROJECT
No ratings yet
ARCHITECTURE THESIS PROJECT
7 pages
VBSL - Comments Plan & Profile
No ratings yet
VBSL - Comments Plan & Profile
2 pages
Identity Transformation
No ratings yet
Identity Transformation
13 pages
Data From Barker and Diz, 2014, Timing of The Descent Into The Last Ice Age Determined by The Bipolar Seesaw Other Datasets From
No ratings yet
Data From Barker and Diz, 2014, Timing of The Descent Into The Last Ice Age Determined by The Bipolar Seesaw Other Datasets From
208 pages
Transport X
No ratings yet
Transport X
26 pages
Practice Paper - Ix
No ratings yet
Practice Paper - Ix
6 pages
Chem-P1 Unit5 Lab1-Analysis of Hydrates Lab
No ratings yet
Chem-P1 Unit5 Lab1-Analysis of Hydrates Lab
14 pages
NBDB Filipino Book Readership, Reading Attitudes and Reading Preferences
100% (1)
NBDB Filipino Book Readership, Reading Attitudes and Reading Preferences
2 pages
Astm A 967 - 01 - Chemical Passivation Stainless Steel PDF
No ratings yet
Astm A 967 - 01 - Chemical Passivation Stainless Steel PDF
7 pages
Summer Internship Project Report 1
No ratings yet
Summer Internship Project Report 1
113 pages
Final Presentation Fyp
No ratings yet
Final Presentation Fyp
14 pages
History Assignment
No ratings yet
History Assignment
12 pages
Unit 4 Part 1 & Part 2
No ratings yet
Unit 4 Part 1 & Part 2
53 pages
The Wheel of Time
0% (2)
The Wheel of Time
69 pages
Fire Pump Spare List
No ratings yet
Fire Pump Spare List
6 pages
Computer Networks
No ratings yet
Computer Networks
4 pages
Placements and Training Department: "HCL, TCS, Wipro
No ratings yet
Placements and Training Department: "HCL, TCS, Wipro
5 pages
SSC JE Study Materials Civil ESTIMATING COSTING and VALUATION
100% (1)
SSC JE Study Materials Civil ESTIMATING COSTING and VALUATION
20 pages
PDF TG - English 10 - Unit 16 - Lesson 1 - The Purposes and Audience of Speeches For Formal Gatherings
No ratings yet
PDF TG - English 10 - Unit 16 - Lesson 1 - The Purposes and Audience of Speeches For Formal Gatherings
11 pages
Effective Instructional Strategies in Multi Grade Classroom MIDTERM 1
No ratings yet
Effective Instructional Strategies in Multi Grade Classroom MIDTERM 1
22 pages