0% found this document useful (0 votes)

17 views

Python CA 4

This document summarizes a student's Python project on SMS spam detection. The student loads and cleans a SMS text dataset, applies natural language processing techniques like tokenization and stemming, then builds and compares various classification models including Naive Bayes, Logistic Regression, Random Forest and XGBoost. The best performing models are then ensemble using voting and stacking classifiers to further improve accuracy and precision of spam detection. The models are saved using pickle for future use.

Uploaded by

subham patra

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views

Python CA 4

Uploaded by

subham patra

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Python CA 4

Name : Subham Patra

REG NO : 12215814

# SMS SPAM DETECTION

import numpy as np

import pandas as pd

import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('spam.csv',encoding='latin1')

df.sample(5)

df.shape

## Data Cleaning

df.info()

# drop last 3 columns

df.drop(columns=['Unnamed: 2','Unnamed: 3','Unnamed: 4'],inplace=True)

# rename columns

df.rename(columns={'v1':'target','v2':'text'},inplace=True)

df.head()

# change target into binary

from sklearn.preprocessing import LabelEncoder as LE

encoder=LE()

df['target']=encoder.fit_transform(df['target'])

df.head()

# null values

df.isnull().sum()
#check duplicates

df.duplicated().sum()

#drop duplicates

df=df.drop_duplicates(keep='first')

df.duplicated().sum()

df.shape

# EDA

df['target'].value_counts()

import matplotlib.pyplot as plt

plt.pie(df['target'].value_counts(),labels=['ham','spam'],autopct="%0.2f")

plt.show()

#making new columns(no. of chars,words and sentences) for better analyzing

import nltk

!pip install nltk

nltk.download('punkt')

df['num_chars']=df['text'].apply(len)

df.sample(3)

#num of words

df['num_words']=df['text'].apply(lambda x:len(nltk.word_tokenize(x)))

df['num_sentences']=df['text'].apply(lambda x:len(nltk.sent_tokenize(x)))

df.head()

df[['num_chars','num_words','num_sentences']].describe()

#hams

df[df['target']==0][['num_chars','num_words','num_sentences']].describe()

#spams

df[df['target']==1][['num_chars','num_words','num_sentences']].describe()

import seaborn as sns

sns.histplot(df[df['target']==0]['num_chars'])

sns.histplot(df[df['target']==1]['num_chars'],color='red')

sns.histplot(df[df['target']==0]['num_words'])
sns.histplot(df[df['target']==1]['num_words'],color='red')

sns.pairplot(df,hue='target')

sns.heatmap(df.corr(),annot=True)

# Data Preprocessing

### Lower case

### Tokenization

### Removing special characters

### Removing stop words and punctuation

### Stemming

import nltk

from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords=stopwords.words('english')

import string

puncs=string.punctuation

from nltk.stem.porter import PorterStemmer

ps=PorterStemmer()

def transform_text(text):

text=text.lower()

text=nltk.word_tokenize(text)

y=[]

for i in text:

if i.isalnum():

y.append(i)

text=y[:]

y.clear()

for i in text:
if i not in stopwords+list(puncs):

y.append(i)

text=y[:]

y.clear()

for i in text:

y.append(ps.stem(i))

return " ".join(y)

df['transformed_text']=df['text'].apply(transform_text)

df.sample(5)

# !pip install wordcloud

from wordcloud import WordCloud

wc=WordCloud(width=500,height=500,min_font_size=10,background_color='white')

spam_wc=wc.generate(df[df['target']==1]['transformed_text'].str.cat(sep=" "))

# plt.figure(figsize=(15,6))

plt.imshow(spam_wc)

ham_wc=wc.generate(df[df['target']==0]['transformed_text'].str.cat(sep=" "))

# plt.figure(figsize=(15,6))

plt.imshow(ham_wc)

spam_words=[]

for msg in df[df['target']==1]['transformed_text'].tolist():

for word in msg.split():

spam_words.append(word)

len(spam_words)

from collections import Counter

plt.bar(pd.DataFrame(Counter(spam_words).most_common(30))[0],pd.DataFrame(Counter(spam_w
ords).most_common(30))[1])

plt.xticks(rotation='vertical')

plt.show()
ham_words=[]

for msg in df[df['target']==0]['transformed_text'].tolist():

for word in msg.split():

ham_words.append(word)

len(ham_words)

from collections import Counter

plt.bar(pd.DataFrame(Counter(ham_words).most_common(30))[0],pd.DataFrame(Counter(ham_wor
ds).most_common(30))[1])

plt.xticks(rotation='vertical')

plt.show()

# MODEL BUILDING->naive bayes start

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

cv = CountVectorizer()

tfidf = TfidfVectorizer(max_features=3000)

X = tfidf.fit_transform(df['transformed_text']).toarray()

X.shape

y = df['target'].values

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=2)

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from sklearn.metrics import accuracy_score,confusion_matrix,precision_score

gnb = GaussianNB()

mnb = MultinomialNB()

bnb = BernoulliNB()

gnb.fit(X_train,y_train)
y_pred1 = gnb.predict(X_test)

print(accuracy_score(y_test,y_pred1))

print(confusion_matrix(y_test,y_pred1))

print(precision_score(y_test,y_pred1))

mnb.fit(X_train,y_train)

y_pred2 = mnb.predict(X_test)

print(accuracy_score(y_test,y_pred2))

print(confusion_matrix(y_test,y_pred2))

print(precision_score(y_test,y_pred2))

bnb.fit(X_train,y_train)

y_pred3 = bnb.predict(X_test)

print(accuracy_score(y_test,y_pred3))

print(confusion_matrix(y_test,y_pred3))

print(precision_score(y_test,y_pred3))

from sklearn.linear_model import LogisticRegression

from sklearn.svm import SVC

from sklearn.naive_bayes import MultinomialNB

from sklearn.tree import DecisionTreeClassifier

from sklearn.neighbors import KNeighborsClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import AdaBoostClassifier

from sklearn.ensemble import BaggingClassifier

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.ensemble import GradientBoostingClassifier

!pip install xgboost

from xgboost import XGBClassifier

svc = SVC(kernel='sigmoid', gamma=1.0)

knc = KNeighborsClassifier()

mnb = MultinomialNB()

dtc = DecisionTreeClassifier(max_depth=5)
lrc = LogisticRegression(solver='liblinear', penalty='l1')

rfc = RandomForestClassifier(n_estimators=50, random_state=2)

abc = AdaBoostClassifier(n_estimators=50, random_state=2)

bc = BaggingClassifier(n_estimators=50, random_state=2)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

gbdt = GradientBoostingClassifier(n_estimators=50,random_state=2)

xgb = XGBClassifier(n_estimators=50,random_state=2)

def train_classifier(clf,X_train,y_train,X_test,y_test):

clf.fit(X_train,y_train)

y_pred = clf.predict(X_test)

accuracy = accuracy_score(y_test,y_pred)

precision = precision_score(y_test,y_pred)

return accuracy,precision

train_classifier(svc,X_train,y_train,X_test,y_test)

clfs = {

'SVC' : svc,

'KN' : knc,

'NB': mnb,

'DT': dtc,

'LR': lrc,

'RF': rfc,

'AdaBoost': abc,

'BgC': bc,

'ETC': etc,

'GBDT':gbdt,

'xgb':xgb

# accuracy_scores = []

# precision_scores = []
# for name,clf in clfs.items():

# current_accuracy,current_precision = train_classifier(clf, X_train,y_train,X_test,y_test)

# print("For ",name)

# print("Accuracy - ",current_accuracy)

# print("Precision - ",current_precision)

# accuracy_scores.append(current_accuracy)

# precision_scores.append(current_precision)

# performance_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy':accuracy_scores,'Precision':precision_scores}).sort_
values('Precision',ascending=False)

# performance_df

# performance_df1 = pd.melt(performance_df, id_vars = "Algorithm")

# performance_df1

# sns.catplot(x = 'Algorithm', y='value', hue = 'variable',data=performance_df1, kind='bar',height=5)

# plt.ylim(0.5,1.0)

# plt.xticks(rotation='vertical')

# plt.show()

# model improve

# 1. Change the max_features parameter of TfIdf

temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_max_ft_3000':accuracy_scores,'Precision_max_ft_3
000':precision_scores}).sort_values('Precision_max_ft_3000',ascending=False)

temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_scaling':accuracy_scores,'Precision_scaling':precisio
n_scores}).sort_values('Precision_scaling',ascending=False)

new_df = performance_df.merge(temp_df,on='Algorithm')

new_df_scaled = new_df.merge(temp_df,on='Algorithm')
temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_num_chars':accuracy_scores,'Precision_num_chars':
precision_scores}).sort_values('Precision_num_chars',ascending=False)

# new_df_scaled.merge(temp_df,on='Algorithm')

# Voting Classifier

svc = SVC(kernel='sigmoid', gamma=1.0,probability=True)

mnb = MultinomialNB()

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

from sklearn.ensemble import VotingClassifier

voting = VotingClassifier(estimators=[('svm', svc), ('nb', mnb), ('et', etc)],voting='soft')

voting.fit(X_train,y_train)

y_pred = voting.predict(X_test)

print("Accuracy",accuracy_score(y_test,y_pred))

print("Precision",precision_score(y_test,y_pred))

# Applying stacking

estimators=[('svm', svc), ('nb', mnb), ('et', etc)]

final_estimator=RandomForestClassifier()

# from sklearn.ensemble import StackingClassifier

# clf = StackingClassifier(estimators=estimators, final_estimator=final_estimator)

# clf.fit(X_train,y_train)

# y_pred = clf.predict(X_test)

# print("Accuracy",accuracy_score(y_test,y_pred))

# print("Precision",precision_score(y_test,y_pred))

import pickle

pickle.dump(tfidf,open('vectorizer.pkl','wb'))

pickle.dump(mnb,open('model.pkl','wb'))

Mercedes-Benz Greener Manufacturing Ai
0% (1)
Mercedes-Benz Greener Manufacturing Ai
16 pages
Oracle Licensing Contracts Part2
No ratings yet
Oracle Licensing Contracts Part2
69 pages
Code
No ratings yet
Code
6 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
Email spam detection
No ratings yet
Email spam detection
3 pages
ML Week10.1
No ratings yet
ML Week10.1
5 pages
cyberbullying code
No ratings yet
cyberbullying code
6 pages
Machine Learning Code Explanation
No ratings yet
Machine Learning Code Explanation
33 pages
Report On - Social Media Research Topic Modeling
No ratings yet
Report On - Social Media Research Topic Modeling
26 pages
Manual
No ratings yet
Manual
48 pages
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
No ratings yet
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
25 pages
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
No ratings yet
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
8 pages
SMA EXP 10 CODE PRINT
No ratings yet
SMA EXP 10 CODE PRINT
7 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
Random Forest
No ratings yet
Random Forest
5 pages
Lab Report 8
No ratings yet
Lab Report 8
11 pages
Aped For Fake News
No ratings yet
Aped For Fake News
6 pages
7 Aiml
No ratings yet
7 Aiml
4 pages
implemention of sms spam filtering
No ratings yet
implemention of sms spam filtering
27 pages
AI PROJECT FILE
No ratings yet
AI PROJECT FILE
11 pages
Apply Logistic Regression To Amazon Reviews Data Set (M)
No ratings yet
Apply Logistic Regression To Amazon Reviews Data Set (M)
11 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
Lab 78
No ratings yet
Lab 78
6 pages
17 - Source Code - nlp-2-5
No ratings yet
17 - Source Code - nlp-2-5
4 pages
Naive Bayes Classification
No ratings yet
Naive Bayes Classification
8 pages
Sample
No ratings yet
Sample
6 pages
Spam Detection Using Tensorflow
No ratings yet
Spam Detection Using Tensorflow
13 pages
data preprocessing
No ratings yet
data preprocessing
9 pages
Email Spam Classifier Phase1
No ratings yet
Email Spam Classifier Phase1
4 pages
hatespeech_code_ipynb
No ratings yet
hatespeech_code_ipynb
31 pages
Fake News Classifier
No ratings yet
Fake News Classifier
5 pages
Information Retrival
No ratings yet
Information Retrival
43 pages
Machine Learning Lab (17CSL76)
No ratings yet
Machine Learning Lab (17CSL76)
48 pages
School of Engineering: Lab Manual On Machine Learning Lab
No ratings yet
School of Engineering: Lab Manual On Machine Learning Lab
23 pages
Sentimental
No ratings yet
Sentimental
11 pages
Lab5 Example Fall 23
No ratings yet
Lab5 Example Fall 23
4 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
ML Lab Manual PDF
No ratings yet
ML Lab Manual PDF
9 pages
code text
No ratings yet
code text
4 pages
ML_lab_programs
No ratings yet
ML_lab_programs
8 pages
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
Untitled 10
No ratings yet
Untitled 10
6 pages
Fall Semester 2020-21 AI With Python ECE-4031
No ratings yet
Fall Semester 2020-21 AI With Python ECE-4031
5 pages
Ml-Exp-2 - Jupyter Notebook
No ratings yet
Ml-Exp-2 - Jupyter Notebook
2 pages
ML Lab Prgms Split
No ratings yet
ML Lab Prgms Split
3 pages
Ir Practical Manual 2
No ratings yet
Ir Practical Manual 2
24 pages
Pricing Mercari
No ratings yet
Pricing Mercari
41 pages
Sentence Embedding Code
No ratings yet
Sentence Embedding Code
9 pages
Workshop - NLP - Ipynb - Colaboratory
No ratings yet
Workshop - NLP - Ipynb - Colaboratory
5 pages
8-text classification - Jupyter Notebook
No ratings yet
8-text classification - Jupyter Notebook
2 pages
Source Code
No ratings yet
Source Code
28 pages
ML Program Output
No ratings yet
ML Program Output
22 pages
NLP Tushar
No ratings yet
NLP Tushar
21 pages
FAM PR-10
No ratings yet
FAM PR-10
4 pages
Sentimental Analysis
No ratings yet
Sentimental Analysis
3 pages
AI Lab - Manual - 136
No ratings yet
AI Lab - Manual - 136
17 pages
Q 3
No ratings yet
Q 3
2 pages
ccc
No ratings yet
ccc
25 pages
Machine Learning Laboratory Manual
No ratings yet
Machine Learning Laboratory Manual
11 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
IT For Management Unit 1 Notes
No ratings yet
IT For Management Unit 1 Notes
8 pages
End To End Analytics With Microsoft Power Bi
100% (2)
End To End Analytics With Microsoft Power Bi
70 pages
ICT 1 LESSON 11
No ratings yet
ICT 1 LESSON 11
3 pages
Grade 8-Math DLL Week 5
No ratings yet
Grade 8-Math DLL Week 5
9 pages
RT Roblox Script Farm
No ratings yet
RT Roblox Script Farm
4 pages
Total Jitter Measurement at Low Probability Levels, Using Optimized BERT Scan Method
No ratings yet
Total Jitter Measurement at Low Probability Levels, Using Optimized BERT Scan Method
18 pages
1comparison of Two Science Mapping Tools Based On Software Technical Evaluation and Bibliometric Case Studies
No ratings yet
1comparison of Two Science Mapping Tools Based On Software Technical Evaluation and Bibliometric Case Studies
33 pages
DX Diagvv
No ratings yet
DX Diagvv
32 pages
05 Navis5100
No ratings yet
05 Navis5100
2 pages
Dell Laptop Price List-June 2024
No ratings yet
Dell Laptop Price List-June 2024
4 pages
Deriv Inverse Gift
No ratings yet
Deriv Inverse Gift
3 pages
Effects of Students' Perceptions Toward Using Logistics Software On Learning Motivation in Logistics Education
No ratings yet
Effects of Students' Perceptions Toward Using Logistics Software On Learning Motivation in Logistics Education
8 pages
TECHNICAL DRAFTING Huerto
No ratings yet
TECHNICAL DRAFTING Huerto
52 pages
Computer Organization and Assembly Language: Week 1 To 3 Dr. Muhammad Nouman Durrani
100% (1)
Computer Organization and Assembly Language: Week 1 To 3 Dr. Muhammad Nouman Durrani
68 pages
Summer Internship 2024
No ratings yet
Summer Internship 2024
2 pages
SWEC Child Safety Project Presentation2correct (3)
No ratings yet
SWEC Child Safety Project Presentation2correct (3)
7 pages
CINEO - C2060 Datasheet EN
No ratings yet
CINEO - C2060 Datasheet EN
2 pages
Cryptocurrency Codex
67% (3)
Cryptocurrency Codex
152 pages
UUCMS - ಸಮಗ್ರ ವಿಶ್ವವಿದ್ಯಾಲಯ ಮತ್ತು ಕಾಲೇಜು ನಿರ್ವಹಣಾ ವ್ಯವಸ್ಥೆ
No ratings yet
UUCMS - ಸಮಗ್ರ ವಿಶ್ವವಿದ್ಯಾಲಯ ಮತ್ತು ಕಾಲೇಜು ನಿರ್ವಹಣಾ ವ್ಯವಸ್ಥೆ
2 pages
Lightning Knowledge Guide
No ratings yet
Lightning Knowledge Guide
90 pages
GRC POST INSTALLATION - Auttomatic Workflow Customizing
No ratings yet
GRC POST INSTALLATION - Auttomatic Workflow Customizing
31 pages
PPS LAB MANUAL (Non Syllabus)
No ratings yet
PPS LAB MANUAL (Non Syllabus)
50 pages
DeltaOHM HD53LS Manual ENG
No ratings yet
DeltaOHM HD53LS Manual ENG
24 pages
Log
No ratings yet
Log
31 pages
Powder Based 3d Printer (Final)
No ratings yet
Powder Based 3d Printer (Final)
49 pages
Mitsubishi
No ratings yet
Mitsubishi
11 pages
DTF Enhanced
No ratings yet
DTF Enhanced
16 pages
Natasha Project Report Cybergyan Virtual Internship
No ratings yet
Natasha Project Report Cybergyan Virtual Internship
26 pages
Toner Deaf Hexacon 2022 Release
No ratings yet
Toner Deaf Hexacon 2022 Release
60 pages