0% found this document useful (0 votes)

8 views

Python Code Library

The document provides a comprehensive guide on data analysis and visualization using Python libraries such as Pandas, Matplotlib, and Seaborn. It covers methods for reading data from CSV files, performing exploratory data analysis, and creating various visualizations like histograms, boxplots, and scatter plots. Additionally, it includes sections on machine learning techniques such as linear regression, logistic regression, KNN, and decision trees, along with data preprocessing methods like standardization and normalization.

Uploaded by

Daniel Wu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views

Python Code Library

Uploaded by

Daniel Wu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 8

----------------------------------Coding

Library---------------------------------------------
##Import popular library for EDA/Visualization
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

#Be careful using warnigns

import warnings
warnings.filterwarnings('ignore')

##Read file/get the data (csv/excel)

-----------------------------------------------------------------------------------
-----------
Method 1: Read csv file
df = pd.read_csv('titanic_train.csv')

##Actual file path

df = pd.read_csv('D:\\For Dan\\Learning\\Udemy\\Python\\P4-Demographic-Data.csv')

##Method 2: Change Woring Directory

import os
print(os.getcwd())
-->C:\Users\wooju\Desktop\Python Programing

os.chdir('D:\\For Dan\\Learning\\Udemy\\Python')
df = pd.read_csv('P4-Demographic-Data.csv')

df.columns

##Column rename
stats.columns = ['CountryName', 'CountryCode', 'BirthRate',
'InternetUsers','IncomeGroup']

## [column name] to get the unique items within the column

df.IncomeGroup.unique()

df.info()
df.describe()
##df.describe().transpose()

##Passing the filter with more than 1 conditions ( and & or |)

df[(df.BirthRate >= 40) & (df.InternetUsers < 2)]
df[df.CountryName == 'Malta']

movies.Genre = movies.Genre.astype('category')
----------------------------------Visualization
---------------------------------------------

import seaborn as sns

sns.set_style('darkgrid')
sns.set_style('whitegrid')

plt.rcParams['figure.figsize'] = 8,4
plt.figure(figsize=(8,4))

##Histogram/Distribution
sns.set()
vis1 = sns.distplot(stats['InternetUsers'], hist_kws={"edgecolor":"Black"},
bins=20)
plt.show()

plt.hist(movies.AudienceRatings, bins = 15)

#With filter
h1 = plt.hist(movies[movies.Genre == 'Drama'].BudgetMillion)

##Stacked column chart

listgen = list() or []
listlabel = list() or[]
for gen in movies.Genre.cat.categories:
listgen.append(movies[movies.Genre == gen].BudgetMillion)
listlabel.append(gen)

sns.set_style('darkgrid')
fig, ax = plt.subplots()
fig.set_size_inches(11.7,8.27)
h2 = plt.hist(list1, bins = 20, stacked = True, rwidth = 1, label = listlabel)

#
plt.title('Movie Budget Distribution', fontsize=30)
plt.ylabel('Number of Movies',fontsize=15)
plt.xlabel('Budget',fontsize=15)
plt.yticks(fontsize=15)
plt.xticks(fontsize=15)
plt.legend(frameon = True, fancybox = True, shadow = True, fontsize=15)

plt.show()

##Subplot
f, axes = plt.subplots(1,2,figsize = (12,6), sharex = True, sharey=True)
k3 = sns.kdeplot(movies.BudgetMillion, movies.AudienceRatings,cmap = 'Greens',
ax = axes[0])
k4 = sns.kdeplot(movies.BudgetMillion, movies.CriticRatings,
ax = axes[1])
k3.set(xlim = (-20,160)) #custom x-axis range
plt.show()

##violin plot
w = sns.violinplot(data=movies, x = 'Genre', y = 'CriticRatings')

##Boxplot
sns.set()
vis2 = sns.boxplot(data = stats, x = 'IncomeGroup', y = 'BirthRate')

##Linear Model
vis3 = sns.lmplot(data = stats, x = 'InternetUsers', y = 'BirthRate',
fit_reg = False, hue = 'IncomeGroup', size = 10, aspect=1)

##Jointplot
j = sns.jointplot(data = movies, x = 'CriticRatings', y = 'AudienceRatings')
j = sns.jointplot(data = movies, x = 'CriticRatings', y = 'AudienceRatings',
kind = 'kde')

##FacetGrid
# Controlling Axes and Adding Diagonals
g = sns.FacetGrid(movies, row='Genre', col='YearRelease', hue='Genre')
kws = dict(s=50, edgecolor='black', linewidth=0.5)
g = g.map(plt.scatter, 'CriticRatings', 'AudienceRatings')
g.set(xlim=(0,100), ylim=(20,100))
for ax in g.axes.flat:
ax.plot((0,100),(20,100), c='grey', ls='--')
g.add_legend()

plt.show()
-----------------------------------------------------------------------------------
-----------

#sns.set_style('darkgrid') #white, whitegrid, dard, darkgrid

sns.set_style('dark', {'axes.facecolor':'Black'})
f, axes = plt.subplots(2,2, figsize = (15,15))

k1 = sns.kdeplot(movies.BudgetMillion, movies.AudienceRatings,
shade = True, Shade_lowest = True, cmap='inferno',
ax = axes[0,0])
k1b = sns.kdeplot(movies.BudgetMillion, movies.AudienceRatings, cmap = 'PuBu',
ax = axes[0,0])

k2 = sns.kdeplot(movies.BudgetMillion, movies.CriticRatings,
shade = True, Shade_lowest = True, cmap='inferno',
ax = axes[0,1])
k2b = sns.kdeplot(movies.BudgetMillion, movies.CriticRatings, cmap = 'cool',
ax = axes[0,1])

v = sns.violinplot(data=movies, x = 'YearRelease', y = 'BudgetMillion',

palette='YlOrRd',
ax = axes[1,0])

k4 = sns.kdeplot(movies.CriticRatings, movies.AudienceRatings,
shade = True, shade_lowest = False, cmap = 'Blues_r',
ax = axes[1,1])
k4b = sns.kdeplot(movies.CriticRatings, movies.AudienceRatings, cmap =
'gist_gray_r',
ax = axes[1,1])

k1.set(xlim = (-20,200))
k2.set(xlim = (-20,200))
plt.show()

def myplot(data, playerlist = Players):

Col = {"KobeBryant":'Black',"JoeJohnson":'green',"LeBronJames":'red',
"CarmeloAnthony":'y',"DwightHoward":'k',"ChrisBosh":'m',
"ChrisPaul":'b',"KevinDurant":'k',"DerrickRose":'c',"DwayneWade":'m'}

Mkers = {"KobeBryant":"o","JoeJohnson":"D","LeBronJames":"^",
"CarmeloAnthony":"*","DwightHoward":"v","ChrisBosh":'',
"ChrisPaul":"p","KevinDurant":"D","DerrickRose":"H","DwayneWade":"^"}

for name in playerlist:

plt.plot(data[Pdict[name]], c=Col[name], ls = '--',
Marker = Mkers[name], ms = 8, label = name)

plt.legend(loc = 'upper left', bbox_to_anchor = (1,1))

plt.xticks(list(range(0,10)), Seasons, rotation = 'horizontal')
plt.show()
------------------------------------------Machine
Learning-------------------------------------

----------------LinearRegression
----------------LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.linear_model import LogisticRegression

lm = LinearRegression(
logmodel = LogisticRegression()

lm.fit(X_train,y_train)
logmodel.fit(X_train,y_train)

predictions = lm.predict(X_test)
predictions = logmodel.predict(X_test)

from sklearn.metrics import confusion_matrix

accuracy = confusion_matrix(y_test,predictions)
from sklearn.metrics import accuracy_score
acscore = accuracy_score(y_test,predictions)

#F1-Score??
from sklearn.metrics import classification_report
print(classification_report(y_test,predictions))

---------------------KNN

from sklearn.preprocessing import StandardScaler

##Standardize
scaler = StandardScaler()
scaler.fit(df.drop('TARGET CLASS', axis=1))
scaled_features = scaler.transform(df.drop('TARGET CLASS', axis=1))

df_feat = pd.DataFrame(scaled_features, columns=df.columns[0:-1])

from sklearn.model_selection import train_test_split

X = df_feat
y = df['TARGET CLASS']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33,
random_state=101)

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

from sklearn.metrics import classification_report, confusion_matrix

print(confusion_matrix(y_test, predictions))
print(classification_report(y_test, predictions))

##Find the minimum K-value

error_rate = []

for i in range(1,40):

knn = KNeighborsClassifier(n_neighbors=i)
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)
error_rate.append(np.mean(predictions != y_test))

plt.figure(figsize=(10,6))
plt.plot(range(1,40), error_rate, color='blue', linestyle='-', marker='o',
markerfacecolor='red', markersize=10)
plt.title('Error Rate vs K-value')
plt.xlabel('K')
plt.ylabel('K-value')

knn = KNeighborsClassifier(n_neighbors=17)
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

print(confusion_matrix(y_test, predictions))
print('\n')
print(classification_report(y_test, predictions))

--------------------------------------Decision
Tree-----------------------------------------

X = final_data.drop('not.fully.paid', axis=1)
y = final_data['not.fully.paid']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=101)
from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier()
dtree.fit(X_train, y_train)

predictions = dtree.predict(X_test)

from sklearn.metrics import classification_report, confusion_matrix

print(confusion_matrix(y_test, predictions))
print('\n')
print(classification_report(y_test, predictions))

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)

rfc_pred = rfc.predict(X_test)
print(confusion_matrix(y_test, rfc_pred))
print('\n')
print(classification_report(y_test, rfc_pred))

------------------------------Standardisation vs Max-Min
Normalization----------------------------------------------------

Unit/magnitude

Standardisation

#Import library
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
#Convert to table format - StandardScaler
sc_X = pd.DataFrame(data=sc_X, columns=["Age",
"Salary","Purchased","Country_France","Country_Germany", "Country_spain"])
sc_X

Max-Min Normalization

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
#Convert to table format - MinMaxScaler
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age",
"Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Delhivery Mani
No ratings yet
Delhivery Mani
79 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Data Visualization
No ratings yet
Data Visualization
70 pages
Code shabab error 7
No ratings yet
Code shabab error 7
5 pages
Final ML File
No ratings yet
Final ML File
34 pages
som
No ratings yet
som
19 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Data Manipulation With Python
No ratings yet
Data Manipulation With Python
33 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
ML Complete Notes Hridoy.docx
No ratings yet
ML Complete Notes Hridoy.docx
5 pages
Fds Slips
No ratings yet
Fds Slips
6 pages
Data Science Algorithmen Master - 02 Data Handling
No ratings yet
Data Science Algorithmen Master - 02 Data Handling
76 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Practical 1 52
No ratings yet
Practical 1 52
4 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
FDS All Practicals
No ratings yet
FDS All Practicals
10 pages
Data_Analyzer
No ratings yet
Data_Analyzer
10 pages
Seaborn Final
No ratings yet
Seaborn Final
67 pages
Exploratory Data Analysis Day 1
No ratings yet
Exploratory Data Analysis Day 1
1 page
ML Shristi File
No ratings yet
ML Shristi File
49 pages
MACHINE LEARNING manual
No ratings yet
MACHINE LEARNING manual
36 pages
MLLabManual
No ratings yet
MLLabManual
24 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Deepak Data Analysis 1
No ratings yet
Deepak Data Analysis 1
31 pages
Aayushi ML File
No ratings yet
Aayushi ML File
37 pages
Advance Python
No ratings yet
Advance Python
5 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
Visualisation All
0% (1)
Visualisation All
70 pages
Important
No ratings yet
Important
12 pages
ML(sudhanshu)
No ratings yet
ML(sudhanshu)
24 pages
Machine learning lab manual
No ratings yet
Machine learning lab manual
9 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
ML 7
No ratings yet
ML 7
6 pages
Data Science With Python
No ratings yet
Data Science With Python
12 pages
14401172022_tanu raman ml lab file
No ratings yet
14401172022_tanu raman ml lab file
21 pages
05 Pandas (1)
No ratings yet
05 Pandas (1)
12 pages
Main.py Text File
No ratings yet
Main.py Text File
5 pages
Mlext
No ratings yet
Mlext
1 page
ml_labmanual (3)
No ratings yet
ml_labmanual (3)
33 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
EXP2-DM - KS
No ratings yet
EXP2-DM - KS
9 pages
Python Cheat Sheet For Data Analysis
No ratings yet
Python Cheat Sheet For Data Analysis
2 pages
Cheat Sheet Modeldeploy
No ratings yet
Cheat Sheet Modeldeploy
2 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
ml labs
No ratings yet
ml labs
14 pages
Assignment 1 - LP1
No ratings yet
Assignment 1 - LP1
14 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
Python Course Cheat Sheet
No ratings yet
Python Course Cheat Sheet
30 pages
enda practical 3 explanation one
No ratings yet
enda practical 3 explanation one
7 pages
DSBDA_prac4_2
No ratings yet
DSBDA_prac4_2
1 page
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
20 pages
data_preprocess_steps
No ratings yet
data_preprocess_steps
2 pages
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Data Science Notes
No ratings yet
Data Science Notes
5 pages
Effective data-driven campaigning for credit cards target, attract, retain and engage
No ratings yet
Effective data-driven campaigning for credit cards target, attract, retain and engage
7 pages
Git Editor Change
No ratings yet
Git Editor Change
1 page
Data Science Product Questions
No ratings yet
Data Science Product Questions
92 pages
Manulife-Wellness-account-List-of-expenses
No ratings yet
Manulife-Wellness-account-List-of-expenses
1 page
Near_real_time_fraud_detection_with_Apac
No ratings yet
Near_real_time_fraud_detection_with_Apac
87 pages
数据科学 Sharon
No ratings yet
数据科学 Sharon
22 pages
Strata Stratch SQL Question - Hard
No ratings yet
Strata Stratch SQL Question - Hard
9 pages
Apollo 11
No ratings yet
Apollo 11
13 pages
ProcessRoom 2022.10.14-3
No ratings yet
ProcessRoom 2022.10.14-3
1 page
Cover Letter
No ratings yet
Cover Letter
2 pages
Lecture 2 Notes Solow
No ratings yet
Lecture 2 Notes Solow
11 pages
Advantages of Geothermal Energy
No ratings yet
Advantages of Geothermal Energy
3 pages
579 197 PDF
No ratings yet
579 197 PDF
93 pages
Seven Segment Display Interfacing
0% (1)
Seven Segment Display Interfacing
3 pages
MANUAL BOOK IBT ICE Pt. 1 2024 Eng Version
No ratings yet
MANUAL BOOK IBT ICE Pt. 1 2024 Eng Version
45 pages
Table 1. ANSI/FCI Leakage Classes
No ratings yet
Table 1. ANSI/FCI Leakage Classes
2 pages
Kviz Iz Biblije 1 PDF
No ratings yet
Kviz Iz Biblije 1 PDF
13 pages
Virtualization
No ratings yet
Virtualization
66 pages
License Help For Canadian Engineers - 1st Class ME Naval Architecture
No ratings yet
License Help For Canadian Engineers - 1st Class ME Naval Architecture
46 pages
HW2 2009 Solns
No ratings yet
HW2 2009 Solns
13 pages
Adhesives
No ratings yet
Adhesives
3 pages
Properties of Aggregates FOR AC20
No ratings yet
Properties of Aggregates FOR AC20
38 pages
ITP 935 MV Switchgears - Rev 1
No ratings yet
ITP 935 MV Switchgears - Rev 1
6 pages
EWF80743 EWF85743 EWF10843 EWF12843: 2 34 User Manual Panduan Bagi Pengguna Washing Machine Mesin Cuci
No ratings yet
EWF80743 EWF85743 EWF10843 EWF12843: 2 34 User Manual Panduan Bagi Pengguna Washing Machine Mesin Cuci
68 pages
Design of Pile Foundation
100% (1)
Design of Pile Foundation
113 pages
Acision MCO IPSM Gateway Fact Sheet v10
100% (1)
Acision MCO IPSM Gateway Fact Sheet v10
2 pages
Power Cable Sizing Calculation 1. Cable Sizing For 630KVA Auxiliary Transformer
No ratings yet
Power Cable Sizing Calculation 1. Cable Sizing For 630KVA Auxiliary Transformer
8 pages
mp2 Report
No ratings yet
mp2 Report
10 pages
Vitrohm RXF Wirewound Fusible Resistor Datasheet
No ratings yet
Vitrohm RXF Wirewound Fusible Resistor Datasheet
2 pages
Spare Parts Catalogue: Powerful - Durable - Reliable
0% (1)
Spare Parts Catalogue: Powerful - Durable - Reliable
24 pages
Nuance Transcription Services India Pvt. LTD
No ratings yet
Nuance Transcription Services India Pvt. LTD
3 pages
A Research UNIX Reader: Annotated Excerpts From The Programmer's Manual, 1971-1986
No ratings yet
A Research UNIX Reader: Annotated Excerpts From The Programmer's Manual, 1971-1986
16 pages
Document 1304727
No ratings yet
Document 1304727
5 pages
One Day National Seminar
No ratings yet
One Day National Seminar
2 pages
TOPIC and TOPIC Sentences
No ratings yet
TOPIC and TOPIC Sentences
5 pages
Time-Based Blind SQL Injection Using Heavy Queries
No ratings yet
Time-Based Blind SQL Injection Using Heavy Queries
13 pages
Auto Layout PG (A Definitive Guide For IOS Programmers)
No ratings yet
Auto Layout PG (A Definitive Guide For IOS Programmers)
30 pages

Python Code Library

Uploaded by

Python Code Library

Uploaded by

----------------------------------Coding

#Be careful using warnigns

##Read file/get the data (csv/excel)

##Actual file path

##Method 2: Change Woring Directory

## [column name] to get the unique items within the column

##Passing the filter with more than 1 conditions ( and & or |)

import seaborn as sns

plt.hist(movies.AudienceRatings, bins = 15)

##Stacked column chart

#sns.set_style('darkgrid') #white, whitegrid, dard, darkgrid

v = sns.violinplot(data=movies, x = 'YearRelease', y = 'BudgetMillion',

def myplot(data, playerlist = Players):

for name in playerlist:

plt.legend(loc = 'upper left', bbox_to_anchor = (1,1))

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import confusion_matrix

from sklearn.preprocessing import StandardScaler

df_feat = pd.DataFrame(scaled_features, columns=df.columns[0:-1])

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import classification_report, confusion_matrix

##Find the minimum K-value

from sklearn.metrics import classification_report, confusion_matrix

from sklearn.ensemble import RandomForestClassifier

from sklearn.preprocessing import MinMaxScaler

You might also like