Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Imprimir R

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

# Configuraciones Iniciales

Unidad 2: rm(list = ls())


Data frame setwd("D:/programacion R/capacitacion")
Str : estructura getwd()
Importar datos dir()
Summary
Contar valores perdidos #### Definicion de data.frames: Para guardar diferentes tipos de datos, numeros y letras. ####
Exportar datos # en los data frame es donde se puede realizar los analisis estadisticos #
x <- data.frame("SN" = 1:2 , "Age"=c(21,15) , "Name" = c("john","Dora"))
INSTALACION DE PAQUETES x
Cargar paquetes
*Funciones apply, lapply, sapply, tapply, mapply y vapply en # Verificacion de la clase / tipo
R typeof(x)
Estadistica descriptiva – analisis de datos class(x)

UNIDAD 3. # Funciones basicas sobre un data.frame


Regresion lineal simple names(x)
Correlación colnames(x)
Plot class(colnames(x))
Regresion lineal multiple colnames(x)[2] #nombre de la columna 2
Logistica , polinomial y poisson. ncol(x)
nrow(x)
UNIDAD 4.
Ggplot # estructura del objeto #
SERIES TEMPORALES str(x)
*Adicionales puede ser la prueba F
fisher , t student, chi cuadrado. # MOdificar la naturaleza de las variables de tipo caracter
Outliers: datos lejanos, errores atípicos. # ya que name es de factores de 2 niveles #y cambiamos porque son nombre #
Valor que numéricamente es muy lejano, #El argumento 'stringsAsFactors' es un argumento para los 'datos . función frame () 'en R. Es
diferente a los demás datos, y es muy lógico que indique
aconsejable retirarlos. #si las cadenas en un marco de datos deben tratarse como variables de factor o simplemente
como cadenas simples
Base Datos que viene incluidos en R x <- data.frame("SN" = 1:2 , "Age"=c(21,15) , "Name" = c("john","Dora") , stringsAsFactors =
Colección de base datos. FALSE)
Paquete usaremos será TREES str(x)
Boxplot ( , horizontal=True) si lo
queremos horizontal # modifiquemos uno de los nombres en x
Puntos fuera de los bigotes son los x
outliers x[1,"Age"] <- 20
Y para saber cuales son también usamos
boxplot.stats # agreguemos una fila
x <- rbind(x , list(3,16,"Abraham"))
x

#Agreguemos una nueva columna


x <- cbind(x , State = c("LI" , "HY" , "TA"))
x
excel_sheets("students.xls") # nos da las hojas existentes en el excel
# Otra forma de añadir columnas Hojas <- excel_sheets("students.xls")
x$Pob <- runif(3,min = 20, max = 40) Students <- read_excel("students.xls",sheet = Hojas[1])
x View(Students)
str(Students)
# La variable Pob sea entera
x$Pob <- round(runif(3,min = 20, max = 40) , digits = 0) # Cargar archivos de stata, sas, SPSS #
x # Stata es un paquete de software estadístico creado en 1985 por StataCorp.
# Es utilizado principalmente por instituciones académicas y empresariales dedicadas a la
# Las columnas de un data frames se pueden eliminar : investigación, especialmente en economía, sociología, ciencias políticas, biomedicina,
x$State <- NULL geoquímica y epidemiología, etc
x library(foreign)
dir()
# Eliminar la primera fila help("read.dta")
x <- x[-1,] mydata.stat<-read.dta("mydata.dta",
x convert.factors = T, #¿Usar etiquetas de valor Stata para crear factores?
convert.dates = T, #¿Convertir las fechas de Stata a la clase Fecha?
convert.underscore = T, #convertir subrayado
#### Uso de la libreria datasets #### warn.missing.labels = T) #advertir las etiquetas faltantes
#Base Datos que viene incluidos en R class(mydata.stat)
#Colección de base datos. help("read.spss")
#Paquete usaremos será TREES #El SPSS (Statistical Package for the Social Sciences) es un conjunto de
# programas orientados a la realización de análisis estadísticos aplicados a las ciencias
sessionInfo() sociales
# Carguemos un dataset desde spss
library(help= "datasets") mydata.spss <- read.spss("mydata.sav",
str(trees) to.data.frame = TRUE, #convertir a data frame
use.value.labels = TRUE, # usar etiquetas de valores
# Sintaxis matricial para acceder a la informacion de una data frame use.missings = to.data.frame) # ¿se debe utilizar la información sobre los
trees[2:3,] #Selecciono la 2da y 3era fila valores
trees$Volume # perdidos definidos por el usuario para establecer los valores correspondientes
trees[,3] en NA
mydata.spss
# Seleccionemos las filas con altura (Height) mayor a 82
trees[ trees$Height > 82, ] #El lenguaje SAS opera principalmente sobre tablas de datos: puede leerlas,
#transformarlas, combinarlas, resumirlas, crear informes a partir de ellas, etc.
#Carguemos un dataset desde sas
mydata.sas <- read.xport("mydata.xpt")
#### Lectura de datos en formato de software comercial
# Leer archivos de excel rm(list = ls())
# Paquete readxl
# 1er paso : cargar la libreria y si no lo tenemos hay que instalarlo #### Ejemplo de un archivo txt ####
library(readxl) # PimaIndiansDiabetes2.txt , header: encabezado
# Primero verificamos que en el directorio de trabajo se encuentre mi archivo de datos
dir() Pima <- read.table("PimaIndiansDiabetes2.txt",header = TRUE)
summary(Pima)
# lista de hojas (sheet) es necesario dar el numero de hoja #
# Algunas variables poseen elementos de tipo NA : help(na.omit) boxplot(sin_outliers)
# Limpiar de NA's la data boxplot.stats(sin_outliers)
Pima <- na.omit(Pima) sin_outliers <- rivers [rivers < 1100]
summary(Pima) boxplot(sin_outliers)
# na.omit : Elimina todas las filas que tengan algun valor NA boxplot.stats(sin_outliers)
sin_outliers <- rivers [rivers < 1054]
#### Caracteristicas graficas del dataframe #### boxplot(sin_outliers)
# boxplot : Diagrama de cajas boxplot.stats(sin_outliers) # aqui nos damos cuenta de que ya no tenemos outliers y ya
# La funcion boxplot devuelve a R un objeto de tipo lista podemos trabajar

colnames(Pima)
# calculos descriptivos
# Estudiemos la variable age mean(Pima$age) #promedio de las variables
boxplot(x = Pima$age) median(Pima$age) #mediana de la variables
boxplot.stats(x=Pima$age) var(Pima$age) #varianza
sd(Pima$age) #desviacion estandar
# crear un objeto de tipo boxplot summary(Pima$age)
bxp <- boxplot(x = Pima$age)
Pima$age ####
q2 <- quantile(Pima$age, probs = 0.5)
#cantidad de datos que hay q2 #mediana divide la distribucion en dos partes iguales
bxp$n q75 <- quantile(Pima$age , probs = 0.75)
q75 #tercer cuartil
# Estos son considerados como outliers (elementos atipicos) de la variables age q25 <- quantile(Pima$age , probs = 0.25)
bxp$out q25 #primer cuartil

#otra manera de hacer p1 <- quantile(Pima$age , probs = 0.00)


boxplot.stats(x=Pima$age) p1 #limite superior

# Para eliminar los outliers


nooutliers <- Pima$age [Pima$age < 56]
boxplot.stats(nooutliers)
nooutliers <- Pima$age [Pima$age < 49]
boxplot(x=nooutliers) ####Caracteristicas graficas de data mtcars ##
## Diagramas de dispercion #### ## mpg millas por galon##
data(mtcars)
#identificar los ouliers en toda la data Pima View(mtcars)
Pima_outliers <- Pima[Pima$age %in% bxp$out , ] plot(mtcars$mpg)
Pima_outliers help(plot)
dim(Pima_outliers) plot(mtcars$mpg , type = 'b', col = 'blue',
main = "Dataframe : mtcars",
col.main = "red",
# tambien podemos trabajar con la data (rivers) font.main = 6,
data("rivers") xlab = "",
boxplot(rivers, horizontal = TRUE) ylab = "Millas por galons",
boxplot.stats(rivers) sub = "Variable $mpg")
sin_outliers <- rivers [rivers < 1243]
# diagrama de barras barplot()
barplot(mtcars$mpg, main = "caballos de fuerza", xlab = "datasets", ylab = "carros") #font:main 1 = simple, 2 = negrita, 3 = cursiva, 4 = negrita cursiva, 5 = símbolo

# diagrama de sectores pie()) grafica circular o de pastel


help(pie)
mydata <- data.frame(group=c("A", "B", "0", "AB"), FR=c(20, 32, 32, 16))
pie(mydata$FR, labels = mydata$group)

# histograma
hist(mtcars$drat)

# guardar la imagen en disco duro como un archivo jpeg : jpeg(), sino tambien como png solo
se tiene que cambiar jpeg=png y dev.off()
jpeg(filename = "SegundoGraf_hp.jpeg",height = 800 , width = 800)
plot(mtcars$hp , type = 'o', col = 'blue',
main = "Dataframe : mtcars",
col.main = "red",
font.main = 4,
xlab = "",
ylab = "Caballos de fuerza",
sub = "Variable $hp")
dev.off()
#dev.off(), para cerrar el dispositivo gráfico que hemos elegido,
#de este modo se creará un archivo y podremos crear más gráficos después.

# en una misma ventana estamos interesados en colocar 4 graficos


jpeg(filename = "VariosDiagramas.jpeg", width = 600 , height = 600)
par(mfrow = c(2,2))
plot(x = mtcars$wt, y = mtcars$mpg , main = "Diagrama de dispercion \n wt vs mpg", col =
"red")
plot(x = mtcars$wt, y = mtcars$disp , main = "Diagrama de dispercion \n wt vs disp" , col =
"#5D93B0")
hist(mtcars$wt , main = "Histograma de wt")
boxplot(mtcars$wt , main = "Boxplot de wt")
dev.off()

#### EXPORTAR DATOS###


# exportar datos a csv
write.csv(Pima2, file="prueba1.csv")
# exportar a un archivo txt
write.table(Pima2, file = "pima2.txt")

# exportar como archivo xlsx


install.packages("xlsx")
library(xlsx)
write.xlsx(Pima2, file = "pima2.xlsx", sheetName = "pimasoutliers")

También podría gustarte