Presentacion STATA
Presentacion STATA
Presentacion STATA
STATA
Cristian Camilo Segura García.
Econometría
ccsegurag@ut.edu.co
1
¿Qué es STATA?
⚫ Es un software estadístico que permite la gestión de datos, la estimación y cálculo de una amplia
gama de técnicas estadísticas, y la producción de gráficos de alta calidad.
Ventana de
Ventana de Revisión.
variables.
Ventana de Resultados.
Ventana de
propiedades
Ventana de Comandos
3
Barras de STATA
Barra de Nombre.
Barra de Menús
Barra de Herramientas
Barra de nombre: indica la versión de STATA disponible, el nombre y la ruta de la base de datos activa.
Barra de menús: Es el conjunto de diferentes herramientas que tiene STATA para cargar, transformar, modificar,
analizar, graficar y solicitar información y ayuda del programa.
Barra de herramientas: Es el conjunto de íconos de acceso rápido a herramientas fundamentales como son abrir,
guardar, creación de un archivo Log, un archivo .do, abrir el editor, el visor y el administrador de variables.
4
Menú de ayuda de STATA
El menú de ayuda permite:
5
Tipos de archivos y estructura de comandos.
⚫ Antes de iniciar una sesión de trabajo es importante tener Tipos de Archivo. Extensión
en cuenta que STATA opera a través de diferentes tipos Archivos de datos. *.dta
de archivos. Archivos gráficos. *.gph
Bitácoras de salida. *.smel
⚫ De acuerdo a la estructura de los datos, se tiene que llevar Archivos de comandos. *.do
en cuenta lo siguiente. Archivos de programación. *.ado
varlist: Indica la lista de nombres de variables exp: Indica la expresión matemática utilizada options: Señala una o más opciones que
para la condicional. aplican al comando.
Ejemplo: regress depvar [indepvars] [if] [in] [, options]
Comando Variable(s) restricción/rango opciones adicionales.
Ojo: Escribir bien los comandos y variables. STATA hace distintición de mayus y minus.
6
Tipos de variables.
Variable ⚫ STATA es “case sensitive”, es decir, distingue entre
mayúsculas y minúsculas. La variable var1 es diferente a
Var1.
CUANTITATIV
A
CUALITATIVA ⚫ STATA se manejan los datos cuantitativos por diferentes
tipos de variables los cuales se diferencian por el rango0
de los datos o por el tamaño en el número de caracteres
Continua Discreta disponibles.
7
Formato de las variables.
⚫ Hace referencia a la forma como son almacenadas y desplegadas las variables en STATA. Para cambiar el formato
de una variable a través del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable siempre
antecedido por el símbolo “%”.
Inicio de un formato
Variables de cadena Número de caracteres
%20s : % 20 s Variable String
Inicio de un formato
Variables de numérica Dígitos antes del punto decimal.
%10.0gc : % 10. 0 g c Opcional, separados de miles por comas
Dígitos después del punto decimal
Formato general “g”, Notación científica “e”, formato fijo “f”
8
Fundamentos de bases de datos.
⚫ Abrir una base de datos.
El primer paso es cargar una base de datos, para ello depende el formato de la base de datos.
[Esto lo realizaremos con la base de datos “pib_colombia”]
- Las bases de datos de STATA terminan con la extensión .dta. En cambio, las bases de datos tipo Excel, se expresan en .xlsx.
Para importar una base de datos en CSV: Abrimos el STATA, vamos a Archivo, luego vamos a Importar y desde luego, allí aparece si
importamos XLSX o CSV.
9
Descripción de la base de datos.
⚫ Al haber cargado la base de datos, es necesario conocer mi base de datos. ¿Cómo la conocemos? Vamos a “Datos”
y luego a “Descripción de Datos”. Allí nos aparecerá las opciones de: describir datos en memoria, describir
contenido de datos e inspeccionar variables.
• Creación de Variables.
En su defecto, pueden utilizar comando.
De acuerdo al programa, vamos a Datos, luego a Crear o
*Cargar una base de datos del programa* cambiar datos, y después Crear nueva variable.
sysuse pib_colombia
*Observar los datos. La creación de variables, también se puede realizar con el
browse comando generate. Lo puede abreviar como gen.
*Describir los datos
Ejemplo:
describe [Variables]
*Si se quiere describir todas las variables. generate suma = var1 + var2
describe _all gen resta = var1 - var2
gen multiplicación = var1 * var2
10
Pautas importantes para crear variables.
Tipo de Para la creación de variables con condiciones puede utilizar
Símbolo Descripción
operador la opción de la estructura de comandos [if] [in], estas
Matemático + Adición opciones le permitirán poner restricciones.
- Sustracción
* Multiplicación Ejemplo.
/ División
^ Exponente gen Ricos = 1 if pib_percapita>6000
Lógico ! No Para crear una lista de una variable con ciertas condiciones,
| O tomando ejemplo:
& Y
Relacionales. > Mayor que list Esperanzavida if Esperanzavida>60
< Menor que • Crea una lista para las observaciones mayores a 60
>= Mayor o igual que
<= Menor o igual que list Esperanzavida in 10/20.
== Igual * Crea una lista para las observaciones mayores entre 10
!==; ~= Distinto de y 20.
11
Pautas importantes para crear variables.
Función Ejemplo Descripción
Ln() gen lnpib=ln(pib) Logaritmo Natural
Ejemplo de filtros.
Uso del in
browse pib_percapita in 1/10 (Busqueme pib_percapita entre 1 y 10 oobservaciones)
browse pib_percapita in f/10 (f= FIRST, es decir, búsqueme los datos del primero hasta 10)
browse pib_percapita in 10/l (l= LAST, es decir, búsqueme los datos del 10 hasta el ultimo )
Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop y list.
drop elimina las observaciones.
keep conserva observaciones y/o variables.
list presenta variables y/o observaciones en la ventana de resultados.
edit permite visualizar los datos en una hoja de datos y podrá editar y modificar los datos.
browse realiza las mismas opciones de edit pero no se puede modificar.
Es necesario tener en cuenta que en la limpieza de la base de datos, es importante observar la existencia de missing
values. Los missing values, son datos que no tienen observaciones. Se representan en STATA como (.).
13
Administrador de variables.
⚫ Con esta herramienta se puede modificar información de cada variable, principalmente en el cambio de nombre,
etiquetas, tipo de variable, formato, notas y creación de categorías y etiquetas.
Pero no solo esta herramienta es útil. También por medio
de comandos se puede realizar.
- Rename
Este comando permite cambiar el nombre de una variable.
- Label variable
Para ponerle nombre o etiqueta a la variable.
14
Modificación y transformación de variables.
⚫ Ya se había utilizado comandos como generate, que pueden ayudar a generar variables. Pero es necesario conocer como se
modifica una variable en su formato, tipo de variable, codificación, etc.
Recode
Este comando permite recodificar algún valor de una variable.
recode x (1=2), gen(nx)
recode x1 (1=2), gen(nx1)
Replace
Funciona igual que el comando generate, pero en lugar de crear nuevas variables, reemplaza los valores de variables ya existentes.
Ejemplo:
replace var1 = 1,5 in 1/10
Egen
Extensión de la variable generate. Genera variables que vienen expresadas como ciertas funciones de otras variables.
Se puede combinar con las condicionales if e in.
15
Combinación de bases de datos.
⚫ Es un problema muy común para el investigador, pero STATA le permite realizar diferentes tipos de fusiones de
bases de datos. Se presentan dos formatos diferentes: la adición horizontal (merge) y vertical (append).
HOMBRES.dta
Adición de variables:
Adición observaciones: EDUCACIÓN.dta
merge
append
Es necesario el
No necesita
identificador. Las bases
identificador.
de datos deben de estar
ordenadas.
MUJERES.dta
Combinación vertical – Append
Este comando agrega filas a la base de datos, las variables deben contener los mismos nombres y deben de estar
ordenadas. Para este caso tenemos la base de datos HOMBRES.dta y vamos a adicionar la base de datos
MUJERES.dta. Por tanto los comandos son:
use hombres, clear. (Es necesario el clear por que permite la limpieza de registros anteriores).
append using MUJERES
16
Combinación de bases de datos.
⚫ Como la base de datos cargada en la memoria RAM ha cambiado es conveniente que el usuario salve la nueva
información con otro nombre así.
Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:
1. Ordenar (sort)* la base de datos B de acuerdo a las variables con las que se hará la unión de las bases, es decir de
acuerdo al ID, y guardar.
2. Abrir la base A y ordenarla de acuerdo al paso 1.
3. Usar el comando merge.
4. Guardar la base de datos (save).
17
Combinación de bases de datos.
⚫ Para verificar si la base tiene un identificador, se recomienda que se verifique por medio del comando isid.
isid id num
Si sale error, es porque el identificador se repite y si va hacer una fusión tendrá inconvenientes. Al realizar el merge, se crea
una variable denominado _merge, que contiene 3 valores.
Ejemplo
Se tiene la base de datos EDUCACION, que es la base que vamos a unir con la base master. Las variables identificadoras son
“numero y e01”, y salvamos los cambios.
use EDUCACION
sort numero e01
d
save EDUCACION, replace
18
Combinación de bases de datos.
Cargar la base master (PERSONAS), la ordenamos por el mismo criterio anterior.
use PERSONAS
sort numero e01
d
save PERSONAS, replace
d significa que en la nueva base de datos, se ha combinado la información en una única base de datos.
La base de datos PERSONAS.dta contiene ahora las variables de la base de datos EDUCACION.dta, creando
automáticamente la variable _merge
19
Creación de programas – Editor de texto.
El usuario puede abrir un editor de texto donde puede
crear programas (archivos “.do” y “.ado” de Stata)
haciendo clic en el icono de la ventana “New Do-file
Editor”.
20
Estadísticas Descriptivas en STATA.
Para realizar este tipo de procedimiento, se escribe en la barra de comandos el comando summarize o sum (que es la
abreviatura de summarize). Es utilizado para generar estadísticos descriptivos, proporciona información acerca del
numero de observaciones , la media, desviación estándar, mínimo, máximo, de la variable especificada.
Ejemplo:
sum variable(s)
Si quiere un analisis mas detallado, solo agregue una coma y enseguida detail o det en la parte final del comando.
Para crear una tabla de frecuencias de la variable var1, utilizamos tabulate o tab.
tabulate var1
Si se quiere una tabla de datos de doble entrada, con información cruzada de las variables var1 y var2, usamos esto.
tabulate var1 var2
21
Estadísticas Descriptivas en STATA.
Ahora, si se requiere una tabla de frecuencias de la variable var3 solo para las observaciones que cumplen la
expresión especificada después del if.
ci pib_percapita
Estadísticas > Estadísticas, tablas y test > Tablas > Tabla de estadísticas descriptivas.
23
Graficas en STATA
STATA cuenta con una poderosa herramienta gráfica, permitiendo obtener gráficas de excelente calidad y con varias
opciones de edición de las mismas, es posible realizar gráficas como histogramas, barras, de torta, series de tiempo,
Box plot, dispersión, para datos panel y para otros tipos de análisis como son de supervivencia, multivariado, control
de calidad, etc.
Si lo quieres hacer por medio de ventanas y opciones, vas a la barra de menús y seleccionas la opción gráficos.
24
Graficas en STATA
Plottype description
scatterplot
scatter
line
line plot
connected connected-line plot
scatteri scatter with immediate arguments
area line plot with shading
bar bar plot
dropline spike dropline spike plot dropline plot plot plot
dot dot plot
rarea range plot with area shading
rbar range plot with bars
rspike range plot with spikes
rcap range plot with capped spikes
rcapsym range plot with spikes capped with symbols
rscatter range plot with markers
rline range plot with lines
rconnected range plot with lines and markers
pcspike paired-coordinate plot with spikes
pccapsym paired-coordinate plot with spikes capped with symbols
pcarrow paired-coordinate plot with arrows
pcbarrow paired-coordinate plot with arrows having two heads
pcscatter paired-coordinate plot with markers
25
Graficas en STATA
pci pcspike with immediate arguments
Ejemplos
graph twoway connected var1 var3
graph twoway scatter var3 var1 var4
graph box var5 if dummy = =1
graph pie var3 var1 in 1/30
27
Ejemplos de graficas en STATA
Histogramas (histogram var1) Histogramas con curva normal (histogram var1, normal)
Grafico torta (Gráficos > Grafico de torta) Grafica de Caja (Gráficos > Grafica de caja)
28
Ejemplos de graficas en STATA
Graficas Twoway (Vamos a hacerlo manualmente en Stata o por comandos)
Graficos > Graficos doble entrada > Crear
Todos los comando para graficar empiezan por graph, pero esto es opcional dependiendo el tipo de grafico solo se pone la opción
TWOWAY.
29
Ejemplos de graficas en STATA
Ejemplos de Twoway
Para combinar dos graficos, guardamos los graficos en formato .gph, y después se usa graph combine.
Otra forma de realizarlo de manera mas efectiva, es usando la barra de menús de Stata en la sección graficos.
Graficos ponderados.
Se usa el comando de STATA weight.
twoway scatter var1 var2 [aweith = propval100], msymbol(oh)
Generando funciones
Vamos a graficos, luego a graficos doble entrada. Seguidamente seleccionamos en crear, y en graficas avanzadas, seleccionamos
función. Escribimos la función en la sección de escritura y listo.
31
Ejemplos de graficas en STATA
Otros graficos.
Qnorm: Explica la normalidad por medio de una grafica Q-Q plot y se compara con la normal.
qnorm var1
Quantile: Explica los cuantiles de una variable.
quantile var1
32
Regresión Lineal en STATA
STATA tiene una gran versatilidad a la hora de estimar modelos de regresión lineal.
- Explicar el comportamiento de uno o mas fenómenos (variables dependientes) a partir de un conjunto de regresores (o variables
independientes) que, en la mayoría de los casos, han sido identificados por la teoría como los factores que explican el fenómeno
que se esta estudiando.
Para este caso, es necesario tener a la mano la base de datos “pib_colombia” ubicada en el Classroom. Descárguenlo y a partir de
ello vamos a hacer ciertas aplicaciones.
La teoría económica establece una relación entre PIBpercapita, Esperanza de vida y Emisión de CO2.
33
Regresión Lineal en STATA
Abra el STATA, cargue la base y cuando ya tenga cargada la base, abra un do file.*
Cuando tenga cargada la base de datos, ejecute un sumario de estadísticas (sum) para describir las variables. En estas encontrara: Nº
de observaciones, Media, Desviación Estándar, Valor mínimo y valor máximo. Si quiere un analisis estadístico mas detallado,
solo escriba summarize, detail o si le da pereza escribir todo eso, entonces escriba sum, det.
Luego, se hace la estimación del modelo lineal. Para este caso, haremos la regresión de las variables PIBpercapita y Esperanza de
vida. Tenga en cuenta que el PIB percapita en este caso, esta medido en dólares y la esperanza de vida, esta medida en años.
Luego, ejecuta el comando predict res, residuals para predecir los residuales del modelo.
* Usted en primera medida sabe que al abrir el do file, debe ejecutar el comando clear y después pegar la dirección importada de Excel o el dta. De STATA. 34
Regresión Lineal en STATA
Se puede observar por tanto que:
Automáticamente, el programa hará un grafico de dispersión de los datos, y observara como es su debido comportamiento.
Si en este caso planea hacer la línea de regresión para predicciones, agregamos lo siguiente.
Para hacer las predicciones del PIBpercapita promedio, es ejecuta el siguiente comando.
predict PPIBPC, xb
35
Regresión Lineal en STATA
Grafica de dispersión sin predicción o línea de regresión. Grafica de dispersión con predicción o línea de regresión.
36