PDF - Humberto Moreira de Almeida
PDF - Humberto Moreira de Almeida
PDF - Humberto Moreira de Almeida
Campina Grande
Agosto 2014
Humberto Moreira de Almeida
Orientador:
Gustavo Henrique Esteves
Campina Grande
Agosto 2014
É expressamente proibida a comercialização deste documento, tanto na forma impressa como eletrônica.
Sua reprodução total ou parcial é permitida exclusivamente para fins acadêmicos e científicos, desde que na
reprodução figure a identificação do autor, título, instituição e ano da dissertação.
Digitado.
Trabalho de Conclusão de Curso (Graduação em Estatística) -
Universidade Estadual da Paraíba, Centro de Ciências e
Tecnologia, 2014.
"Orientação: Prof. Dr. Gustavo Henrique Esteves,
Departamento de Estatística".
Agradeço primeiramente ao meu senhor Deus por me guiar neste meu desafio e
toda minha vida pessoal e profissional,
À minha querida esposa Leide Targino Almeida sempre muito compreensiva e
meus filhos Leticia E. Targino Almeida e Hrek Ruan Targino Almeida por me dar a
sustentação da família em todos os meus desafios.
Aos meus amigos de curso que contribuíram direta e indiretamente para que
alcançasse meus objetivos nesta longa jornada de cinco anos de curso.
À empresa para qual eu trabalho por ter emprestado os livros que foram
utilizados no meu curso.
E a todos os meus professores que sempre com muita humildade e paciência nos
passaram todos os seus conhecimentos, pois sem eles nada teria sido possível.
Resumo
Neste trabalho foi estudada a análise de regressão linear múltipla, desde seu
contexto histórico até um exemplo para aplicação da teoria. Para o estudo foi utilizado
um banco de dados referente a registros de horas paradas da linha de produção de uma
fábrica de calçados de Campina Grande-PB, durante o mês de Agosto de 2013. O
objetivo é tentar explicar que tipo de problema/defeito tem gerado maior impactado na
linha de produção ocasionando paradas de máquinas e gerando perda de produção. Os
cálculos foram feitos com a ajuda do software estatístico R, versão 3.1.1 revelando as
variáveis que estão relacionadas com a variável resposta.
In this work we studied the multiple linear regression analysis since its historical
context to an application example of the theory. For the study we used a database of
records related to downtime of the production line of a shoe factory in Campina Grande-
PB, during the month of August 2013. The main goal was to try to explain what kind of
problem/defect has generated major impact on the production line causing machines
stoppage and subsequent loss of production. Calculations were made using the R
software, version 3.1.1, revealing the variables that are related to the response variable.
Lista de Figuras
Lista de Tabelas
Lista de abreviaturas
1 Introdução................................................................................................................ 12
3 Aplicação ................................................................................................................. 25
4 Conclusão................................................................................................................ 30
Lista de Figuras
3 Gráfico QQ-plot.........................................................................................................20
Lista de Tabelas
1 Introdução
2 Fundamentação teórica
Francis Galton em 1886 verificou que, embora houvesse uma tendência de pais altos
terem filhos altos e pais baixos terem filhos baixos, a altura média de filhos de pais de uma dada
altura tendia a se deslocar ou “regredir” até a altura média da população como um todo. Em
outras palavras, a altura dos filhos de pais extraordinariamente altos ou baixos tende a se mover
para a altura média da população.
A lei de regressão universal de Galton foi confirmada por Karl Pearson em (1903), que
coletou mais de mil registros das alturas dos membros de grupos de famílias e verificou que a
altura média dos filhos de um grupo de pais altos era inferior a altura de seus pais, e que a altura
média dos filhos de um grupo de pais baixos era superior a altura de seus pais.
Assim, tanto os filhos altos como baixos “regrediram” em direção a altura média de todos os
homens (DEMÉTRIO e ZOCCHI, 2008).
Uma variável
Tipos de Modelo de Regressão
dependente Duas ou mais
variáveis dependentes
Simples Múltiplo
i) Predição. Uma vez que se espera que uma parte (que se deseja que seja a maior) da
variação de é explicada pelas variáveis então, pode-se utilizar o
modelo para obter valores de correspondentes a valores de .
ii) Seleção de variáveis. Frequentemente, não se tem ideia de quais são as variáveis que
afetam significativamente a variação de . Para responder a esse tipo de questão,
conduzem-se estudos onde está presente um grande número de variáveis. A análise de
regressão pode auxiliar no processo de seleção de variáveis, eliminando aquelas cuja
contribuição não seja importante.
iv) Inferência. O ajuste de um modelo de regressão tem, em geral, por objetivos básicos,
além de estimar os parâmetros, realizar inferências sobre eles, tais como testes de
hipóteses e intervalos de confiança.
Sendo:
valor da variável dependente (resposta) para o i-ésimo elemento da amostra;
16
Tendo em vista que o problema deste trabalho envolve mais de uma variável. A
partir deste momento a metodologia concentra-se no modelo de regressão linear
múltipla, pois nos dá a condição de trabalhar com várias variáveis explicativas
simultaneamente.
Para a definição do modelo de regressão linear múltipla, supõem-se que tem-se
variáveis preditoras e define-se como modelo de regressão linear
múltipla, em termos destas variáveis preditoras, da seguinte forma:
Em que:
17
Temos que:
18
Também pode-se mostrar que essa soma de quadrados ainda pode ser escrita
como:
A função deve ser igualada a zero para se obter o ponto de mínimo para os valores de
portanto:
Sendo assim, após alguns cálculos relativamente simples, pode-se mostrar que a
soma de quadrados de resíduos pode ser escrita como:
20
Causas de variação G . L. S. Q. Q. M F
pelo menos um
Se Fcalculado for maior que Ftabelado, onde F tem distribuição F de Snedecor com p-
1 e n-p graus de liberdade, então rejeita-se e pode-se afirmar que, ao nível α de
significância, pelo menos um portanto, pode-se dizer que existe regressão
linear entre as variáveis do modelo.
Uma forma que nos permite mostrar este teste é o Fcalculado dado pela expressão.
Para uma confirmação a respeito das suposições necessárias para que haja
regressão linear é fundamental fazer uma investigação no conjunto de dados para
verificar a condição de normalidade através dos gráficos de probabilidade normal que
são o PP-plot (Probabilidade acumulada esperada para a distribuição normal, em função
24
Na Figura 2, observa-se também que a maioria dos pontos está sobre uma reta,
dando a entender que os erros seguem uma distribuição normal.
25
3 Aplicação
Antes de qualquer estudo sobre o banco de dados, é necessário que seja feito um
breve comentário sobre sua origem.
FV SQ GL QM F P-valor
Regressão 312,279 9 34,698 18,7336 0,0001
Estimativas t P - valor
08 - 28,0358 - 2,6530 0,0080
20 25,4524 -3,0150 0,0026
23 - 28,2820 - 2,7330 0,00063
24 - 29,1467 - 2,7150 0,0066
36 25,3804 2,9090 0,0036
39 55,2570 5,2400 <0,0001
Estimativas t P - valor
B 7,8188 2, 6750 0,0001
C 13,9944 4,1960 < 0,0001
29
Estimativas t P - valor
1121 - 23,6882 - 4,3050 < 0,0001
2310 290,7743 11,1340 < 0,0001
2321 - 18,8383 - 5,2201 < 0,0001
2322 - 28,6199 - 5,5190 < 0,0001
3620 - 24,3600 - 3,5470 0,0004
30
4 Conclusão
Referências
NAGHETTINI, M.; ANDRADE PINTO, E. J. de. Hidrologia Estatística. Belo
Horizonte: [s.n.], 2007.