Saturday, 3 June 2017

Regressão Ardl Em Forex Stata


(MIDAS) é um método de estimativa e previsão a partir de modelos em que a variável dependente é registrada em uma freqüência menor que uma ou mais das variáveis ​​independentes. Page 9 EViews 9.5 Novos recursos EViews 9.5 Nova Econometria e Estatística: Abordagens tradicionais para lidar com a questão das freqüências misturadas é simplesmente agregar os dados de freqüência mais alta para a freqüência mais baixa. Uma desvantagem significativa para esta abordagem é que, através da agregação, você descarta dados que podem levar a estimativas menos precisas. Os arquivos de trabalho do EViews suportam de forma nativa a organização fácil de dados de freqüência mista e permitem fácil conversão de uma freqüência para outra. EViews implementação MIDAS faz uso deste fácil manuseio de freqüências mistos para permitir a fácil especificação de modelos MIDAS. EViews permite 4 diferentes esquemas de ponderação MIDAS: Pesos Exponencial Almon Pesos Beta (com ou sem restrições) EViews também oferece métodos de seleção automática de lag para determinar o número de lagsperiods das variáveis ​​de maior freqüência. Nós temos uma demonstração completa passo a passo de MIDAS usando um papel pelo Federal Reserve Bank de St Louis. . O EViews oferece novas ferramentas para estimar e examinar as propriedades dos modelos ARDL (Autoregressive Distributed Lag). ARDLs são regressões padrão de mínimos quadrados que incluem atrasos da variável dependente e variáveis ​​independentes como regressores. Ferramentas de estimativa do modelo ARDL incluem métodos de seleção de comprimento de lag-built. Cointegrando estimativa de relacionamento. Bounds que testam para o relacionamento a longo prazo. O EViews agora permite estimar os modelos ARMA especificados por lista usando ML e GLS (além do estimador CLS existente). A estimativa desses modelos apresenta o uso do filtro de Kalman para avaliar a verossimilhança exata (Hamilton 1994). EViews suporta a estimativa de máxima verossimilhança exata de modelos ARFIMA via ML ou GLS usando algoritmos eficientes como descrito em Sowell (1992) e Doornik e Ooms (2003). Entre as características suportadas estão a intialização automática do parâmetro de integração d estimativas usando a regressão log-periodograma de Geweke e Porter-Hundlak (1983) ea concentração da probabilidade com relação aos coeficientes de regressão e à escala. O EViews agora suporta a estimativa do estimador do Grupo médio combinado (PMG) de Pesaran, Shin e Smith (PSS, 1999) para modelos ARDL com efeitos individuais. Este modelo é particularmente popular em configurações de painel onde o número de períodos é grande, uma vez que os estimadores GMM alternativos podem não ser apropriados nessas configurações. O PMG toma a forma de cointegração do modelo ARDL simples e adapta-o para uma configuração de painel, permitindo que os interceptos, coeficientes de curto prazo e termos de cointegração sejam diferentes em seções transversais. EViews estima modelos de regressão de limiar (TR). Esta classe de modelo inclui os modelos autogressivos de limiar populares (TAR). O modelo de Regressão de Limite (TR) descreve uma forma simples de regressão não linear com especificações lineares por partes e comutação de regime que ocorre quando uma variável observada cruza limiares desconhecidos. Especificações TR são bastante populares como eles são fáceis de estimar e interpretar, e capaz de produzir não linearidades interessantes e dinâmicas ricas. Entre as aplicações de TR estão modelos para divisão de amostras, equilíbrios múltiplos, e as muito populares auto-regressão de limiar (TAR) e auto-excitação Threshold Autoregression (SETAR) especificações (Hansen 1999, 2011 Potter 2003). Nós integramos um motor de estimativa totalmente novo em muitos estimadores EViews familiares. O novo motor, que implementa uma sofisticada abordagem da região de confiança (More e Sorensen, 1983), suporta versões dos algoritmos Broyden-Fletcher-Goldfarb-Shanno (BFGS), Gauss-NewtonBHHH, Newton-Raphson e Fisher Scoring. Além de fornecer ferramentas alternativas para otimização, o novo mecanismo permite o cálculo de derivadas numéricas secundárias e fornece suporte para uma série de estimadores de matriz de covariância de coeficientes ordinários e robustos. Os seguintes estimadores EViews foram atualizados para suportar as novas ferramentas de estimativa do modelo de motor de estimativa incluem58 Equações simples não-lineares mínimos quadrados e ARMA Se você escolher o especificado pelo usuário, também deverá fornecer o nome de um objeto Sym contendo valores para todas as variâncias residuais E covariâncias. Após a estimativa, EViews oferece a capacidade de examinar a matriz de covariância usada na estimativa. Home SobreContato Para informações sobre vendas, por favor, envie um email para saleseviews Para suporte técnico, por favor envie um email para supporteviews Inclua seu número de série com toda a correspondência por e-mail. Para obter informações de contato adicionais, consulte nossa página Sobre. NOTICE: O grupo de consultoria IDRE Statistical estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Capítulo 1 - Regressão simples e múltipla Resumo do capítulo 1.0 Introdução 1.1 Uma primeira análise de regressão 1.2 Examinando dados 1.3 Regressão linear simples 1.4 Regressão múltipla 1.5 Transformando variáveis 1.6 Resumo 1.7 Auto-avaliação 1.8 Para mais informações Este livro é composto por quatro capítulos que abrangem uma variedade de tópicos sobre o uso de Stata para regressão. Devemos enfatizar que este livro é sobre a análise de quotdata e que demonstra como Stata pode ser usado para análise de regressão, ao contrário de um livro que abrange a base estatística de regressão múltipla. Suponhamos que você tenha tido pelo menos um curso de estatística abrangendo análise de regressão e que você tenha um livro de regressão que você possa usar como referência (consulte a página Regressão com Stata e nossa página de Livros de estatísticas para empréstimos para livros de análise de regressão recomendados). Este livro é projetado para aplicar seu conhecimento de regressão, combiná-lo com a instrução em Stata, para executar, compreender e interpretar análises de regressão. Este primeiro capítulo abrangerá tópicos em regressão simples e múltipla, bem como as tarefas de apoio que são importantes na preparação para analisar seus dados, p. Verificar dados, familiarizar-se com o arquivo de dados e examinar a distribuição de suas variáveis. Vamos ilustrar os fundamentos da regressão simples e múltipla e demonstrar a importância de inspecionar, verificar e verificar seus dados antes de aceitar os resultados de sua análise. Em geral, esperamos mostrar que os resultados de sua análise de regressão podem induzir em erro sem uma análise adicional dos seus dados, o que poderia revelar relacionamentos que uma análise casual poderia ignorar. Neste capítulo, e em capítulos subsequentes, estaremos usando um arquivo de dados que foi criado por meio de amostragem aleatória de 400 escolas primárias do conjunto de dados da Academia de Educação 2000 da Califórnia. Este arquivo de dados contém uma medida do desempenho acadêmico da escola, bem como outros atributos das escolas primárias, tais como, tamanho da classe, inscrição, pobreza, etc Você pode acessar esse arquivo de dados na web a partir do Stata com o Stata use command como mostrado abaixo. Nota: Não digite o ponto inicial no comando - o ponto é uma convenção para indicar que a instrução é um comando Stata. Depois de ter lido o arquivo, você provavelmente deseja armazenar uma cópia dele no seu computador (para que você não precisa lê-lo na web cada vez). Vamos dizer que você está usando o Windows e deseja armazenar o arquivo em uma pasta chamada c: regstata (você pode escolher um nome diferente, se quiser). Primeiro, você pode fazer esta pasta dentro do Stata usando o comando mkdir. Podemos então mudar para esse diretório usando o comando cd. E, em seguida, se você salvar o arquivo será salvo na pasta c: regstata. Permite salvar o arquivo como elemapi. Agora o arquivo de dados é salvo como c: regstataelemapi. dta e você poderia sair Stata eo arquivo de dados ainda estaria lá. Quando você deseja usar o arquivo no futuro, basta usar o comando cd para mudar para o diretório c: regstata (ou o que você chamou) e, em seguida, usar o arquivo elemapi. 1.1 Uma primeira análise de regressão Permite mergulhar diretamente e realizar uma análise de regressão usando as variáveis ​​api00. Acsk3. Refeições e completo. Estas medem o desempenho acadêmico da escola (api00), o tamanho médio das turmas do jardim de infância até a 3ª série (acsk3), a porcentagem de alunos que recebem refeições gratuitas - que é um indicador de pobreza e a porcentagem de professores que têm Credenciais de ensino completo (completo). Esperamos que um melhor desempenho acadêmico esteja associado ao menor número de alunos, menos estudantes recebendo refeições gratuitas e uma maior porcentagem de professores com credenciais de ensino completo. Abaixo, mostramos o comando Stata para testar este modelo de regressão seguido da saída Stata. Vamos focar nos três preditores, se eles são estatisticamente significativos e, em caso afirmativo, a direção da relação. O tamanho médio da aula (acsk3. B-2.68), não é estatisticamente significativo ao nível 0.05 (p0.055), mas apenas assim. O coeficiente é negativo, o que indicaria que o tamanho maior da turma está relacionado com o menor desempenho acadêmico - o que esperamos. Em seguida, o efeito das refeições (b-3.70, p.000) é significante e seu coeficiente é negativo, indicando que quanto maior a proporção de estudantes que recebem refeições gratuitas, menor o desempenho acadêmico. Por favor, note que não estamos dizendo que as refeições gratuitas estão causando menor desempenho acadêmico. A variável refeições está altamente relacionada ao nível de renda e funciona mais como um proxy para a pobreza. Assim, níveis mais elevados de pobreza estão associados a um menor desempenho acadêmico. Este resultado também faz sentido. Finalmente, a percentagem de professores com credenciais completas (full b0.11, p.232) parece não estar relacionada ao desempenho acadêmico. Isso parece indicar que a porcentagem de professores com credenciais completas não é um fator importante na previsão de desempenho acadêmico - este resultado foi um pouco inesperado. De acordo com esses resultados, concluímos que o tamanho das turmas mais baixas está relacionado ao maior desempenho, que menos alunos recebem refeições gratuitas está associado a maior desempenho e que a porcentagem de professores com credenciais completas foi Não relacionados ao desempenho acadêmico nas escolas. Antes de escrever isso para publicação, devemos fazer uma série de verificações para se certificar de que podemos apoiar firmemente estes resultados. Começamos ficando mais familiarizados com o arquivo de dados, fazendo a verificação de dados preliminares, procurando erros nos dados. 1.2 Examinando dados Primeiro, vamos usar o comando describe para aprender mais sobre este arquivo de dados. Podemos verificar quantas observações tem e ver os nomes das variáveis ​​que contém. Para fazer isso, simplesmente digite Nós não entraremos em todos os detalhes desta saída. Observe que há 400 observações e 21 variáveis. Temos variáveis ​​sobre desempenho acadêmico em 2000 e 1999 ea mudança no desempenho, api00. Api99 e crescimento respectivamente. Temos também várias características das escolas, p. O tamanho das turmas, a educação dos pais, a percentagem de professores com credenciais completas e de emergência e o número de alunos. Observe que quando fizemos nossa análise de regressão original, ele disse que havia 313 observações, mas o comando descrever indica que temos 400 observações no arquivo de dados. Se você quiser saber mais sobre o arquivo de dados, você pode listar todas ou algumas das observações. Por exemplo, abaixo listamos as primeiras cinco observações. Isso ocupa muito espaço na página, mas não nos dá muita informação. A inclusão de nossos dados pode ser muito útil, mas é mais útil se listar apenas as variáveis ​​que você está interessado. Vamos listar as primeiras 10 observações para as variáveis ​​que analisamos na nossa primeira análise de regressão. Vemos que entre as primeiras 10 observações, temos quatro valores faltantes para as refeições. É provável que os dados faltantes para as refeições tenham algo a ver com o fato de que o número de observações na nossa primeira análise de regressão foi 313 e não 400. Outra ferramenta útil para aprender sobre suas variáveis ​​é o comando codebook. Vamos fazer codebook para as variáveis ​​que incluímos na análise de regressão, bem como a variável yrrnd. Nós intercalamos alguns comentários sobre esta saída entre colchetes e em negrito. O comando codebook descobriu uma série de peculiaridades dignas de exame mais aprofundado. Vamos usar o comando summary para aprender mais sobre essas variáveis. Como mostrado abaixo, o comando resume também revela o grande número de valores faltantes para as refeições (400 - 315 85) e vemos o mínimo incomum para acsk3 de -21. Permite obter um resumo mais detalhado para acsk3. No Stata, a vírgula após a lista de variáveis ​​indica que as opções seguem, neste caso, a opção é detalhe. Como você pode ver abaixo, a opção detalhe dá-lhe os percentis, os quatro maiores e menores valores, medidas de tendência central e variância, etc Note que resumir. E outros comandos, podem ser abreviados: poderíamos ter digitado soma acsk3, d. Parece que alguns tamanhos de classe de alguma forma se tornaram negativos, como se um sinal negativo fosse digitado incorretamente na frente deles. Vamos fazer uma tabela do tamanho da turma para ver se isso parece plausível. Na verdade, parece que alguns tamanhos de classe de alguma forma tem sinais negativos colocados na frente deles. Vamos olhar para o número da escola e distrito para essas observações para ver se eles vêm do mesmo distrito. Na verdade, todos eles vêm do distrito 140. Vejamos todas as observações para o distrito 140. Todas as observações do distrito 140 parecem ter esse problema. Quando você encontrar esse problema, você deseja voltar para a fonte original dos dados para verificar os valores. Temos que revelar que fabricamos este erro para fins de ilustração, e que os dados reais não tinham tal problema. Vamos fingir que verificamos com o distrito 140 e houve um problema com os dados lá, um hífen foi acidentalmente colocado na frente dos tamanhos de classe tornando-os negativos. Vamos fazer uma nota para corrigir isso Vamos continuar a verificar os nossos dados. Vamos dar uma olhada em alguns métodos gráficos para inspecionar dados. Para cada variável, é útil inspecioná-los usando um diagrama de histograma, boxplot e de haste-e-folha. Estes gráficos podem mostrar-lhe informações sobre a forma das suas variáveis ​​melhor do que estatísticas numéricas simples podem. Já sabemos sobre o problema com acsk3. Mas vamos ver como esses métodos gráficos teriam revelado o problema com essa variável. Primeiro, mostramos um histograma para acsk3. Isto mostra-nos as observações onde o tamanho médio da turma é negativo. Da mesma forma, um boxplot teria chamado estas observações para a nossa atenção também. Você pode ver a maneira de observações negativas periféricas na parte inferior do boxplot. Finalmente, um enredo de haste-e-folha também teria ajudado a identificar essas observações. Este gráfico mostra os valores exatos das observações, indicando que havia três -21s, dois -20s, e um -19. Recomendamos traçar todos esses gráficos para as variáveis ​​que você estará analisando. Vamos omitir, devido a considerações de espaço, mostrando esses gráficos para todas as variáveis. No entanto, ao examinar as variáveis, o enredo de haste-e-folha para full parecia bastante invulgar. Até agora, não vimos nada de problemático com essa variável, mas olhe para o gráfico de haste e folha para o total abaixo. Mostra 104 observações onde a percentagem com uma credencial completa é inferior a um. Isto é mais de 25 das escolas, e parece muito incomum. Vamos ver a distribuição de freqüência de cheio para ver se podemos entender isso melhor. Os valores vão de 0,42 para 1,0, depois saltam para 37 e vão para cima a partir daí. Parece que algumas das percentagens são realmente introduzidas como proporções, e. 0,42 foi inserido em vez de 42 ou 0,96 que realmente deveria ter sido 96. Vamos ver de que distrito (s) esses dados vieram. Observamos que todas as 104 observações em que full foi menor ou igual a uma veio do distrito 401. Vamos contar quantas observações existem no distrito 401 usando o comando count e vemos que o distrito 401 tem 104 observações. Todas as observações deste distrito parecem ser registradas como proporções em vez de percentagens. Novamente, deixe-nos afirmar que este é um problema aparente que inserimos nos dados para fins ilustrativos. Se este fosse um problema da vida real, verificávamos a origem dos dados e verificávamos o problema. Faremos uma nota para corrigir esse problema nos dados também. Outra técnica gráfica útil para o rastreamento de seus dados é uma matriz de dispersão. Embora isso seja provavelmente mais relevante como uma ferramenta de diagnóstico que busca por não-linearidades e outliers em seus dados, também pode ser uma ferramenta útil de rastreamento de dados, possivelmente revelando informações nas distribuições conjuntas de suas variáveis ​​que não seriam evidentes ao examinar distribuições univariadas . Vejamos a matriz de diagrama de dispersão para as variáveis ​​em nosso modelo de regressão. Isto revela os problemas que já identificamos, isto é, os tamanhos de classe negativos e a percentagem de credencial completa sendo introduzidos como proporções. Identificamos três problemas em nossos dados. Existem inúmeros valores em falta para as refeições. Havia negativos acidentalmente inseridos antes de alguns tamanhos de classe (acsk3) e mais de um quarto dos valores de full eram proporções em vez de porcentagens. A versão corrigida dos dados é chamada elemapi2. Vamos usar esse arquivo de dados e repetir nossa análise e ver se os resultados são os mesmos que a nossa análise original. Primeiro, repita a análise de regressão original abaixo. Agora, vamos usar o arquivo de dados corrigidos e repetir a análise de regressão. Na análise original (acima), acsk3 foi quase significativo, mas na análise corrigida (abaixo) os resultados mostram que esta variável não é significativa, talvez devido aos casos em que o tamanho da classe foi dado um Valor negativo. Da mesma forma, a porcentagem de professores com credenciais completas não foi significativa na análise original, mas é significativa na análise corrigida, talvez devido aos casos em que o valor foi dado como a proporção com credenciais completas em vez da porcentagem. Além disso, note que a análise corrigida é baseada em 398 observações em vez de 313 observações, devido a obter os dados completos para a variável refeições que tinha lotes de valores em falta. Deste ponto em diante, usaremos o corrigido, elemapi2. arquivo de dados. Você pode querer salvar isso em seu computador para que você possa usá-lo em futuras análises. Até agora, abordamos alguns tópicos em verificação de dados, mas não discutimos a análise de regressão propriamente dita. Vamos agora falar mais sobre como executar a análise de regressão no Stata. 1.3 Regressão linear simples Comecemos por mostrar alguns exemplos de regressão linear simples usando Stata. Neste tipo de regressão, temos apenas uma variável preditora. Esta variável pode ser contínua, o que significa que ela pode assumir todos os valores dentro de um intervalo, por exemplo, idade ou altura, ou pode ser dicotômica, significando que a variável pode assumir apenas um de dois valores, por exemplo, 0 ou 1. A O uso de variáveis ​​categóricas com mais de dois níveis será abordado no Capítulo 3. Há apenas uma resposta ou variável dependente, e é contínua. No Stata, a variável dependente é listada imediatamente após o comando regress seguido por uma ou mais variáveis ​​preditoras. Vamos examinar a relação entre o tamanho da escola eo desempenho acadêmico para ver se o tamanho da escola está relacionada ao desempenho acadêmico. Para este exemplo, api00 é a variável dependente e register é o preditor. Vamos rever esse resultado um pouco com mais cuidado. Primeiro, vemos que o teste F é estatisticamente significativo, o que significa que o modelo é estatisticamente significativo. O R-quadrado de .1012 significa que aproximadamente 10 da variância de api00 é explicado pelo modelo, neste caso, inscrever-se. O teste t para a matrícula é igual a -6,70, e é estatisticamente significativo, significando que o coeficiente de regressão para a matrícula é significativamente diferente de zero. Observe que (-6,70) 2 44,89, que é o mesmo que a estatística F (com algum erro de arredondamento). O coeficiente de matrícula é de -1998674, ou seja, aproximadamente-2, significando que para um aumento de uma unidade na matrícula. Seria de esperar uma diminuição de 0,2 unidades em api00. Em outras palavras, uma escola com 1100 alunos seria esperado ter um api pontuação 20 unidades mais baixas do que uma escola com 1000 alunos. A constante é 744.2514, e este é o valor previsto quando se inscreve igual a zero. Na maioria dos casos, a constante não é muito interessante. Preparamos uma saída anotada que mostra a saída dessa regressão juntamente com uma explicação de cada um dos itens nela contidos. Além de obter a tabela de regressão, pode ser útil ver um diagrama de dispersão das variáveis ​​preditas e de resultado com a linha de regressão traçada. Depois de executar uma regressão, você pode criar uma variável que contém os valores previstos usando o comando predict. Você pode obter esses valores em qualquer ponto depois de executar um comando de regressão, mas lembre-se de que, uma vez que você executar uma nova regressão, os valores previstos serão baseados na regressão mais recente. Para criar valores preditos basta digitar predizer eo nome de uma nova variável Stata lhe dará os valores ajustados. Para este exemplo, nosso novo nome da variável será fv. Então vamos digitar Se usarmos o comando list, veremos que um valor ajustado foi gerado para cada observação. Abaixo podemos mostrar um scatterplot da variável de resultado, api00 eo preditor, se inscrever. Podemos combinar a dispersão com lfit para mostrar um diagrama de dispersão com valores ajustados. Como você vê, alguns dos pontos parecem ser outliers. Se você usar a opção mlabel (snum) no comando scatter, você pode ver o número da escola para cada ponto. Isso nos permite ver, por exemplo, que um dos outliers é a escola 2910. Como vimos anteriormente, o comando predict pode ser usado para gerar valores preditos (ajustados) após a regressão em execução. Você também pode obter resíduos usando o comando predict seguido por um nome de variável, neste caso e. Com a opção residual. Este comando pode ser encurtado para prever e, residir ou mesmo prever e, r. A tabela abaixo mostra alguns dos outros valores que podem ser criados com a opção predict. 1.4 Regressão múltipla Agora, vamos olhar para um exemplo de regressão múltipla, em que temos uma variável de resultado (dependente) e vários preditores. Antes de começar com nosso próximo exemplo, precisamos tomar uma decisão sobre as variáveis ​​que criamos, porque estaremos criando variáveis ​​semelhantes com nossa regressão múltipla e não queremos que as variáveis ​​sejam confundidas. Por exemplo, na regressão simples criamos uma variável fv para os valores previstos (ajustados) ee para os resíduos. Se quisermos criar valores preditos para nosso próximo exemplo, poderíamos chamar o valor previsto algo mais, p. Fvmr. Mas isso poderia começar a ficar confuso. Poderíamos eliminar as variáveis ​​que criamos, usando drop fv e. Em vez disso, vamos limpar os dados na memória e usar o arquivo de dados elemapi2 novamente. Quando começamos novos exemplos em capítulos futuros, limparemos o arquivo de dados existente e usaremos o arquivo novamente para começar de novo. Para este exemplo de regressão múltipla, vamos regredir a variável dependente, api00. Em todas as variáveis ​​predictoras no conjunto de dados. Vamos examinar o resultado dessa análise de regressão. Como com a regressão simples, nós olhamos para o p-valor do F-teste para ver se o modelo geral é significativo. Com um valor de p de zero a quatro casas decimais, o modelo é estatisticamente significativo. O R-quadrado é 0.8446, significando que aproximadamente 84 da variabilidade de api00 é explicado pelas variáveis ​​no modelo. Nesse caso, o R-quadrado ajustado indica que aproximadamente 84 da variabilidade de api00 são explicados pelo modelo, mesmo depois de ter em conta o número de variáveis ​​preditoras no modelo. Os coeficientes para cada uma das variáveis ​​indicam a quantidade de mudança que se poderia esperar em api00, dada uma alteração de uma unidade no valor dessa variável, uma vez que todas as outras variáveis ​​no modelo são mantidas constantes. Por exemplo, considere a variável ell. Espera-se uma diminuição de 0,86 no escore api00 para cada aumento de unidade em ell. Supondo que todas as outras variáveis ​​no modelo são mantidas constantes. A interpretação de grande parte da saída da regressão múltipla é a mesma que foi para a regressão simples. Preparamos uma saída anotada que explica mais detalhadamente o resultado dessa análise de regressão múltipla. Você pode estar se perguntando o que realmente significa uma mudança de 0,86 em ell, e como você pode comparar a força desse coeficiente com o coeficiente de outra variável, digamos refeições. Para resolver este problema, podemos adicionar uma opção ao comando regress chamado beta. O que nos dará os coeficientes de regressão padronizados. Os coeficientes beta são utilizados por alguns pesquisadores para comparar a força relativa dos vários preditores dentro do modelo. Como os coeficientes beta são todos medidos em desvios-padrão, em vez das unidades das variáveis, eles podem ser comparados entre si. Em outras palavras, os coeficientes beta são os coeficientes que você obtém se as variáveis ​​de resultado e preditor fossem todas as pontuações padrão transformadas, também chamadas de escores z, antes de executar a regressão. Como os coeficientes na coluna Beta estão todos nas mesmas unidades padronizadas, você pode comparar esses coeficientes para avaliar a força relativa de cada um dos preditores. Neste exemplo, as refeições têm o maior coeficiente Beta, -0,66 (em valor absoluto), e acsk3 tem o menor Beta, 0,013. Assim, um aumento de um desvio padrão nas refeições leva a uma diminuição do desvio padrão de 0,66 na api00 prevista. Com as outras variáveis ​​mantidas constantes. E, um aumento de desvio padrão em acsk3. Por sua vez, leva a um aumento do desvio padrão de 0,013 na api00 predita com as outras variáveis ​​no modelo mantidas constantes. Ao interpretar esse resultado, lembre-se que a diferença entre os números listados no Coef. Coluna e a coluna Beta está nas unidades de medida. Por exemplo, para descrever o coeficiente bruto para ell você diria quotUma unidade de diminuição em ell resultaria em um aumento de 0,86 unidades na previsão api00. No entanto, para o coeficiente padronizado (Beta) você diria, quotA um padrão A diminuição do desvio em ell resultaria em um aumento do desvio padrão de .15 no predicado api00.quot O comando listcoef dá um output mais extenso com relação aos coeficientes padronizados. Não faz parte do Stata, mas você pode baixá-lo através da internet como este. E siga as instruções (consulte também Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). Agora que baixamos o listcoef. Podemos executá-lo assim. Vamos comparar a saída regress com a saída listcoef. Você notará que os valores listados no Coef. T, e os valores de Pgtt são os mesmos nas duas saídas. Os valores listados na coluna Beta da saída de regressão são os mesmos que os valores na coluna bStadXY do listcoef. A coluna bStdX dá a mudança de unidade em Y esperada com uma mudança de desvio padrão em X. A coluna bStdY dá a mudança de desvio padrão em Y esperada com uma mudança de unidade em X. A coluna SDofX dá esse desvio padrão de cada variável preditora em O modelo. Por exemplo, o bStdX para ell é -21,3, significando que um aumento de um desvio padrão em ell levaria a uma diminuição esperada de 21,3 unidades em api00. O valor bStdY para ell de -0.0060 significa que, para um aumento de uma unidade, de um por cento, em aprendizes de língua inglesa, esperamos uma redução de desvio padrão de 0,006 em api00. Como os valores do bStdX estão em unidades padrão para as variáveis ​​preditoras, você pode usar esses coeficientes para comparar a força relativa dos preditores, como você compararia os coeficientes Beta. A diferença é BStdX coeficientes são interpretados como mudanças nas unidades da variável de resultado em vez de em unidades padronizadas da variável de resultado. Por exemplo, o BStdX para refeições versus ell é -94 versus -21, ou cerca de 4 vezes maior, a mesma proporção que a razão dos coeficientes Beta. Criamos uma saída anotada que explica mais detalhadamente a saída do listcoef. Até agora, temos nos preocupado com o teste de uma única variável de cada vez, por exemplo, olhando para o coeficiente de ell e determinar se isso é significativo. Também podemos testar conjuntos de variáveis, usando o comando testar, para ver se o conjunto de variáveis ​​é significativo. Primeiro, vamos começar testando uma única variável, ell. Usando o comando de teste. Se você comparar esta saída com a saída da última regressão, você pode ver que o resultado do teste F, 16.67, é o mesmo que o quadrado do resultado do teste t na regressão (-4.0832 16.67). Observe que você pode obter os mesmos resultados se você digitar o seguinte, pois o Stata padrão compara o (s) termo (s) listado para 0. Talvez um teste mais interessante seja verificar se a contribuição do tamanho da turma é significativa. Uma vez que a informação sobre o tamanho da classe está contido em duas variáveis, acsk3 e acs46. Nós incluímos ambos com o comando de teste. O teste F significativo, 3,95, significa que a contribuição coletiva dessas duas variáveis ​​é significativa. Uma maneira de pensar nisso é que há uma diferença significativa entre um modelo com acsk3 e acs46 em comparação com um modelo sem eles, ou seja, há uma diferença significativa entre o modelo quotfullquot e os modelos quotreducedquot. Finalmente, como parte de uma análise de regressão múltipla, você pode estar interessado em ver as correlações entre as variáveis ​​no modelo de regressão. Você pode fazer isso com o comando correlate como mostrado abaixo. Se olharmos para as correlações com api00. Vemos as refeições e ell têm as duas mais fortes correlações com api00. Essas correlações são negativas, o que significa que à medida que o valor de uma variável diminui, o valor da outra variável tende a subir. Sabendo que essas variáveis ​​estão fortemente associadas com api00. Podemos prever que seriam variáveis ​​preditoras estatisticamente significativas no modelo de regressão. Nós também podemos usar o comando pwcorr para fazer correlações pairwise. A diferença mais importante entre correlate e pwcorr é a forma como os dados faltantes são manipulados. Com correlação. Uma observação ou caso é descartado se alguma variável tem um valor ausente, em outras palavras, correlacionar usa listwise. Também chamado casewise, deleção. Pwcorr usa dupla eliminação, significando que a observação é descartada somente se houver um valor ausente para o par de variáveis ​​que estão sendo correlacionadas. Duas opções que você pode usar com pwcorr. Mas não com correlação. are the sig option, which will give the significance levels for the correlations and the obs option, which will give the number of observations used in the correlation. Such an option is not necessary with corr as Stata lists the number of observations at the top of the output. 1.5 Transforming Variables Earlier we focused on screening your data for potential errors. In the next chapter, we will focus on regression diagnostics to verify whether your data meet the assumptions of linear regression. Here, we will focus on the issue of normality. Some researchers believe that linear regression requires that the outcome (dependent) and predictor variables be normally distributed. We need to clarify this issue. In actuality, it is the residuals that need to be normally distributed. In fact, the residuals need to be normal only for the t-tests to be valid. The estimation of the regression coefficients do not require normally distributed residuals. As we are interested in having valid t-tests, we will investigate issues concerning normality. A common cause of non-normally distributed residuals is non-normally distributed outcome andor predictor variables. So, let us explore the distribution of our variables and how we might transform them to a more normal shape. Lets start by making a histogram of the variable enroll . which we looked at earlier in the simple regression. We can use the normal option to superimpose a normal curve on this graph and the bin(20 ) option to use 20 bins. The distribution looks skewed to the right. You may also want to modify labels of the axes. For example, we use the xlabel() option for labeling the x-axis below, labeling it from 0 to 1600 incrementing by 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment