Mudança Média Stata 11


A limpeza de dados nos dados da Stata Cleaning é um termo bastante amplo que se aplica às manipulações preliminares em um conjunto de dados antes da análise. Muitas vezes, será a primeira tarefa de um assistente de pesquisa e é a parte tediosa de qualquer projeto de pesquisa que nos faça desejar que tivéssemos um assistente de pesquisa. A Stata é uma boa ferramenta para limpeza e manipulação de dados, independentemente do software que você pretende usar para análise. A sua primeira passagem em um conjunto de dados pode envolver qualquer ou todos os seguintes: Criando uma série de subconjuntos menores com base em critérios de pesquisa Eliminando observações Deixando variáveis ​​Transformando variáveis ​​Lidando com outliers Criando novas variáveis ​​Variáveis ​​em movimento Variáveis ​​de rotulagem Mudando o nome de variáveis ​​Se esta é sua primeira limpeza Dados ou você é um macaco de dados experiente, você pode encontrar algumas dicas úteis ao ler mais. Use o arquivo de ajuda do Stata. A Stata possui um recurso incorporado que permite acessar o manual do usuário e também ajudar arquivos em qualquer comando. Basta digitar ajuda na janela de comando, seguido do nome do comando com o qual precisa de ajuda e pressione a tecla Enter: Escreva um arquivo do. Nunca limpe um conjunto de dados ao inserir comandos cegamente (ou pior, clicando nos botões). Você deseja escrever os comandos em um arquivo do, e depois executá-lo. Desta forma, se você cometer um erro, você não arruinará seu conjunto de dados inteiro e não precisará começar de novo do zero. Este é um conselho geral que se aplica a qualquer trabalho que você fizer no Stata. Trabalhar a partir de arquivos de arquivos permite que outras pessoas vejam o que você fez se você precisar de conselhos, torna seu trabalho reprodutível e permite corrigir pequenos erros de forma indolora. Para iniciar um arquivo de do, clique no ícone que se parece com um bloco de notas no canto superior esquerdo do seu visualizador do Stata2. Nos estágios preliminares do seu trabalho, você pode achar que um arquivo de arquivo é mais obstáculo do que é útil. Por exemplo, se você não está tão familiarizado com um comando, você preferirá tentar primeiro. Uma maneira simples de fazer isso e ainda ter disciplina sobre a escrita dos arquivos é escrever o seu arquivo de arquivo em etapas, escrevendo apenas alguns comandos antes de executá-los, corrigindo erros à medida que você vai. Para executar uma série de comandos em vez de todo o arquivo do, basta destacar os que deseja executar e clicar no ícone Executar seleção (fazer) na parte superior do seu editor de arquivo do do, na extrema direita. À medida que você se torna mais proficiente com a programação na Stata, você não precisará mais testar comandos, e você descobrirá a alegria de escrever um arquivo de arquivo e executá-lo sem uma falha. Para executar um arquivo completo, não destaque nenhuma parte e clique no ícone Executar seleção (fazer). Você pode se perguntar sobre os comandos limpos, definir mais e definir mem 15000 no exemplo da captura de tela. Esses três comandos são comandos administrativos que são bastante úteis para ter no início de um arquivo do-do. O primeiro, claro, é usado para limpar qualquer conjunto de dados anterior em que você esteja trabalhando. O comando mais ajustado informa Stata para não pausar ou exibir a mensagem --more--. Finalmente, o conjunto de comandos mem 15000 aumenta a memória disponível para o Stata a partir do seu computador, aqui precisamos disso, pois o tamanho do conjunto de dados que baixamos do ltodesigt3 é maior do que o 10mb atribuído aos dados por padrão. Um último comentário sobre os arquivos do do: se você clicar duas vezes em um arquivo salvo, ele não será aberto para edição, mas o Stata executará o arquivo do-que pode ser um pouco irritante Para reabrir um arquivo do-do de uma pasta sem executar Os comandos nele, clique com o botão direito do mouse sobre ele e selecione editar em vez de abrir. Sempre mantenha um registro. Mais uma vez, esta é uma regra geral em Stata. Manter um registro significa que você pode voltar e ver o que fez sem ter que fazê-lo novamente. Iniciar um log é apenas uma questão de adicionar um comando no topo do seu arquivo do do que diz Stata para logar, bem como onde você deseja que o registro seja salvo: log usando whateverpathyouwant: pickanameforyourlog. smcl4. Replace5 Observe como os logs são salvos sob a extensão smcl. Não esqueça de fechar seu registro antes de iniciar um novo. O último comando em seu do-file6 geralmente será log fechado. Salve como você for. Computadores falham, o poder sobe, coisas acontecem. Salve seus arquivos de arquivos todos os minutos enquanto você os escreve. Salvar um arquivo do do é feito da mesma maneira que salvar qualquer documento do editor de texto: clique no ícone do disquete ou pressione CTRLS: Você também deve salvar seu conjunto de dados à medida que o modifica, mas certifique-se de manter uma versão do conjunto de dados original, No caso de você precisar começar de novo. O comando para salvar um conjunto de dados no Stata é salvo, seguido pelo caminho em que deseja que o conjunto de dados seja salvo eo comando opcional substitua. Observe como a extensão para dados Stata é. dta, e também observe como o novo conjunto de dados tem um nome diferente do original7. Familiarize-se com seu conjunto de dados. Os conjuntos de dados vêm com códigos-livros. Você deve saber qual é cada variável, como é codificado, como os valores faltantes são identificados. Uma boa prática é realmente analisar os dados, para que você entenda a estrutura da informação. Para fazer isso, você pode clicar em Dados no canto superior esquerdo do seu visualizador e selecionar Editor de dados, depois Editor de dados (procurar). Uma nova janela será aberta e você poderá ver seus dados. Você também pode usar o comando procurar, seja digitando diretamente na janela de comando, ou a partir de um arquivo do: Uma das características distintivas do ltodesigt é que quando você baixa um conjunto de dados, ele vem com rótulos. Os rótulos de variáveis ​​são descrições de variáveis ​​e os rótulos de valor são usados ​​para descrever a forma como as variáveis ​​são codificadas. Basicamente, o rótulo de valor fica no topo do código, de modo que quando você navega, você vê o que o código significa, e não o que é. Para tornar isso mais claro, vamos ver os dados sem rótulos. Olhe, por exemplo, na variável GEOPRV. Criando uma série de subconjuntos menores com base em critérios de pesquisa Existem muitos motivos pelos quais você quer um subconjunto menor de seus dados, mas o principal é que quanto maior o conjunto de dados, mais difícil é o Stata gerenciar, o que retarda o sistema. Seu objetivo é tornar seu conjunto de dados tão pequeno quanto possível, mantendo todas as informações relevantes. Sua agenda de pesquisa determina o que seu conjunto de dados final irá conter. Digamos que você tenha dados sobre os hábitos de saúde dos canadenses de 12 anos ou mais, mas sua pergunta de pesquisa é específica para as mulheres em idade reprodutiva residentes em Ontário8. Você claramente não precisa manter os homens em seu conjunto de dados, e você não precisará manter os residentes de outras províncias do que Ontário. Além disso, você provavelmente pode deixar cair mulheres com menos de 15 anos e mais de 55 anos. Agora, vamos ver como você faria isso. Para soltar observações, você precisa combinar um dos dois comandos do Stata (manter ou soltar) com o qualificador if. Verifique se você salvou seu conjunto de dados original antes de começar. O comando Keep deve ser usado com cautela (ou evitado por completo) porque ele irá soltar todos, exceto o que você mantém especificamente. Isso pode ser um problema se você não tiver certeza do que deseja manter. O comando drop deixará cair do seu conjunto de dados o que você solicita especificamente a Stata para soltar. O qualificador if restringe o alcance do comando às observações para as quais o valor de uma expressão é verdadeiro. A sintaxe para usar esse qualificador é bastante simples: onde o comando neste caso seria, drop e exp é a expressão que precisa ser verdadeira para o comando drop para apply9. Usando o exemplo de mulheres em idade reprodutiva em Ontário, a primeira linha destacada derruba homens, a segunda linha descarta qualquer observação não em Ontário, enquanto a última linha diminui as observações em grupos etários mais velhos ou mais jovens do que nosso subconjunto de interesse. Você precisa ter cuidado com os operadores lógicos que observam a sintaxe na terceira linha. Um erro comum é pedir a Stata para soltar se DHHGAGEgt10 amp DHHGAGElt2. Não há indivíduos no conjunto de dados com mais de 55 anos e menores que 15. Queremos soltar se tiver mais de 55 anos ou menor que 15. Aqui está uma lista de operadores em expressões. Você usaria principalmente operadores lógicos e relacionais em conjunto com if: Outra maneira na qual você pode precisar fazer seu conjunto de dados menor é soltando variáveis ​​que não são úteis para sua pesquisa. Pode ser que a informação contida em uma determinada variável seja duplicada (ou seja, outra variável fornece a mesma informação), ou talvez todas as observações de uma variável estão faltando, ou uma variável simplesmente acontece em seu conjunto de dados, mas é irrelevante para sua pesquisa . Soltar variáveis ​​é muito simples simplesmente use o comando drop. Olhando os dados do CCHS, a variável SLP01 (Número de horas passadas a dormir por noite) é codificada como. a (NÃO APLICÁVEL) para cada observação no conjunto de dados. Claramente, não aprenderemos nada dessa variável, então podemos deixá-la cair. A variável sintaxe para descartar é simples: onde varlist é a lista de variáveis ​​que você gostaria de soltar. É fácil soltar um número de variáveis ​​de cada vez dessa maneira. Aqui estou descartando todas as variáveis ​​que foram codificadas como Não aplicável para mais de 95 de observações10: às vezes as variáveis ​​não são codificadas da maneira que você deseja que elas sejam. Nesta seção, analisaremos duas transformações que você precisará fazer em algumas variáveis ​​antes de usá-las: recodificar e destring. O comando recode muda os valores das variáveis ​​numéricas de acordo com as regras especificadas. No conjunto de dados do CCHS, muitas variáveis ​​têm valores faltantes codificados como. a ou. d. Isso é conveniente porque não afetará os cálculos que você pode fazer usando os dados (por exemplo, se você calcular uma média). No entanto, muitos conjuntos de dados usam 999 como um código variável faltando, e isso pode ser problemático. Podemos querer recodificar estes como. Para não afetá-los nos cálculos que planejamos fazer com os dados. A sintaxe para este comando é: recodificar varlist (valor antigo (s) novo valor) 11 Permite recodificar as variáveis ​​de altura e IMC dos dados do CCHS (por motivos de ilustração, uma vez que na verdade não é necessário neste caso): a destruição O comando permite converter dados salvos no formato de seqüência (ou seja, alfanuméricos) em um formato numérico. O conjunto de dados CCHS não contém nenhuma variável de string. Para ver como uma variável de string parece, podemos usar o comando inverso, tostring, para criar uma variável de string. Depois, converteremos essa variável em um formato numérico. Uma variável de string aparece em vermelho no editor de dados: embora possa parecer igual à variável CIH2, a Stata não pode fazer cálculos na variável de string (já que seu formato está dizendo ao Stata que é feito de letras ou outros símbolos). Permite destruição: observe o uso das opções gerar e substituir. Quando criamos a variável de string falsa, usamos gerar porque queríamos uma nova variável separada. Agora, quando destremos, estamos substituindo a variável de string pela sua contrapartida numérica. Como você escolhe fazer isso em seu próprio conjunto de dados, depende de como você planeja usar as variáveis. Você ainda terá algum uso para a variável string se assim for gerar uma nova quando você destring. Você só quer que essa variável não esteja no formato de string. Em seguida, substitua-a pela nova. Aqui, podemos ver que nossa cadeia de variáveis ​​agora é completamente idêntica à variável CIH2: (Nós podemos descartar essa variável agora) Os outliers merecem sua própria seção, porque muitas vezes há confusão quanto ao que constitui exatamente um outlier. Um outlier NÃO é uma observação com um valor incomum, mas possível, para uma variável12 eventos raros ocorrem. Os valores anuais que você deve se preocupar são os que vêm de um erro de codificação. Como você diz qual é o que o senso comum faz um longo caminho aqui. Primeiro, veja seus dados usando o editor de dados (procurar). Os outliers tendem a saltar para você. Se você tem um pequeno conjunto de dados, você também pode tabular cada uma de suas variáveis: Tabular uma variável irá fornecer uma lista de todos os valores possíveis que a variável leva no conjunto de dados. Outliers serão os valores extremos. Veja a ordem de grandeza. Esses valores são confiáveis ​​Se o conjunto de dados for muito grande, no entanto, pode não ser prático olhar todos os valores que uma variável pode levar. Na verdade, a Stata não tabulará se houver muitos valores diferentes. Você pode analisar seus dados em um gráfico de dispersão: no conjunto de dados do CCHS, o caso é o id individual, enquanto hwtghtm é a altura em metros. O gráfico nos diz que não há outliers neste conjunto de dados: Outra maneira de procurar outliers é resumir as observações para uma variável, usando a opção detalhada: A janela de resultados mostrará os principais percentis da distribuição (incluindo a mediana 50), Os primeiros quatro momentos, bem como as quatro maiores e quatro maiores observações: evidentemente, não existem valores abertos. Imagine por um momento que o percentil 99 da distribuição de altura inclui uma observação com 5,2 m inserida como a altura. É plausível que realmente haja uma mulher de 5,2 m registrada neste conjunto de dados. Observe a ordem de magnitude pela qual essa observação seria diferente da segunda maior. São quase 50 desvios padrão maiores. O que você deve fazer com essa observação Existem várias soluções, mas nenhuma é perfeita: Solte-a do seu conjunto de dados (solte se hwtghtmgt1.803) Use o qualificador if para excluí-lo ao gerar estatísticas que usam a variável de altura (comando se hwtghtmlt1 .803) Ignore-o se a variável de altura não é realmente importante em sua pesquisa e o resto das variáveis ​​para estas observações são codificadas exatamente. Existem dois comandos principais que você precisa saber para gerar novas variáveis: gen é o básico, Enquanto egen permite que você fique muito elegante. Você pode combiná-los com qualificadores, como se ou em, bem como prefixo, como by and bysort14. Por exemplo, diga que deseja criar uma variável que indique se as mulheres no conjunto de dados têm um parceiro ao vivo. Embora não exista uma maneira segura de estabelecer isso, vamos aproximá-lo ao assumir que as mulheres que indicaram seu estado civil como casado ou em direito comum realmente vivem com seu cônjuge ou parceiro de direito comum: a primeira linha cria a variável livein e Atribui-lhe um valor de 1 se o valor da variável de estado civil (dhhgms) for 1 (casado) ou 2 (common law). A segunda linha substitui o código de valor perdido por 0, tornando a variável livein binária. Agora, digamos que você gostaria de criar uma variável categórica que lhe diga, por faixa etária, se uma mulher está abaixo ou acima da média em termos de índice de massa corporal (IMC). A primeira linha de comando cria uma variável (meanbmi) que assume um valor exclusivo para cada faixa etária, o IMC médio dessa faixa etária. O prefixo bysort é uma combinação de por e ordenar que você poderia equivalente dividir em dois comandos: por DHHGAGE: egen meanbmimean (HWTGBMI) A parte de classificação do comando organiza a observação de acordo com a variável DHHGAGE, do menor ao maior, é necessário um passo Antes de fazer qualquer ação pela variável. Normalmente, é mais fácil usar apenas o bysort. A segunda e terceira linhas (começando com gen) criam uma variável binária igual a 0 se uma observação tiver um IMC inferior à média da faixa etária e 1 se o IMC estiver acima da média do grupo etário. Agora que você criou essas novas variáveis, seria bom ter certeza de que as regras pelas quais você as gerou estavam corretas. Idealmente, você gostaria de ver o livein (a nova variável com base no estado civil) e dhhgms (variável do estado civil). No entanto, é difícil comparar duas variáveis, a menos que estejam lado a lado. Você pode usar o comando order para mover uma variável (ou seja, mover uma coluna de seu conjunto de dados). Quando você cria uma variável, por padrão, ela se torna a última coluna do seu conjunto de dados. Você pode movê-lo ao lado de outra variável em vez disso: agora, se olharmos para o nosso conjunto de dados, podemos ver comparar a nova variável com a antiga e certificar-se de que a codificamos corretamente: Da mesma forma, como nossas duas novas variáveis ​​pertencem ao IMC são agora Últimas colunas, vamos mover a variável de IMC original para o final do conjunto de dados: agora é fácil de ver nossas novas variáveis: você percebe o problema na linha 8. A variável bmicat não deve ser codificada 1 se a variável de IMC original for codificada como Um valor faltando. Podemos corrigir isso com uma substituição rápida: substitua bmicat. Se hwtgbmi. d Sempre que você criar uma nova variável, é uma boa idéia rotulá-la. Por que ter suas variáveis ​​rotuladas torna mais fácil para você ou qualquer outra pessoa usar seu conjunto de dados para ver rapidamente o que cada variável representa. Você deve pensar em seu trabalho como algo que as pessoas devem ser capazes de reproduzir. Rotular suas variáveis ​​é uma pequena tarefa que torna muito mais fácil para os outros usar seus dados15. A sintaxe das variáveis ​​de rotulagem é a seguinte: rótulo variável varname label. No nosso exemplo anterior, o comando seria assim: Note que você pode abreviar este comando para o laboratório var: Você pode achar que você trabalha mais rápido se suas variáveis ​​tiverem nomes que você reconheça à primeira vista. Na maioria dos casos, esta não é uma tarefa necessária na limpeza de dados, mas se você usar dados de outro país, por exemplo, você pode achar que os nomes das variáveis ​​estão em uma língua estrangeira, tornando muito difícil lembrar. A sintaxe é tão fácil quanto possível: renomear nome antigo newname Permite ver o arquivo final O seu arquivo do do pode ser ligeiramente diferente disso, mas isso deve resultar no mesmo conjunto de dados final: vamos tentar executá-lo de uma vez para ver se ele trabalho. Não realce nenhum comando e clique em Executar (Fazer). Observe que sempre que o Stata encontrar o comando procurar um editor de dados aparecerá na tela. Dê uma olhada em seus dados e feche o editor de dados para que o Stata continue executando o arquivo do-do. Aproveite também o tempo para abrir nossos logs para ver o que parece e como ele pode ser útil. Finalmente, procure nossos conjuntos de dados finais e certifique-se de que contém todas as variáveis ​​corretas, no formato correto. Isso conclui nossa oficina, mas é apenas o começo para você. Aprender a usar o software estatístico envolve muita tentativa e erro, googling irritado e tentando desesperadamente encontrar alguém que saiba como escrever um loop Listado abaixo são alguns recursos excelentes para aprimorar seu conhecimento de trabalho da Stata: Bem-vindo ao Instituto de Digital Pesquisa e Educação Análise de Medidas Repetidas com Dados Stata: largo versus longo Os dados das medidas repetidas são apresentados em dois formatos diferentes: 1) de largura ou 2) de duração. No formato amplo, cada assunto aparece uma vez com as medidas repetidas na mesma observação. Para dados no formato longo, há uma observação para cada período de tempo para cada assunto. Aqui está um exemplo de dados no formato amplo por quatro períodos de tempo. No acima, y1 é a variável de resposta no momento um. Em forma longa, os dados se parecem com isso. Observe que o tempo é uma variável explícita com dados de formulário longo. Esse formato é chamado de dados por período de pessoa por alguns pesquisadores. A Stata analisa medidas repetidas para anova e para modelos mistos lineares em forma longa. Por outro lado, SAS e SPSS geralmente analisam medidas repetidas anova de forma ampla. No entanto, SAS e SPSS exigem o uso de modelos mistos de dados longos. O conjunto de dados de exemplo Nosso conjunto de dados de exemplo é chamado de medições repetidas e pode ser baixado com o seguinte comando. Há um total de oito assuntos medidos em quatro pontos de tempo cada. Esses dados estão em formato amplo onde y1 é a resposta no momento 1, y2 é a resposta no tempo 2, e assim por diante. Os sujeitos são divididos em dois grupos de quatro sujeitos usando a variável trt. Aqui estão as estatísticas descritivas básicas em cada um dos quatro pontos de tempo combinados e quebrados pelo grupo de tratamento. Em seguida, vamos representar os oito meios celulares com o comando escrito pelo usuário, perfil. Você pode baixar este comando digitando findit profileplot é a janela de comando do Stata. Agora, vamos analisar as matrizes de correlação e covariância das respostas ao longo do tempo. A medida repetida anova assume que a estrutura de covariância dentro do assunto é simétrica composta. A matriz de covariância acima não parece ter simetria composta. Vamos discutir a covariância dentro do assunto em maior detalhe mais tarde na apresentação. Remodelar de largo a longo Agora que analisamos algumas das estatísticas descritivas, podemos reformular os dados em forma longa usando o comando remodelar. A opção i () fornece a variável que identifica o assunto enquanto a opção j () cria uma nova variável que indica o período de tempo. Agora que nós reformulamos os dados, podemos avançar para medidas repetidas anova. Repetidas medidas anova Na linguagem anova, esse design tem efeitos entre sujeitos e dentro do assunto, ou seja, é um modelo de efeitos mistos. Em particular, este design às vezes é referido como uma análise fatorial de variância dividida. Em Stata, com os dados em forma longa, precisamos especificar os termos de erro para os efeitos entre sujeitos e dentro do assunto. Em geral, a regra é que existe um único termo de erro para todos os efeitos entre os sujeitos e um termo de erro separado para cada um dos fatores internos e para a interação de fatores internos. Nosso modelo é relativamente simples, com apenas dois termos de erro. O efeito entre os sujeitos é o tratamento (trt) e seu termo de erro é sujeito aninhado no tratamento (id trt). O tempo de fator dentro do assunto. Seu termo de erro é o erro residual para o modelo. As medidas repetidas anova têm uma suposição de que a estrutura de covariância dentro do assunto é simétrica composta, também conhecida como, permutável. Com simetria composta, espera-se que as variações em cada tempo sejam iguais e que todas as covariâncias sejam iguais entre si. Se a estrutura de covariância dentro do assunto não for simétrica composta, os valores p obtidos das medidas repetidas anova podem não refletir com precisão as probabilidades verdadeiras. O Stata permite que você considere a falta de simetria composta, incluindo a opção repetida () no comando anova que calcula p-valores para testes F conservadores. Vamos discutir as estruturas de covariância em maior profundidade depois na apresentação. Aqui está o comando anova para nossos dados. A interação tratamento por momento é significativa, assim como os dois efeitos principais para o tratamento e o tempo. A saída inclui os valores de p para três testes F conservadores diferentes: 1) Huynh-Feldt, 2) Greenhouse-Geisser e 3) Boxs conservador F. Esses valores são indicadores do valor p é mesmo se os dados não se encontrarem A hipótese de simetria composta. Podemos ver a matriz de covariância dentro do assunto agrupada listando a matriz Srep. A inspeção da matriz de covariância dentro do assunto agrupada duvida da validade da suposição de simetria composta. Felizmente, os valores de p para o teste F conservador ainda indicam efeitos significativos para a interação trttime e o efeito principal do tempo. Testes de efeitos simples Uma vez que a interação tratamento por momento é significativa, devemos tentar explicar a interação. Uma maneira de fazer isso é através do uso de testes de efeitos simples. Começaremos por analisar o efeito do tempo em cada nível de tratamento. O efeito do tempo em cada tratamento O efeito simples do tempo tem três graus de liberdade para cada nível do tratamento para um total de seis graus de liberdade. Este teste de efeitos simples usará o erro residual para o modelo como seu termo de erro. Usaremos o comando de contraste para fazer o teste de efeitos simples. Acompanhamento do pardo Uma vez que cada um dos testes de efeitos simples envolve quatro pontos de tempo acompanhará as comparações em pares usando o comando de margens com a opção pwcompare. Anova com termo de erro combinado Os testes de tratamento em cada ponto de ligação requerem o uso do erro combinado. Ou seja, agrupando id trt e o erro residual. Isso é facilmente realizado removendo id trt do comando anova. Observe que os graus de liberdade residenciais são agora 24. O efeito do tratamento em cada momento Agora podemos executar os efeitos simples do tratamento a cada momento, novamente usando o comando de contraste. Uma vez que existem dois níveis de tratamento em cada ponto do tempo, há um total de quatro graus de liberdade. Uma vez que cada teste é um grau de liberdade, não precisamos fazer nenhum teste de acompanhamento. Gráfico de interação Um gráfico da interação é sempre útil. Usaremos o comando de margens e margensplot para produzir o enredo. Desvantagens de medidas repetidas anova Medidas repetidas anova sofre de várias desvantagens, entre elas, não permite observações desiguais dentro do sujeito, o usuário deve determinar o termo de erro correto para cada efeito assume simetria composta estrutura de covariância intercambiável Metas de medidas repetidas Uma alternativa às medidas repetidas anova é para executar A análise como um modelo misto de medidas repetidas. Vamos fazer isso usando o comando xtmixed. Observe que não precisamos especificar os termos de erro, precisamos apenas especificar o nome da variável em que os dados são repetidos, neste caso id. Aqui está o aspecto do comando xtmixed. Note-se que usamos a opção reml para que os resultados sejam comparáveis ​​aos resultados da Anova. Além das estimativas dos efeitos fixos, obtemos dois efeitos aleatórios. Estas são a variância das interceptações e a variância residual que correspondem às variâncias entre sujeitos e dentro do assunto, respectivamente. Xtmixed produz estimativas para cada termo no modelo individualmente. Para obter testes conjuntos (multi-grau de liberdade) da interação e dos principais efeitos, usaremos o comando de contraste. Gráfico de interação Permite representar graficamente a interação usando as mesmas margens e os comandos de margens como antes. Teste de efeitos simples Mais uma vez, podemos usar testes de efeitos simples para entender a interação significativa. Tempo em cada tratamento Uma vez que cada um desses testes de efeitos simples usa três graus de liberdade, seguiremos comparações entre pares. Tratamento a cada momento Teste de tendências pós-hoc Outra maneira de ver esses resultados seria analisar a tendência ao longo do tempo para cada um dos dois grupos. Fazemos isso usando a p. Operador de contraste que fornece coeficientes de uso de polinômios ortogonais. Nós mantemos o operador que usamos nos testes de efeitos simples para dar os resultados por tratamento. Os resultados mostram uma tendência linear significativa tanto para o tratamento 1 como para o tratamento 2. O tratamento 2 tem uma tendência quadrática significativa enquanto o tratamento 1 tem uma tendência cúbica significativa. Teste pós-hoc de interação parcial. Outra alternativa é analisar as interações parciais entre o tratamento eo tempo. Vamos examinar os dois tratamentos e dois pontos de tempo para cada teste. Para entender nossos testes de interação parcial, ele ajuda a ver o gráfico da interação. O primeiro teste analisa as duas linhas entre o tempo 1 e o tempo 2. O próximo teste examina as linhas entre o tempo 2 e o tempo 3. E o teste final analisa as duas linhas entre o tempo 3 e o tempo 4. Para cada um dos Interações parciais que estamos testando se a interação entre as quatro células é significativa. A maneira de configurar os testes de interação parcial é usar o a. (Adjacente) operador de contraste juntamente com a para a interação. A explicação é muito mais complexa do que o conceito. Os resultados indicam que não há interação entre o tempo 1 eo tempo 2 ou entre o tempo 2 e o tempo 3. No entanto, há uma interação entre os tempos 3 e 4. Estruturas de covariância dentro do assunto Nós declaramos anteriormente que retornaríamos ao tópico De estruturas de covariância dentro do assunto. Então, vamos ver várias das possíveis estruturas de covariância dentro do assunto. Essa estrutura de covariância trata os efeitos repetidos como totalmente independentes, como se o design fosse entre os sujeitos. Simetria de compostos intercambiáveis ​​As medidas repetidas anova pressupõem que a estrutura de covariância dentro do assunto possui simetria composta. Existe uma única variância (sigma 2) para todos os 3 pontos do tempo e existe uma única covariância (sigma 1) para cada um dos pares de testes. Isso é ilustrado abaixo. Stata chama essa estrutura de covariância permutável. Não estruturado Para a covariância não estruturada, cada ponto de tempo tem sua própria variância (por exemplo, sigma 1 2 é a variância do tempo 1) e cada par de pontos de tempo tem sua própria covariância (por exemplo, sigma 21 é a covariância do tempo 1 e do tempo 2). Este é o tipo de estrutura de covariância encontrada análise de variância multivariada (manova). A desvantagem para o uso de covariância não estruturada é o maior número de parâmetros que estão sendo estimados. Autoregressivo Outra estrutura comum de covariância freqüentemente observada em dados de medidas repetidas é uma estrutura autorregressiva, que reconhece que as observações mais próximas são mais correlacionadas do que as medidas mais distantes. Abaixo está um exemplo de uma matriz de covariância autorregressiva 1. Também é possível ter estruturas autorregressivas de tipo 2 ou 3. Além das estruturas de covariância mostradas acima, a Stata também oferece as seguintes estruturas de covariância: média móvel, banda, toeplitz e exponencial. Exemplo com covariância não estruturada Depois de inspecionar nossa matriz de covariância dentro do assunto, decidimos usar a covariância dentro do assunto não estruturada. Aqui está o teste conjunto (multi grau de liberdade) para a interação. Testes de efeitos simples: trttime Uma vez que a interação é estatisticamente significativa, acompanharemos um teste de efeitos simples do tempo em cada tratamento. Modelos de crescimento Modelo de crescimento linear Também é possível tratar o tempo como uma variável contínua, caso em que o Modelo seria considerado um modelo de crescimento linear. Para simplificar a interpretação da interceptação, vamos começar a zero em vez de uma. Fazemos isso criando uma nova variável ctime que é tempo - 1. Precisamos deixar que xtmixed soubesse que estamos tratando ctime como contínuo usando o c. Prefixo. Note, ao usar um modelo misto, não é necessário que cada assunto seja medido nos mesmos pontos de tempo, embora no nosso caso eles sejam todos medidos nos mesmos quatro pontos de tempo. Aqui está o nosso modelo de crescimento linear. Como você pode ver, o termo de interação ainda é estatisticamente significativo. Você precisa ter cuidado ao interpretar trt e ctime como efeitos principais no sentido anova. O coeficiente ctime é a inclinação de y em ctime no grupo de referência. Enquanto o coeficiente para trt é a diferença nos dois grupos quando ctime é zero. Inclinações simples Podemos usar o comando de margens com a opção dydx para obter as encostas de cada um dos dois grupos de tratamento. Observe que o declive para trt 1 é o mesmo que o coeficiente para ctime acima. Nós também podemos testar a diferença nas pistas usando o comando de margens com codificação de grupo de referência usando o r. Operador de contraste. Não é realmente necessário fazer isso porque já sabemos que a diferença nas inclinações é significativa do termo de interação acima. Na verdade, se você tomar o valor z para a interação (3.57) e quadrá-lo (12.7449), você obtém o qui-quadrado mostrado abaixo para dentro do erro de arredondamento. Representação gráfica da interação Podemos visualizar as inclinações simples, representando a interação utilizando uma variação de margens com a opção at () juntamente com o comando marginsplot. Modelo de crescimento quadrático Não temos que nos restringir a uma relação linear ao longo do tempo. We can easily include a quadratic effect by repeating c. ctime term in our model. Graphing the quadratic model We can graph the quadratic model using the same margins and marginsplot commands that we used for the linear model Cubic growth model If we add an additional ctime to our quadratic growth model, we get a cubic growth model. Graphing the cubic model Slopes for each treatment and time point With a slight variation to the margins command, we can get the slopes for each treatment group at each time point. You will note that for treatment 2 the slopes just keep getting steeper and steeper, while for treatment 1, the slopes go up and then back down. Advantages and disadvantages of mixed models There are both advantages and disadvantages to using mixed models but on the whole mixed models are more flexible and have more advantages than disadvantages. Advantages automatically computes correct standard errors for each effect allows unbalance or missing observations within-subject allows unequal time intervals allows various within-subject covariance structures allows time to be treated as categorical or continuous Disadvantages xtmixed reports results as chi-square the p-values are appropriate for large samples and are biased downwards in small samples The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

Comments