Tuesday 11 July 2017

Opções De Falta De Dados Imputação Opções Binárias


Bem-vindo ao Instituto de Pesquisas Digitais e Educação Seminários de Informática Estatística Faltando Dados na Parte 1 da SAS Nota: Uma apresentação em PowerPoint desta página pode ser baixada aqui. Introdução Os dados em falta são um problema comum, e na maioria das vezes, lidamos com a questão da falta de dados de forma ad hoc. O objetivo deste seminário é discutir técnicas comumente usadas para lidar com dados faltantes e problemas comuns que possam surgir quando essas técnicas são usadas. Em particular, nos concentraremos em um dos métodos mais populares, múltiplas imputações. Não estamos defendendo a favor de qualquer técnica para lidar com dados faltantes e, dependendo do tipo de dados e modelo que você usará, outras técnicas, como a máxima probabilidade direta, podem atender melhor suas necessidades. Escolhemos explorar a imputação múltipla através de um exame dos dados, uma consideração cuidadosa dos pressupostos necessários para implementar este método e uma compreensão clara do modelo analítico a ser estimado. Esperamos que este seminário o ajude a compreender melhor o alcance das questões que você possa enfrentar ao lidar com dados perdidos usando esse método. O conjunto de dados hsbmar. sas7bdat baseado em hsb2.sas7bdat usado para este seminário pode ser baixado na sequência do link. O código SAS para este seminário é desenvolvido, você canta SAS 9.4 e SAS STAT 13.1. Então, eu das variáveis ​​têm etiquetas de valor (formatos) associadas a elas. Aqui está a configuração para ler os rótulos de valor corretamente. Objetivos da análise estatística com dados faltantes: minimizar o viés Maximizar o uso da informação disponível Obter estimativas apropriadas de incerteza Explorar mecanismos de dados ausentes O mecanismo de dados em falta descreve o processo que se acredita ter gerado os valores em falta. Os mecanismos de dados em falta geralmente se enquadram em uma das três categorias principais. Existem definições técnicas precisas para esses termos na literatura, a seguinte explicação contém necessariamente simplificações. Faltando completamente aleatoriamente (MCAR) Uma variável está faltando completamente ao acaso, se nem as variáveis ​​no conjunto de dados nem o valor não observado da própria variável predizem se um valor estará faltando. Faltando completamente ao acaso é uma suposição bastante forte e pode ser relativamente raro. Uma situação relativamente comum em que os dados estão faltando completamente aleatoriamente ocorre quando um subconjunto de casos é selecionado aleatoriamente para ser submetido a medições adicionais. Isso, às vezes, é chamado de falta de quot. Por exemplo, em algumas pesquisas de saúde, alguns assuntos são selecionados aleatoriamente para Passar por um exame físico mais extenso, portanto, apenas um subconjunto de participantes terá informações completas para essas variáveis. Faltando completamente ao acaso também permite que falta em uma variável para estar relacionado a falta em outra, p. Var1 está faltando sempre que var2 está faltando. Por exemplo, um marido e uma esposa estão faltando informações em altura. Uma variável é faltando aleatoriamente se outras variáveis ​​(mas não a própria variável) no conjunto de dados podem ser usadas para prever faltas em uma determinada variável. Por exemplo, nos inquéritos, os homens podem ser mais propensos a recusar-se a responder a algumas questões do que as mulheres (ou seja, o género prediz falta de outra variável). MAR é um pressuposto menos restritivo que o MCAR. Sob este pressuposto, a probabilidade de faltar não depende dos valores reais após o controle das variáveis ​​observadas. MAR também está relacionado à ignorância. O mecanismo de dados faltante é dito ser ignorável se faltar ao acaso e a probabilidade de falta não depende da informação perdida em si. A suposição de ignorabilidade é necessária para uma estimativa ótima de informações faltantes e é uma suposição necessária para ambas as técnicas de dados que faltam, discutiremos. Faltando não aleatoriamente (MNAR) Finalmente, os dados são faltantes, não aleatoriamente, se o valor da própria variável não observada prevê falta. Um exemplo clássico disso é a renda. Indivíduos com rendimentos muito elevados são mais propensos a recusar-se a responder questões sobre a sua renda do que os indivíduos com rendimentos mais moderados. A compreensão dos mecanismos de dados ausentes presentes em seus dados é importante porque diferentes tipos de dados faltantes exigem tratamentos diferentes. Quando os dados faltam completamente ao acaso, analisar apenas os casos completos não resultará em estimativas de parâmetros tendenciosas (por exemplo, coeficientes de regressão). No entanto, o tamanho da amostra para uma análise pode ser substancialmente reduzido, levando a erros padrão maiores. Em contraste, analisar apenas casos completos para dados que estão faltando aleatoriamente ou que não faltam aleatoriamente podem levar a estimativas de parâmetros tendenciosos. A imputação múltipla e outros métodos modernos, como a máxima verossimilhança direta, geralmente pressupõem que os dados são pelo menos MAR, o que significa que esse procedimento também pode ser usado em dados que faltam completamente ao acaso. Os modelos estatísticos também foram desenvolvidos para modelar os processos MNAR no entanto, esses modelos estão além do escopo deste seminário. Para obter mais informações sobre os mecanismos de dados ausentes, consulte: Allison, 2002 Enders, 2010 Small amp Rubin, 2002 Rubin, 1976 Schafer amp Graham, 2002 Dados completos: abaixo está um modelo de regressão que prevê a leitura usando o conjunto de dados completo (hsb2) usado para criar Hsbmar. Usaremos esses resultados para comparação. Técnicas comuns para lidar com dados perdidos Nesta seção, vamos discutir algumas técnicas comuns para lidar com dados faltantes e discutir brevemente suas limitações. Análise de caso completa (eliminação de lista) Análise de caso disponível (eliminação por pares) Imputação média Imputação única Imputação estocástica 1. Análise de caso completa: este método envolve a exclusão de casos em um determinado conjunto de dados que estão faltando dados em qualquer variável de interesse. É uma técnica comum porque é fácil de implementar e funciona com qualquer tipo de análise. Abaixo, analisamos algumas das estatísticas descritivas do conjunto de dados hsbmar. Que contém resultados de testes, bem como informações demográficas e escolares para 200 estudantes do ensino médio. Observe que, embora o conjunto de dados contenha 200 casos, seis das variáveis ​​têm menos de 200 observações. A informação faltante varia entre 4.5 (leitura) e 9 (feminino e prog) dos casos dependendo da variável. Este tipo de dados parece ser um monte de dados faltantes, então podemos estar inclinados a tentar analisar os dados observados como estão, uma estratégia às vezes referida como análise de caso completa. Abaixo está um modelo de regressão onde a variável dependente lida é regredida na gravação. Matemática, feminino e prog. Observe que o comportamento padrão do proc GLM é uma análise de caso completa (também referida como eliminação de lista). Analisando o resultado, verificamos que apenas 130 casos foram usados ​​na análise em outras palavras, mais de um terço dos casos em nosso conjunto de dados (70 200) foram excluídos da análise por falta de dados. A redução do tamanho da amostra (e poder estatístico) por si só pode ser considerada um problema, mas a análise completa do caso também pode levar a estimativas tendenciosas. Especificamente, você verá abaixo que as estimativas para interceptação, escrita, matemática e prog são diferentes do modelo de regressão nos dados completos. Além disso, os erros padrão são maiores devido ao menor tamanho da amostra, resultando na estimativa do parâmetro para as mulheres quase não significativas. Infelizmente, a menos que o mecanismo dos dados perdidos seja o MCAR, este método irá introduzir uma polarização nas estimativas dos parâmetros. 2. Análise de caso disponível: este método envolve a estimativa de meios, variâncias e covariâncias com base em todos os casos não faltantes disponíveis. Significa que uma matriz de covariância (ou correlação) é calculada onde cada elemento é baseado no conjunto completo de casos com valores não faltantes para cada par de variáveis. Este método tornou-se popular porque a perda de poder devido a informações faltantes não é tão substancial quanto a análise de caso completa. Abaixo observamos as correlações em pares entre o resultado lido e cada um dos preditores, escrita, prog, feminino e matemática. Dependendo da comparação do parwise examinada, o tamanho da amostra mudará com base na quantidade de presentes ausentes em uma ou ambas as variáveis. Como proc glm não aceita matrizes de covariância como entrada de dados, o seguinte exemplo será feito com proc reg. Isso exigirá que criemos variáveis ​​dummy para o prog do prognóstico categórico, uma vez que não há nenhuma declaração de classe no proc reg. Por padrão, proc corr usa a exclusão em pares para estimar a tabela de correlação. As opções na declaração proc corrv, cov e outp. Produzirá uma matriz de covariância de variância com base na eliminação em pares que será usada no modelo de regressão subsequente. O primeiro aspecto que você deve ver é a nota que o SAS imprime no seu arquivo de registro indicando quotN não é igual em variáveis ​​no conjunto de dados. Isso pode não ser apropriado. O menor valor será usado. quot. Uma das principais desvantagens deste método não é um tamanho de amostra consistente. Você também notará que as estimativas de parâmetros apresentadas aqui são diferentes das estimativas obtidas a partir da análise dos dados completos e da abordagem de eliminação de lista. Por exemplo, a variável feminina teve um efeito estimado de -2,7 com os dados completos, mas foi atenuada para -1,85 para a análise de caso disponível. A menos que o mecanismo de dados faltantes seja MCAR, este método irá introduzir uma polarização nas estimativas dos parâmetros. Portanto, esse método não é recomendado. 3. Imputação média incondicional: este método envolve a substituição dos valores faltantes por uma variável individual com a média global estimada dos casos disponíveis. Embora este seja um método simples e facilmente implementado para lidar com valores perdidos, tem algumas conseqüências infelizes. O problema mais importante com a imputação média, também chamada de substituição média, é que resultará em uma redução artificial da variabilidade devido ao fato de você estar imputando valores no centro da distribuição da variável. Isso também tem consequências não intencionais de alterar a magnitude das correlações entre a variável imputada e outras variáveis. Podemos demonstrar esse fenômeno em nossos dados. Abaixo estão as tabelas dos meios e desvios padrão das quatro variáveis ​​em nosso modelo de regressão ANTES e APÓS uma imputação média bem como suas correspondentes matrizes de correlação. Nós iremos utilizar novamente as variáveis ​​dummy prog que criamos anteriormente. Você notará que há muito pouca mudança na média (como seria de esperar) no entanto, o desvio padrão é visivelmente menor depois de se substituir em valores médios para as observações com informações faltantes. Isso ocorre porque você reduz a variabilidade em suas variáveis ​​quando imputa todo mundo à média. Além disso, você pode ver a tabela de quotPearson Correlação Coefficientsquot que a correlação entre cada um dos nossos preditores de interesse (escrever. Matemática feminina e prog), bem como entre os preditores e o resultado lido, agora estão atenuados. Portanto, os modelos de regressão que procuram estimar as associações entre essas variáveis ​​também verão seus efeitos enfraquecidos. 4. Imputação Única ou Determinística: um tipo de imputação ligeiramente mais sofisticado é uma imputação média condicional de regressão, que r eplaces valores faltantes com pontuações previstas de uma equação de regressão. A força desta abordagem é que ele usa informações completas para imputar valores. A desvantagem aqui é que todos os seus valores previstos cairão diretamente na linha de regressão mais uma vez diminuindo a variabilidade, apenas não tanto quanto com a imputação média incondicional. Além disso, os modelos estatísticos não podem distinguir entre os valores observados e os valores imputados e, portanto, não incorporam no modelo o erro ou inseguro associado a esse imputedva lue. Além disso, você verá que esse método também irá inflar as associações entre variáveis ​​porque impõe valores que estão perfeitamente correlacionados entre si. Infelizmente, mesmo sob o pressuposto de MCAR, a imputação de regressão aumentará as correlações e as estatísticas R-quadrado. Uma discussão mais aprofundada e um exemplo disso podem ser encontrados em livro de Craig Enders. Aplicou dados de dados faltantes (2010). 5. Imputação estocástica: em reconhecimento dos problemas com a imputação de regressão e a variabilidade reduzida associada a essa abordagem, os pesquisadores desenvolveram uma técnica para incorporar ou reduzir a variabilidade perdida. Um termo residual, que é tirado aleatoriamente de uma distribuição normal com zero médio e variância igual à variância residual do modelo de regressão, é adicionado aos escores previstos da imputação de regressão, restaurando assim parte da variabilidade perdida. Este método é superior aos métodos anteriores, pois produzirá estimativas de coeficientes imparciais em MAR. No entanto, os erros padrão produzidos durante a estimativa de regressão, embora menos tendenciosos, em seguida, a abordagem de imputação única, ainda serão atenuados. Embora você possa estar inclinado a usar um desses métodos mais tradicionais, considere esta afirmação: quotMissing análise de dados são difíceis, porque não existe um procedimento metodológico inerentemente correto. Em muitas situações (se não a maioria), a aplicação cega de estimativa de máxima verossimilhança ou a imputação múltipla provavelmente levará a um conjunto mais preciso de estimativas do que usar uma das técnicas de tratamento de dados faltantes anteriormente mencionadas (p.344, Applied Missing Data Analysis, 2010) . Imputação Múltipla A imputação múltipla é essencialmente uma forma iterativa de imputação estocástica. No entanto, em vez de preencher um único valor, a distribuição dos dados observados é utilizada para estimar múltiplos valores que refletem a incerteza em torno do valor verdadeiro. Esses valores são então utilizados na análise de interesse, como em um modelo OLS, e os resultados combinados. Cada valor imputado inclui um componente aleatório cuja magnitude reflete a extensão em que outras variáveis ​​no modelo de imputação não conseguem prever os valores verdadeiros da mesma (Johnson and Young, 2011 White et al, 2010). Assim, construindo nos valores imputados um nível de incerteza em torno da quottruthnessness dos valores imputados. Um equívoco comum sobre os métodos de dados em falta é o pressuposto de que os valores imputados devem representar valores quotrealquot. O propósito de abordar os dados faltantes é reproduzir corretamente a matriz de covariância de variância que teríamos observado se nossos dados não tivessem nenhuma informação faltando. MI tem três fases básicas: 1. Imputação ou Fase de preenchimento: os dados faltantes são preenchidos com valores estimados e um conjunto de dados completo é criado. Este processo de preenchimento é repetido m vezes. 2. Fase de Análise: Cada um dos conjuntos de dados m completo é então analisado usando um método estatístico de interesse (por exemplo, regressão linear). 3. Fase de agrupamento: as estimativas de parâmetros (por exemplo, coeficientes e erros padrão) obtidos de cada conjunto de dados analisados ​​são então combinadas para inferência. O método de imputação que você escolhe depende do padrão de informações faltantes, bem como do tipo de variável com informações faltantes. Modelo de Imputação, Modelo Analítico e Compatibilidade: Ao desenvolver seu modelo de imputação, é importante avaliar se seu modelo de imputação é quotcongenialquot ou consistente com seu modelo analítico. A consistência significa que seu modelo de imputação inclui (no mínimo) as mesmas variáveis ​​que estão em seu modelo analítico ou de estimativa. Isso inclui todas as respostas a variáveis ​​que serão necessárias para avaliar suas hipóteses de interesse. Isso pode incluir transformações de logs, termos de interação ou recodificações de uma variável contínua em uma forma categórica, se for assim que será usado em análise posterior. A razão para isso relaciona-se com os comentários anteriores sobre o propósito da imputação múltipla. Uma vez que estamos tentando reproduzir a matriz de covariância de variância adequada para estimação, todas as relações entre nossas variáveis ​​analíticas devem ser representadas e estimadas simultaneamente. Caso contrário, você está imputando valores assumindo que eles têm uma correlação de zero com as variáveis ​​que você não incluiu em seu modelo de imputação. Isso resultaria em subestimar a associação entre parâmetros de interesse em sua análise e uma perda de poder para detectar propriedades de seus dados que podem ser de interesse, como não-linearidades e interações estatísticas. Para leitura adicional sobre este tópico específico, veja: 1. von Hippel, 2009 2. von Hippel, 2013 3. White et al. 2010 Preparando-se para conduzir MI: Primeiro passo: Examine o número ea proporção de valores faltantes entre suas variáveis ​​de interesse. O procedimento de proc significa no SAS possui uma opção chamada nmiss que irá contar o número de valores em falta para as variáveis ​​especificadas. Você também pode criar indicadores de dados ausentes ou variáveis ​​de indicadores para as informações que faltam para avaliar a proporção de falta. Esta tabela de padrões de dados de quotMissing pode ser solicitada sem realmente executar uma imputação completa, especificando a opção nimpute0 (especificando zero conjuntos de dados imputados a serem criados) na linha proc mi instance. Cada quotgroupquot representa um conjunto de observações no conjunto de dados que compartilham o mesmo padrão de informações faltantes. Por exemplo, o grupo 1 representa as 130 observações nos dados que possuem informações completas sobre as 5 variáveis ​​de interesse. Este procedimento também fornece meios para cada variável para este grupo. Você pode ver que há um total de 12 padrões para as variáveis ​​especificadas. O meio estimado associado a cada padrão de dados ausente também pode dar uma indicação de se a hipótese MCAR ou MAR é apropriada. Se você começar a observar que aqueles com determinados padrões de dados ausentes parecem ter uma distribuição de valores muito diferente, isso é uma indicação de que seus dados podem não ser MCAR. Além disso, dependendo da natureza dos dados, você pode reconhecer padrões como ausência monótona que podem ser observados em dados longitudinais quando um indivíduo desabafa em um ponto de tempo particular e, portanto, todos os dados depois são perdidos. Além disso, você pode identificar padrões de ignorância que foram perdidos em sua revisão original dos dados que devem ser tratados antes de avançar com a múltipla imputação. Terceira Etapa: Se necessário, identifique potenciais variáveis ​​auxiliares. As variáveis ​​auxiliares são variáveis ​​em seu conjunto de dados que estão correlacionadas com uma (s) variável (s) em falta (a recomendação é r gt 0.4) ou se acredita estar associada à falta. Estes são fatores que não são de particular interesse em seu modelo analítico. Mas são adicionados ao modelo de imputação para aumentar o poder e para ajudar a tornar o assumpti de MAR mais plausível. Essas variáveis ​​foram encontradas para melhorar a qualidade dos valores imputados gerados a partir de múltiplas imputações. Além disso, a pesquisa demonstrou sua importância particular ao imputar uma variável dependente e ou quando você possui variáveis ​​com uma proporção elevada de informações faltantes (Johnson e Young, 2011 Young e Johnson, 2010 Enders. 2010). Você pode saber a priori várias variáveis ​​que você acredita que fariam boas variáveis ​​auxiliares com base no seu conhecimento sobre os dados e assuntos. Além disso, uma boa revisão da literatura geralmente pode ajudar a identificá-los também. No entanto, se você não tiver certeza de quais variáveis ​​nos dados seriam potenciais candidatos (isso geralmente é o caso da análise de dados secundários de análise), você pode usar alguns métodos simples para ajudar a identificar potenciais candidatos. Uma maneira de identificar essas variáveis ​​é examinando associações entre escrever, ler, feminino e matemática com outras variáveis ​​no conjunto de dados. Por exemplo, let39s dê uma olhada na matriz de correlação entre nossas 4 variáveis ​​de interesse e duas outras variáveis ​​de pontuação do teste science and socst. A ciência e o socst parecem ser um bom auxiliar porque estão bem correlacionados (r gt0.4) com todas as outras variáveis ​​de pontuação do teste de interesse. Você também notará que eles não estão bem correlacionados com as mulheres. Um bom auxiliar não precisa ser correlacionado com cada variável a ser usada. Você também notará que a ciência também tem informações faltantes dos próprios. Além disso, não é necessário um bom auxiliar para que as informações completas sejam valiosas. Eles podem ter perdido e ainda ser eficazes na redução do viés (Enders, 2010). Uma área, isso ainda está em pesquisa ativa, é se é benéfico incluir uma variável como auxiliar se não passar o limite de correlação de 0,4 com qualquer uma das variáveis ​​a serem imputadas. Alguns pesquisadores acreditam que incluir esses tipos de itens introduz erros desnecessários no modelo de imputação (Allison, 2012), enquanto outros não acreditam que haja algum dano nesta prática (Ender, 2010). Portanto. Nós deixamos isso para você como o pesquisador para usar seu melhor julgamento. Boas variáveis ​​auxiliares também podem ser correlacionadas ou preditoras de falta. Let39s usam as bandeiras de dados perdidas que fizemos anteriormente para nos ajudar a identificar algumas variáveis ​​que podem ser boas correlatas. Nós examinamos se a nossa variável auxiliar alternativa socst também parece prever faltas. Abaixo estão um conjunto de testes t para testar se os resultados médios de socst ou ciência diferem significativamente entre aqueles com informações faltantes e aqueles sem. A única diferença significativa foi encontrada ao examinar falta de matemática com socst. Acima, você pode ver que o escore socst médio é significativamente menor entre os entrevistados que estão faltando em matemática. Isso sugere que o socst é um potencial correlato de falta (Enders, 2010) e pode nos ajudar a satisfazer a suposição de MAR para múltiplas imputações ao incluí-lo em nosso modelo de imputação. Exemplo 1: MI usando distribuição normal multivariada (MVN): ao escolher imputar uma ou várias variáveis, uma das primeiras decisões que você fará é o tipo de distribuição sob a qual você esperou para imputar sua (s) variável (s). Um método disponível no SAS usa Markov Chain Monte Carlo (MCMC), que assume que todas as variáveis ​​no modelo de imputação possuem uma distribuição normal multivariada conjunta. Esta é provavelmente a abordagem paramétrica mais comum para múltiplas imputações. O algoritmo específico usado é chamado de algoritmo de aumento de dados (DA), que pertence à família de procedimentos MCMC. O algoritmo preenche os dados ausentes extraindo de uma distribuição condicional, neste caso um normal multivariante, dos dados faltantes dados os dados observados. Na maioria dos casos, estudos simulados mostraram que assumir uma distribuição de MVN leva a estimativas confiáveis ​​mesmo quando a suposição de normalidade é violada, dado um tamanho de amostra suficiente (Demirtas et al., 2008 KJ Lee, 2010). Muitas estimativas tendenciosas foram observadas quando o tamanho da amostra é relativamente pequeno e a fração da informação faltante é alta. Nota: Uma vez que estamos usando uma distribuição normal multivariada para imputação, são possíveis valores decimais e negativos. Esses valores não são um problema para a estimativa, porém, precisaremos criar variáveis ​​dummy para as variáveis ​​categóricas nominais, de modo que as estimativas de parâmetros para cada nível podem ser interpretadas. A Imputação no SAS requer 3 procedimentos. O primeiro é processar onde o usuário especifica o modelo de imputação a ser usado e o número de conjuntos de dados imputados a serem criados. O segundo procedimento executa o modelo analítico de interesse (aqui é uma regressão linear usando proc glm) dentro de cada um dos conjuntos de dados imputados. A terceira etapa executa um procedimento de chamada proc mianalyze que combina todas as estimativas (coeficientes e erros padrão) em todos os conjuntos de dados imputados e produz um conjunto de estimativas de parâmetros para o modelo de interesse. Na linha proc mi procedure podemos usar a opção nimpute para especificar o número de imputações a serem executadas. Os conjuntos de dados imputados serão emitidos usando a opção out, e armazenados anexados ou quotstackedquot juntos em um conjunto de dados chamado quotmimvnquot. Uma variável de indicadores chamada imputação é criada automaticamente pelo procedimento para numerar cada novo conjunto de dados imputado. Após a instrução var, todas as variáveis ​​para o modelo de imputação são especificadas, incluindo todas as variáveis ​​no modelo analítico, bem como quaisquer variáveis ​​auxiliares. A opção sementes não é necessária, mas como o MI é projetado para ser um processo aleatório, a configuração de uma semente permitirá que você obtenha o mesmo conjunto de dados imputado de cada vez. Isso estima o modelo de regressão linear para cada conjunto de dados imputado individualmente usando a instrução by e a variável de indicador criada anteriormente. Você observará no Visualizador de Resultados, que o SAS exibirá as estimativas de parâmetros para cada uma das 10 imputações. A declaração de saída armazena as estimativas de parâmetros do modelo de regressão no conjunto de dados chamado quotamvn. quot Este conjunto de dados será usado no próximo passo do processo, a fase de pool. Proc mianalyze usa o método de conjunto de dados que contém as estimativas de parâmetros e as matrizes de covariância associadas para cada imputação. A matriz de covariância de variância é necessária para estimar os erros padrão. Esta etapa combina as estimativas de parâmetros em um único conjunto de estatísticas que refletem adequadamente a incerteza associada aos valores imputados. Os coeficientes são simplesmente apenas uma média aritmética dos coeficientes individuais estimados para cada um dos 10 modelos de regressão. A média das estimativas dos parâmetros amortece a variação, aumentando assim a eficiência e diminuindo a variação da amostragem. A estimativa do erro padrão para cada variável é pouco mais complicada e será discutida na próxima seção. Se você compara essas estimativas com os dados completos, você observará que eles são, em geral, bastante comparáveis. As variáveis ​​escrevem feminino e matemática. São importantes em ambos os conjuntos de dados. Você também observará uma pequena inflação nos erros padrão, o que é esperado, uma vez que o processo de imputação múltipla é projetado para criar incertezas adicionais em nossas estimativas. 2. Diagnósticos de Imputação: acima da tabela QuotParameter Estimatesquot na saída SAS acima, você verá uma tabela chamada quotVariance Informationquot. É importante examinar o resultado da proc mianalyze, pois várias partes da informação podem ser usadas para avaliar o quão bem a imputação realizada. Abaixo, discutimos cada peça: Variance Between (VB): Esta é uma medida da variabilidade nas estimativas de parâmetros (coeficientes) obtidos a partir dos 10 conjuntos de dados imputados. Por exemplo, se você tomou todas as 10 estimativas de parâmetros para escrever e calculou a variância Isso equivaleria a VB 0.000262. Essa variabilidade estima a variação adicional (incerteza) resultante de dados faltantes. Variação dentro (V W): Esta é simplesmente a média aritmética das variâncias de amostragem (SE) de cada um dos 10 conjuntos de dados imputados. Por exemplo, se você calculou os erros padrão para escrever para todas as 10 imputações e, em seguida, dividido por 10, isso seria igual, isso seria igual a V w 0.006014. Isso estima a variabilidade da amostragem que esperávamos se não houvesse dados faltantes. Variância Total (V T): A principal utilidade do IM vem de como a variância total é estimada. A variância total é a soma de múltiplas fontes de variância. Embora os coeficientes de regressão sejam apenas calculados em média em todas as imputações, a fórmula de Rubin39 (Rubin, 1 987) p parte variação para dentro da imputação, capturando a incerteza esperada e entre a imputação, capturando a variabilidade da estimativa devido a informações faltantes (Graham, 2007 White et al., 2010). A variância total é a soma de 3 fontes de variância. O interior, o entre e uma fonte adicional de variância de amostragem. Por exemplo, a variância total para a escrita variável seria calculada como esta: V B V w V B m 0.000262 0.006014 0.000262 10 0.006302 A variância de amostragem adicional é literalmente a variância dividida por m. Esse valor representa o erro de amostragem associado às estimativas de coeficientes globais ou médias. Ele é usado como fator de correção para usar um número específico de imputações. Esse valor torna-se pequeno er, mais imputações são realizadas. A idéia é que quanto maior o número de imputações, mais precisas serão as estimativas dos parâmetros. Conclusão: a principal diferença entre a imputação múltipla e outros métodos de imputação única, está na estimativa das variâncias. Os SE39s para cada estimativa de parâmetro são a raiz quadrada de V39. Graus de Liberdade (DF): Ao contrário da análise com dados não imputados, o tamanho da amostra não influencia diretamente a estimativa de DF. DF continua a aumentar à medida que o número de imputações aumenta. A fórmula padrão usada para calcular DF ​​pode resultar em estimativas fracionadas, bem como em estimativas que excedem o DF que teria resultado se os dados estivessem completos. Por padrão, o DF infinito. Nota: O início é o SAS v.8, uma fórmula para ajustar o problema do DF inflado foi implementada (Barnard e Rubin, 1999). Use a opção EDF na linha proc mianalyze para indicar ao SAS o DF ajustado corretamente. Bottom line: a fórmula padrão pressupõe que o estimador tenha uma distribuição normal, ou seja, uma distribuição em t com infinitos graus de liberdade. Em grandes amostras, isso geralmente não é um problema, mas pode ser com tamanhos de amostra menores. Nesse caso, a fórmula corrigida deve ser usada (Lipsitz et al., 2002). Aumentos Relativos na Variação (RIV RVI): aumento proporcional na variação total da amostragem, devido à informação faltante (V B V B m V W). Por exemplo, o RVI para escrever é 0.048, isto significa que a variância de amostragem estimada para escrever é 4.8 maior do que sua variância de amostragem teria sido se os dados na escrita estivessem completos. Bottom line: variáveis ​​com grandes quantidades de falta e ou que estão fracamente correlacionadas com outras variáveis ​​no modelo de imputação tendem a ter RVI39s elevados. Fração de informações faltantes (FMI): está diretamente relacionado ao RVI. Proporção da variância de amostragem total que é devido a dados faltantes (V B V B m V T). É estimado com base na porcentagem em falta para uma variável particular e como esta variável está correlacionada com outras variáveis ​​no modelo de imputação. A interpretação é semelhante a um R-quadrado. Portanto, um FMI de 0,046 para gravação significa que 4,6 da variância total de amostragem é atribuível a dados faltantes. A precisão da estimativa de FMI aumenta à medida que o número de imputações aumenta porque as estimativas de varaince se tornam mais estáveis. Isto é especialmente importante na presença de uma (s) variável (s) com alta proporção de informações faltantes. Se a convergência do seu modelo de imputação for lenta, examine as estimativas de FMI para cada variável em seu modelo de imputação. Um FMI alto pode indicar uma variável problemática. Bottom line: Se FMI é alto para qualquer variável particular (s), considere aumentar o número de imputações. Uma boa regra é ter o número de imputações (pelo menos) igual à maior porcentagem de FMI. Relative Efficiency: The relative efficiency (RE) of an imputation (how well the true population parameters are estimated) is related to both the amount of missing information as well as the number ( m) of imputations performed. When the amount of missing information is very low then efficiency may be achieved by only performing a few imputations (the minimum number given in most of the literature is 5). However when there is high amount of missing information, more imputations are typically necessary to achieve adequate efficiency for parameter estimates. You can obtain relatively good efficiency even with a small number of m. However, this does not mean that the standard errors will be well estimated well. More imputations are often necessary for proper standard erro r estimation as the variability between imputed datasets incorporate the necessary amount of uncertainty around the imputed values. The direct relationship between RE, m and the FMI is: 1 (1FMI m ) . This formula represent the RE of using m imputation versus the infinte number of imputations. To get an idea of what this looks like practically, take a look at the figure below from the SAS documentation where m is the number of imputations and lambda is the FMI. Bottom line: It may appear that you can get good RE with a few imputations however, it often takes more imputations to get good estimates of the variances than good estimates of parameters like means or regression coefficients. After performing an imputation it is also useful to look at means, frequencies and box plots comparing observed and imputed values to assess if the range appears reasonable. You may also want to examine plots of residuals and outliers for each imputed dataset individually. If anomalies are evident in only a small number of imputations then this indicates a problem with the imputation model (White et al, 2010). You should also assess convergence of your imputation model. This should be done for different imputed variables, but specifically for those variables with a high proportion of missing (e. g. high FMI). Convergence of the proc mi procedure means that DA algorithm has reached an appropriate stationary posterior distribution. Convergence for each imputed variable can be assessed using trace plots. These plots can be requested on the mcmc statement line in the proc mi procedure. Long-term trends in trace plots and high serial dependence are indicative of a slow convergence to stationarity. A stationary process has a mean and variance that do not change over time. By default SAS will provide a trace plots of estimates for the means for each variable but you can also ask for these for the standard deviation as well. You can take a look at examples of good and bad trace plots in the SAS users guide section on quotAssessing Markov Chain Convergence quot. Above is an example of a trace plot for mea n social studies score. There are two main things you want to note in a trace plot. First, assess whether the algorithm appeared to reach a stable posterior distribution by examining the plot to see if the mean remains relatively constant and that there appears to be an absence of any sort of trend (indicating a sufficient amount of randomness in the means between iterations). In our case, this looks to be true. Second, you want to examine the plot to see how long it takes to reach this stationary phase. In the above example it looks to happen almost immediately, indicating good convergence. The dotted lines represent at what iteration and imputed dataset is drawn. By default the burn-in period (number of iterations before the first set of imputed values is drawn) is 200. This can be increased if it appears that proper convergence is not achieved using the nbiter option on the mcmc statement. Another plot that is very useful for assessing convergence is the auto correlation plot also specified on the mcmc statement using plotsacf. This helps us to assess possible auto correlation of parameter values between iterations. Let39s say you noticed a trend in the mean social studies scores in the previous trace plot. You may want to assess the magnitude of the observed dependency of scores across iterations. The auto correlation plot will show you that. In the plot below, you will see that the correlation is perfect when the mcmc algorithm starts but quickly goes to near zero after a few iterations indicating almost no correlation between iterations and therefore no correlation between values in adjacent imputed datasets. By default SAS, draws an imputed dataset every 100 iterations, if correlation appears high for more than that, you will need to increase the number of iterations between imputed datasets using the niter option. Take a look at the SAS 9.4 proc mi documentation for more information about this and other options. Note: The amount of time it takes to get to zero (or near zero) correlation is an indication of convergence time (Enders, 2010). For more information on these and other diagnostic tools, please se e Ender, 2010 and Rubin, 1987. Example 2: MI using fully conditional specification (also known as imputation by chained equations ICE or sequential generalized regression ) A second method available in SAS imputes missing variables using the fully conditional method (FCS) which does not assume a joint distribution but instead uses a separate conditio nal distribution for each imputed variable. This specification may be necessary if your are imputing a variable that must only take on specific values such as a binary outcome for a logistic model or count variable for a poisson model. In simulation studies (Lee amp Carlin, 2010 Van Buuren, 2007), the FCS has been show to produce estimates that are comparable to MVN method. Later we will discuss some diagnostic tools that can be used to assess if convergence was reached when using FCS. The FCS methods available is SAS are discriminant function and logistic regression for binary categorical variables and linear regression and predictive mean matching for continuous variables. If you do not specify a method, by default the discriminant function and regression are used. Some interesting properties of each of these options are: 1. The discriminant function method allows for the user to specify prior probabilities of group membership. In discriminant function only continuous variables can be covariates by default. To change this default use the classeffects option. 2. The logistic regression method assumes ordering of class variables if more then two levels. 3. The default imputation method for continuous variables is regression. The regression method allows for the use of ranges and rounding for imputed values. These options are prob lematic and typically introduce bias (Horton et al. 2003 Allison, 2005). Take a look at the quotOther Issuesquot section below, for further discussion on this topic. 4. The predictive mean matching method will provide imputed values that are consistent with observed values. If plausible values are necessary, this is a better choice then using bounds or rounding values produced from regression. For more information on these methods and the options associated with them, see SAS Help and Documentation on the FCS Statement . The basic set-up for conducting an imputation is shown below. The var statement includes all the variables that will be used in the imputation model. If you want to impute these variables using method different then the default you can specify which variable(s) is to be imputed and by what method on the FCS statement. In this example we are imputing the binary variable female and the categorical variable prog using the discriminant function method. Since they are both categorical, we also list female and prog on the class statement. Note: Because we are using the discriminant function method to impute prog we no longer need to create dummy variables. Additionally, we use the classeffectsinclude option so all continuous and categorical variables will be used as predictors when imputing female and prog . All the other variables on var statement will be imputed using regression since a different distribution was not specified. The ordering of variables on the var statement controls in which order variables will be imputed. With multiple imputation using FCS, a single imputation is conducted during an initial fill-in stage. After the initial stage, the variables with missing values are imputed in the order specified on the var statement. With subsequent variable being imputed using observed and imputed values from the variables that proceeded them. For more information on this see White et al. 2010. Also as in the previous proc mi example using MVN, we can also specify the number of burn-in interations using the option nbiter . The FCS statement also allows users to specify which variable you want to use as predictors, if no covariates are given from the imputed variable then SAS assumes that all the variables on the var statement are to be used to predict all other variables. Multiple conditional distributions can be specified in the same FCS statement. Take a look at the examples below. This specification, imputes female and prog under a generalized logit distribution that is appropriate for non-ordered categorical variables instead of the default cumulative logit that is appropriate for ordered variables. This second specification, imputes female and prog under a generalized logit distribution and uses predictive mean matching to impute math, read and write instead of the default regression method. This third specification, indicates that prog and female should be imputed using a different sets of predictors. 2. Analysis and Pooling Phase Once the 20 multiply imputed datasets have been created, we can run our linear regression using proc genmod . Since we imputed female and prog under a distribution appropriate for categorical outcomes, the imputed values will now be true integer values. Take a look at the results of proc freq for female and prog in the second imputed dataset as compared to original data with missing values. As you can see, the FCS method has imputed quotrealquot values for our categorical variables. Prog and female can now be used in the class statement below and we no longer need to create dummy variables for prog . As with the previous example using MVN, we will run our model on each imputed dataset stored in mifcs . We will also use an ODS Output statement to save the parameter estimates from our 20 regressions. Below is a proc print of what the parameter estimates in gmfcs look like for the first two imputed datasets. quot Imputation quot indicates which imputed dataset each set of parameters estimates belong to. quotLevel1quot indicates the levels or categories for our class variables. The mianalyze procedure will now require some additional specification in order to properly combine the parameter estimates. You can see above that the parameter estimates for variables used in our model39s class statement have estimates with 1 row for each level. Additionally, a column called quotLevel1quot specifies the name or label associated with each category. In order from mianalyze to estimate the combined estimates appropriately for the class variables we need to add some options to the proc mianalyze line. As before the parms refers to input SAS data set that contains parameter estimates computed from each imputed data set. However, we also need the option classvar added. This option is only appropriate when the model effects contain classification variables. Since proc genmod names the column indicator for classification quotLevel1quot we will need to specify classvarlevel . Note: Different procedures in SAS require different classvar options. If you compare these estimates to those from the full data (below) you will see that the magnitude of the write . female . and math parameter estimates using the FCS data are very similar to the results from the full data. Additionally, the overall significance or non-significance of specific variables remains unchanged. As with the MVN model, the SE are larger due to the incorporation of uncertainty around the parameter estimates, but these SE are still smaller then we observed in the complete cases analysis. 4. Imputation Diagnostics: Like the previous imputation method with MVN . the FCS statement will output trace plots. These can be examined for the mean and standard deviation of each continuous variable in the imputation model. As before, the dashed vertical line indicates the final iteration where the imputation occurred. Each line represents a different imputation. So all 20 imputation chains are overlayed on top of one another. Autocorrelation plots are only available with the mcmc statement when assuming a joint multivariate normal distribution. This plot is not available when using the FCS statement. 1. Why Auxiliary variables So one question you may be asking yourself, is why are auxiliary variables necessary or even important. First, they can help improve the likelihood of meeting the MAR assum ption (White et al, 2011 Johnson and Young, 2011 Allison, 2012). Remember, a variable is said to be missing at random if other variables in the dataset can be used to predict missingness on a given variable. So you want your imputation model to include all the variables you think are associated with or p redict missingness in your variable in order to fulfill the assumption of MAR. Second, including auxiliaries has been shown to help yield more accurate and stable estimates and thus reduce the estimated standard errors in analytic models (Enders, 2010 Allison, 2012 von Hippel and Lynch, 2013). This is especially true in the case of missing outcome variables. Third. including these variable can also help to increase po wer (Reis and Judd, 2000 Enders, 2010). In general, there is almost always a benefit to adopting a more quotinclusive analysis str ategyquot (Enders, 2010 Allison, 2012). 2. Selecting the number of imputations ( m ) Historically, the recommendation was for three to five MI datasets. Relatively low values of m may still be appropriate when the fraction of missing information is low and the analysis techniques are relatively simple. Recently, however, larger values of m are often being recommended. To some extent, this change in the recommended number of imputations is based on the radical increase in the computing power available to the typical researcher, making it more practical to run, create and analyze multiply imputed datasets with a larger number of imputations. Recommendations for the number of m vary. For example, five to 20 imputations for low fractions of missing information, and as many as 50 (or more) imputations when the proportion of missing data is relatively high. Remember that estimates of coefficients stabilize at much lower values of m than estimates of variances and covariances of error terms (i. e. standard errors). Thus, in order to get appropriate estimates of these parameters, you may need to increase the m. A larger number of imputations may also allow hypothesis tests with less restrictive assumptions (i. e. that do not assume equal fractions of missing information for all coefficients). Multiple runs of m imputations are recommended to assess the stability of the parameter estimates. Graham et al. 2007 conducted a simulation demonstrating the affect on power, efficiency and parameter estimates across different fractions of missing information as you decrease m. The authors found that: 1. Mean square error and standard error increased. 2. Power was reduced, especially when FMI is greater than 50 and the effect size is small, even for a large number of m (20 or more). 3. Variability of the estimate of FMI increased substantially. Em geral. the estimation of FMI improves with an increased m . Another factor to consider is the importance of reproducibility between analyses using the same data. White et al. (2010), ass uming the true FMI for any variable would be less than or equal to the percentage of cases that are incomplete, uses the rule m should equal the percentage of incomplete cases. Thus if the FMI for a variable is 20 then you need 20 imputed datasets. A similar analysis by Bodner, 2008 makes a similar recommendation. White et al. 2010 also found when making this assumption, the error associated with estimating the regression coefficients, standard errors and the resulting p-values was considerably reduced and resulted in an adequate level of reproducibility. 3. Maximum, Minimum and Round This issue often comes up in the context of using MVN to impute variables that normally have integer values or bounds. Intuitively speaking, it makes sense to round values or incorporate bounds to give quotplausiblequot values. However, these methods has been shown to decrease efficiency and increase bias by altering the correlation or covariances between variables estimated during the imputation process. Additionally, these changes will often result in an underestimation of the uncertainly around imputed values. Remember imputed values are NOT equivalent to observed values and serve only to help estimate the covariances between variables needed for inference (Johnson and Young 2011). Leaving the imputed values as is in the imputation model is perfectly fine for your analytic models. If plausible values are needed to perform a specific type of analysis, than you may want to use a different imputation algorithm such as FCS . Isn39t multiple imputation just making up data No. This is argument can be made of the missing data methods that use a single imputed value because this value will be treated like observed data, but this is not true of multiple imputation. Unlike single imputation, multiple imputation builds into the model the uncertainty error associated with the missing data. Therefore the process and subsequent estimation never depends on a single value. Additionally, another method for dealing the missing data, maximum likelihood produces almost identical results to multiple imputation and it does not require the missing information to be filled-in. What is Passive imputation Passive variables are functions of imputed variables. For example, let39s say we have a variable X with missing information but in my analytic model we will need to use X 2. In passive imputation we would impute X and then use those imputed values to create a quadratic term. This method is called quotimpute then transformquot (von Hippel, 2009). While th is appears to make sense, additional research (Seaman et al. 2012 Bartlett et al. 2014) has s hown that using this method is actually a misspecification of your imputation model and will lead to biased parameter estimates in your analytic model. There are better ways of dealing with transformations. How do I treat variable transformations such as logs, quadratics and interactions Most of the current literature on multiple imputation supports the method of treating variable transformations as quotjust another variablequot. For example, if you know that in your subsequent analytic model you are interesting in looking at the modifying effect of Z on the association between X and Y (i. e. an interaction between X and Z). This is a property of your data that you want to be maintained in the imputation. Using something like passive imputation, where the interaction is created after you impute X and or Z means that the filled-in values are imputed under a model assuming that Z is not a moderator of the association between X an Y. Thus, your imputation model is now misspecified. Should I include my dependent variable (DV) in my imputation model Yes An emphatic YES unless you would like to impute independent variables (IVs) assuming they are uncorrelated with your DV (Enders, 2010). Thus, causing the estimated association between you DV and IV39s to be biased toward the null (i. e. underestimated). Additionally, using imputed values of your DV is considered perfectly acceptable when you have good auxiliary variables in your imputation model (Enders, 2010 Johnson and Young, 2011 White et al. 2010). However, if good auxiliary variables are not available then you still INCLUDE your DV in the imputation model and then later restrict your analysis to only those observations with an observed DV value. Research has shown that imputing DV39s when auxiliary variables are not present can add unnecessary random variation into your imputed valu es (Allison, 2012). How much missing can I have and still get good estimates using MI Simulations have indicated that MI can perform well, under certain circumstances, even up to 50 missing observations (Allison, 2002). However, the larger the amount of missing information the higher the chance you will run into estimation problems during the imputation process and the lower the chance of meeting the MAR assumption unless it was planned missing (Johnson and Young, 2011). Additionally, as discussed further, the higher the FMI the more imputations are needed to reach good relative efficiency for effect estimates, especially standard errors. What should I report in my methods abut my imput ation Most papers mention if they performed multiple imputation but give very few if any details of how they implemented the method. In general, a basic description should include: Which statistical program was used to conduct the imputation. The type of imputation algorithm used (i. e. MVN or FCS). Some justification for choosing a particular imputation method. The number of imputed datasets ( m) created. The proportion of missing observations for each imputed variable. The variables used in the imputation model and why so your audience will know if you used a more inclusive strategy. This is particularly important when using auxiliary variables. This may seem like a lot, but probably would not require more than 4-5 sentences. Enders (2010) provides some examples of write-ups for particular scenarios. Additionally, MacKinnon (2010) discusses the reporting of MI procedures in medical journals. Main Take Always from this seminar: Multiple Imputation is always superior to any of the single imputation methods because: A single imputed value is never used The variance estimates reflect the appropriate amount of uncertainty surrounding parameter estimates There are several decisions to be made before performing a multiple imputation including distribution, auxiliary variables and number of imputations that can affect the quality of the imputation. Remember that multiple imputation is not magic, and while it can help increase power it should not be expected to provide quotsignificantquot effects when other techniques like listwise deletion fail to find significant associations. Multiple Imputation is one tool for researchers to address the very common problem of missing data. Allison (2002). Missing Data. Sage Publications. Allison (2012). Handling Missing Data by Maximum Likelihood. SAS Global Forum: Statistics and Data Analysis. Allison (2005). Imputation of Categorical Variables with PROC MI. SUGI 30 Proceedings - Philadelphia, Pennsylvania April 10-13, 2005. Barnard and Rubin (1999). Small-sample degrees of freedom with multiple imputation. Biometrika . 86(4), 948-955. Bartlett et al. (2014). Multiple imputation of covariates by fully conditional specific ation: Accommodating the substantive model. Stat Methods Med Res . Todd E. Bodner (2008).quotWhat Improves with Increased Missing Data Imputationsquot. Structural Equation Modeling: A Multidisciplinary Journal . 15:4, 651-675. Demirtas et al.(2008). Plausibility of multivariate normality assumption when multiply imputing non-gaussian continuous outcomes: a simulation assessment. Jour of Stat Computation amp Simulation . 78(1). Enders (2010). Applied Missing Data Analysis. The Guilford Press. Graham et al. (2007). How Many Imputations are Really Needed Some Practical Clarifications of Multiple Imputation Theory. Prev Sci, 8: 206-213. Horton et al. (2003) A potential for bias when rounding in multiple imputation. American Statistician. 57: 229-232. Lee and Carlin (2010). Multiple Imputation for missing data: Fully Conditional Specification versus Multivariate Normal Imputation. Am J Epidemiol . 171(5): 624-32. Lipsitz et al. (2002). A Degrees-of-Freedom Approximation in Multiple Imputation. J Statist Comput Simul, 72(4): 309-318. Little, and Rubin, D. B. (2002). Statistical Analysis with Missing Data . 2 nd edition, New York. John Wiley. Johnson and Young (2011). Towards Best Practices in analyszing Datasets with Missing Data: Comparisons and Recomendations. Journal of Marriage and Family, 73(5): 926-45. Mackinnon (2010). The use and reporting of multiple imputation in medical research a review. J Intern Med, 268: 586593. Editors: Harry T. Reis, Charles M. Judd (2000). Handbook of Research Methods in Social and Personality Psychology. Rubin (1976). Inference and Missing Data. Biometrika 63 (3), 581-592. Rubin (1987). Multiple Imputation for Nonresponse in Surveys. J. Wiley amp Sons, New York. Seaman et al. (2012). Multiple Imputation of missing covariates with non-linear effects: an evaluation of statistical methods. B MC Medical Research Methodology . 12(46). Schafer and Graham (2002) Missing data: our view of the state of the art. Psychol Methods, 7(2):147-77 van Buuren (2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research . 16: 219242 . von Hippel (2009). How to impute interactions, squares and other transformed variables. Sociol Methodol . 39:265-291. von Hippel and Lynch (2013). Efficiency Gains from Using Auxiliary Variables in Imputation. Cornell University Library . von Hippel (2013). Should a Normal Imputation Model be modified to Impute Skewed Variables . Sociological Methods amp Research, 42(1):105-138. White et al. (2011). Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine . 30(4): 377-399. Young and Johnson (2011). Imputing the Missing Y39s: Implications for Survey Producers and Survey Users. Proceedings of the AAPOR Conference Abstracts . pp. 62426248. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. Imputation strategies for missing binary outcomes in cluster randomized trials Background Attrition, which leads to missing data, is a common problem in cluster randomized trials (CRTs), where groups of patients rather than individuals are randomized. Standard multiple imputation (MI) strategies may not be appropriate to impute missing data from CRTs since they assume independent data. In this paper, under the assumption of missing completely at random and covariate dependent missing, we compared six MI strategies which account for the intra-cluster correlation for missing binary outcomes in CRTs with the standard imputation strategies and complete case analysis approach using a simulation study. We considered three within-cluster and three across-cluster MI strategies for missing binary outcomes in CRTs. The three within-cluster MI strategies are logistic regression method, propensity score method, and Markov chain Monte Carlo (MCMC) method, which apply standard MI strategies within each cluster. The three across-cluster MI strategies are propensity score method, random-effects (RE) logistic regression approach, and logistic regression with cluster as a fixed effect. Based on the community hypertension assessment trial (CHAT) which has complete data, we designed a simulation study to investigate the performance of above MI strategies. The estimated treatment effect and its 95 confidence interval (CI) from generalized estimating equations (GEE) model based on the CHAT complete dataset are 1.14 (0.76 1.70). When 30 of binary outcome are missing completely at random, a simulation study shows that the estimated treatment effects and the corresponding 95 CIs from GEE model are 1.15 (0.76 1.75) if complete case analysis is used, 1.12 (0.72 1.73) if within-cluster MCMC method is used, 1.21 (0.80 1.81) if across-cluster RE logistic regression is used, and 1.16 (0.82 1.64) if standard logistic regression which does not account for clustering is used. Conclusion When the percentage of missing data is low or intra-cluster correlation coefficient is small, different approaches for handling missing binary outcome data generate quite similar results. When the percentage of missing data is large, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effect. Within-cluster and across-cluster MI strategies (except for random-effects logistic regression MI strategy), which take the intra-cluster correlation into account, seem to be more appropriate to handle the missing outcome from CRTs. Under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. 1. Introduction Cluster randomized trials (CRTs), where groups of participants rather than individuals are randomized, are increasingly being used in health promotion and health services research 1 . When participants have to be managed within the same setting, such as hospital, community, or family physician practice, this randomization strategy is usually adopted to minimize the potential treatment contamination between intervention and control participants. It is also used when individual level randomization may be inappropriate, unethical, or infeasible 2 . The main consequence of the cluster-randomized design is that participants can not be assumed independent due to the similarity of participants from the same cluster. This similarity is quantified by the intra-cluster correlation coefficient ICC . Considering the two components of the variation in the outcome, between-cluster and intra-cluster variations, may be interpreted as the proportion of overall variation in outcome that can be explained by the between-cluster variation 3 . It may also be interpreted as the correlation between the outcomes for any two participants in the same cluster. It has been well established that failing to account for the intra-cluster correlation in the analysis can increase the chance of obtaining statistically significant but spurious findings 4 . The risk of attrition may be very high in some CRTs due to the lack of direct contact with individual participants and lengthy follow-up 5 . In addition to missing individuals, the entire clusters may be missing, which further complicates the handling of missing data in CRTs. The impact of missing data on the results of statistical analysis depends on the mechanism which caused the data to be missing and the way that it is handled. The default approach in dealing with this problem is to use complete case analysis (also called listwise deletion), i. e. exclude the participants with missing data from the analysis. Though this approach is easy to use and is the default option in most statistical packages, it may substantially weaken the statistical power of the trial and may also lead to biased results depending on the mechanism of the missing data. Generally, the nature or type of missingness can fit into four categories: missing completely at random (MCAR), missing at random (MAR), covariate dependent (CD) missing, and missing not at random (MNAR) 6 . Understanding these categories is important since the solutions may vary depending on the nature of missingness. MCAR means that the missing data mechanism, i. e. the probability of missing, does not depend on the observed or unobserved data. Both MAR and CD mechanisms indicate that causes of missing data are unrelated to the missing values, but may be related to the observed values. In the context of longitudinal data when serial measurements are taken for each individual, MAR means that the probability of a missing response at a particular visit is related to either observed responses at previous visits or covariates, whereas CD missing - a special case of MAR - means that the probability of a missing response is dependent only upon covariates. MNAR means that the probability of missing data depends on the unobserved data. It commonly occurs when people drop out of the study due to poor or good health outcomes. A key distinction between these categories is that MNAR is non-ignorable while the other three categories (i. e. MCAR, CD, or MAR) are ignorable 7 . Under the circumstances of ignorable missingness, imputation strategies such as mean imputation, hot deck, last-observation carried forward, or multiple imputation (MI) - which substitute each missing value to one or multiple plausible values - can produce a complete dataset that is not adversely biased 8. 9 . Non-ignorable missing data are more challenging and require a different approach 10 . Two main approaches in handling missing outcomes are likelihood based analyses and imputation 10 . In this paper, we focus on MI strategies, which take into account the variability or uncertainty of the missing data, to impute the missing binary outcome in CRTs. Under the assumption of MAR, MI strategies replace each missing value with a set of plausible values to create multiple imputed datasets - usually varying in number from 3 to 10 11 . These multiple imputed datasets are analyzed by using standard procedures for complete data. Results from the imputed datasets are then combined for inference to generate the final result. Standard MI procedures are available in many standard statistical software packages such as SAS (Cary, NC), SPSS (Chicago IL), and STATA (College Station, TX). However, these procedures assume observations are independent and may not be suitable for CRTs since they do not take into account the intra-cluster correlation. To the best of our knowledge, limited investigation has been done on the imputation strategies for missing binary outcomes or categorical outcomes in CRTs. Yi and Cook reported marginal methods for missing longitudinal data from clustered design 12 . Hunsberger et al . 13 described three strategies for continuous missing data in CRTs: 1) multiple imputation procedure in which the missing values are replaced with re-sampled values from the observed data 2) a median procedure based on the Wilcoxon rank sum test assigning the missing data in the intervention group with the worst ranks 3) multiple imputation procedure in which the missing values are replaced by the predicted values from a regression equation. Nixon et al . 14 presented strategies of imputing missing end points from a surrogate. In the analysis of a continuous outcome from the Community Intervention Trial for Smoking Cessation (COMMIT), Green et al stratified individual participants into groups that were more homogeneous with respect to the predicted outcome. Within each stratum, they imputed the missing outcome using the observed data 15. 16 . Taljaard et al 17 compared several different imputation strategies for missing continuous outcomes in CRTs under the assumption of missing completely at random. These strategies include cluster mean imputation, within-cluster MI using Approximate Bayesian Bootstrap (ABB) method, pooled MI using ABB method, standard regression MI, and mixed-effects regression MI. As pointed out by Kenward et al that if a substantive model, such as generalized linear mixed model, is to be used which reflects the data structure, it is important that the imputation model also reflects this structure 18 . The objectives of this paper are to: i) investigate the performance of various imputation strategies for missing binary outcomes in CRTs under different percentages of missingness, assuming a mechanism of missing completely at random or covariate dependent missing ii) compare the agreement between the complete dataset and the imputed datasets obtained from different imputation strategies iii) compare the robustness of the results under two commonly used statistical analysis methods: the generalized estimating equations (GEE), and random-effects (RE) logistic regression, under different imputation strategies. 2. Methods In this paper, we consider three within-cluster and three across-cluster MI strategies for missing binary outcomes in CRTs. The three within-cluster MI strategies are logistic regression method, propensity score method, and MCMC method, which are standard MI strategies conducted within each cluster. The three across-cluster MI strategies are propensity score, random-effects logistic regression method, and logistic regression with cluster as a fixed effect. Based on the complete dataset from the community hypertension assessment trial (CHAT), we conducted a simulation study to investigate the performance of the above MI strategies. We used Kappa statistics to compare the agreement between the imputed datasets and the complete dataset. We also used the estimated treatment effects obtained from the GEE and RE logistic regression model 19 to assess the robustness of the results under different percentages of missing binary outcome under the assumption of MCAR and CD missing. 2.1. Complete case analysis Using this approach, only the patients with completed data are included for analysis, while patients with missing data are excluded. When the data are MCAR, the complete case analysis approach, using either likelihood-based analysis such as RE logistic regression, or the marginal model such as GEE approach, is valid for analyzing binary outcome from CRTs since the missing data mechanism is independent of the outcome. When the data are CD missing, both RE logistic regression and GEE approach are valid if the known covariates associated with the missing data mechanism are adjusted for. It can be implemented using GENMOD and NLMIXED procedure in SAS. 2.2. Standard multiple imputation Assuming the observations are independent, we can apply the standard MI procedures provided by any standard statistical software such as SAS. Three widely used MI methods are predictive model method (logistic regression method for binary data), propensity score method, and MCMC method 20 . In general, both propensity score method and MCMC method are recommended for the imputation of continuous variable 21 . A dataset is said to have a monotone missing pattern when a measurement Y j is missing for an individual implies that all subsequent measurements Y k . k gt j . are all missing for the individual. When the data are missing in the monotone missing pattern, any of the parametric predictive model and the nonparametric method that uses propensity scores or MCMC method is appropriate 21 . For an arbitrary missing data patterns, a MCMC method that assumes multivariate normality can be used 10 . These MI strategies are implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS separately for each intervention group. 2.2.1. Logistic regression method In this approach a logistic regression model is fitted using the observed outcome and covariates 21 . Based on the parameter estimates and the associated covariance matrix, the posterior predictive distribution of the parameters can be constructed. A new logistic regression model is then simulated from the posterior predictive distribution of the parameters and is used to impute the missing values. 2.2.2. Propensity score method The propensity score is the conditional probability of being missing given the observed data. It can be estimated by the means of logistic regression model with a binary outcome indicating whether the data are missing or not. The observations are then stratified into a number of strata based on these propensity scores. The ABB procedure 22 is then applied to each stratum. The ABB imputation first draws with replacement from the observed data to create a new dataset, which is a nonparametric analogue of drawing parameters from the posterior predictive distribution of the parameters, and then randomly draw imputed values with replacement from the new dataset. 2.2.3. Markov chain Monte Carlo method Using MCMC method pseudo random samples are drawn from a target probability distribution 21 . The target distribution is the joint conditional distribution of Y mis and given Y obs when missing data have a non-monotone pattern, where Y mis and Y obs represent the missing data and observed data, respectively, and represents the unknown parameters. The MCMC method is conducted as follows: replace Y mis by some assumed values, then simulate from the resulting complete data posterior distribution P( Y obs , Y mis ). Let ( t ) be the current simulated value of . then Y mis (t 1) can be drawn from the conditional predictive distribution Y m i s ( t 1 ) P ( Y m i s Y o b s. ( t ) ). Conditioning on Y mis (t 1). the next simulated value of can be drawn from its complete data posterior distribution ( t 1 ) P ( Y o b s. Y m i s ( t 1 ) ). By repeating the above procedure, we can generate a Markov chain which converges in distribution to P( Y mis , Y obs ). This method is attractive since it avoids complicated analytic calculation of the posterior distribution of and Y mis . However, the distribution convergence is an issue that researchers need to face. In addition, this method is based on the assumption of multivariate normality. When using it for imputing binary variables, the imputed values can be any real values. Most of the imputed values are between 0 and 1, some are out of this range. We round the imputed values to 0 if it is less than 0.5 and to 1 otherwise. This multiple imputation method is implemented using MI procedure in SAS. We use a single chain and non-informative prior for all imputations, and expectation-maximization (EM) algorithm to find maximum likelihood estimates in parametric models for incomplete data and derive parameter estimates from a posterior mode. The iterations are considered to have converged when the change in the parameter estimates between iteration steps is less than 0.0001 for each parameter. 2.3. Within-cluster multiple imputation Standard MI strategies are inappropriate for handling the missing data from CRTs due to the assumption of independent observations. For the within-cluster imputation, we carry out standard MI described above using logistic regression method, propensity score method, and MCMC method separately for each cluster. Thus, the missing values are imputed based on the observed data within the same cluster as the missing values. Given that subjects within the same cluster are more likely to be similar to each other than those from different clusters, within-cluster imputation can be seen as a strategy to impute the missing values to account for the intra-cluster correlation. These MI strategies are implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS. 2.4. Across-cluster multiple imputation 2.4.1. Propensity score method Compared to the standard multiple imputation using propensity score method, we added cluster as one of the covariates to obtain the propensity score for each observation. Consequently, patients within the same cluster are more likely to be categorized into the same propensity score stratum. Therefore, the intra-cluster correlation is taken into account when the ABB procedure is applied within each stratum to generate the imputed values for the missing data. This multiple imputation strategy is implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS. 2.4.2. Random-effects logistic regression Compared to the predictive model using standard logistic regression method, we assume the binary outcome is modeled by the random-effects logistic model: log it ( Pr ( Y i j l 1 ) ) X i j l U i j where Y ijl is the binary outcome of patient l in cluster j in the intervention group i X ijl is the matrix of fully observed individual-level or cluster level covariates, U i j N ( 0. B 2 ) represents the cluster-level random effect, and B 2 represent the between-cluster variance. B 2 can be estimated when fitting the random-effects logistic regression model using the observed outcome and covariates. The MI strategy using random-effects logistic regression method obtains the imputed values in three steps: (1) Fit a random-effects logistic regression model as described above using the observed outcome and covariates. Based on the estimates for and B obtained from step (1) and the associated covariance matrix, construct the posterior predictive distribution of these parameters. Fit a new random-effects logistic regression using the simulated parameters from the posterior predictive distribution and the observed covariates to obtain the imputed missing outcome. The MI strategy using random-effects logistic regression takes into account the between cluster variance, which is ignored in the MI strategy using standard logistic regression, and therefore may be valid for imputing missing binary data in CRTs. We provide the SAS code for this method in Appendix A. 2.4.3. Logistic regression with cluster as a fixed effect Compared to the predictive model using standard logistic regression method, we add cluster as a fixed effect to account for clustering effect. This multiple imputation strategy is implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS. 3. Simulation study 3.1. Community hypertension assessment trial The CHAT study was reported in detail elsewhere 23 . In brief, it was a cluster randomized controlled trial aimed at evaluating the effectiveness of pharmacy based blood pressure (BP) clinics led by peer health educators, with feedback to family physicians (FP) on the management and monitoring of BP among patients 65 years or older. The FP was the unit of randomization. Patients from the same FP received the same intervention. In total, 28 FPs participated in the study. Fourteen were randomly allocated to the intervention (pharmacy BP clinics) and 14 to the control group (no BP clinics offered). Fifty-five patients were randomly selected from each FP roster. Therefore, 1540 patients participated in the study. All eligible patients in both the intervention and control group received usual health service at their FPs office. Patients in the practices allocated to the intervention group were invited to visit the community BP clinics. Peer health educators assisted patients to measure their BP and review their cardiovascular risk factors. Research nurses conducted the baseline and end-of-trial (12 months after the randomization) audits of the health records of the 1540 patients who participated in the study. The primary outcome of the CHAT study was a binary outcome indicating whether the patients BP was controlled or not at the end of the trial. Patients BP was controlled if at the end of the trial, the systolic BP 140 mmHg and diastolic BP 90 mmHg for patient without diabetes or target organ damage, or the systolic BP 130 mmHg and diastolic BP 80 mmHg for patient with diabetes or target organ damage. Besides the intervention group, other predictors considered in this paper included age (continuous variable), sex (binary variable), diabetes at baseline (binary variable), heart disease at baseline (binary variable), and whether patients BP were controlled at baseline (binary variable). At the end of the trial, 55 patients BP were controlled. Without including any other predictors in the model, the treatment effects and their 95 confidence intervals (CI) estimated from the GEE and RE model were 1.14 (0.72, 1.80) and 1.10 (0.65, 1.86), respectively. The estimated ICC was 0.077. After adjustment for the above mentioned variables the treatment effects and their CIs estimated from GEE and RE model were 1.14 (0.76, 1.70) and 1.12 (0.72, 1.76), respectively. The estimated ICC was 0.055. Since there are no missing data in the CHAT dataset, it provides us a convenient platform to design a simulation study to compare the imputed and the observed values and further investigate the performance of the different multiple imputation strategies under different missing data mechanisms and percentages of missingness. 3.2. Generating dataset with missing binary outcome Using the CHAT study dataset, we investigated the performance of different MI strategies for missing binary outcome based on MCAR and CD mechanisms. Under the assumption of MCAR, we generated dataset with certain percentage of missing binary outcome, which indicates whether the BP was controlled or not at the end of the trial for each patient. The probability of missing for each patient was completely at random, i. e. the probability of missing did not depend on any observed or unobserved CHAT data. Under the assumption of CD missing, we considered sex, treatment group, whether patients BP controlled or not at baseline, which were commonly associated with drop out in clinical trials and observational studies 24 26 , were associated with the probability of missing. We further assumed that male patients were 1.2 times more likely to have missing outcome patients allocated to the control group were 1.3 times more likely to have missing outcome patients whose BP was not controlled at baseline were 1.4 times more likely to have missing outcome than patients whose BP were controlled at baseline. 3.3. Design of simulation study First we compared the agreement between the values of the imputed outcome variable and the true values of the outcome variable using Kappa statistics. Kappa statistic is the most commonly used statistic for assessing the agreement between two observers or methods which take into account the fact that they will sometimes agree or disagree simply by chance 27 . It is calculated based on the difference between how much agreement is actually present compared to how much agreement would be expected to be present by chance alone. A Kappa of 1 indicates the perfect agreement, and 0 indicates agreement equivalent to chance. Kappa statistic has been widely used by researchers to evaluate the performance of different imputation techniques on imputing missing categorical data 28. 29 . Second, under MCAR and CD missing, we compared the treatment effect estimates from the RE and GEE methods under the following scenarios: 1) exclude the missing values from the analysis, i. e. complete case analysis 2) apply standard multiple imputation strategies which do not take the intra-cluster correlation into account 3) apply the within-cluster imputation strategies and 4) apply the across-cluster imputation strategies. We designed the simulation study according to the following steps. 1) Generated 5, 10, 15, 20, 30 and 50 missing outcomes under both MCAR and CD missing assumption. These amounts of missingness were chosen to cover the range of possible missingness in practice 30 . Applied the above multiple imputation strategies to generate m 5 datasets. According to Rubin, the relative efficiency of the MI does not increase much when generating more than 5 imputed datasets 11 . Calculated Kappa statistic to assess the agreement between the values of imputed outcome variable and the true values of the outcome variable. Obtained the single treatment effect estimate by combining the effect estimates from the 5 imputed datasets using GEE and RE model. Repeated the above four steps for 1000 times, i. e. take 1000 simulation runs. Calculated the overall Kappa statistic by averaging the Kappa statistic from the 1000 simulation runs. Calculated the overall treatment effect and its standard error by averaging the treatment effects and their standard errors from the 1000 simulation runs. 4. Results 4.1. Results when data are missing completely at random With 5, 10, 15, 20, 30 or 50 percentage of missingness under MCAR assumption, the estimated Kappa for all different imputation strategies are slightly over 0.95, 0.90, 0.85, 0.80, 0.70, and 0.50 respectively. The estimated Kappa for different imputation strategies at different percentage of missing outcomes under the assumption of MCAR are presented in detail in Table 1. Kappa statistics for different imputation strategies when missingness is completely at random Treatment effect estimated from random-effects logistic regression when 30 data is covariate dependent missing . 5. Discussion In this paper, under the assumption of MCAR and CD missing, we compared six MI strategies which account for the intra-cluster correlation for missing binary outcomes in CRTs with the standard imputation strategies and complete case analysis approach using a simulation study. Our results show that, first, when the percentage of missing data is low or intra-cluster correlation coefficient is small, different imputation strategies or complete case analysis approach generate quite similar results. Second, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effects. Therefore, they may lead to statistically significant but spurious conclusion when used to deal with the missing data from CRTs. Third, under the assumption of MCAR and CD missing, the point estimates (OR) are quite similar across different approaches to handle the missing data except for random-effects logistic regression MI strategy. Fourth, both within-cluster and across-cluster MI strategies take into account the intra-cluster correlation and provide much conservative treatment effect estimates compared to MI strategies which ignore the clustering effect. Fifth, within-cluster imputation strategies lead to wider CI than across-cluster imputation strategies, especially when the percentage of missingness is high. This may be because within-cluster imputation strategies only use a fraction of data, which leads to much variation of the estimated treatment effect. Sixth, larger estimated kappa, which indicates higher agreement between the imputed values and the observed values, is associated with better performance of MI strategies in terms of generating estimated treatment effect and 95 CI closer to those obtained from the complete CHAT dataset. Seventh, under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. To the best of our knowledge, limited work has been done on comparing different multiple imputation strategies for missing binary outcomes in CRTs. Taljaard et al 17 compared four MI strategies (pooled ABB, within-cluster ABB, standard regression, mixed-effects regression) for missing continuous outcome in CRTs when missing is completely at random. Their findings are similar to ours. It should be noted that within-cluster MI strategies might only be applicable when the cluster size is sufficiently large and the percentage of missingness is relatively small. In the CHAT study, there were 55 patients in each cluster which provided enough data to carry out the within-cluster imputation strategies using propensity score and MCMC method. However, the logistic regression method failed when the percentage of missingness was high. This was because that when generating large percentage (20) of missing outcome, all patients with binary outcome of 0 were simulated as missing for some clusters. Therefore, logistic regression model failed for these particular clusters. In addition, our results show that the complete case analysis approach performs relatively well even with 50 missing. We think that due to the intra-cluster correlation, one would not expect that the missing values have much impact if a large proportion of a cluster is still present. However, further investigation about this issue using a simulation study will be helpful to answer this question. Our results show that the across-cluster random-effects logistic regression strategy leads to a potentially biased estimate, especially when the percentage of missingness is high. As we described in section 2.4.2, we assume the cluster-level random-effects follow normal distribution, i. e. U i j N ( 0. B 2 ). Researchers have shown that misspecification of the distributional shape have little impact on the inferences about the fixed effects 31 . Incorrectly assuming the random effects distribution is independent of the cluster size may affect inferences about the intercept, but does not seriously impact inferences about the regression parameters. However, incorrectly assuming the random effects distribution is independent of covariates may seriously impact inferences about the regression parameters 32. 33 . The mean of random effects distribution could be associated with a covariate, or the variance of random effects distribution could be associated with a covariate for our dataset, which might explain the potential bias from the across-cluster random-effects logistic regression strategy. In contrast, the imputation strategy of logistic regression with cluster as a fixed effect has better performance. However, it might only be applied when the cluster size is large enough to provide stable estimate for the cluster effect. For multiple imputation, the overall variance of the estimated treatment effect consists of two parts: within imputation variance U . and between imputation variance B . The total variance T is calculated as T U (1 1 m ) B . where m is the number of imputed datasets 10 . Since standard MI strategies ignore the between cluster variance and fail to account for the intra-cluster correlation, the within imputation variance may be underestimated, which could lead to underestimation of the total variance and consequently the narrower confidence interval. In addition, the adequacy of standard MI strategies depends on the ICC. In our study, the ICC of the CHAT dataset is 0.055 and the cluster effect in the random-effects model is statistically significant. Among the three imputation methods: predictive model (logistic regression method), propensity score method, and MCMC method, the latter is most popular method for multiple imputation of missing data and is the default method implemented in SAS. Although this method is widely used to impute binary and polytomous data, there are concerns about the consequences of violating the normality assumption. Experience has repeatedly shown that multiple imputation using MCMC method tends to be quite robust even when the real data depart from the multivariate normal distribution 20 . Therefore, when handling the missing binary or ordered categorical variables, it is acceptable to impute under a normality assumption and then round off the continuous imputed values to the nearest category. For example, the imputed values for the missing binary variable can be any real value rather than being restricted to 0 and 1. We rounded the imputed values so that values greater than or equal to 0.5 were set to 1, and values less than 0.5 were set to 0 34 . Horton et al 35 showed that such rounding may produce biased estimates of proportions when the true proportion is near 0 or 1, but does well under most other conditions. The propensity score method is originally designed to impute the missing values on the response variables from the randomized experiment with repeated measures 21 . Since it uses only the covariate information associated with the missingness but ignores the correlation among variables, it may produce badly biased estimates of regression coefficients when data on predictor variables are missing. In addition, with small sample sizes and a relatively large number of propensity score groups, application of the ABB method is problematic, especially for binary variables. In this case, a modified version of ABB should be conducted 36 . There are some limitations that need to be acknowledged and addressed regarding the present study. First, the simulation study is based on a real dataset, which has a relatively large cluster size and small ICC. Further research should investigate the performance of different imputation strategies at different design settings. Second, the scenario of missing an entire cluster is not investigated in this paper. The proposed within-cluster and across-cluster MI strategies may not apply to this scenario. Third, we investigate the performance of different MI strategies assuming missing data mechanism of MCAR and CD missing. Therefore, results cannot be generalized to MAR or MNAR scenarios. Fourth, since the estimated treatment effects are similar under different imputation strategies, we only presented the OR and 95 CI for each simulation scenario. However, estimates of standardized bias and coverage would be more informative and would also provide a quantitative guideline to assess the adequacy of imputes 37 . 6. Conclusions When the percentage of missing data is low or intra-cluster correlation coefficient is small, different imputation strategies or complete case analysis approach generate quite similar results. When the percentage of missing data is high, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effect. Within-cluster and across-cluster MI strategies (except for the random-effects logistic regression MI strategy), which take the intra-cluster correlation into account, seem to be more appropriate to handle the missing outcome from CRTs. Under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. Appendix A: SAS code for across-cluster random-effects logistic regression method let maximum 1000 ods listing close proc nlmixed data mcaramppercentampindex cov parms b0 -0.0645 bgroup -0.1433 bdiabbase -0.04 bhdbase 0.1224 bage -0.0066 bbasebpcontrolled 1.1487 bsex 0.0873 s2u 0.5 Population Health Research Institute, Hamilton Health Sciences References Campbell MK, Grimshaw JM: Cluster randomised trials: time for improvement. The implications of adopting a cluster design are still largely being ignored. BMJ. 1998, 317 (7167): 1171-1172. View Article PubMed PubMed Central Google Scholar COMMIT Research Group: Community Intervention trial for Smoking Cessation (COMMIT): 1. Cohort results from a four-year community intervention. Am J Public Health. 1995, 85: 183-192. 10.2105 AJPH.85.2.183. View Article Google Scholar Donner A, Klar N: Design and Analysis of Cluster Randomisation Trials in Health Research. 2000, London: Arnold Google Scholar Cornfield J: Randomization by group: a formal analysis. Am J Epidemiol. 1978, 108 (2): 100-102. PubMed Google Scholar Donner A, Brown KS, Brasher P: A methodological review of non-therapeutic intervention trials employing cluster randomization, 1979-1989. Int J Epidemiol. 1990, 19 (4): 795-800. 10.1093 ije 19.4.795. View Article PubMed Google Scholar Rubin DB: Inference and missing data. Biometrika. 1976, 63: 581-592. 10.1093 biomet 63.3.581. View Article Google Scholar Allison PD: Missing Data. 2001, SAGE Publications Inc Google Scholar Schafer JL, Olsen MK: Multiple imputation for multivariate missing-data problems: a data analysts perspective. Multivariate Behavioral Research. 1998, 33: 545-571. 10.1207 s15327906mbr33045. View Article PubMed Google Scholar McArdle JJ: Structural factor analysis experiments with incomplete data. Multivariate Behavioral Research. 1994, 29: 409-454. 10.1207 s15327906mbr29045. View Article PubMed Google Scholar Little RJA, Rubin DB: Statistical Analysis with missing data. 2002, New York: John Wiley, Second Google Scholar Rubin DB: Multiple Imputation for Nonresponse in Surveys. 1987, New York, NY. John Wiley amp Sons, Inc View Article Google Scholar Yi GYY, Cook RJ: Marginal Methods for Incomplete Longitudinal Data Arising in Clusters. Journal of the American Statistical Association. 2002, 97 (460): 1071-1080. 10.1198 016214502388618889. View Article Google Scholar Hunsberger S, Murray D, Davis CE, Fabsitz RR: Imputation strategies for missing data in a school-based multi-centre study: the Pathways study. Stat Med. 2001, 20 (2): 305-316. 10.1002 1097-0258(20010130)20:2lt305::AID-SIM645gt3.0.CO2-M. View Article PubMed Google Scholar Nixon RM, Duffy SW, Fender GR: Imputation of a true endpoint from a surrogate: application to a cluster randomized controlled trial with partial information on the true endpoint. BMC Med Res Methodol. 2003, 3: 17-10.1186 1471-2288-3-17. View Article PubMed PubMed Central Google Scholar Green SB, Corle DK, Gail MH, Mark SD, Pee D, Freedman LS, Graubard BI, Lynn WR: Interplay between design and analysis for behavioral intervention trials with community as the unit of randomization. Am J Epidemiol. 1995, 142 (6): 587-593. PubMed Google Scholar Green SB: The advantages of community-randomized trials for evaluating lifestyle modification. Control Clin Trials. 1997, 18 (6): 506-13. 10.1016 S0197-2456(97)00013-5. discussion 514-6 View Article PubMed Google Scholar Taljaard M, Donner A, Klar N: Imputation strategies for missing continuous outcomes in cluster randomized trials. Biom J. 2008, 50 (3): 329-345. 10.1002 bimj.200710423. View Article PubMed Google Scholar Kenward MG, Carpenter J: Multiple imputation: current perspectives. Stat Methods Med Res. 2007, 16 (3): 199-218. 10.1177 0962280206075304. View Article PubMed Google Scholar Dobson AJ: An introduction to generalized linear models. 2002, Boca Raton: Chapman amp Hall CRC, 2 Google Scholar Schafer JL: Analysis of Incomplete Multivariate Data. 1997, London: Chapman and Hall View Article Google Scholar SAS Publishing: SAS STAT 9.1 Users Guide: support. sas documentation onlinedoc 91pdf sasdoc91 statug7313.pdf Rubin DB, Schenker N: Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American Statistical Association. 1986, 81 (394): 366-374. 10.2307 2289225. View Article Google Scholar Ma J, Thabane L, Kaczorowski J, Chambers L, Dolovich L, Karwalajtys T, Levitt C: Comparison of Bayesian and classical methods in the analysis of cluster randomized controlled trials with a binary outcome: the Community Hypertension Assessment Trial (CHAT). BMC Med Res Methodol. 2009, 9: 37-10.1186 1471-2288-9-37. View Article PubMed PubMed Central Google Scholar Levin KA: Study design VII. Randomised controlled trials. Evid Based Dent. 2007, 8 (1): 22-23. 10.1038 sj. ebd.6400473. View Article PubMed Google Scholar Matthews FE, Chatfield M, Freeman C, McCracken C, Brayne C, MRC CFAS: Attrition and bias in the MRC cognitive function and ageing study: an epidemiological investigation. BMC Public Health. 2004, 4: 12-10.1186 1471-2458-4-12. View Article PubMed PubMed Central Google Scholar Ostbye T, Steenhuis R, Wolfson C, Walton R, Hill G: Predictors of five-year mortality in older Canadians: the Canadian Study of Health and Aging. J Am Geriatr Soc. 1999, 47 (10): 1249-1254. View Article PubMed Google Scholar Viera AJ, Garrett JM: Understanding interobserver agreement: the kappa statistic. Fam Med. 2005, 37 (5): 360-363. PubMed Google Scholar Laurenceau JP, Stanley SM, Olmos-Gallo A, Baucom B, Markman HJ: Community-based prevention of marital dysfunction: multilevel modeling of a randomized effectiveness study. J Consult Clin Psychol. 2004, 72 (6): 933-943. 10.1037 0022-006X.72.6.933. View Article PubMed Google Scholar Shrive FM, Stuart H, Quan H, Ghali WA: Dealing with missing data in a multi-question depression scale: a comparison of imputation methods. BMC Med Res Methodol. 2006, 6: 57-10.1186 1471-2288-6-57. View Article PubMed PubMed Central Google Scholar Elobeid MA, Padilla MA, McVie T, Thomas O, Brock DW, Musser B, Lu K, Coffey CS, Desmond RA, St-Onge MP, Gadde KM, Heymsfield SB, Allison DB: Missing data in randomized clinical trials for weight loss: scope of the problem, state of the field, and performance of statistical methods. PLoS One. 2009, 4 (8): e6624-10.1371 journal. pone.0006624. View Article PubMed PubMed Central Google Scholar McCulloch CE, Neuhaus JM: Prediction of Random Effects in Linear and Generalized Linear Models under Model Misspecification. Biometrics. Neuhaus JM, McCulloch CE: Separating between - and within-cluster covariate effects using conditional and partitioning methods. Journal of the Royal Statistical Society. 2006, 859-872. Series B, 68 Heagerty PJ, Kurland BF: Misspecified maximum likelihood estimates and generalised linear mixed models. Biometrika. 2001, 88 (4): 973-985. 10.1093 biomet 88.4.973. View Article Google Scholar Christopher FA: Rounding after multiple imputation with Non-binary categorical covariates. SAS Focus Session SUGI. 2004, 30: Google Scholar Horton NJ, Lipsitz SR, Parzen M: A potential for bias when rounding in multiple imputation. American Statistician. 2003, 229-232. 10.1198 0003130032314. 57 Li X, Mehrotra DV, Barnard J: Analysis of incomplete longitudinal binary data using multiple imputation. Stat Med. 2006, 25 (12): 2107-2124. 10.1002 sim.2343. View Article PubMed Google Scholar Collins LM, Schafer JL, Kam CM: A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychol Methods. 2001, 6 (4): 330-351. 10.1037 1082-989X.6.4.330. View Article PubMed Google Scholar Pre-publication history Ma et al licensee BioMed Central Ltd. 2011 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. org licenses by 2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

No comments:

Post a Comment