Regularised iterative multiple correspondence analysis in multiple imputation

Nienkemper, Johané

Regularised iterative multiple correspondence analysis in multiple imputation

Files

NienkemperJ.pdf (3.45 MB)

Date

2013-07

Authors

Nienkemper, Johané

Publisher

University of the Free State

Abstract

English: Non-responses in survey data are a prevalent problem. Various techniques for the handling of missing data have been studied and published. The application of a regularised iterative multiple correspondence analysis (RIMCA) algorithm in single imputation (SI) has been suggested for the handling of missing data in survey analysis. Multiple correspondence analysis (MCA) as an imputation procedure is appropriate for survey data, since MCA is concerned with the relationships among the variables in the data. Therefore, missing data can be imputed by exploiting the relationship between observed and missing data. The RIMCA algorithm expresses MCA as a weighted principal component analysis (PCA) of a data triplet ( ), which represents a weighted data matrix, a metric and a diagonal matrix containing row masses, respectively. Performing PCA on a triplet involves the generalised singular value decomposition of the weighted data matrix . Here, standard singular value decomposition (SVD) will not suffice, since constraints are imposed on the rows and columns because of the weighting. The success of this algorithm lies in the fact that all eigenvalues are shrunk and the last components are omitted; thus a ‘double shrinkage’ occurs, which reduces variance and stabilises predictions. RIMCA seems to overcome overfitting and underfitting problems with regard to categorical missing data in surveys. The idea of applying the RIMCA algorithm in MI was appealing, since advantages of MI occur over SI, such as an increase in the accuracy of estimations and the attainment of valid inferences when combining multiple datasets. The aim of this study was to establish the performance of RIMCA in MI. This was achieved by two objectives: to determine whether RIMCA in MI outperforms RIMCA in SI and to determine the accuracy of predictions made from RIMCA in MI as an imputation model. Real and simulated data were used. A simulation protocol was followed creating data drawn from multivariate Normal distributions with both high and low correlation structures. Varying the percentages of missing values in the data and missingness mechanisms (missing completely at random (MCAR) and missing at random (MAR)), as is done by Josse et al. (2012), were created in the data. The first objective was achieved by applying RIMCA in both SI and MI to real data and simulated data. The performance of RIMCA in SI and MI were compared with regard to the obtained mean estimates and confidence intervals. In the case of the real data, the estimates were compared to the mean estimates of the incomplete data, whereas for the simulated data the true mean values and confidence intervals could be compared to the estimates obtained from the imputation procedures. The second objective was achieved by calculating the apparent error rates of predictions made by the RIMCA algorithm in SI and MI in simulated datasets. Along with the apparent error rates, approximate overall success rates were calculated in order to establish the accuracy of imputations made by the SI and MI. The results of this study show that the confidence intervals provided by MI are wider in most of the cases, which confirmed the incorporation of additional variance. It was found that for some of the variables the SI procedures were statistically different from the true confidence intervals, which shows that SI was not suitable in these instances for imputation. Overall the mean estimates provided by MI were closer to the true values, with respect to the simulated and real data. A summary of the bias, mean square errors and coverage for the imputation techniques over a thousand simulations were provided, which also confirmed that RIMCA in MI was a better model than RIMCA in SI in the contexts provided by this research.
Afrikaans: Die verskynsel van ontbrekende waardes in vraelyste is ‘n algemene probleem. Verskeie tegnieke vir die hantering van ontbrekende waardes is gebestudeer en gepubliseer. Die toepassing van ‘n regulariseerde iteratiewe meervoudige ooreenkomsanalise (RIMCA) algoritme in enkelvoudige imputasie is voorgestel vir die hantering van ontbrekende waardes in die konteks van vraelyste. Meervoudige ooreenkomsanalise (MCA) as ‘n imputasie prosedure is gepas vir vraelys data, aangesien MCA die verhoudings tussen veranderlikes in die data benut. Dus kan die ontbrekende waardes opgevul word deur imputasie wat bepaal word deur die verhoudings tussen die waargenome en ontbrekende data. Die RIMCA algoritme omskryf MCA as ‘n geweegde hoofkomponentanalise (PCA) wat die data as ‘n drietal ( uitdruk. Die drietal stel die geweegde data, metries en ry massas, onderskeidelik voor. Die uitvoer van PCA op ‘n drietal sluit die toepassing van ‘n veralgemeende singulierewaarde-ontbinding van die geweegde data matriks in. Standaard singulierewaarde-ontbinding is nie voldoende in hierdie geval nie, aangesien beperkings op die rye en kolomme geplaas word as gevolg van die geweegde data matriks. Die sukses van hierdie algoritme is die verkleining van die eiewaardes en die weglaat van die laaste komponente. Dus ontstaan daar ‘n dubbelle krimping wat sodoende die variansie laat afneem en voorspellings stabiliseer. Dit wil voorkom asof RIMCA oormatige passings- en ondermatige passingsprobleme in die konteks van kategoriese ontbrekende waardes in vraelyste oorkom. 228 Die idee vir die toepassing van RIMCA in meervoudige imputasie was aanloklik, aangesien meervoudige imputasie voordele inhou bo enkelvoudige imputasie met ‘n toename in die akkuraatheid van beramings en die verkryging van geldige inferensie wanneer die meervoudige datastelle saamgevoeg word. Die doel van hierdie studie was om die prestasie van RIMCA in meervoudige imputasie te evalueer. Daar was twee doelstellings, naamlik: om vas te stel of RIMCA in meervoudige imputasie beter vaar as RIMCA in enkelvoudige imputasie, asook om die akkuraatheid van voorspellings gemaak deur RIMCA in meervoudige imputasie vas te stel. Werklike en gesimuleerde data is gebruik. ‘n Simulasie protokol is gevolg wat gebruik is deur Josse et al. (2012) waarin waardes van ‘n meerveranderlike Normaal verdeling met hoë en lae korrelasie struktuur geneem is. Ontbrekende waardes is in die volledige datastelle geplaas volgens verskillende vereistes aangaande die persentasie ontbrekende waardes in die data, sowel as die tipe verlorenis meganisme (algeheel stogasties verlore (MCAR) en stogasties verlore (MAR)). Die eerste doelstelling is bereik deur die toepassing van RIMCA in beide enkelvoudige en meervoudige imputasie op ware data en gesimuleerde data. Die optrede van RIMCA in enkelvoudige imputasie is vergelyk met dié van meervoudige imputasie deur middel van gemiddelde beramings en vertrouensintervalle. In die geval van die werklike data is die imputasie beramings met die ontbrekende beramings vergelyk, terwyl die gesimuleerde data die navorser toegelaat het om die beraamde imputasie waardes met die ware gemiddelde waardes te kon vergelyk. Die tweede doelstelling is bereik deur die berekening van die skynbare foutkoers van die voorspellings gemaak deur die RIMCA algoritme in enkelvoudige- en meervoudige imputasie. Die benaderde algehele sukseskoers is bereken om sodoende die akkuraatheid van die imputasies deur beide enkelvoudige- en meervoudige imputasie te bepaal, asook die skynbare foutkoerse. 229 Die resultate van hierdie studie het aangedui dat die vertrouensintervalle verkry van die meervoudige imputasie tegniek wyer was as die intervalle verkry van die enkelvoudige imputasie tegniek. Hierdie bevinding bevestig die addisionele onsekerheid wat deur meervoudige imputasie bygevoeg word. Sommige van die veranderlikes het statisties verskil van die ware vertrouensintervalle na die toepassing van enkelvoudige imputasie, en daarom was enkelvoudige imputasie nie in hierdie gevalle geskik nie. In die algemeen was die gemiddelde beramings van meervoudige imputasie nader aan die ware gemiddelde waardes in beide die ware- en gesimuleerde data. ‘n Opsomming van die sydigheid, gemiddelde kwadratiese fout en die dekking van die imputasie tegnieke oor ‘n duisend simulasies het tesame met die doelstellingsresultate bevestig dat RIMCA in meervoudige analise ‘n beter en meer gepaste model is as RIMCA in enkelvoudige imputasie.

Keywords

Principal component analysis, Multiple correspondence analysis, Multiple imputation, Missingness mechanisms, Incomplete ordinal categorical data, Multivariate analysis, UCTD, Dissertation (M.Sc. (Mathematical Statistics and Actuarial Science))--University of the Free State, 2013, Regularised iterative multiple correspondence analysis, Multiple imputation (Statistics), Multivariate analysis

URI

http://hdl.handle.net/11660/1348

Collections

All Electronic Theses and Dissertations
Masters Degrees (Mathematical Statistics and Actuarial Science)

Full item page