Análisis de residuales en un modelo lineal mixto para estimar heredabilidad
Analysis of residuals in a linear mixed model to estimate heritability
DOI:http://dx.doi.org/10.21704/ac.v80i1.1375
Autor de correspondencia: Ana Vargas Paredes. Email: anavargas@lamolina.edu.pe
© Universidad Nacional Agraria La Molina, Lima, Perú.
Forma de citar el artículo: Vargas, A.; Maehara, V. 2019. Análisis de residuales en un modelo lineal mixto para
estimar heredabilidad. Anales Cientícos 80 (1): 53-59 (2019).
Ana Vargas Paredes
1*
; Víctor Maehara Oyata
2
1
Universidad Nacional Agraria La Molina, Lima, Perú. Email: anavargas@lamolina.edu.pe; vmaehara@lamolina.
edu.pe
Recepción: 06/03/2019 ; Aceptación: 05/06/2019
Resumen
El objetivo del presente estudio fue ejemplicar el diagnóstico exploratorio de residuales de
un modelo lineal mixto ajustado mediante máxima verosimilitud restringuida (REML) para
la estimación de parámetros genéticos (el cual incorpora información genealógica de los
individuos). Luego de realizar el proceso de estimación y prueba de hipótesis se procedió a
chequear los supuestos del modelo utilizando herramientas exploratorias en base a tres tipos
de residuales (marginal, condicional y de efectos aleatorios) dada por Singer, para lo cual
se incorporó la información genealógica a funciones hechas en R. En el ejemplo mostrado
se observó linealidad de los efectos jos del modelo, pero no se observó homocedasticidad
de los residuales condicionales, así también solo se observó normalidad para los efectos
aleatorios que corresponden al individuo.
Palabras clave: análisis de residuales; modelo lineal mixto; heredabilidad.
Abstract
The objective of the present study was to exemplify the exploratory diagnosis of residuals of
a mixed linear model adjusted by maximum restricted likelihood (REML) for the estimation
of genetic parameters (which incorporates genealogical information of the individuals). After
carrying out the estimation and hypothesis testing process, the model’s assumptions were
checked using exploratory tools based on three types of residuals (marginal, conditional and
random eects) given by Singer, for which the genealogical information was incorporated
to functions made in R. In the example shown, linearity of the xed eects of the model was
observed, but no homoskedasticity of the conditional residuals was observed, thus, normality
was also only observed for the random eects corresponding to the individual.
Análes Cientícos
ISSN 2519-7398 (Versión electrónica)
Website: http://revistas.lamolina.edu.pe/index.php/acu/index
Anales Cientícos 80 (1): 53-59 (2019)
Análisis de residuales en un modelo lineal mixto para estimar heredabilidad
54
Enero - Junio 2019
1. Introducción
Henderson (1959) formuló el problema de
predicción del mérito genético a través de un
modelo de efectos mixtos cuya ecuación es:
y = X β + Zu + e
(1)
donde, X y Z son matrices de incidencias
conocidas, u y e vectores de efectos
aleatorios tal que
~,N







u 0 G0
e 0 0R
, y,
G
y
R
son matrices de varianzas y covarianzas que
están en función de los parámetros de
dispersión. El vector u incluye el efecto
genético aditivo entre otros efectos y la
matriz G incluye la matriz A de relaciones
genéticas aditivas entre los individuos, la
cual se construye a partir de la información
genealógica o pedigrí.
El método de estimación más popular
para estimar componentes de varianza es
el de máxima verosimilitud restringida
(REML). Para vericar la validez de
los supuestos y evaluar la conabilidad
de la inferencia estadística se realiza el
análisis de residuales. En un modelo lineal
gaussiano los residuales son usados para
vericar linealidad de efectos, normalidad,
independencia, homocedasticidad de errores
y presencia de observaciones atípicas.
2. Materiales y métodos
Diagnóstico del modelo: análisis de
residuales
Los residuales son frecuentemente usados
para evaluar homocedasticidad de errores,
linealidad, normalidad y presencia de
observaciones atípicas. Hilden-Minton
(1995) extendió el concepto de residual de
un modelo lineal a un modelo lineal mixto,
deniendo tres tipos de residuales que Nobre
y Singer (2007) resumieron y los cuales se
describen a continuación:
1. Residuales marginales: que
predice el error marginal
2. Residuales condicionales:
que predice el error condicional
3. El BLUP
ˆ
bZ
que predice el efecto
aleatorio
Hilden-Minton (1995) dene residual
confundido a un tipo especíco de error,
cundo este depende de otros errores además
del que supuestamente está prediciendo,
en particular encontró que los residuales
condicionales y BLUP están confundidos,
por lo que
ˆ
e
no es adecuado para evaluar
normalidad de
e
cuando
b
es no es normal,
así también
ˆ
e
puede no presentar un
comportamiento normal aun cuando
e
lo es.
Los diferentes usos para los tres tipos
de residuales son resumidos por Singer et
al. (2013), quienes lo adaptaron de Nobre y
Singer (2007) y son presentados en la Tabla
1.
Lesare y Verbeke, citado por Singer
et al. (2013), comentaron que cuando
la estructura dentro de las unidades es
adecuada,
2
RR
i
T
i m ii
I= V
, donde
1/ 2
ˆ
ii
=
i
RÙî
con
debe ser cercana a cero. Unidades con valores
grandes de
i
V
indicaría que la estructura de
covarianza puede no ser adecuada para
dichas observaciones. Singer et al. (2013)
recomienda reemplazar
en
i
V
con el
residual marginal estandarizado
,
, donde corresponden
al elemento de la diagonal
asociado con la i-ésima unidad. Además,
recomendaron utilizar
*
/
i ii
m=VV
como
una medida estandarizada de adecuación
de la estructura de covarianza dentro de las
unidades.
Para evaluar la linealidad de los efectos
mixtos, Singer et al. (2013) sugieren gracar
los residuales marginales estandarizados
dados por , donde
es el j-ésimo elemento de la
diagonal principal versus los valores de cada
variable exploratoria como también versus
los valores ajustados.
Nobre y Singer (2007) observaron que
los residuales condicionales pueden tener
varianzas diferentes, por lo que sugirieron
gracar los residuales estandarizados
condicionales
* 1/ 2
ˆˆ
/ ()
ij ij
diag=ee Q
, donde
1 1 11 1
()
TT −−
= QÙ Ù XXÙ X
versus los valores
ajustados para chequear homocedasticidad
de los errores condicionales o versus
índice de observaciones para chequear
observaciones atípicas.
55
Vargas & Maehara / Anales Cientícos 80 (1): 53-59 (2019)
Enero - Junio 2019
Tabla 1: Usos de residuales para propósitos de diagnóstico
Diagnóstico para Tipo de residual Gráco
Linealidad de efectos jos Marginal
*
ˆ
ij
î
vs valores jos de las variables
explicativas
Presencia de observaciones
atípicas
Marginal
*
ˆ
ij
î
vs índices de las observaciones
Matriz de covarianzas dentro de
las unidades
Marginal
*
i
V
vs índices de unidades
Presencia de observaciones
atípicas
Condicional
*
ˆ
ij
e
vs índices de las observaciones
Homocedasticidad de errores
condicionales
Condicional
*
ˆ
ij
e
vs valores ajustados
Normalidad de errores
condicionales
Condicional
QQ plot gaussiano para
*
ˆ
T
k ij
ce
Presencia de sujetos atípicos Efectos aleatorios
i
M
vs índices de unidades
Normalidad de los efectos
aleatorios
Efectos aleatorios
2
q
χ
QQ plot para
i
M
Fuente: Singer et al. (2013).
Hilden-Minton (1995) resaltó que la
habilidad de chequear normalidad de los
errores condicionales se incrementa cuando
se minimiza la fracción de confundido
para los residuales condicionales, él abogó
entonces por el uso de residuales mínimos
confundidos, es decir una transformación
lineal de los residuales condicionales que
minimizan la fracción de confundido. Los
residuales mínimos confundidos son dados
por:
* 1/ 2 1/ 2
ˆˆ
1,...,
T TT
k ij k k
l ly k N p
λλ
−−
= = = ce e
donde
1
1 ...
Np
λλ
≥≥
son valores ordenandos
de obtenidos de la descomposición del
valor singular l
k
, y
representa la k-ésima columna de
L
. Los
residuales mínimos confundidos
estandarizados pueden ser obtenidos
dividiendo por la raíz cuadrada de
los elementos correspondiente
en CQC
T
donde C = ( C
1
, ....., C
N-P
)
T
. El
gráco QQ-plot de los residuales mínimos
confundidos estandarizados,
*
ˆ
T
k ij
ce
, se
emplea para chequear normalidad.
Cuando no hay efectos confundidos
y los efectos aleatorios siguen una
distribución q-dimensional gaussiana,
distancia
de Mahalanobis entre
ˆ
i
b y
ˆ
() 0
i
Eb = ,
debería tener una distribución chi-cuadrada
con q grados de libertad, por lo que Nobre
y Singer (2007) sugieren utilizar la gráca
QQ chi-cuadrada para M
i
para vericar si
los efectos aleatorios tienen una distribución
gaussiana, asimismo M
i
puede ser empleado
para detectar valores atípicos.
Descripción de los datos
Los datos son registros de 3397 lactaciones
del primer al quinto parto de 1359 vacas
Holstein, hijas de 38 toros en 57 rebaños.
Todos los registros corresponden a vacas con
al menos 100 días de leche. La información
genealógica, pedigrí, de estas vacas
comprende 5 generaciones con un total de
6547 animales. Toda esta información ha sido
descargada desde United State Department
of Agriculture USDA, http://www.aipl.
arsusda.gov/, 2010 y están disponibles en
el conjunto de datos milk y pedCows de la
librería pedigreemm en R. (Vázquez et al.,
2010).
A partir del modelo animal formulado
por Vázquez et al. (2010) se estimaron los
tres tipos de residuales estandarizados y
otros, para luego obtener los grácos con
nes de diagnóstico como se especicó en la
Tabla 1, adaptando el código y las funciones
en R proporcionadas por Singer et al. (2013)
para este modelo en particular.
2. Resultados y discusión
La Figura 1 permite revisar la linealidad del
efecto jo de la covariable días en leche en el
modelo, no se muestra un patrón por lo que
indicaría que el logaritmo de días en leche
tiene un efecto lineal en la producción de
leche. Otro gráco que evalúa la linealidad
de los efectos jos se muestra en la Figura 2,
donde no se observa algún patrón denido por
lo que no se descartaría la relación lineal con
los efectos jos; asimismo, el histograma de
Análisis de residuales en un modelo lineal mixto para estimar heredabilidad
56
Enero - Junio 2019
la distribución de los residuales marginales
estandarizados muestra un comportamiento
simétrico.
Figura 1: Residuales marginales estandarizados
vs log (días en leche)
La Figura 3 presenta los residuales
marginales ajustados versus los índices
de observación, a partir de este gráco se
encuentra que hay 95 observaciones atípicas
de 45 animales. Se consideraron atípicas
aquellas observaciones con residuales, en
términos absolutos, mayores que 2.
El gráco de los residuales condicionales
estandarizados versus las observaciones
estimadas, Figura 4, sugiere que no
habría homocedasticidad de los errores
condicicionales, puesto que no se observa un
patrón aleatorio, así también el histograma
nos sugiere un comportamiento simétrico de
estos residuales.
En la Figura 5, se muestra a los residuales
condicionales ajustados versus los índices
de observación, desde el cual se encuentra
que hay 234 observaciones atípicas de 109
animales, las observaciones consideradas
como atípicas son aquellas con residuales,
en términos aboslutos, mayores que 2.
Figura 3: Residuales marginales
estandarizados vs índices de observación
En la Figura 6 se observa que 215
animales pueden considerarse atípicos. Se
consideraron individuos atípicos aquellos
cuya distancia de Mahalanobis fue mayor
a dos veces la media de las distancias
estimadas para cada animal.
En la Figura 7 se observa que 7
rebaños pueden considerarse extremos. Se
consideraron rebaños extremos a aquellos
cuya distancia de Mahalanobis fue mayor
a dos veces la media de las distancias
estimadas para cada rebaño.
Figura 2: Residuales marginales estandarizados vs ajustados e histograma de los
residuales marginales
57
Vargas & Maehara / Anales Cientícos 80 (1): 53-59 (2019)
Enero - Junio 2019
Figura 4: Residuales condicionales estandarizados vs ajustados e histograma de los
residuales condicionales
Figura 5: Residuales condicionales
estandarizados vs índices de observación
Figura 6: Distancia estandarizada de
Mahalanobis vs índices de animal
Figura 7: Distancia estandarizada de
Mahalanobis vs índices de rebaño
El gráco QQ-plot chi-cuadrado para
la distancia de Mahalanobis para el efecto
aleatorio de animal mostrado en la Figura 8,
muestra un comportamiento que ajusta a una
distribución normal. Sin embargo, el gráco
QQ-plot chi-cuadrado para la distancia
de Mahalanobis para el efecto aleatorio
rebaño mostrado en la Figura 9, muestra un
comportamiento que podría no ajustar a una
distribución normal.
Análisis de residuales en un modelo lineal mixto para estimar heredabilidad
58
Enero - Junio 2019
Figura 8: QQ plot chi-cuadrado para
distancia estandarizada de Mahalanobis –
animal
Figura 9: QQ plot chi-cuadrado para distancia
estandarizada de Mahalanobis – rebaño
La Figura 10 muestra las distancias
estandarizadas de Lesare y Verbeke versus
los animales, de este gráco se tiene que
132 animales tienen distancias mayores a
dos veces el valor de la distancia promedio
estimada, por lo que para estos animales la
estructura de varianzas y covarianza no sería
muy adecuada.
Figura 10: Medida estandarizada de Lesare-
Verbeke vs animal
La Figura 11 muestra, a través del
gráco QQ plot normal para los residuales
estandarizados condicionales mínimos
confundidos, que estos no tendrían un
comportamiento normal, pese a que tienen
una forma simétrica como muestra su
respectivo histograma.
Figura 11: QQplot normal para los residuales estandarizados mínimos confundidos e
histograma
59
Vargas & Maehara / Anales Cientícos 80 (1): 53-59 (2019)
Enero - Junio 2019
3. Conclusiones
En el diagnóstico del modelo vía REML, a
partir de los grácos de residuales, se observó
linealidad de los efectos jos del modelo,
pero no se observó homocedasticidad de
los residuales condicionales. Asimismo,
se encontró que la estructura genética de
parentesco, para las correlaciones entre
individuos considerada en el modelo,
no es adecuada para 132 animales
evaluados. Además, se encontró hasta 234
observaciones, 215 animales y 7 rebaños
con un comportamiento atípico.
En el diagnóstico del modelo vía REML,
también se observó un comportamiento
normal para el efecto aleatorio que
corresponde al animal, pero no para el efecto
aleatorio del rebaño, así como tampoco
se observó normalidad para los errores
condicionales. Debido a este análisis, las
pruebas de hipótesis realizadas en el proceso
de ajuste del modelo vía REML pierden
validez, sin embargo, se utilizó estos datos
para ilustrar la metodología del análisis de
residuales vía REML.
4. Literatura citada
Henderson, C.R.; Searle, S.R.; Kempthorne,
O.; vonKrosigk, C.M. 1959. Estimation
of Enviromental and Genetic Trends
from Records Subject to Culling.
Biometrics, 15: 192-218.
Hilden-Milden, J. 1995. Multilevel
Diagnostics for Mixed and Hierarchical
Linear Models. Tesis Ph.D. University
of California, Los Angeles. Estados
Unidos.
Singer, J.M.; Nobre, J.S.; Rocha, F. 2013.
Diagnostic and treatment for linear mixed
models. Session CPS203 Proceedings of
the ISI World Statistics Congress (59),
Hong Kong). Hong Kong, República
Popular China.
Vázquez, A.I.; Bates, D.; Rosa, G.J.; Gianola,
D.; Weigel, K.A. 2010. Technical note:
An R package for tting generalized
linear mixed models in animal breeding.
Journal of Animal Science 88 (2):
497-504. Disponible en https://www.
alsciencepublications.org/publications/
jas/abstracts/88/2/497
Nobre, J.S.; Singer, J.M. 2007. Residual
Analysis for Linear Mixed Models.
Biometrical Journal 49 (6): 863-875.