Libro Cuantitativa
Libro Cuantitativa
Libro Cuantitativa
APUNTES DE GENETICA
CUANTITATIVA
A. Blasco
Capitulo 2
4
genes1. As pues, se admiti finalmente un modelo explicativo de la transmisin de los
caracteres segn el cual coexisten genes mayores con un gran efecto en el carcter, con
genes menores que tienen un efecto individual inapreciable pero que juntos producen una
variacin sustancial en el carcter. Cuando el nmero de genes que determinan un carcter
aumenta, las posibilidades de nuevos genotipos aumentan tambin.
EJEMPLO 2.1
Consideremos un carcter dependiente de cuatro genes cada uno con dos alelos, y
representemos con maysculas alelos favorables
A\/b\/CD
a/\B/\cD
ABCD
abcD
alelos favorables
y otro gameto con pocos. As se explica un fenmeno conocido en ganadera, el que padres
buenos den lugar a hijos regulares o malos.
1
Es curioso que Pearson (1857-1936) no creyera en la existencia de los genes, cuando ya en 1904
propuso un modelo basndose en la accin independiente de muchos genes que permita explicar
bastante bien la variacin continua de los caracteres. Su modelo slo permita dominancia
mendeliana completa para cada gen, por lo que no se ajustaba lo bien que l hubiera deseado. Para
una historia apasionante de las polmicas de principios del siglo XX en torno a los genes, ver Provine
(1971)
Un carcter determinado por n genes con dos alelos cada uno puede dar lugar a 3n genotipos
diferentes. As los caracteres mtricos (peso, altura, etc.) que estn determinados por ms de
10 genes, pueden dar lugar a miles de genotipos diferentes. En realidad hay varios alelos
posibles por gen y el nmero de genotipos posibles es an mucho mayor. La figura 2.1
muestra cmo al aumentar el nmero de factores que controlan un carcter, la variacin
observada se va asemejando a una variacin casi continua. Hoy en da la realidad se
explica de forma ms compleja, y se sabe que hay genes de efectos intermedios, o que
genes mayores para un carcter pueden ser menores para otro carcter, pero los modelos
utilizados siguen basndose esencialmente en este tipo de explicacin gentica.
Figura 2.1. Distribucin de la segregacin de dos alelos en le caso de un locus (a), seis (b)
24 loci (c). (Derivada de Falconer, 1996)
FIGURA 2.1. CERCA DE AQUI
Estos factores ambientales son de dos tipos, los que denominamos efectos sistemticos,
llamados tambin efectos fijos, y que actan aumentando o disminuyendo el valor de un
carcter en todos los individuos (por ejemplo, el efecto del verano deprime el crecimiento de
los animales y el invierno tiene un efecto favorable), y los efectos aleatorios, que estn
causados por infinidad de pequeos factores con un peso muy pequeo cada uno de ellos, y
que inciden aleatoriamente sobre los individuos aumentando o disminuyendo el valor del
carcter o caracteres en los que se est interesado2. Los efectos ambientales aleatorios
suavizan las diferencias que quedan entre las clases de los genotipos formados por varios
genes, y la resultante es una distribucin aproximadamente Normal (figura 2.2), lo que tiene
ventajas prcticas, como comentaremos ms adelante.
Figura 2.2. Distribucin de frecuencias de un carcter mtrico (nmero de embriones
implantados en cerdo de una raza hiperprolfica) con una curva Normal superpuesta
Frecuencia
80
60
40
20
0
0
10
20
30
40
50
Nmero de embriones
En el captulo 3 se examinan con ms detalle las diferencias entre efectos fijos y aleatorios
7
ambas es compleja, pero en una primera aproximacin podemos suponer que el valor
fenotpico es simplemente la suma de sus componentes3.
P=G+E
bien
P=m+G+E
(2.1)
si se desea referir estos efectos a la media (en ese caso la suma de los valores genticos es
cero, y tambin la suma de valores ambientales). La estimacin de estos valores se podra
hacer exponiendo individuos genticamente idnticos (i.e.: lneas puras en plantas o clones
en animales) a distintos ambientes, y resolviendo por mnimos cuadrados el modelo
Pijk = m + Gi + Ej + eijk
donde Pijk es el dato del individuo k de genotipo i en el ambiente j, y eijk es la componente
residual que explica el que haya variacin entre individuos del mismo genotipo en el mismo
ambiente. Por motivos de coste (particularmente en el caso de animales) es infrecuente
realizar esta estimacin.
Es importante notar la naturaleza estadstica de estas componentes: si nosotros
comparamos ocho valores genticos tendremos un resultado distinto de si comparamos
cuatro, puesto que los resultados son relativos a cada experimento. Lo mismo puede decirse
del efecto del ambiente.
Los efectos ambientales aleatorios, por estar causados por varios factores independientes
de pequeo efecto cada uno de ellos, se distribuyen con arreglo a una ley Normal, de
Obsrvese que el valor fenotpico podra expresarse con otra ley, por ejemplo el producto de sus
8
acuerdo al Teorema Central del Lmite. Por la misma razn, si el carcter slo est
determinado por genes menores, los efectos genticos se distribuyen de forma Normal, y el
valor fenotpico tambin. Esta recurrencia a la ley Normal tiene muchas ventajas de cmputo
e interpretacin; por ejemplo, si dos variables se distribuyen conjuntamente de forma
Normal, la regresin de una sobre la otra es lineal, y si su correlacin es cero entonces son
variables independientes4.
(2.2)
Cosa que no ocurre si las variables no son Normales, algo que se olvida con frecuencia.
9
2.1.4. PARTICIN DE LA VARIANZA FENOTPICA
La variabilidad observada se puede descomponer en una parte atribuible a los genes y otra
atribuible al ambiente. Si calculamos la varianza del valor fenotpico (varianza fenotpica) en
la ecuacin (2.1), tenemos
P2 = G2 + E2 + 2 cov(G,E)
Donde G2 es la varianza debida a los genes (varianza gentica), E2 es la debida al
ambiente (varianza ambiental) y el trmino cov(G,E) es la covarianza entre el valor
genotpico y el ambiental. A la proporcin de la varianza fenotpica que se debe a los genes
se le llama heredabilidad en sentido amplio
H2 =
G2
P2
(2.3)
y es poco utilizada debido a las dificultades que presenta su estimacin, puesto que en una
poblacin no es posible separar la componente gentica de la ambiental en cada individuo.
S es posible, en plantas o en lneas altamente consanguneas de animales experimentales
(como la mosca Drosophila melanogaster, por ejemplo), separar la variabilidad debida al
ambiente, y se pueden hacer cruzamientos de estas lneas para tener una estimacin de la
varianza gentica, pero estos experimentos se basan en que la variabilidad debida al
ambiente es la misma para cada genotipo, lo que no es necesariamente cierto.
En ocasiones, cuando se dispone de varias lneas puras en plantas (todos los individuos de
una lnea pura tienen en mismo genotipo), se calcula la varianza entre las medias de estas
lneas y se le llama tambin varianza gentica. Debido al alejamiento entre las medias de
estas lneas, la varianza fenotpica global es muy similar a la varianza gentica (Figura 2.3),
lo que da lugar a expresiones de la heredabilidad en sentido amplio prximas a la unidad.
Este uso de la heredabilidad en sentido amplio difiere del que aqu le estamos dando,
puesto que nosotros nos referimos al valor genotpico de los individuos de una poblacin, y
estamos interesados en conocer la proporcin en que la variabilidad observada es debida a
estos valores genotpicos.
Figura 2.3. Distribucin de los valores fenotpicos de cinco lneas puras.
10
m1
m2
m3
m4
m5
El trmino cov(G,E) es distinto de cero cuando hay una asociacin entre los valores
genotpicos y los ambientales. Por ejemplo, frecuentemente los granjeros de vacuno de
leche que compran semen caro (de alto valor gentico), cran a las hijas obtenidas con ese
semen dndoles cuidados particulares, puesto que es un animal al que aprecian mucho. As,
los mejores valores ambientales van a parar a las hijas con el mejor valor genotpico,
crendose una covarianza positiva que, al no ser tenida en cuenta al evaluar a los animales,
genera una sobrevaloracin de estas hijas (este fenmeno, conocido como tratamiento
preferencial no declarado, es uno de los problemas ms graves de la evaluacin de
reproductores en vacuno de leche). Esta covarianza se procura, pues, que desaparezca en
la evaluacin de reproductores5. Las estimas de la heredabilidad pueden tambin verse
afectadas por la presencia de esta covarianza.
Por alguna razn se confunde a veces la covarianza genotipo medio con las interacciones genotipo
medio. Son dos conceptos no relacionados entre s, puede haber covarianza genotipo medio sin
interacciones o viceversa. De hecho, utilizando el modelo completo de la ecuacin 2.2, puede haber
covarianzas entre el genotipo y la interaccin o entre el medio y la interaccin.
11
X1
X2
X1
X2
+ X12
interaccin entre alelos
A la suma de efectos X1 y X2, que son los efectos de los alelos del mismo locus, se
le llama valor aditivo A del locus.
A la interaccin X12 entre los efectos de los alelos del mismo locus se les llama
valor dominante D del locus, y no debe confundirse con la dominancia mendeliana.
El modelo se puede expresar, pues, como
G=m+A+D
(2.4)
12
En el caso de que el modelo sea equilibrado, podran estimarse estos efectos simplemente
como efectos medios. Si el modelo no est equilibrado; esto es, la poblacin no est en
equilibrio Hardy-Weinberg, Encontre un error: en la parte de modelo infinitesimal
gameta,
desequilibrio
de
ligamiento.
No
con
Hardy-Weinberg,
el
problema
de
poblaciones
finitas),
no
asi
el
otro.
Es
el
Aa
aa
Valor
0.75
2.00
3.00
Frecuencia
0.16
0.48
0.36
Resolucin: La poblacin se encuentra en equilibrio, puesto que las frecuencias de los alelos
son
p = 0.16 + 0.48 = 0.4
q = 1 0.4 = 0.6
y las frecuencias genotpicas son las de Hardy Weinberg, frec(AA) = p2 = 0.16, frec(Aa) =
2pq = 0.48, frec (aa) = q2 = 0.36. Si disponemos la tabla como en un anlisis de varianza
factorial, con el efecto X1 en columnas, con sus dos niveles (A, a), y el efecto X2 en filas, con
sus dos niveles (A, a), y con las frecuencias entre parntesis, tenemos
A [X1]
a [X1]
13
A [X2]
1.50 (0.40)
a [X2]
1.00 (0.60)
a [X1] =
2 0.24 3 0.36
0 .6
0.24 0.36
14
Valor genotpico
Frecuencia
a [X2]
Aa
aa
2pq
q2
A [X1]
A [X2]
AA
a (p )
a [X1]
d (pq)
d (pq) a (q2)
a p 2 d pq a p d q
A[X1] = A[X2] =
a p d q
p 2 pq
pq
a[X1] = a[X2] =
a q 2 d pq a q d p
a q d p
q 2 pq
pq
No confundir el alelo a con el valor genotpico a. La nomenclatura est tan extendida que hemos
preferido no alterarla.
15
a[X1] m = p
ahora ya podemos calcular los efectos genotpico, aditivo y dominante
GAA = a m = a m = a a (p q) 2 d pq = a (1 p q ) 2 dpq =
= 2 aq 2 dpq = 2 q(a dp) = 2 q(a dp + dq dq ) = 2 q( dq)
AAA = (A [X1] m ) + (A[X2] m) = 2 q
DAA = GAA DAA = 2 q( dq) 2 q = 2 q2d
De anloga forma se deducen los efectos de los otros genotipos, con lo que finalmente
tenemos
AA
G
2 q( dq)
2q
2 q2d
Aa
(q p) + 2pqd
(q p)
2pqd
aa
2 p( dp)
2p
2 p2d
OBSERVESE
1) Obsrvese la naturaleza estrictamente estadstica de esta descomposicin. Los valores
aditivos son los efectos del modelo (2.7), y el valor dominante la interaccin. Este valor
dominante poco tiene que ver con la dominancia en sentido mendeliano: obsrvese que los
tres genotipos tienen valor aditivo y valor dominante. No es imposible proponer modelos
distintos al (2.7), por ejemplo modelos multiplicativos en los que el valor genotpico no se
explica por la suma de efectos sino por el producto de efectos (ver, p. ej. CHEVALET, cita).
2) Obsrvese que los valores aditivos y dominante dependen de las frecuencias gnicas de
la poblacin, no son, pues, caractersticas biolgicas estrictamente hablando, sino
caractersticas de tipo estadstico. El efecto de sustitucin de un gen tambin depende de
16
las frecuencias gnicas, y (salvo cuando no hay dominancia mendeliana; d=0) es mayor en
valor absoluto si las frecuencias son extremas.
3) Obsrvese que las interacciones, por trmino medio, no se heredan. Los gametos
contienen X1 o X2, pero no ambos alelos. Por tanto slo se hereda, por trmino medio, el
valor aditivo, razn por la cual se le conoce como valor de mejora.
4) El clculo de estos efectos como valores medios de los niveles es slo vlido cuando la
poblacin est en equilibrio, en caso contrario hay que hacer la clsica deduccin por
mnimos cuadrados que figura en los manuales de estadstica.
X1
X2
X3
X4
El plural de locus en latn es loci, aunque en algunos textos, particularmente en los textos franceses,
se usa locus para ambos.
17
G=
+ X12 34
A la suma de efectos X1 y X2, que son los efectos de los alelos del mismo locus, se
le llama valor aditivo A1 del primer locus y a la suma de X3 y X4 valor aditivo A2 del segundo
locus.
A las interacciones dobles X12 y X34 entre los efectos de los alelos del mismo locus
se les llama valor dominante D1 del primer locus y D2 del segundo locus respectivamente, y
no debe confundirse con la dominancia mendeliana.
A las interacciones dobles entre los efectos de los alelos de distinto locus se les
llama valor episttico aditivo por aditivo AA
A las interacciones entre efectos de un alelo y efecto dominante del otro locus se
les denomina valor episttico aditivo por dominante AD
Finalmente, a las interacciones entre efectos dominantes se les denomina valor
episttico dominante por dominante DD, con lo que la expresin del valor genotpico es
G = A + D + AA + AD + DD
(2.6)
Esta notacin se puede generalizar a ms de dos loci, pero no lo haremos puesto que no es
factible estimar valores epistticos de orden tan elevado. De hecho rara vez se puede
estimar la epistasia, como no sea en experimentos de laboratorio o usando lneas puras y
sus cruzamientos en plantas. El clculo de valores medios se realiza exactamente igual que
en el ejemplo anterior.
18
Fisher (1918) propuso un modelo segn el cual los caracteres estaban determinados por
infinitos loci de efecto infinitesimal cada uno de ellos (8). As, recurriendo al Teorema central
del lmite, podemos sostener que el valor gentico sigue una distribucin Normal. Este
teorema indica que la suma (o la media) de muchas variables independientes de pequeo
efecto cada una, sigue una distribucin Normal. Para asegurar la independencia, no debe
haber efecto gentico episttico y la poblacin debe estar en equilibrio Hardy-Weinberg, y
para que las variables sean de pequeo efecto no debe haber genes mayores. En este
caso, la poblacin tiene dos propiedades importantes derivadas de la normalidad de la
distribucin:
1) Todas las regresiones son lineales (lo que utilizaremos ms adelante al estimar el
valor aditivo de los individuos por regresin lineal).
2) La distribucin de los errores de la regresin es Normal con varianza constante (lo
que utilizaremos en el captulo prximo para calcular el intervalo de confianza de la
estimacin del valor aditivo).
En este modelo los valores genticos, aditivos o dominantes son la suma de los
correspondientes valores en cada gen:
G = m + G1 + G2 + + Gn= m + A + D
(2.7)
A = A1 + A2 + + An
D = D1 + D2 + + Dn
Una caracterstica de este modelo es que los cambios en las frecuencias gnicas son
infinitesimales. Sin embargo la seleccin es posible porque cambios infinitesimales en las
frecuencias gnicas pueden producir cambios en la media de la poblacin.
EJEMPLO 2.3
Supongamos genes de efecto estrictamente aditivo con las mismas frecuencias p y q. La
media ser
para su publicacin en los Proc. of the Royal Society, pero debido al informe negativo de los dos
revisores fue rechazado para su publicacin. Fisher logr publicarlo ms tarde en los Proc. de la
Royal Soc. de Edimburgo
19
m = 2n [a p2 + 0 2pq + (a)q2] = 2na (pq)(p+q) = 2na (pq) = 2na (p 1+p) =
= 2na (2p 1)
La diferencia entre medias en una generacin y la siguiente debido a un cambio de
frecuencias de p es
m m = 4na (p p)
Supongamos que el cambio en la media no es infinitesimal, sino que es apreciable. Pese a
ello, p p puede ser infinitesimal.
p p =
m' m
4na
para que p p
n/ n
p p =
sea un infinitsimo, basta con que a sea de orden 1/n, puesto que
/ n 1 / n , con lo que
m' m
4 n
En el modelo con varios genes, si una pareja de reproductores produjera todos los gametos
posibles y tuviera todos los hijos posibles, la media de los valores aditivos de todos ellos
coincidira con la media de los valores aditivos de sus padres. Cada uno de esos hijos
tendra, sin embargo, un valor aditivo diferente, puesto que uno habra heredado de sus
progenitores una combinacin de alelos y otro habra heredado otra combinacin, como
indicbamos en el ejemplo 2.1. Cada valor aditivo se podra representar como la media de
los valores de los padres (As y Ad) ms una cantidad Ae que es lo que le falta o le sobra a
cada hijo para ajustarse al valor aditivo que tiene realmente.
AH = As + Ad + Ae
(2.8)
Cuando se trata de un modelo de infinitos genes, los valores aditivos son variables
continuas y su distribucin Normal, y Ae acta como un residuo independiente de los valores
aditivos de los padres. Los valores aditivos de los padres son independientes cuando los
apareamientos se realizan al azar.
20
OBSERVESE
1) En el modelo infinitesimal no hay fijacin o prdida de genes, simplemente cambian sus
frecuencias.
G2 A2 D2
Tomemos el caso de un gen con dos alelos. La varianza aditiva ser, por definicin de
varianza,
(2.9)
D2 = (2pq d)2
La varianza genotpica es la suma de ambas (si no hay covarianza; esto es, en situaciones
de equilibrio).
21
OBSERVESE
1) En situacin de aditividad mendeliana; esto es, cuando d = 0 y por tanto el genotipo Aa es
intermedio entre el AA y el aa, la varianza dominante es nula y la varianza gentica coincide
con la aditiva. En estos casos la varianza es mxima para frecuencias gnicas intermedias p
= q = 0.5.
2) En caso de dominancia mendeliana; esto es, cuando a = d, la varianza aditiva mxima no
se alcanza con frecuencias intermedias. Esto se debe a que depende de la diferencia
entre las frecuencias gnicas cuando hay dominancia.
3) Si hubiera una ventaja completa del heterocigoto (a = 0), seguira habiendo varianza
aditiva salvo para frecuencias intermedias, en las que = d (q p) sera nulo. La confusin
proviene de que la dominancia mendeliana no es la misma que la dominancia estadstica
que estaos tratando en este captulo. La varianza aditiva no est necesariamente producida
por genes con efecto aditivo (esto es, con d=0), sino que puede estar producida por genes
con cualquier grado de dominancia.
Estas varianzas son difciles de estimar salvo en los casos de lneas puras en plantas o en
animales experimentales.
En el modelo infinitesimal, a partir de las frmulas (2.7), la varianza gentica se puede
expresar como
G2 G2 G2 G2
1
ya que las covarianzas entre loci son nulas si la poblacin est en equilibrio HardyWeinberg. Se puede demostrar (aunque la demostracin no es sencilla, ver CROW &
22
KIMURA, 1970) que la varianza gentica no cambia en el modelo infinitesimal. Los cambios
infinitesimales de las frecuencias gnicas no conducen a cambios apreciables en la varianza
gentica.
EJEMPLO 2.3
Tomemos el modelo simple que utilizamos anteriormente, de genes de tipo aditivo (d=0) con
las mismas frecuencias. La varianza aditiva es, segn (2.9) y (2.5),
A2 A2 1 / 4 A2 1 / 4 A2 A2 1 / 4 A2 1 / 4 A2 A2
H
A2 1 / 2 A2
e
Sin embargo, si hacemos seleccin, los valores aditivos de los padres sern ms
semejantes entre s que si fueran tomados al azar en la poblacin, y por tanto la varianza
aditiva de los padres ser menor que la varianza aditiva de la poblacin. La varianza aditiva
tras hacer seleccin ser entonces menor que antes de hacer seleccin. La varianza aditiva
se ir reduciendo con el tiempo, lo que contradice la afirmacin hecha en el ejemplo 2.3.
Al hacer seleccin se ha producido un desequilibrio en las frecuencias de los genes, la
poblacin ya no est en equilibrio Hardy-Weinberg y los efectos genticos de cada locus en
23
la frmula (2.7) ya no son independientes, aparecen covarianzas entre loci. Por ejemplo,
para la varianza aditiva
y estas covarianzas9 tienen que ser necesariamente negativas para que la varianza se
reduzca. La seleccin produce, pues, un cambio de frecuencias gnicas, un alejamiento del
equilibrio Hardy-Weinberg, y una consecuente reduccin de la varianza aditiva incluso en el
modelo infinitesimal. Bulmer (1971) llam la atencin sobre este hecho, por lo que se le
conoce desde entonces como efecto Bulmer.
Ntese que estas covarianzas no lo son entre loci del mismo individuo, sino entre loci distintos de
24
Tomemos dos individuos X e Y emparentados en una poblacin en equilibrio HardyWeinberg, y expresemos el valor gentico de cada uno de ellos como
GX = AX + DX + IX
GY = AY + DY + IY
(2.10)
ya que en una poblacin que se aparea al azar, la varianza aditiva de los padres es la
misma que la de los hijos o la de cualquier conjunto de individuos de la poblacin. Si los
10
11
25
individuos fueran hermanos completos (denotado por FS, full sibs) , comparten padre y
madre
covFS (AX, AY) = cov (As, Ad) + cov (Ad, Ad) = A2 + A2 = A2
La covarianza entre padre e hijo es
cov (AX, AsX) = cov ( As, As) = A2
(2.11)
La covarianza entre nieto y abuelo se construye de la misma forma. El padre tiene un valor
aditivo que se puede expresar como
As = (As)s + (As)d + (As)e
y el individuo
AX = As + Ad + Ae = [ (As)s + (As)d + (As)e ]+ Ad + Ae
cov [AX, (As)s] = var [(As)s] = A2
De forma similar pueden hallarse otras covarianzas entre parientes. La frmula general es
Cov (AX, AY) = 2 rXY A2
(2.12)
donde rXY es el coeficiente de parentesco entre los individuos; esto es, la probabilidad de
que tengan alguno de los alelos de un locus idnticos por descendencia (ver Apndice 1)12.
De forma similar se deduce la covarianza entre efectos dominantes. Para que haya
dominancia debe haber una interaccin entre dos alelos del mismo locus. Para que esta
interaccin sea la misma en dos parientes, estos alelos tienen que ser los mismos en ambos
parientes, y tienen que haber llegado no por azar sino debido precisamente a tener
antepasados comunes. La covarianza dominante ser, pues
cov (DX, DY) = uXY D2
12
26
donde uXY es la probabilidad de que ambos alelos de un locus sean idnticos por
descendencia en el individuo X e Y. En nuestros ejemplos anteriores slo los hermanos
completos pueden haber heredado los mismos alelos en el mismo locus.
La covarianza episttica es ms difcil de calcular, porque depende de a qu interacciones
nos refiramos, las probabilidades de que los alelos estn en un individuo y en un pariente
son unas u otras. No siendo importante esta interaccin, o ms bien siendo ignorada por
motivos prcticos debido a las dificultades que se encuentran para su estimacin,
consideraremos que la deduccin de estas interacciones quedan fuera de los lmites de este
libro.
27
donde EM es el efecto del ambiente materno y E0 el efecto ambiental ejercido sobre el
carcter y no dependiente del efecto materno (al que denominaremos efecto directo). Si
una hembra produce ms leche que otra, el peso al destete de sus gazapos ser, para el
mismo tamao de camada, mayor; esto es, habr ejercido un efecto materno postivo sobre
sus gazapos. El hecho de que una hembra produzca ms leche tiene unas causas
genticas, y tambin ambientales, por lo que podra decirse que las hembras que tienen
genes tales que les hacen producir mucha leche ejercen un efecto materno sobre el peso al
destete de sus hijos que tiene unas causas genticas, aunque para el hijo sea un efecto
estrictamente ambiental sobre el peso al destete. La frmula (2.1) pasara a ser, entonces,
EM = G1 + E1
P = m + G0 + G1 + E1 + E0
donde G1 es la parte del fenotipo (por ejemplo G1 = 20 gramos en el carcter peso al
destete en conejos), que se debe al hecho de que la hembra tenga un buen genotipo para
ser buena lechera, tener un buen ambiente uterino, etc; es decir, la parte del efecto materno
atribuible a los genes de la madre. Del mismo modo, E1 es la parte del fenotipo debida a
que sobre la madre se ejerci un ambiente que influy luego sobre el carcter medido.
Podra ocurrir que parte de los genes que hacen que la madre sea buena lechera, por
ejemplo, tuvieran un efecto pleiotrpico y fueran alelos desfavorables para el peso al destete
en los hijos. En ese caso tendramos una covarianza negativa entre G1 y G0 . La varianza
fenotpica sera entonces
P2 G2 G2 2cov(G0 ,G1 ) E2 E2
0
28
Otro tipo de correlacin entre hermanos se presenta, particularmente en plantas, cuando
familias de hermanos deben competir por recursos limitados. En esos casos la covarianza
entre hermanos puede ser negativa para caracteres como la tasa de crecimiento, puesto
que si un individuo acapara ms recursos, sus hermanos tendrn menos. Esto ocurre
tambin cuando familias de peces son criadas en el mismo estanque y la cantidad de
alimento disponible es constante. En estos casos las correlaciones entre hermanos son de
escasa utilidad, puesto que las causas de su parecido o disimilitud no son de tipo gentico
exclusivamente.
cov Pi ,Pk
P P
G2 E2
2
P
H
2
E2
2
P
29
y se le conoce como repetibilidad de un carcter. No hay que confundirla con una medida de
la precisin de la estimacin del valor aditivo usada en vacuno de leche, y que tiene el
mismo nombre.
h2
A2
P2
Figura 2.4. Variabilidad aditiva y ambiental en el caso de heredabilidad alta (a) o baja (b)
30
OBSERVESE
1) Que la heredabilidad depende del ambiente, luego reduciendo la varianza ambiental
aumenta la heredabilidad (por ejemplo, en el caso de animales no haciendo cambios de
alimentacin, poniendo calefaccin en invierno, etc.). Por eso las granjas de mejora son granjas
muy bien acondicionadas, y caras de instalar.
2) Que cada poblacin tiene su heredabilidad y sus valores aditivos. En la prctica, sin
embargo, las heredabilidades de un mismo carcter no difieren mucho de poblacin a
poblacin, en parte porque las instalaciones de las empresas de mejora son buenas y
relativamente similares, ya que intentan minimizar en lo posible la variabilidad ambiental.
3) Que usualmente los errores de estimacin de la heredabilidad son grandes -salvo usando
muchos datos-, por lo que en ocasiones se recurre a usar estimaciones de la heredabilidad
proveniente de otras poblaciones. Se corre el riesgo evidente de que la influencia ambiental y la
situacin gentica de sean distintas, aunque como hemos dicho esto no es frecuente, y en
cualquier caso ste es un dilema difcil de resolver, puesto que una estima imprecisa puede
ocasionar problemas en los programas de seleccin.
En general, los caracteres reproductivos suelen tener heredabilidades bajas (menos de 0.1), los
de crecimiento moderadas (0.2 a 0.4) y los de contenido en carne de la canal altas (0.5 a 0.6).
31
En ocasiones un mismo grupo de genes influyen sobre dos caracteres simultneamente. Por
ejemplo, los genes que controlan la hormona de crecimiento influyen sobre la altura y el peso
de los individuos simultneamente. A este efecto, conocido como pleiotropa se debe el que
varios caracteres estn correlacionados genticamente. Por supuesto, cualquier factor
ambiental puede producir, adems, correlaciones entre caracteres; por ejemplo, variaciones en
la alimentacin producirn individuos de ms o menos peso y tambin simultneamente ms o
menos altos. A esta correlacin entre efectos ambientales se le conoce como correlacin
ambiental. Por los mismos motivos prcticos expuestos al hablar de la heredabilidad, estamos
ms interesados en conocer la correlacin entre los efectos genticos aditivos. Definimos,
pues, la correlacin gentica aditiva entre caracteres como
rA =
cov A1 ,A2
A1 A2
donde cov(A1, A2) es la covarianza entre los valores aditivos de cada carcter y
las
rE =
cov E1 ,E2
E1 E2
donde cov(E1, E2) es la covarianza entre los valores ambientales de cada carcter y
32
Finalmente, es tambin til conocer las correlaciones entre los valores observados de los
caracteres, y se define a la correlacin fenotpica como
rP =
cov P1 ,P2
P1 P2
donde cov(P1, P2) es la covarianza entre los valores fenotpicos de cada carcter y
rP
Px PY
Px PY
Px PY
rA hX hY rE
Ax AY
Px PY
Ex EY
Px PY
1 h 1 h
2
X
2
Y
OBSERVESE
1) No podemos mejorar la correlacin gentica entre caracteres modificando el ambiente, es un
parmetro estrictamente dependiente de la estructura gentica de la poblacin
2) La suma de la correlacin gentica y ambiental NO da la correlacin fenotpica.
3) La estimacin de la correlacin gentica requiere muchos datos, ms an que en el caso de
la heredabilidad, por lo que en programas de mejora gentica es frecuente usar estimas de
otras poblaciones.
4) La precisin de la estimacin de la correlacin gentica no depende slo del tamao de la
muestra, sino de la propia determinacin gentica del carcter. Si una de las varianzas aditivas
es muy pequea, errores en la estimacin de esta varianza pueden producir cambios
formidables en la correlacin, al estar situadas en el denominador del cociente. Por ejemplo, si
33
una varianza aditiva vale 0.01 y por error se estima 0.02, la correlacin pasa a valer la mitad.
Por otra parte, el error de estimacin de la correlacin gentica depende del propio valor de la
correlacin. Para detectar correlaciones pequeas hace falta muestras muy grandes, puesto
que hay que dirimir si la ligera asociacin que se observa se debe al azar o no, cosa que en el
caso de correlaciones fuertes es mucho ms obvia y se necesitan por tanto muestras mucho
ms reducidas para detectarla.
La pendiente de esa recta es positiva, por lo que parece que por trmino medio las mejores
madres dan lugar a mejores hijas, aunque la pendiente es tan suave que no parece que los
valores elevados de las madres se vayan a traducir necesariamente en valores elevados en las
hijas. La pendiente de esa recta es
cov PM ,PH
P2
1 / 2 A2
P2
h2
2
34
la covarianza entre los valores fenotpicos de madre e hija es la mitad de la varianza aditiva,
como vimos en la frmula (2.11). Por otra parte, si la poblacin no est seleccionada, la
varianza fenotpica de las madres es la varianza fenotpica de la poblacin, puesto que las
madres son una muestra aleatoria de la misma.
Lo mismo podramos haber hecho realizando la regresin con cualquier otro tipo de parientes.
Podramos tambin haber usado la correlacin entre parientes en lugar de la regresin; por
ejemplo, la correlacin entre medios hermanos, usando la frmula (2.10)
rHS
covHS
P2
1 / 4 A2
P2
h2
4
Podra haber servido tambin, por ejemplo, la correlacin entre hermanos si no hubiera efectos
maternos. Los mtodos modernos de estimacin del parmetros genticos utilizan todas las
relaciones entre parientes existentes en la poblacin, ponderndolas adecuadamente y
corrigiendo simultneamente los datos por efectos ambientales que puedan haber perturbado
los resultados (por ejemplo, ciertos individuos pueden estar medidos en verano y ciertos en
invierno, con lo que su crecimiento se ve afectado por la estacin).
35
cov PL ,PG
2
PG
1 / 4 cov AL ,AG A A
L
A A
L
2
PG
rA
A A
4 P2
L
dado que podemos estimar la varianza fenotpica de la cantidad de grasa con los datos que
tenemos, y que podemos estimar las desviaciones tpicas aditivas a partir de las varianzas
aditivas como explicamos en el apartado anterior, disponemos de una estimacin de la
correlacin gentica aditiva entre grasa y leche.
Como en el caso de la heredabilidad, podramos haber utilizado cualquier otra pareja de
parientes para estimar la correlacin gentica, y como en el caso de la heredabilidad tambin,
los mtodos modernos de estimacin de correlaciones genticas utilizan todas las relaciones
de parentesco existentes en la poblacin ponderndolas adecuadamente y corrigiendo los
datos simultneamente por efectos ambientales sistemticos que pueden sesgar los
resultados.
La estimacin de parmetros genticos requiere ciertas hiptesis que no siempre se cumplen,
por ejemplo el estado de equilibrio de la poblacin, o el que la poblacin sea cerrada (hoy en
da casi ninguna poblacin de una empresa de mejora gentica lo es). Si la poblacin que se
analiza est seleccionada, aparece desequilibrio gamtico que conduce a una reduccin de la
varianza. Si la poblacin no est cerrada, la entrada de nuevos genes produce no slo este
desequilibrio, sino la dificultad de referir los parmetros genticos a una poblacin determinada.
En la prctica es difcil encontrar poblaciones de plantas o animales de inters comercial que
no hayan estado sometidas a seleccin, o en las que no migren genes para hacerlas ms
productivas.
2.5.3.3. Uso de modelos lineales en la estimacin
36
Los datos estn sometidos a efectos ambientales sistemticos que alteran grupos de valores.
Por ejemplo, en invierno los animales crecen ms que en verano porque el calor disminuye el
apetito. Las camadas de primer parto suelen tener por trmino medio menos individuos. Hay
granjas que cuidan mejor a los animales y estos producen ms. Los datos pueden
precorregirse antes de efectuar los anlisis, y referir los valores de los animales a la media de
la granja o de la estacin, pero podra ocurrir, por ejemplo, que las mejores granjas invirtieran
ms en semen de calidad, con lo que al precorregir los datos y referirlos a la media de la
granja, estaramos descontando tambin un efecto gentico. Adems sera conveniente tener
en cuenta la totalidad de los datos y de las relaciones parentales al hacer la estimacin, no slo
las correlaciones entre hermanos o la regresin padre-hijo. La forma correcta de considerar
este problema la exponemos a continuacin.
La descomposicin del valor fenotpico de la frmula (2.1)
P=m+G+E
puede representarse como
y=m+g+e
donde y es el vector de fenotipos, m es el vector de medias de los datos, g es el efecto
gentico, e es el efecto del ambiente de tipo aleatorio, con media cero. Para recoger los
efectos ambientales de tipo sistemtico, varios grupos de datos tienen la misma media (por
ejemplo, los que nacieron en la misma estacin, o los de la misma granja). El modelo se
representa entonces como
y = Xb + Zu + e
donde b contiene las medias comunes a varios individuos (los efectos de estacin, por
ejemplo), u los efectos genticos (nos interesamos, como antes slo en los de tipo aditivo), y
X y Z son matrices de incidencia; esto es, de unos y ceros indicando la presencia o ausencia
de un efecto para un individuo concreto. En el caso de que hayan covariables, una columna
de X contiene los valores de la covariable para cada individuo. A los efectos contenidos en b
se les llama fijos y a los contenidos en u aleatorios, una distincin que algunos autores
como Fisher o Yates consideran innecesaria. En el prximo captulo abordaremos la
diferente forma de estimar estos efectos.
37
EJEMPLO 3.12
En la tabla siguiente se indican los datos de tamao de camada obtenidos por dos conejas
en dos estaciones distintas, y el peso de ambas
CONEJA 1
INVIERNO
PARTO 1
CONEJA 2
PRIMAVERA
INVIERNO
12
PRIMAVERA
PARTO 2
11
PARTO 3
12 E1 P1 u1 e1
7 E2 P2 u1 e2
9 E1 P1 u2 e3
11 E2 P2 u2 e4
8 E2 P3 u2 e5
12 1
7 0
9 1
11 0
8 0
y =
0 1 0 0 E1
e1
1 0
e
1 0
1 0 1 0 E2
2
u1
0 1 0 0 P1 0 1 e3
u2
1 0 1 0 P2
e4
0 1
e5
1 0 0 1 P3
0 1
X
En este modelo, por conveniencia de clculo, los efectos aleatorios se refieren a la media;
esto es, la media de los efectos genticos aditivos es cero.
E(y) = Xb
E(u) = 0
var(u) = G
var(e) = I e2
38
estimacin de covarianzas genticas entre caracteres, y no entraremos en el detalle de los
mismos. Del mismo modo, estos modelos pueden ampliarse para contener efectos maternos
o efectos ambientales permanentes si se dispone de varios datos de un individuo. El lector
interesado puede consultar textos como los de RICO (2000) o MRODE (FECHA).
39
estimar los efectos fijos, lo que podra ser preocupante cuando se estiman muchos efectos
fijos, como es el caso del vacuno de leche. Por estas razn se propuso realizar un cambio de
sistema de coordenadas y proyectar los datos en un subespacio en el que no hubieran efectos
fijos, maximizando la verosimilitud en este subespacio. A este procedimiento se le llam
mxima verosimilitud restringida (REML) y fue generalizado por PATTERSON Y THOMPSON
en 1971. El REML presenta, adems, la ventaja -ms bien de tipo psicolgico- de que sus
estimas coinciden con las del ANOVA cuando los datos estaban equilibrados. Las estimas ML
en diseos equilibrados dan resultados diferentes a las del ANOVA -que es ptimo para esos
diseos-, lo que resulta un tanto inquietante. Adems, como veremos a continuacin, las
estimas ML no tienen en cuenta prdidas de grados de libertad debido a la estimacin de los
efectos fijos, lo que resulta tambin inquietante.
Para examinar mejor las diferencias entre mxima verosimilitud y REML, estimaremos la
varianza por ambos mtodos utilizando un modelo sencillo.
y= X
+e=1
+e
2 n
L 2 | y cte
2 n / 2
exp
y 1 ' y 1
2
2
|y), y que es
2 ( 1 / n )( y 1 )'( y 1 ) ( 1 / n ) (y i )2
Obsrvese que debemos conocer
conocemos
1 / n y i
40
Esta estima, a pesar de ser funcin de otra, sigue teniendo las mismas buenas propiedades
asintticas que todas las estimas de mxima verosimilitud, y no hay razn formal para
rechazarla.
Para calcular las estimas REML se proyectan los datos en un subespacio sin efectos fijos. Si la
matriz de proyeccin es K, el mtodo consiste en hacer
K' y = K' 1
+ K' e = K' e
0
1 1 0
0 1 0
1
K' 1
0
0 1
0
0
...
1
... ...
... ...
0 ...
... ...
... ...
cumple la condicin.
La varianza de K' y es K' V K = K' K
1/ 2
exp
K ' y ' K ' y
2
2
|=n(
2 n-1
con lo que se puede obtener como antes el valor que maximiza la verosimilitud, y que ahora es
2
REML
1= [1/(n-1)] y' K (K'K)-1K' y
41
es sencillo ver en nuestro ejemplo que
1
1
1
y'K K'K K'y = y 1 y i y 1 y i = y 1 ' y 1
n
n
que es idntica a la estima ML, pero dividiendo por (n -1) en vez de por n. A pesar de la
similitud de las frmulas hay que hacer notar que, al contrario que en la estima ML, no se
sustituye el valor verdadero de
, se
refleja en que se divide por (n - 1) en lugar de por n. Cuando hay muchos efectos fijos esta
distincin es notable, puesto que la estima mximo verosmil es
2
ML
y Xb
n
y Xb
y Xb y Xb
X
n
rg(
)
REML
+ ei) - (
+ ej) = ei - ej
42
donde
43
f u2 | y f b,u , u2 , e2 | y db du d e2
donde , por el teorema de Bayes,
f(b,u, u2 , e2 | y) = f(y | b, u, u2 , e2 ) f(b,u, u2 , e2 ) / f(y)
En principio conocemos f(y | b, u, u2 , e2 ), puesto que los datos se distribuyen de forma
Normal, dados los valores de b, u, u2 , e2 . El primer problema aparece al considerar las
densidades de probabilidad a priori f(b,u, u2 , e2 ). Hay una considerable discusin en torno a
cmo representarlas, pero es frecuente considerar que estos parmetros son independientes,
por lo que
f(b,u, u2 , e2 ) = f(b) f(u) f( u2 ) f( e2 )
para apelar seguidamente al principio de indiferencia y considerar f(b) = constante, y a
menudo tambin f( u2 ) = constante y f( e2 ) = constante. En cuanto a f(u) se le considera
distribuida de forma Normal con media cero y varianza A u2 como ya vimos. Finalmente, f(y)
44
es la probabilidad de la muestra, una constante que se obtiene integrando todos los
parmetros.
El siguiente problema es resolver las integrales. Hasta hace pocos aos este era uno de los
puntos dbiles ms notorios de la aproximacin bayesiana: era tericamente posible, pero
prcticamente no era factible resolver estas integrales. La aparicin de tcnicas de muestreo
aleatorio en Cadenas de Markov (lo que se conoce como MCMC: Monte Carlo Markov Chains)
permiti aproximar estas integrales, de forma que hoy en da es factible extraer muestras
aleatorias de esas funciones de densidad. Mediante estas tcnicas se puede obtener una
matriz
b11 b21
... ...
b1i b2i
... ...
2
2
cuyas filas son puntos extrados aleatoriamente de la funcin multivariante f(b,u, u2 , e2 |y) . Por
tanto, la columna (b11, , b1i , ) es un conjunto de puntos de f(b1|y), y lo mismo se puede
2
decir de las otras columnas; as, la columna ( u1
, , ui2 , ) es una muestra de la funcin de
densidad de probabilidad f( u2 | y), y puede ser usada para hacer inferencias sobre u2 . Para
hacer inferencias sobre la heredabilidad, creamos una nueva columna a partir de los valores de
2
2
u2 y e2 que hay en cada fila. El conjunto de puntos [ u1
/( u1
+ 2e1 ), , ui2 /( ui2 + 2ei ), ] es
una muestra aleatoria de la funcin de densidad de probabilidad f(h2| y). Como el nmero de
puntos que muestreamos aleatoriamente es arbitrario, se pueden obtener histogramas muy
precisos de las funciones de densidad de probabilidad que queremos estimar.
Las inferencias se hacen a partir de los puntos muestreados de la densidad posterior
multivariante. Por ejemplo, supongamos que hemos muestreado 5.000 puntos de una densidad
posterior conjunta y dispongo, pues, de 5.000 puntos de la funcin de densidad de probabilidad
de la heredabilidad. Hallando la media de valores de heredabilidad obtenidos, tengo una estima
de la media de la densidad posterior; creando un histograma o dibujando la funcin de
densidad a partir de esos 5.000 valores puedo obtener una estima de la moda, y ordenndolos
puedo obtener la mediana con facilidad
2. 5.3.6. Los errores de estimacin
45
y)/d
es la
pendiente de la curva del logaritmo de su verosimilitud. Este valor, positivo o negativo, ser
elevado si la funcin de verosimilitud es apuntada, y ser pequeo si es plana. Elevando al
cuadrado para evitar problemas de signo y hallando la media de todos estos valores, esta
media ser un valor elevado si la funcin es apuntada y bajo en caso de que sea plana. En el
entorno del mximo, si la funcin es apuntada ello quiere decir que el grado de credibilidad de
los puntos alejados del mximo es pequeo; si por el contrario la funcin es muy plana, puntos
distantes tendrn un grado de credibilidad similar. Esta cantidad fue llamada por Fisher
cantidad de informacin intrnseca a los datos, probablemente porque cuanto mayor sea la
cantidad de informacin, ms apuntada es la curva de verosimilitud y menos verosmiles son
las estimas alejadas del mximo. En muestras pequeas, adems, la funcin de verosimilitud
puede presentar mximos locales o ser asimtrica en torno al mximo, con lo que el "grado de
creencia racional" que la verosimilitud proporciona no es el mismo a un lado del mximo que al
otro lado. El motivo de usar logaritmos es facilitar el que la cantidad de informacin sea
aditiva. Si los n individuos de una muestra son independientes, la verosimilitud es
L(
46
Desde un punto de vista bayesiano, como se dispone de la funcin de densidad posterior, pede
calcularse cualquier intervalo de confianza (los bayesianos prefieren denominarlos intervalos de
credibilidad); por ejemplo, si disponemos de las muestras producidas por un proceso MCMC
puede verse qu proporcin de puntos dan valores mayores que un cierto valor, qu proporcin
de puntos estn entre dos valores dados, o bien cul es el menor intervalo que contiene al 95%
de los puntos, a partir de qu valor se encuentra el 95% superior de los puntos, etc. Todas
estas proporciones dan lugar a inferencias: probabilidad de que el valor de la heredabilidad sea
mayor que un cierto valor, probabilidad de que la heredabilidad se encuentre entre dos valores
dados, la heredabilidad se encuentra entre estos dos valores con un 95% de probabilidad, la
heredabilidad es igual o mayor que este valor con un 95% de probabilidad, etc.
SOFTWARE DISPONIBLE
Hay varios programas pblicos que permiten estimar componentes de varianza por mtodos de
mxima verosimilitud y REML. Los ms conocidos son el VCE de GROENEVELD (CITA,
Fecha), el DFREML de MEYER (CITA, Fecha) y el ASREML de McGUIRCK (CITA, fecha)
AADIR DIRECCIONES WEB
Bibliografa recomendada
FALCONER
BULMER
RICO
OLLIVIER
Referencias
Cuestiones
Cuestiones
1. Se dispone de datos peso del fruto de una lnea pura de tomate. Estas lneas puras son
completamente homocigotas, tienen sus dos cromtidas idnticas, por lo tanto los
descendientes son idnticos a los padres. Cul es la heredabilidad, en sentido estricto, del
peso del fruto en esa poblacin?
47
A) 1 ; B) 0 ; C) No tiene heredabilidad ; D) 0.5 ; E) No se puede contestar a esa pregunta sin
conocer los datos.
2. Es posible obtener una estima negativa de la heredabilidad de un carcter?
3. Si el carcter A est correlacionado positivamente con el B, y el B lo est con el C,
implica esto que necesariamente el A lo est con el C?
4. Es posible que dos caracteres presenten una correlacin gentica positiva y sin
embargo la correlacin ambiental sea negativa?
5.Es posible aumentar la heredabilidad de un carcter?
7. Definicin de heredabilidad: Una heredabilidad de 0.20 significa que
A) Hay un 20% de probabilidad de heredar el carcter
B) El valor aditivo es el 20% del valor fenotpico
C) Un 20% del carcter es heredable
D) La varianza aditiva es un 20% de la varianza fenotpica
E) En un 20% de los casos la varianza aditiva pasar a la descendencia.
8. Valor aditivo: El toro Y tiene la siguiente valoracin del valor aditivo de l mismo y de sus
antecesores, en kg de leche al ao: BISABUELO: +100, ABUELO: +100, PADRE: +100,
TORO Y: +200.
El toro X tiene la siguiente valoracin del valor aditivo de l mismo y de sus antecesores, en
kg de leche al ao: BISABUELO: +200, ABUELO: +200, PADRE: +200, TORO Y: +100.
Qu toro es el ms adecuado como reproductor?
A) el X
B) el Y
C) La informacin suministrada no es til para tomar la decisin
D) Ambos estn igualmente valorados como reproductores
E) Ninguno de los dos es adecuado
9. Covarianza genotipo-medio: En qu consiste la covarianza genotipo-medio?
A) Los mejores genotipos (por ejemplo, las mejores vacas) reciben el mejor ambiente (por
ejemplo, la mejor alimentacin).
B) Los mejores genotipos en un ambiente (por ejemplo, clima templado) no son los mejores
genotipos en otro ambiente (por ejemplo, clima caluroso).
48
C) El medio (por ejemplo, una buena alimentacin) produce individuos que dan lugar a hijos
genticamente mejores
D) El genotipo determina las condiciones del medio
E) En animales no hay interacciones genotipo-medio
10. Valor aditivo: El valor aditivo de un toro que tiene cinco hijas probadas es
A) La media de la produccin de las cinco hijas probadas
B) El valor de los genes que ha transmitido por igual a cada una de sus hijas
C) La adicin de los valores econmicos de cada carcter objeto de seleccin
D) La media de la produccin de todas su hijas posibles
E) El conjunto de los genes del animal que se heredan
Referencias
MENDEL G. 1865. Experimentos en Hbridos de plantas. Artculo aparecido originalmente
en Verhandlungen des Naturforschenden Vereines. Brnn, 4. Abhand., pp. 3-47. Reimpreso
en The origin of genetics C. Stern y E.R. Sherwood, Eds. Freeman & Co. San Francisco,
1966. Traduccin espaola en El origen de la gentica. Alhambra. Madrid, 1973.
STERN C., SHERWOOD E.R. (Eds.) 1966. The origin of genetics. Freeman & Co. San
Francisco, 1966. Traduccin espaola en El origen de la gentica. Alhambra. Madrid, 1973.
49
Apndice I. Coeficiente de parentesco
Para estudiar los apareamientos en los que intervienen individuos emparentados es
conveniente disponer de alguna medida del parentesco. Una forma de medirlo puede ser
comparar un alelo de cada uno de los dos individuos que se aparean y ver si son iguales por
haber sido transmitidos por un antecesor comn.
Algunos de los hijos tendrn sus dos alelos iguales debido a que provienen ambos de un
antecesor comn -el abuelo o la abuela-, y otros hijos los tendrn iguales por azar. Para
medir el parentesco nos interesan los alelos que provienen de un antecesor comn, puesto
que cuanto ms probable sea encontrarlos esto indicar que los individuos estn ms
emparentados.
Pondremos un ejemplo de cmo se calculan los coeficientes de consanguinidad y
parentesco de forma recurrente. Si tenemos dos individuos X e Y, llamaremos a los alelos
de uno de los locus de X (A,a), y a los alelos del mimo locus de Y (A',a'). Al escoger un alelo
al azar de X pudiera ste ser A, y al escoger uno de Y pudiera ser a', y pudiera ocurrir que A
fuera idntico -por descendencia, por supuesto- a a'. Tambin pudiera ocurrir que el alelo
escogido de Y fuera A'; en ese caso habra que examinar la probabilidad de que A=A'. Si
consideramos todos los casos posibles, la probabilidad de que al escoger un alelo de X y
uno de Y sean iguales es
rXX= [P(A=A')+P(A=a')+P(a=A')+P(a=a')]
donde P significa probabilidad. Esto es, por definicin, el coeficiente de parentesco rXY entre
los individuos X e Y, o el coeficiente de consanguinidad F de cualquiera de sus hijos.
Finalmente, si sabemos que el individuo X es hijo de A y de B, y que el individuo Y es hijo de
C y de D, es fcil demostrar que
rXY = rAxB,CxD = (rAC + rAD + rBC + rBD)
lo que permite calcular coeficientes de parentesco y de consanguinidad disponiendo del
rbol genealgico de un individuo.
50
51
f(y0|m2)
f(y|m2)
f(y|m1)
f(y|m3)
f(y0|m1)
f(y0|m3)
y0
m1
m2
m3
Obsrvese tambin que si represento los valores f(y0|m1), f(y0|m2),... obtengo una funcin en la
que lo que vara son los valores de m mientras que lo que est fijado es el valor de la muestra,
y0 . En general esto es equivalente a suponer que disponemos de un nmero muy grande de
valores f(y|m1), f(y|m2), f(y|m3),.... Cada uno representa una "probabilidad instantnea"(14), en el
sentido de que f(y|m1) es, por supuesto, una funcin de densidad de la muestra y en unas
circunstancias determinadas (esto es, si y proviene de una poblacin cuya media es m1), y la
probabilidad de que y est entre dos valores y0 e y1 en esas circunstancias concretas viene
dada por el rea entre f(y0|m1) y f(y1|m1), pero al mismo tiempo es obvio que no se pueden
sumar las probabilidades definidas por reas en el entorno de f(y0|m1), f(y0|m2), f(y0|m3), ...,
porque estn tomadas de poblaciones diferentes, y el conjunto de estos valores no obedece a
las leyes de la probabilidad -no suman 1, por ejemplo-.
Fisher (1912) propone tomar el valor mi que d lugar a un valor mayor de f(y|mi), porque le
parece intuitivo que de todas las poblaciones a las que da lugar la serie f(y|m1), f(y|m2), f(y|m3),
.... la que tiene mayor valor de f(y|mi) es la que hace que la muestra que se ha tomado parezca
ms probable. Como aqu la palabra probable puede inducir a confusin, puesto que ya hemos
dicho que esas "probabilidades instantneas" no pueden ser tomadas como probabilidades en
14
Con este nombre es como en el artculo de 1912 aparece la verosimilitud. Fisher no utilizar el trmino
52
conjunto, posteriormente dir que hay que tomar el valor mi que hace ms verosmil el que
cuando hemos muestreado haya salido esa muestra. Obsrvese que el mtodo de mxima
verosimilitud no es, por tanto, el que procura el estimador ms probable dada la muestra.
Literalmente, el mtodo de mxima verosimilitud provee el valor del parmetro que, de ser
verdadero, hara ms probable a la muestra observada
Cuando Fisher propuso el mtodo no quedaba claro que este estimador fuera particularmente
bueno. Fisher lo propuso porque le pareca que la verosimilitud suministraba un grado de
creencia racional que, aunque no gozara de las propiedades de una probabilidad, le permita
expresar la incertidumbre de una forma no muy diferente. Fisher propona en realidad usar toda
la curva de verosimilitud y no slo su mximo, lo que hoy en da es frecuente en algunos
problemas de marcadores genticos. En esos casos se corre el riesgo de acabar interpretando
la verosimilitud como si fuera una probabilidad. En realidad el estadstico frecuentista no usa la
curva de verosimilitud sino slo su mximo. El mtodo ha sido aceptado por sus buenas
propiedades frecuentistas -es asintticamente insesgado, suficiente cuando hay estimadores
suficientes, eficiente, ptimo asintticamente normal,
53
reverendo Thomas Bayes (quien no public trabajos matemticos en vida), formalizando el
mismo principio de inferencia. Al parecer este principio haba sido formulado anteriormente, y
Stigler (1983) lo atribuye a Sauderson, un profesor de ptica ciego, autor de numerosos
trabajos en diversos campos de la matemtica. Los trabajos sobre verosimilitud de Fisher en
los aos 20 y los de la escuela frecuentista en los 30 y 40 hicieron casi desaparecer a la
escuela bayesiana, hasta que comenz un "revival" a mediados de los 50 que dura in
crescendo hasta nuestros das. En mejora gentica animal el bayesianismo fue introducido por
Daniel Gianola, primero en trabajos sobre caracteres umbral en colaboracin con J.L. Foulley, y
posteriormente en artculos en los que se desarrollan aplicaciones a prcticamente todos los
campos de la mejora gentica animal (ver Blasco, 2001, para una revisin sobre los mtodos
bayesianos en mejora gentica).
La forma esencial de trabajar de la escuela bayesiana consiste en, dados los datos observados
en el experimento, describir toda la incertidumbre que puede existir en torno a un parmetro,
usando como medida natural de la incertidumbre la probabilidad de que el parmetro tome
determinados valores. Por ejemplo, en el caso de la heredabilidad se obtendra la funcin de
densidad de probabilidad f(h2|y) siendo y el vector de valores observados. Una vez obtenida
esa distribucin se pueden hacer inferencias de mltiples maneras: por ejemplo, se puede
desear averiguar entre qu valores se encuentra h2 con una probabilidad del 95%, o qu
probabilidad tiene el que h2 est entre tal y tal valor. En los casos en los que es necesaria una
estimacin puntual de h2, por ejemplo para un ndice de seleccin, hay varios parmetros de la
funcin de densidad f(h2|y) que pueden ser usados como estimacin puntual, y cuyo uso
depende de la preferencia del investigador. Por ejemplo, la moda, que es el valor ms probable
de h2 dada la muestra y ; la mediana, cuyo valor hace tan probable que el valor verdadero sea
superior como inferior a esta estima y minimiza el riesgo de estimacin cuando la funcin de
prdidas es | h 2 h 2 | ; o la media, que es el estimador que minimiza el riesgo mnimo
cuadrtico E (h 2 h 2 ) 2 .
Para poder hacer todas estas inferencias es menester disponer de la funcin de densidad de
probabilidad f(h2|y). De acuerdo con las leyes de la probabilidad, la probabilidad P(A,B)de que
se presenten dos sucesos simultneamente es
P(A,B) = P(A|B) P(B) = P(B|A) P(A)
con lo que
54
P(A|B) = P(B|A) P(A) / P(B)
En nuestro caso,
f(h2|y) = f(y|h2) f(h2) / f(y) = cte f(y|h2) f(h2)
donde f significa funcin de densidad, pero no es necesariamente la misma para y|h2 que
para h2. Obsrvese que f(h2|y) es una funcin de h2 , pero no de y, que est fijada; por tanto
f(y|h2) es aqu funcin de h2 , pero no de y, que es exactamente la definicin de verosimilitud.
Por la misma razn f(y) es una constante, ya que no depende de
h2 e y est fijado.
55
que tenga esa probabilidad es de alguna manera informativa. Se ha sugerido suponer que
cuando no hay informacin sobre los distintos sucesos posibles, hay que asignarles a todos la
misma probabilidad a priori. En el caso de variables continuas esto implica representarlas como
una recta paralela al eje de las X en un intervalo concreto, por ejemplo al intervalo [0,1] para el
caso de la heredabilidad, por lo que se les conoce tambin como a prioris planos o no
informativos, siendo este ltimo nombre inapropiado, puesto que s que son informativos (no es
lo mismo decir que se ignora la probabilidad de los distintos sucesos que decir que todos tienen
la misma probabilidad). Estos a prioris planos son frecuentes en la literatura como funciones
de referencia. Otras soluciones ms complejas aunque escasamente aplicadas en el campo de
la mejora gentica son discutidas por Blasco (2001).
56
PS(y | d) = PS( y0, y1| d ) = PS(y1 | y0, d) PS( y0 | d )
Ahora bien, como y0 es una muestra aleatoria de la poblacin base, al no ser datos
seleccionados,
PS( y0 | d) = P( y0 | d)
Los datos de la generacin 1 no son una muestra aleatoria de la generacin base porque
son hijos de animales seleccionados. Deberan ser, por tanto, mejores que los datos de la
poblacin base. Pero si condicionamos a los datos de la poblacin base, la distribucin de
esos datos dados los datos de la poblacin base es la misma con o sin seleccin, puesto
que no estamos examinando la distribucin completa de estos datos sino la distribucin que
no depende de la seleccin, la condicionada a los datos usados en la seleccin. Por tanto,
PS(y1 | y0, d) = P(y1 | y0, d)
as que al fin tenemos que
PS(y | d) = P(y1 | y0, d) P( y0 | d ) = P(y | d)
por tanto,
PS(d | y) = PS(y | d) P(d) / P(y) = P(y | d) P(d) / P(y) = P(d | y) / P(y)
57
Por tanto, pueden construirse las distribuciones posteriores ignorando el hecho de que haya
habido seleccin. Para ello es necesario que sea posible la condicionalizacin que hemos
expuesto; esto es, que estn incluidos todos los datos del proceso de seleccin as como las
relaciones entre ellos que permiten la condicionalizacin. Las relaciones entre datos estn
en las matrices A y G del modelo, por lo que son necesarias para la inferencia. Esta
argumentacin sirve asimismo para los razonamientos basados en la verosimilitud. Una
consideracin detallada de estos temas se encuentra en Gianola et al.(1989) y en Im et al.
(1989).
Captulo 3
SELECCIN
3.1. Parmetros de la seleccin
3.1.1. Diferencial de seleccin y Respuesta
3.1.2. Intervalo generacional
3.1.3. Criterio de seleccin
3.2. Mtodos de seleccin.
3.2.1. Seleccin directa
Seleccin individual
Seleccin indirecta
3.2.2. Seleccin parientes
3.3. Indices de seleccin para un carcter y para varios caracteres.
3.3.1. Indices para un carcter
3.3.2. Indices para varios caracteres
Observaciones sobre los ndices
3.4. Modelos lineales. El BLUP.
3.4.1. BLUP
3.4.2. Las ecuaciones del modelo mixto. El modelo animal/planta
3.4.3. Otros modelos
3.4.4. Otras interpretaciones del BLUP
3.5. Clculo de los valores de mejora. Software disponible.
3.1. Parmetros de la seleccin
3.1.1. DIFERENCIAL DE SELECCION Y RESPUESTA
58
Hijas
22
B
18
R
m 14
R
10
A
6
6
10
14
18
22
Madres
S
Si trazamos una recta de regresin para predecir la media de las hijos a partir de la media de
los padres, tendremos la ecuacin, ya establecida en el captulo anterior
(H - m) = h2 (P - m)
(3.1)
Vemos que padres con los mismos valores pueden dar lugar a hijos de valores muy distintos,
hay una gran dispersin de puntos a lo largo de la recta. Vemos tambin que aunque en algn
caso particular a buenos padres corresponden malos hijos -caso A- y al contrario -caso B-, si
seleccionamos un conjunto de los mejores padres la media de todos sus hijos ser algo mayor
que la media de la poblacin. Superioridad que no se traduce sino en una pequea parte en la
descendencia, debido a que h2 suele ser pequea.
59
(3.2)
La Respuesta depende no slo de la heredabilidad del carcter sino de las posibilidades que
tiene la poblacin para permitir que la superioridad de los padres seleccionados S sea grande.
En una poblacin en la que todos los individuos se parecen, en donde no haya una variabilidad
notable, no ser posible encontrar grandes valores de S. Esto se pone de manifiesto si
tipificamos el diferencial de seleccin, con lo que obtenemos la frmula
R h2
h2 i P
(3.3)
en la que se observa que no slo es necesaria una heredabilidad elevada para obtener
respuestas elevadas, sino que es menester que el carcter tenga una variabilidad suficiente.
As, caracteres como el tamao de camada en especies prolficas, cuya heredabilidad suele
estar entre 0.05 y 0.10, son susceptibles de seleccin debido a la elevada variabilidad
fenotpica que presentan (un coeficiente de variacin en torno a 0.30, en comparacin con un
valor de 0.10 para, por ejemplo, caracteres de crecimiento).
Al diferencial de seleccin tipificado i se le conoce como intensidad de seleccin. Su utilidad
deriva de que, al ser un parmetro adimensional de media cero y varianza la unidad, permite
comparar la intensidad con la que se abordan distintos procesos de seleccin. Esta intensidad
suele estar determinada por los medios con los que el experimentador cuenta. Por ejemplo, si
se dispone de un nmero determinado de jaulas, no es posible guardar ms animales que
jaulas disponibles. A veces el problema es de tipo biolgico: por ejemplo, si una vaca tiene
cuatro partos a lo largo de su vida productiva no se dispone ms que de 2 novillas por vaca,
por trmino medio, para hacer la reposicin, lo que hace que la seleccin va madres sea muy
poco eficaz. Resultara, pues, interesante, expresar la intensidad de seleccin en funcin de la
proporcin de individuos seleccionados. Suponiendo que el carcter se distribuya de forma
Normal (figura 6), y que los individuos son seleccionados cuando superan un cierto umbral c ,
si trabajamos con los caracteres tipificados, m=0, con lo que la media de los individuos
seleccionados es igual a la intensidad de seleccin. Llamando p a la proporcin de individuos
seleccionados, la media de estos individuos es
60
f(c)
p
c
Figura 6. Presin de seleccin
i=
x2
1
1
1
dx
x
f
x
dx
x
(
)
exp
p c
p c
2
2
df ( x )
= x
dx
x2
exp = x f(x), por lo que cambiando el
2
2
1
x 2
1
1 df ( x )
1
1
1 1
exp
i x f ( x )dx
dx df ( x ) f ( x )c
pc
p c dx
pc
p
p 2
2 c
c2
1 1
exp
p 2
2
1
f (c )
p
(3.4)
R h2
f (c )
P
p
(3.5)
donde se puede ver que aumentando la presin de seleccin; esto es, disminuyendo la
proporcin de individuos seleccionados, la respuesta aumenta.
61
Si la presin de seleccin es distinta en machos que en hembras, el diferencial de seleccin es
la media de los diferenciales de los machos y las hembras, y la intensidad de seleccin es
tambin la media aritmtica de las intensidades.
EJEMPLO 3.1
Enunciado: En una poblacin de conejos compuesta de 100 hembras y 20 machos se decide
efectuar seleccin por ganancia media diaria de peso. Decidir el umbral a partir del cual se
seleccionar cada individuo. Estimar la respuesta esperada en una generacin de seleccin.
Para reducir el intervalo generacional, las conejas tienen slo un parto, con cuatro hijos tiles
(que llegan a la edad de reproduccin) por parto. La media de la poblacin crece a razn de 35
g/da, y la varianza fenotpica del carcter el 78 g2. La heredabilidad del carcter es, en esa
poblacin, h2 = 0.32.
Resolucin: El primer parto produce cuatrocientos conejos, de los que 200 son machos y 200
son hembras, aproximadamente. Como tras la seleccin hay que reconstituir la poblacin
original de 100 hembras y 20 machos, la presin de seleccin es, en hembras pH y machos pM
respectivamente:
pH = 100 / 200 = 50%
pM = 20 / 200 = 10%
Recurriendo a las tablas de la Normal tipificada, el valor de los umbrales para las presiones de
50 y 10% son cH = 0 y cM = 1.28 respectivamente, y los valores de la funcin son f(cH) = 0.40;
f(cM) = 0.18.
Para calcular los umbrales con los datos sin tipificar, hacemos:
x m
x m c P
xH 35 0 78 35
xM 35 1.28 78 46.3
Por tanto seleccionaremos a los machos que superen 46.3 g/da y a las hembras que superen
43.8 g/da. Para calcular la respuesta esperada necesitamos las intensidades de seleccin
(ecuacin 3.4) . Las intensidades de seleccin sern
iH = 0.40 / 0.50 = 0.8
62
R 0.32
0.8 1.8
78 3.7
2
m1 = 35 + 3.7 = 38.7
63
Resolucin: Con dos partos se dispone del doble de individuos para seleccionar, por lo que las
presiones de seleccin se reducen a la mitad, pH=25% y pM=5%. Recurriendo a las tablas de la
Normal tipificada, los valores de la funcin para esas presiones son f(cH) = 0.32; f(cM) = 0.10. Si
repitiramos los clculos del ejemplo anterior, seleccionaramos hembras a partir de 41 g/da y
machos a partir de 49.6 g/da. Las intensidades de seleccin sern (ecuacin 3.4)
iH = 0.32 / 0.25 = 1.28
iM = 0.10 / 0.05 = 2
La respuesta esperada y las respuestas por unidad de tiempo en la prxima generacin sern
(ecuacin 3.5)
R 0.32
1.28 2
78 4.6
2
3.7
R1 6 12 7.4 g / ao
R 4.6 12 6.9 g / ao
2
8
como se ve, aunque la respuesta usando dos partos sea superior, no compensa al alargarse el
intervalo generacional. En la prctica intervienen otros criterios (por ejemplo, una presin de
seleccin dentro de machos elevada aumenta excesivamente la consanguinidad, por lo que se
suele seleccionar machos dentro de familia de macho), algunos de ellos no gentico (por
ejemplo, el elevado coste de eliminar a las hembras con solo un parto).
(3.6)
64
b=
cov( A,C )
(3.7)
C2
R b S
cov( A,C )
C2
i C A,C i A
(3.8)
donde
A,C
cov( A,C )
(3.9)
A C
= m + b (C m)
(3.10)
A2 b 2 C2 e2
e2 A2 b 2 C2 A2
cov 2 ( A,C )
2
C
2
2
A2 1 A,C
h2 P2 1 A,C
(3.11)
65
No todos los individuos que tienen el mismo valor aditivo estimado tienen el mismo valor
aditivo real A. Como los errores se distribuyen de forma Normal, se puede calcular la
probabilidad de que el valor aditivo verdadero se encuentre en un cierto intervalo. En la
distribucin Normal el 95% del rea se encuentra aproximadamente en un intervalo entre dos
desviaciones tpicas, por lo que la probabilidad de que el valor aditivo verdadero se encuentre
entre ms menos dos desviaciones tpicas del error es del 95%. Esto se expresa
P(A + 2 e ) = 0.95
(3.12)
PARAMETROS DE LA SELECCION
Respuesta: Es la diferencia entre la media de la poblacin en la generacin seleccionada
(hijos) y la generacin base.
Diferencial de Seleccin: Es la diferencia entre la media de los padres y la media de la
poblacin antes de seleccionar.
Intensidad de seleccin: Es el diferencial de seleccin tipificado.
Presin de seleccin: Es la proporcin de individuos seleccionados.
Intervalo generacional: Es el intervalo de tiempo entre dos estados de reproduccin anlogos
(por ejemplo pubertad o primer parto) de la generacin seleccionada y la generacin
parental.
Criterio de seleccin: Es el criterio utilizado para estimar el valor aditivo de los individuos y
seleccionar en consecuencia.
Intervalo de confianza al 95%: Es un intervalo en el que sostenemos que se encuentra el valor
aditivo, con una probabilidad de error del 5%.
Precisin del criterio: Es el coeficiente de correlacin entre el valor aditivo y el criterio.
Heredabilidad realizada: Es la heredabilidad estimada como el cociente entre la respuesta y el
diferencial de seleccin cuando la seleccin es individual.
66
Ya hemos visto este tipo de seleccin en el caso anterior. Aqu el criterio de seleccin C es el
valor fenotpico del individuo, C = P. Teniendo en cuenta que
cov(A,P) = cov(A, A+E) = A2
tenemos que (ecuaciones 3.7, 3.9 y 3.11)
b = h2
A,P = h
e2 P2 h 2 (1 h 2 )
por tanto cuanto mayor sea la heredabilidad, mayor es la precisin con que el valor fenotpico
estima el valor aditivo. La prediccin de la respuesta es (ecuaciones 3.3 y 3.8)
cov( A, P )
2
P
i P h2 i P h i A
(3.13)
EJEMPLO 3.3
Enunciado: En el ejemplo anterior 3.1, calcular la precisin del mtodo de seleccin y la
desviacin tpica del error de estimacin. Estimar el valor aditivo de un individuo cuyo valor
fenotpico es de 50 g/da.
Resolucin: La precisin es
A,P = 0.32 = 0.56
Como se ve, y a pesar de que la heredabilidad es relativamente elevada, el criterio seleccin
individual no es excesivamente preciso. La desviacin tpica del error es:
e2 78 0.32 (1 0.32) 17
lo que da lugar a una
67
b=
cov( AI , PD )
var(PD )
A ,P
I
cov( AI , AD )
A P
I
g hD
68
carcter objeto de la seleccin, como de que efectivamente la heredabilidad del carcter que
se selecciona directamente sea elevada.
La varianza del error de estimacin es (ecuacin 3.11)
e2 A2 (1 A2 ,P ) P2 hI2 (1 g2 hD2 )
I
Rcorrelacionada
h
g D
R
hI
EJEMPLO 3.4
Enunciado: Se desea mejorar el ndice de conversin de pienso en carne de una poblacin de
conejos, pero como es muy caro de medir se decide seleccionar este carcter a travs de la
velocidad de crecimiento, que tiene una correlacin gentica
15
15
Obsrvese que se desea disminuir el ndice de conversin (usar menos pienso para producir un kg
de conejo), por lo que la correlacin conveniente es, efectivamente, negativa.
69
Rcorrelacionada
0.32
0.7
0.89
0.20
R
Lo que indica que el ndice de conversin decrecera un 89% de lo que podra decrecer en
caso de que la seleccin hubiera sido directamente por ste carcter. Obsrvese que si la
heredabilidad del ndice de conversin fuera 0.15 inferior, la respuesta correlacionada al
seleccionar por velocidad de crecimiento superara a la de la seleccin directamente por ndice
de conversin. La desviacin tpica del error es
Si la seleccin se hiciera directamente, la desviacin tpica del error sera 0.120, algo menor.
En ambos casos el intervalo de probabilidad del 95% es grande.
2 0.123 = + 0.25
cov( A, D )
A m b (D m ) m
(D m )
2
70
Obsrvese que la variabilidad de la media de las hijas depende del nmero de hijas.
Lgicamente los valores de slo una hija, o de la media de dos hijas, son mucho ms
variables que los de la media de cien hijas. Como la varianza de la media de las hijas est en
el denominador, esto implica que cuanto mayor sea el nmero de hijas menor ser la varianza
del valor medio de todas ellas, y consecuentemente mayor ser la estimacin de su valor
aditivo (no ser mayor su valor aditivo real, desconocido, que depende de los genes concretos
de ese toro, sino su estimacin). Formalizaremos a continuacin estas ideas. Teniendo en
cuenta que las hijas son medio hermanas y que por tanto la covarianza entre dos de ellas es
cov( Di , D j ) A2 / 4 , y que la covarianza entre el valor aditivo del padre y una de sus hijas i
es cov( A, Ai ) A2 / 2 , tenemos que
cov(A, D ) = cov A,
D1 D2 Dn 1
1
n cov( A,Di ) cov( A,Ai Ei ) A2
n
2
n
D1 D2 Dn
n
D2 var
1
2 n var( Di ) n( n 1)cov( Di ,D j )
n
A2 P2
1 2
(
n
)
1
n
4 n
h2
(
n
)
1
1
(3.14)
n / 2 h2
2n
b
2
1 n 1 h / 4 n 1 4 / h 2
EJEMPLO 3.5
Enunciado: Supongamos que disponemos de dos toros, el toro X con 10 hijas evaluadas y el
toro Y con 100 hijas evaluadas. La media de produccin de sus hijas es exactamente la
misma, 8.000 kg de leche al ao. La media de la poblacin es de 6.000 kg/ao. Tomando un
valor de heredabilidad para la produccin de leche de 0.25, estimar sus valores aditivos.
Resolucin:
b
Sus valores aditivos estimados sern:
2n
(n 1) 16
71
X 6000 2 10 (8000-6000) 7600
A
9 16
6000 2 100 (8000-6000) 9478
A
Y
99 16
como se ve, hay un efecto de regresin, de forma que las estimaciones de los valores
aditivos son menores cuando la informacin es escasa. Disponiendo de infinitas hijas, la
estimacin del valor aditivo sera el doble de la media de las hijas (el toro tiene dos
cromosomas y pasa la mitad de la dotacin a sus espermatozoides. El valor aditivo de una hija
depende tambin del valor aditivo de la madre).
Este efecto de regresin a la media de la poblacin que se pone de manifiesto en el ejemplo
es importante porque si slo se evaluara a los toros por la media de sus hijas, solamente se
seleccionaran toros con poca informacin. No es imposible que un toro evaluado con una sola
hija tenga un valor de 20.000 kg de leche, pero es prcticamente imposible que un toro
evaluado con 100 hijas tenga un valor medio de produccin de sus hijas de 20.000 kg.
Cuando se estima el valor de un toro simplemente con la media de sus hijas, se est
considerando que el valor de cada toro es un efecto fijo, y no se tienen en cuenta las
relaciones de parentesco ni la heredabilidad del carcter. Cuando se estima el valor del toro
como lo hemos hecho nosotros, estamos considerando que el valor de cada toro es un efecto
aleatorio, y que por tanto presenta una variabilidad y los distintos efectos estn relacionados a
travs del parentesco.
La varianza del error de estimacin es (ecuacin 3.11)
e2 P2 h 2 1 A2,D
obsrvese que conforme aumenta el nmero de datos, D2 disminuye, el cociente aumenta y
la varianza del error de estimacin disminuye. Sin embargo, la varianza del estimador del
valor aditivo aumenta al aumentar la cantidad de informacin:
var() = b 2 D2
(1/ 4) A4
D2
72
obsrvese que al aumentar la cantidad de datos, D2 disminuye y por tanto aumenta var().
Cuando n tiende a infinito, de la ecuacin 3.14, tenemos
h 2 P2 P2 h 2 P2 h 2 P2 h 2 A2
1 ( n 1)
n
4 n
4
4n
4
4
2
D
P2
var() =
A4 / 4
A2
2
A / 4
e2 A2 var( A ) A2 A2 0
Cuando estimamos el valor aditivo del toro como la media de las hijas, el error de estimacin
es el error de estimacin de una media; esto es, si = D entonces e2 var( A ) P2 / n , con
lo que la aumentar el nmero de datos disminuyen simultneamente var() y la varianza del
error. Esto ha sido tradicionalmente una fuente de confusin, y el origen reside en las
diferencias entre efectos fijos y aleatorios (ver Apndice I). En el caso de los efectos fijos, la
varianza del error de estimacin coincide con la varianza del estimador, cosa que no ocurre,
como acabamos de ver, en el caso de que se estime el valor aditivo como un efecto aleatorio.
En ambos casos intentamos minimizar la varianza del error de estimacin, no la varianza del
estimador, aunque por la costumbre se habla de esta ltima en el caso de efectos fijos.
La precisin del mtodo es (ecuacin 3.9)
A,D
cov( A, D )
A D
(1/ 2) A2
A P
1 (n 1)h 2
n
4n
n
n 1
4
h2
R A,D i A
EJEMPLO 3.6
73
Enunciado: Calcular las respuestas esperadas relativamente si se seleccionan toros en base a
la media de 10 hijas o de 100 hijas. Calcular la desviacin tpica del error de estimacin del
valor aditivo de los toros X e Y del ejemplo 3.5. Desviacin tpica de la produccin de leche,
1.200 kg/ao.
Resolucin: Las precisiones son:
A,D (10)
10
4
10 1
0.25
0.63
A,D (100)
100
4
100 1
0.25
0.93
74
ms que la trascripcin de las instrucciones que haba recibido de Fisher. Posteriormente Hazel
(1947) aplic estos ndices a la mejora animal, y hoy en da se siguen utilizando tanto en
experimentos de laboratorio como en ncleos de seleccin comerciales, particularmente en
aves, cerdos y conejos por razones que veremos ms adelante.
75
se le llama ndice de seleccin. Encontraremos los valores de b que minimizan el riesgo
cuadrtico medio (ver Apndice I). El riesgo es (ecuacin 3.22)
R(A,I)= E (A I)2 = [ E(A) E(I) ]2 + var(A) + var(I) 2 cov(A,I)
Si los valores de y estn centrados,
E(I) = E(by) = b E(y) = 0
var(I) = var(by) = b var(y) b = b V b
cov(A,I) = cov(A , by) = b cov(A,y) = b c = cb
Si derivamos respecto a b para obtener el valor que minimiza el riesgo, teniendo en cuenta
que E(A) y var(A) son caractersticas de la poblacin y constantes respecto a b,
R/b = 2 bV 2 c = 0
por tanto b = c V-1 , y la estima del valor aditivo,
= I = c V-1 y
Obsrvese que no se ha invocado la Normalidad de los datos en ningn momento, por lo que
el
ndice
minimiza
el
riesgo
cuadrtico
medio
entre
los
estimadores
lineales
76
V = var (y)
cov(y I ,y M )
var( y i ) cov(y I ,y HS ) cov(y I ,y HS )
var( y HS )
cov(y HS ,y M )
var( y M )
P2
(1/ 4) A2
(1/ 4) A2
(1/ 4)
2
P
P2
2
A
(1/ 2) A2
0
=
0
P2
9
0.225
0
9
0
0.1112
0.0001 y HS
0.1114 y M
A,I
cov( A, I )
A I
I
A
R = A,I i I = i I
(3.15)
(3.16)
e2 A2 (1 A2,I ) A2 I2
Nos encontramos aqu con el mismo fenmeno que al hablar de la prueba de la descendencia.
La varianza del ndice aumenta con la cantidad de informacin, puesto que se van aadiendo
77
sumandos positivos conforme aumenta la cantidad de informacin. Sin embargo la varianza
del error de estimacin disminuye, como cabe esperar.
EJEMPLO 3.8
Enunciado: Calcular la respuesta esperada para una intensidad de seleccin correspondiente
a una presin del 25% (ver Ejemplo 3.1), y la precisin del ndice del ejemplo 3.7.
Resolucin:
I2
0.1112
0.0001 0.225
0.1114 0.45
= 0.12
A,I =
0.12
= 0.36
0.9
e = 0.88
Con seleccin individual se habra obtenido 0.38 gazapos por generacin, la precisin sera de
0.32 y la desviacin tpica del error de 0.90.
78
A,I
cov( A,' y )
A var(b ' y )
b ' cov( A, y )
A b ' Vb
b' c
A b ' Vb
1
log(b ' Vb ) log( A )
2
2Vb
c
0
b ' c 2b ' Vb
b V 1c
79
l al elegir reproductores, sino en el valor econmico que transmiten a la descendencia; es
decir, nuestro inters reside en encontrar el valor aditivo econmico del individuo(16)
AE = a1 A1 + + an An = a' u
puesto que nos interesa lo que producirn sus hijos, no l mismo. Aqu u es el vector de
valores aditivos de cada carcter. Como antes, el criterio de seleccin que utilizaremos para
estimar este valor ser un conjunto de valores de varios caracteres medidos en cada individuo.
Obsrvese que es posible que el conjunto de caracteres que determinan el valor aditivo
econmico no sea el mismo conjunto de caracteres que se puede medir. Por ejemplo, el ndice
de conversin puede ser un carcter econmicamente importante, pero al ser difcil de medir
podramos seleccionarlo de forma indirecta a travs de la velocidad de crecimiento, sin que la
velocidad de crecimiento est necesariamente considerada como un carcter econmicamente
relevante, por lo que pudiera no estar incluida en el valor aditivo econmico. Por tanto, el
criterio de seleccin puede contener datos de caracteres que no estn incluidos en el valor
aditivo econmico, y a su vez el valor aditivo econmico puede incluir valores aditivos de
caracteres que no se miden y por tanto no estn en el criterio de seleccin.
Llamemos, como antes, al criterio de seleccin C =
[y1, y2 ym ]. De momento no
consideraremos datos de los parientes, sino solamente del propio individuo. Obsrvese que
los subndices no indican que el carcter yi se corresponde con el valor aditivo Ai ; si
ordenamos el criterio adecuadamente podemos hacer que en los primeros casos sea as, pero
no en los ltimos, en donde puede estarse midiendo un carcter no incluido en el valor aditivo
econmico, o puede haber un carcter incluido en este valor aditivo econmico que no se est
midiendo. Este punto se aclara en el ejemplo 3.9. Estimaremos el valor aditivo econmico por
regresin, como antes. Para cada carcter ui
i = i = ci V-1y
Considerando todos los caracteres
u = CV-1y
donde C es una matriz en la que en cada fila hay un vector ci = cov (Ai y) abarcando todos los
caracteres i = 1, ... , n
16
En la literatura el valor aditivo econmico aparece con el nombre de genotipo agregado, bastante
ms oscuro que el nombre que aqu proponemos.
80
AE = I = a u = a C V-1y
EJEMPLO 3.9
Enunciado: En porcino el principal coste de produccin es la alimentacin, pudiendo llegar a
ser en torno a 2/3 del coste total de produccin por lechn. Las canales se pagan de acuerdo
a su contenido en carne, por lo que se estima este contenido midiendo en animal vivo la grasa
dorsal, que supone un 70% de la grasa total, mediante aparatos de ultrasonidos. Deseamos
seleccionar, pues, a favor de ndice de conversin (IC) y contra contenido en grasa (GD), pero
el consumo de pienso individual es caro de medir y se utilizar la velocidad de crecimiento
(VC) para hacer una estimacin indirecta, pues esta ltima medida slo supone realizar una o
dos pesadas del animal. Sabemos que un ahorro en 0.1 puntos de ndice conversin implica
un ahorro de 3 por animal, y que una reduccin en 1mm de espesor de capa de grasa dorsal
implica un beneficio de 1 por canal vendida. La siguiente matriz muestra las heredabilidades
(diagonal)
IC
VC
GD
m
P
IC 2.5 0.25
VC 700 72 g / dia
3
GD 15
mm
GD
cov(AIC, AVC) = rA(IC,VC) AIC AVC 0.7 0.013 1555 3.1 (kg p/kg pv)(g/da)
cov(AIC, AGD) = 0.4 0.013 4.5 0.10 (kg p/kg pv)mm
cov(AGD, AVC) = 0.1
81
cov(PIC, PGD) = 0.30 (kg p/kg pv)mm
AE = aIC AIC + aGD AGD
aIC =
30
kg p / kg pv
0.1 (kg p / kg pv)
aGD = 1
mm
1]
u = [AIC , AGD]
y = [yVC , yGD] donde los valores de y estn centrados
C = cov(u,y) =
AIC
A , y VC
GD
= cov
y GD
9.6 1157 10
var( y GD ) 43
9
V = var (y) =
E = I = 30
Por ejemplo, un individuo que haya crecido 770 g/da y tenga un espesor de grasa dorsal de
12mm tiene un valor econmico aditivo de (recurdese que los valores de y estn centrados):
E = 0.0242 (770 700) 0.949 (12 15) = 4.54
EJEMPLO 3.10
Enunciado: Podramos haber utilizado datos de parientes en la estimacin, y de hecho en los
programas modernos de mejora se usan los datos de toda la poblacin, presentes y pasados,
como indicamos al hablar de ndices para un carcter. Calcular un ndice como el del ejemplo
3.9 usando los datos del individuo y de un medio hermano.
Resolucin:
82
AE = aIC AIC + aGD AGD
a = [aIC , aGD] = [30
1]
u = [AIC , AGD]
HS
HS
y = [yVC , yGD , y VC
, y GD
]
AIC
, y VC
AGD
C = cov(u, y) = cov
HS
y GD y VC
HS
y GD
cov( AIC , AVC ) cov( AIC , AGD ) (1/ 4)cov( AIC , AVC ) (1/ 4)cov( AIC , AGD )
var( AGD )
(1/ 4)cov( AGD , AVC )
(1/ 4) var( AGD )
cov( AGD , AVC )
2.1
1.1
8.4 4.5
V = var (y)
var( y GD )
(1/ 4)cov( AGD , AVC )
(1/ 4) var( AGD )
=
=
var( yVC )
cov( y GD , yVC )
var( y GD )
9
2.1 1.1
5184 43
HS
HS
E = I = a C V-1 y = 0.0238 yVC 0.934 yGD + 0.0036 yVC
0.114 y GD
Obsrvese que los datos del medio hermano tienen mucho menor peso que los del individuo,
y que este peso no slo depende del parentesco sino tambin de los parmetros genticos.
83
A ,I
cov(I, AE )
A I
I
A
e2 A2 I2
E
R = AE ,I i AE = i I
La respuesta para cada carcter es
Ri
cov(I, ui )
A I
i Ai cov(I, ui )
cov(a'C'V -1 y , ui )
a'C'V -1 cov( y , ui )
el vector de respuestas es
EJEMPLO 3.11
Enunciado: Calcular la Respuesta esperada y la precisin del ndice del ejemplo 3.9, para
una intensidad de seleccin de 1.28.
Resolucin: Aplicando las frmulas,
I2 = 9.3 2 ;
I = 3.05
2
A2 aIC2 A2 aGD
A2 + 2 aIC aGD cov(AIC, AGD) =
E
IC
GD
A = 8.4
E
e2 70 9.3 = 60.7 2 ;
e 7.8
84
R = [ 0.17
4.1]
1.28
= [ 0.07
3.05
3.1 0.2
4.2 4.5
C =
da lugar a una varianza del ndice de 16.1, y a una respuesta de 5.1 por generacin, lo que
supone una sobreestimacin de la respuesta en un 30%.
85
1) Es posible que haya individuos sin datos (por ejemplo, en el caso del tamao de camada o
la produccin de leche los machos no tienen datos), lo que no impide la estimacin del valor
gentico de estos individuos con los datos disponibles. Simplemente no figuran en el vector y,
pero su parentesco s que es considerado en c y V, como se ve en el ejemplo 3.8.
2) La inversin de V es difcil si el nmero de individuos es grande, por lo que se ha recurrido
a resolver los ndices usando otro tipo de ecuaciones que se explican en el siguiente apartado,
al hablar del BLUP.
3) Para construir un ndice hace falta conocer la heredabilidad del carcter, y en el caso de
ndices para varios caracteres hace falta conocer las correlaciones genticas y fenotpicas
entre los caracteres. En la prctica se sustituye el valor de estos parmetros genticos por
estimaciones realizadas con los propios datos o por estimaciones encontradas en la literatura,
pero el error de estimacin que se comete al estimar estos parmetros no es tenido en cuenta
cuando se calcula la varianza del error o el intervalo de confianza, por lo que en realidad la
varianza del error y el intervalo de confianza que se calculan son menores que los reales. Esta
dificultad slo puede resolverse aplicando la teora Bayesiana (Apndice II), de lo contrario
hay que tratar a los parmetros genticos como si fueran los verdaderos.
4) Los pesos econmicos se miden en (/unidad del carcter), por ejemplo /g /mm, por lo
que el valor aditivo econmico se mide en . El valor aditivo econmico estimado es el criterio
que se usa para seleccionar, por tanto se seleccionan aquellos animales cuyos hijos darn un
beneficio (en ) mximo.
5) El ndice tiene en cuenta las relaciones genticas entre caracteres para optimizar el
beneficio. Es decir, no necesariamente mejora cada uno de los caracteres (por ejemplo, si la
correlacin entre los caracteres es negativa podra empeorar alguno de ellos). Obsrvese que
se seleccionan los animales que transmiten a la descendencia un valor econmico mximo; un
mismo valor aditivo econmico puede lograrse con un valor aditivo pobre para GD pero alto
para IC o mediante valores aditivos intermedios para ambos caracteres, en cualquier caso se
seleccionan aquellos individuos de los que se espera que su descendencia de lugar a un
rendimiento econmico mximo.
6) No podemos implementar muchos caracteres en un ndice (no ms de tres o cuatro). La
razn es compleja de describir y est relacionada con los errores de estimacin. Por azar
86
pueden aparecer estimas de parmetros genticos incoherentes. Por ejemplo, si estimamos la
heredabilidad mediante correlaciones entre medios hermanos y por azar los individuos no
emparentados se parecieran ms entre s que los medios hermanos, tendramos estimaciones
de la heredabilidad negativas. Esto ser ms probable que ocurra cuantos ms caracteres
consideremos. De igual modo es posible que aparezcan por azar relaciones entre los
caracteres incoherentes, y asimismo ser ms frecuente cuantos ms caracteres incluyamos
en el ndice (Hill y Thompson, 1978). Aunque se han propuesto algunas soluciones parciales o
aproximadas al problema (bending, Hayes y Hill, 1986, por ejemplo), los beneficios
marginales de incluir muchos caracteres en el ndice no suelen ser grandes, por lo que hay que
extremar las precauciones.
7) Los ndices son relativamente robustos ante los errores en los pesos econmicos. Errores
del 200 y del 300% no suelen afectar mucho al resultado final (Smith 1983), como se puede
comprobar en nuestro ejemplo. Sin embargo a medio o largo plazo puede que las predicciones
no sean lineales; es decir, no se obtenga el mismo beneficio al seleccionar una unidad del
carcter. Este problema no es sencillo de resolver, y se suele recomendar recalcular los pesos
econmicos con el paso del tiempo. Por otra parte hay empresas que calculan los pesos
econmicos de manera ms compleja; por ejemplo, teniendo en cuenta su cuota de mercado y
la cuota que aspiran obtener en competencia con las dems compaas. La existencia de
limitaciones a la produccin (cuotas lecheras, por ejemplo), aade nuevas complicaciones. Por
ltimo, los intereses de los integrantes de la cadena que va de la produccin al consumo no
siempre coinciden; por ejemplo, al ganadero le interesa lo que le paga el matadero por sus
canales, pero al carnicero le interesa el porcentaje de cortes caros de la canal y al consumidor
la calidad de la carne. Estos intereses estn con frecuencia contrapuestos y es difcil integrarlos
en programas de mejora. Blasco (1996) ofrece una extensa revisin de estos y otros problemas
relacionados con la estimacin de los pesos econmicos.
8) No ocurre lo mismo con los errores en los parmetros genticos (Meyer y Hill, 1983),
particularmente en el caso de las correlaciones genticas, y los ndices son sensibles a errores
en la estimacin de estas correlaciones. El problema es por un lado que hace falta una
cantidad considerable de datos para estimar una correlacin gentica con precisin (ms de
1.000, por ejemplo) y por otro que los parmetros genticos cambian con la seleccin y
deberan ser recalculados en cada generacin, sin datos suficientes para una precisin
razonable en muchas ocasiones (estas son tambin razones para no incluir muchos caracteres
en el ndice). Cuando se dispone de todos los datos usados en la seleccin y de las relaciones
entre parientes completas, no es necesario el reclculo de los parmetros genticos porque
87
sirven los de la generacin base, o pueden usarse todos ellos para estimar los parmetros de
la generacin base mejorando la precisin.
9) Los ndices necesitan que los datos estn centrados. Naturalmente esto no ocurre en los
programas reales: los animales crecen ms en invierno, crecen menos si provienen de
camadas numerosas, y segn en la granja en la que estn se les prodigan mejores o peores
cuidados que afectan tambin al crecimiento o a otros caracteres productivos. Hay varios
procedimientos ms o menos artesanales para centrar los datos: comparaciones entre
contemporneos, o entre individuos de la misma estacin, interpolaciones para que los
datos se ajusten a un estndar comn, etc. En el apartado siguiente, al hablar del BLUP, se
aborda formalmente la correccin de estos datos.
El nombre BLUP aparece por primera vez en un artculo de Goldberg (1962), quien dedujo el BLUP
de forma independiente a Henderson y en un contexto alejado de la gentica. Algunos autores
pretenden dar la primaca del BLUP a Goldberg, pero las ecuaciones del modelo mixto son muy
anteriores, y es obvio que Henderson desconoca el trabajo de Goldberg cuando mostr en 1963 la
equivalencia de sus ecuaciones y el BLUP.
88
poda calcular la inversa de G directamente y de forma sencilla. Desde entonces es el
mtodo ms utilizado en mejora gentica animal, y empieza a imponerse en mejora de
plantas. Las iniciales BLUP corresponden a Best Linear Unbiased Prediction, el mejor de los
predictores lineales insesgados, y derivan de sus propiedades, que veremos a continuacin.
Ronningen (1971) y Dempfle (1977) llamaron la atencin sobre el hecho de que el BLUP
podra considerarse como un estimador bayesiano, y Dempfle (1977) hizo notar que podra
tambin considerarse como una mezcla de estimadores en los que uno extrae la informacin
de los datos y otro la informacin a priori que sobre la poblacin se dispone (la media y la
matriz G). Finalmente, en una extensa revisin, Blasco (2001) discute el BLUP como
estimador frecuentista y bayesiano.
El BLUP como ndice corregido
Una solucin obvia al problema de que los datos no estn centrados es estimar las medias y
centrar los datos. Cuando los datos tienen diferentes medias, los datos pueden
representarse mediante el modelo
y=m+e
donde m es el vector de medias de los datos; esto es, E(y) = m. Como varios grupos de
datos tienen la misma media (por ejemplo, los que nacieron en la misma estacin), el
modelo se representa como
y = Xb + e
donde b contiene las medias comunes a varios individuos (los efectos de estacin, por
ejemplo) y X es una matriz de incidencia; esto es, de unos y ceros indicando la presencia o
ausencia de un efecto para un individuo concreto. En el caso de que hayan covariables, una
columna de X contiene los valores de la covariable para cada individuo. Los errores se
considera que tienen media cero y estn incorrelacionados.
EJEMPLO 3.12
En la tabla siguiente se indican los datos de tamao de camada obtenidos por dos conejas
en dos estaciones distintas, y el peso de ambas
CONEJA 1
CONEJA 2
89
INVIERNO
PARTO 1
PRIMAVERA
INVIERNO
12
PRIMAVERA
PARTO 2
11
PARTO 3
12 E1 P1 e1
7 E 2 P 2 e2
9 E1 P1 e 3
11 E 2 P 2 e 4
8 E 2 P 3 e5
12 1
7 0
9 1
11 0
8 0
y =
0
1
0
1
1
1
0
1
0
0
0
1
0
1
0
0 E1 e1
0 E 2 e2
0 P1 e3
0 P 2 e 4
1 P 3 e5
b +
Con esta notacin, E(y) = Xb. Una primera idea para centrar los datos puede ser estimar las
medias b por mnimos cuadrados, restrselas a y creando un nuevo vector de datos
corregido y* = y X b = ,
estimadores mnimo cuadrticos son insesgados y cumplen que E( b )=b, con lo que
E (y*) = E (y X b ) = E(y) X E( b ) = Xb Xb = 0
y el vector y* estara centrado. El estimador mnimo cuadrtico es
b = (XX)-1Xy
(3.14)
(3.15)
90
donde u contiene los valores aditivos de los individuos (tengan datos o no) y Z es la matriz
de diseo correspondiente. En el caso de que hubiera individuos sin datos (por ejemplo, un
macho), se aade una columna de ceros en la matriz Z, y el valor aditivo del macho en el
vector u. A este modelo se le conoce como modelo mixto, puesto que contiene tanto
efectos fijos como aleatorios. Cuando u incluye los valores aditivos de cada uno de los
individuos (y no solamente el de los machos, por ejemplo), al modelo mixto se le llama
tambin modelo animal o modelo planta.
EJEMPLO 3.13
Con el ejemplo 3.12, se desea plantear las ecuaciones del modelo mixto para las dos
conejas y para un macho, considerando slo el efecto de estacin. Llamando u1, u2 a los
valores aditivos de las conejas, y u3 al valor aditivo del macho, el modelo es ahora
12 E1 u1 e1
7 E 2 u1 e2
9 E1 u 2 e 3
11 E 2 u 2 e 4
8 E 2 u 2 e5
12 1
7 0
9 1
11 0
8 0
0
1
0
1
1
y =
1
0
1
0
0
0
1
0
1
0
0 E1 1
0 E 2 1
0 P1 0
0 P 2 0
1 P 3 0
0
0
1
1
1
0
e1
0 u1 e2
0 u 2 e3
0 u 3 e 4
e5
0
u +
En este modelo, por conveniencia de clculo, los efectos aleatorios se refieren a la media;
esto es, la media de los efectos aleatorios es cero.
E(y) = Xb
E(u) = 0
var(u) = G
var(e) = I e2
b = (XV-1X)-1XV-1y
91
en donde si (XV-1X) no tiene inversa se acta como en el caso del estimador por mnimos
cuadrados (3.14). El vector y* = y X b est centrado, puesto que se comprueba de forma
anloga que E( b ) = b. El BLUP es, entonces
= c V-1 y* = c V-1(y X b )
esto es, un ndice al que se le han corregido los datos centrndolos apropiadamente.
Henderson (1963) demostr que este estimador era el mejor entre los lineales insesgados,
como veremos ms adelante.
Propiedades del BLUP
El BLUP es un ndice de seleccin con los datos corregidos, por lo que las propiedades de
los ndices de seleccin son aplicables al BLUP. En realidad las propiedades de los ndices
son vlidas en tanto en cuento los datos que se utilicen estn bien centrados; esto es, que
hayan sido corregidos apropiadamente.
El BLUP y la seleccin
Una de las condiciones para aplicar del modelo mixto (ecuacin 3.15) es que la esperanza
de los efectos aleatorios E(u) sea nula. Obviamente, si hay seleccin, esto no es cierto,
puesto que los individuos de las ltimas generaciones tendrn por trmino medio valores
superiores a los de las primeras. Esto implica que no se podra aplicar el BLUP a todas las
generaciones de seleccin disponibles. Sin embargo, Henderson (1975) demostr que con
ciertas condiciones, que en esencia consisten en:
1) Analizar los datos con la matriz de parentesco completa.
2) Utilizar en el anlisis todos los datos usados para la seleccin.
3) Usar en el anlisis el mismo modelo que se utiliz al seleccionar (es decir, si se
usan efectos de estacin en el momento de la seleccin, estos efectos se tienen
en cuenta en el anlisis de datos)(18).
4) Utilizar los parmetros genticos correctos. Los parmetros genticos cambian
de generacin en generacin como resultado de la seleccin, pero aqu se
requiere utilizar en el BLUP los parmetros genticos de la generacin base,
antes de seleccionar.
18
Esta condicin no es en realidad tan restrictiva, pero no podemos entrar en detalles sin alcanzar
una complejidad intolerable para los objetivos de este captulo.
92
entonces puede ignorarse el efecto de la seleccin y aplicar el BLUP como si los datos no
estuvieran seleccionados, puesto que las estimas que se obtendrn sern a su vez estimas
BLUP correctas. Esto permite obtener los valores aditivos de los individuos generacin tras
generacin, libres de los factores ambientales, y por tanto permite monitorizar el proceso de
seleccin sin necesidad de una poblacin control. La Respuesta a la seleccin puede
estimarse simplemente como la media de los valores aditivos de los individuos de cada
generacin. Sin embargo, Thompson (1986) y Sorensen y Johansen (1992) han llamado la
atencin sobre la extremada sensibilidad de esta Respuesta a los parmetros genticos que
se utilizan para calcular el BLUP, por lo que si la condicin 4 no se cumple, la Respuesta
estimada no ser la correcta.
Dos de los problemas habituales en la estimacin de la Respuesta son tenidos en cuanta,
sin embargo, por el BLUP, como demuestran Sorensen y Kenedy (1985). En primer lugar las
estimas BLUP tienen en cuenta la reduccin de la varianza debida a seleccin (efecto
Bulmer), y por otra parte los errores tpicos de las estimas BLUP tienen en cuenta el efecto
de la deriva gentica, cuando se dispone de matrices de parentesco completas. Con el
modelo infinitesimal no hay fijacin ni prdida de genes, slo se alteran sus frecuencias, y la
nica causa de esta alteracin debida a la deriva gentica es el aumento del parentesco con
la seleccin, lo que queda recogido en la evaluacin con la matriz de parentesco completa.
93
puesto que entonces dejan de ser aleatorios, se estimaran exactamente igual que los
efectos fijos y no se tendra en cuenta las correlaciones entre ellos.
Ecuaciones del modelo mixto
La forma ms sencilla de deducir las ecuaciones del modelo mixto es aplicar el argumento
original de Henderson (1949), interpretndolo correctamente. Henderson(1949) quera hallar
una estima mximo verosmil de los valores aditivos u. La verosimilitud se representa
mediante la funcin f(y|u), que indica la densidad de probabilidades de la muestra y dado un
valor de u concreto. Segn sea el valor de u, la muestra tiene una probabilidad mayor o
menor. Las estimas mximo verosmiles son aqullas que, si fueran el verdadero valor,
haran mxima la probabilidad de encontrar los datos y. Parece lgico multiplicar los valores
de f(y|u) por la probabilidad de que, efectivamente, la u que figura en f(y|u) sea la
verdadera. Esto es, se tratara de encontrar el valor de u que hace mximo
= f(y|u) f(u)
Para hacerlo supondremos que tanto los datos como los valores aditivos se distribuyen de
forma Normal, y que los efectos b son fijos; esto es, la funcin de densidad de y se escribe
correctamente f(y| b,u), cuya media es E(y) = Xb + Zu , y cuya varianza, considerando
fijados a b y a u es var(y) = I e2 (ya que si b y u estn fijados, slo vara el error e). Por su
parte, f(u) tiene de media cero y de matriz de varianzas-covarianzas G, matriz que incluye
las relaciones de parentesco de toda la poblacin. La expresin anterior es, entonces,
exp [(y Xb Zu) (1/ e2 ) (y Xb Zu)] exp(uG-1u) =
= exp [(y Xb Zu) (1/ e2 ) (y Xb Zu) + uG-1u ]
94
La matriz G suele expresarse como G = A A2 donde A recoge el doble de los coeficientes de
parentesco entre los individuos. As, las ecuaciones quedan
XX b + XZ = X y
ZZ b + ZZ + A-1 ( e2 / A2 ) = Z y
y en forma matricial, y llamando = e2 / A2
P2 A2 e2 h 2 P2 e2
X ' X
Z' X
e2 P2 (1 h 2 ) 1 h 2
A2
P2 h 2
h2
X'Z
b X ' y
1
Z ' Z A Z ' y
(3.16)
A nadie se le escapa que invertir A es difcil cuando hay un gran nmero de datos
disponible. Henderson (1976) y Quaas (1976) encontraron mtodos sencillos para calcular
A-1 directamente, y hoy en da hay programas estndar para ello.
EJEMPLO 3.14
Enunciado: Crear las ecuaciones del modelo mixto para el ejemplo 3.13 teniendo en cuenta
slo el efecto de estacin. Las dos conejas son medio hermanas y el macho es hermano de
la primera. La heredabilidad del tamao de camada es 0.1 y la varianza fenotpica 9.
Resolucin: Las ecuaciones del modelo lineal son
12 E1 u1 e1
7 E 2 u1 e2
9 E1 u 2 e 3
11 E 2 u 2 e 4
8 E 2 u 2 e5
12 1
7 0
9 1
11 0
8 0
0
1
1
1
E1
0 0
E 2
1
0
1
0
0
0
1
1
1
0
e1
0 u1 e2
0 u 2 e3
0 u 3 e 4
0
e5
= (1 0.1) / 0.1 = 9
La matriz de parentesco es, dado que las conejas son medio hermanas, y el macho es
hermano de la primera,
1 0.25 0.5
A
1
0.25 ;
1.36
1
12 1.6 5.7
A =
9.8 1.6
12
-1
95
Las ecuaciones del modelo mixto son
2
0
1
1
2
0
1
0
E1 21
0
E 2 26
0 12 1.6 5.7 u1 19 ;
0 1.6 9.8 1.6 u 2 28
0 5.7 1.6 12 u 3 0
1 1 0
1 2
2 0
0 3
0 0
2
0
0
1
1
0 E1 21
3
1
2
0 E 2 26
1 14 1.6 5.7 u1 19 ;
2 1.6 13 1.6 u 2 28
0 5.7 1.6 12 u 3 0
E1 10.5
E 2 8.7
u1 0.012
u 2 0.011
u 3 0.004
Los valores de u1 y u2 se dan respecto a la media (recurdese que E(u) = 0), y los valores
de los efectos de estacin incluyen la media (19).
El error de estimacin
Como vimos antes, y se detalla en el apndice I, la varianza de los errores de estimacin de
los efectos fijos coincide con la varianza de estos efectos, mientras que la varianza de los
errores de estimacin de los efectos aleatorios es var(u ). La matriz de varianzascovarianzas de los errores de estimacin no la deduciremos (ver detalles, por ejemplo en
Rico, 1999). Llamando
X ' X
Z ' X
Q=
X 'Z
C11 C12
b
C11 C12
1
var
Q 21
C 22
C
u u
donde Cij es la parte de la inversa de la matriz de coeficientes Q-1 correspondiente a la
particin Cij (ntese que Cij no es Ci-1j sino la parte de Q-1 que corresponde a Cij).
Fijos o aleatorios?
Tngase en cuenta que los resultados no son exactos, puesto que se ha redondeado sucesivas
veces para facilitar la reproduccin del ejemplo por parte del lector
19
96
Si las estimas de efectos aleatorios aprovechan mejor la informacin, porqu no estimar
los efectos de rebao como aleatorios? En primer lugar porque hace falta disponer de una
matriz equivalente a la de parentesco para los efectos de rebao, y adems es necesario
conocer las covarianzas entre efectos de rebao y efectos aditivos, ya que al ser ahora
todos los efectos aleatorios, la matriz de varianzas-covarianzas de los efectos aleatorios
incluye todas las relaciones posibles.
Podra simplificarse el problema suponiendo que la varianza de rebao es la misma para
todos los rebaos, pero esto es notoriamente falso, ya que rebaos buenos muestran menos
variacin, presumiblemente por tener mejor controlado el ambiente. Podramos intentar
estimar en cada rebao la varianza del efecto debido a rebao, pero eso implicara separar
la varianza aditiva de la ambiental con los datos de cada rebao, habitualmente insuficientes
para obtener una precisin adecuada. Finalmente, los mejores rebaos suelen importar el
mejor semen, por lo que hay covarianzas entre efectos de rebao y efectos aditivos, difciles
de precisar. Este ltimo hecho movi a Henderson (1973) a considerar al efecto de rebao
como fijo. As desaparecen en la estimacin las varianzas y covarianzas asociadas al
rebao.
97
3.15). Por ejemplo, en vacuno de leche es frecuente que ciertos datos provengan de
pequeas granjas. En ese caso si se consideran como efectos aleatorios las granjas con
pocos datos tendrn un efecto menor que las granjas con ms datos, lo que contribuye a
aumentar la precisin. El problema es que al desconocerse las varianzas de granja y sus
covarianzas con los efectos aditivos, las estimas estn sesgadas. En ocasiones, sin embargo,
es preferible el sesgo al exceso de imprecisin. Estos dilemas suelen resolverse mediante
simulacin.
4) Se ha exagerado a menudo la eficiencia del BLUP respecto a los ndices de seleccin. En
realidad el BLUP slo el ligeramente ms eficiente que un ndice que tenga los datos bien
corregidos (sea corrigindolos mediante mnimos cuadrados como en el ejemplo 3.12, o por
mtodos ms aproximados como la comparacin entre contemporneos). Blasco et al. (1985)
en conejos, Sorensen y Johansen (1995) en cerdos y Demfple (1980) en vacuno de leche,
apenas encuentran ligeras ventajas del BLUP frente a los ndices corregidos por mtodos
tradicionales. Las ventajas del BLUP provienen del enorme desarrollo de la computacin en
los ltimos aos, que permite resolver sistemas gigantescos de ecuaciones con rapidez y a
bajo coste. La forma de almacenar los datos en el ordenador y la facilidad con la que se
plantean y resuelven estos sistemas hace que el BLUP sea un instrumento cmodo de utilizar.
Los resultados del BLUP permiten adems monitorizar mejor la respuesta a la seleccin y la
evolucin de los efectos ambientales, siempre y cuando los parmetros genticos que se
introduzcan sean fiables.
5) No es infrecuente que en la bibliografa se encuentren respuestas a la seleccin estimadas
con BLUP en las que se observa una tendencia fenotpica casi nula, una tendencia gentica
favorable y una tendencia ambiental desfavorable. No se insistir nunca suficientemente en el
hecho de que las tendencias dependen de los parmetros genticos utilizados para
calcularlas. Un genetista que no obtuviera resultados, podra camuflar su fracaso utilizando
parmetros genticos tales (que incluso podran provenir de la bibliografa) que se observaran
tendencias genticas positivas y tendencias ambientales negativas. Es prudente, por tanto,
utilizar parmetros genticos que no muestren un deterioro del ambiente, a no ser que haya
alguna razn para creer que el ambiente efectivamente se ha deteriorado.
6) No es necesario que los datos se distribuyan de forma Normal para aplicar el BLUP. Es
cierto que algunas propiedades requieren Normalidad (al igual que en el caso de los ndices),
pero si los datos no se distribuyen de forma Normal, el BLUP es la mejor aproximacin lineal a
la estima del valor aditivo. En particular, la minimizacin del riesgo medio cuadrtico y la
maximizacin de la precisin no requieren la hiptesis de normalidad.
98
EJEMPLO 3.15
Para ver cmo se produce la estimacin, pondremos un ejemplo sencillo. Disponemos de
dos rebaos R1 y R2, y de dos machos emparentados s1 y s2 que tienen dos hijas cada uno,
cada una en un rebao distinto. Los datos de lactacin de sus hijas son:
R1
R2
s1
s2
HIJA 1
HIJA 1
y1, y2
y4
HIJA 2
HIJA 2
y3
y5
99
= y1 + y 2 + y 4
2R2 + s1 + s2
= y3 + y 5
2R1 + R2 + (1+a11) s1 +
R1 + R2 +
a12 s2 = y1 + y2 + y3
a12 s1 + (1+a22) s2 = y4 + y5
100
Modelo de efectos maternos: En otras ocasiones se aade un efecto aleatorio que recoge el
ambiente materno; por ejemplo, en el carcter peso al destete, el provenir de la misma
madre, que puede ser mejor o peor lechera, es un efecto ambiental aleatorio que afecta a
todos los individuos de la misma camada. Aadir estos efectos no es difcil, y no causa
dificultades mayores salvo en modelos muy complejos en los que se desea tambin utilizar
la parte gentica de los efectos maternos separada de la parte ambiental (por ejemplo; si
una madre es buena lechera parte puede deberse a causas genticas que se traducen en
un peso al destete de los hijos). En esos casos hay que estimar no slo los parmetros
genticos del efecto materno, sino sus correlaciones con el efecto directo. Podra ocurrir, por
ejemplo, que parte de los genes que hacen que una madre sea buena lechera sean los
mismos que producen que ella haya tenido un buen peso al destete, con lo que habra una
correlacin gentica entre efectos maternos y directos (propios del individuo).
Estimacin cuando los valores aditivos no tienen media cero
En ocasiones los valores aditivos no tienen de media cero, por ejemplo, cuando se importan
animales
de
un
valor
gentico
superior
es
frecuente
hacer
grupos
genticos
w k ' b c ' V 1 y Xb
101
BLUP Multicarcter
Al igual que se utilizan ndices par varios caracteres, es frecuente utilizar el BLUP
multicarcter (al fin y al cabo el BLUP no es sino un ndice con los efectos ambientales
corregidos). Algunas dificultades se presentan cuando los modelos utilizados en los distintos
caracteres no son los mismos (por ejemplo, si un carcter es el tamao de camada y otro el
ndice de conversin, el primero tiene un efecto aleatorio permanente y el segundo no). Cae
fuera de los objetivos de este libro el tratar estos modelos en detalle, para los que nos
referimos al libro de Rico (1999) que contiene una completa casustica del BLUP explicada
con numerosos ejemplos.
(3.18)
Por comodidad algebraica suele tomarse, como vimos en el modelo mixto de la ecuacin
3.15, E(u) = 0. Los otros componentes del riesgo son
E() = E(ay) = a E(y) = aXb
var() = var(ay) = a var(y) a = a V a
cov(u,) = cov(u , ay) = a cov(u,y) = a c = ca
con lo que el riesgo es
R(u,) = [a E(y) ]2 + var(u) + a V a 2 ca
102
Si derivamos respecto a a para obtener el valor que minimiza el riesgo,
R/a = 2 a E(y) E(y) + 2 aV 2 c = 0
(3.19)
nos encontramos con que necesitamos conocer la media de los datos E(y) para poder
ofrecen un estimador de a. Si los datos estuvieran centrados, entonces E(y)=0, y el valor de
a es el de los ndices de seleccin. Una forma de evitar el problema es usar un subconjunto
de estimadores, aqullos que cumplen la condicin E() = E(u), con lo que la frmula del
riesgo (3.18) pasa a ser
R(u,) = var(u) + aVa 2 ac
Debemos, pues, minimizar el riesgo, sujeto a la condicin de que E(u) = aXb = E(); esto
es, de entre todos los estimadores posibles slo examinaremos los insesgados. En nuestro
modelo, E(u)=0, por tanto la condicin de insesgamiento implica que aXb=0, y como b es
un vector de constantes esto a su vez implica que aX = 0, con lo que el riesgo se puede
escribir
R(u,) = var(u) + aVa 2 ac + 2 aXq
donde al vector de parmetros q se le conoce como vector de multiplicadores de Lagrange.
Obsrvese que como aX = 0, el trmino que se ha aadido, 2aXq, es nulo, por lo que el
Riesgo no se ha modificado, es un mero artificio para imponer la condicin de
insesgamiento. Para minimizar el riesgo derivaremos respecto a los parmetros e
igualaremos a cero.
R(u, ) / a = 2 Va 2 c + 2 Xq = 0
R(u,) / q = 2 aX = 0
a = V-1 (Xq c)
103
aX = Xa = XV-1Xq XV-1c = 0
q = (XV-1X)-1XV-1c
a = V-1 X(XV-1X)-1XV-1c V-1c
= ay = cV-1y cV-1 X(XV-1X)-1XV-1y = cV-1 (y X b )
El BLUP es, pues, el estimador dentro del subconjunto de estimadores lineales insesgados
que minimiza el Riesgo (concretamente el riesgo cuadrtico medio).
El BLUP como estimador Bayesiano
La forma esencial de trabajar de la escuela bayesiana consiste en, dados los datos observados
en el experimento, describir toda la incertidumbre que puede existir en torno a lo que se quiere
estimar; esto es, representar la probabilidad de cada valor posible. En un contexto bayesiano
no hay efectos fijos, todos los efectos son aleatorios, puesto que se representa la probabilidad
de que los efectos tomen tal o cual valor, lo que implica que deben tratarse como variables
aleatorias (Apndice II). Trataremos, pues de encontrar un estimador para el vector t = [ b u ]
a partir de los datos y. Para ello determinaremos primero f(t | y) , que es la funcin de densidad
de probabilidad de t dados los datos y luego hallaremos la moda (el valor ms probable) de
esta funcin. Aplicando el teorema de Bayes,
f(t | y) = f(y | t) f(t) / f(y)
Como f(y) no depende de t, podemos decir que es constante y representar f(t | y) como
proporcional a los otros dos trminos; esto es,
f(t | y) f(y | t) f(t)
Si llamamos W = [X Z] , como ya vimos al derivar las ecuaciones del modelo mixto, f(y|t) N
([Xb+Zu] , I 2e ) = N(Wt, I 2e ); tenemos, pues, por un lado que
f(y | t) exp[ (y - Wt) (y - Wt )]
Por otra parte f(t), que es la distribucin a priori de t, podemos suponer que es tambin
Normal. Esto es razonable para los valores aditivos u, pero para los efectos ambientales b
es discutible, y luego lo discutiremos. La media y la matriz de varianzas covarianzas a priori
de t son
104
m* = E(t) = E [b u] = [mb 0]
S 0
0 G
X ' X S 1
Z'X
(3.20)
b X ' y S 1 mb
Z ' Z G 1 u
Z 'y
X 'Z
Estas ecuaciones son muy parecidas a las del modelo mixto, pero al producto matricial de
los efectos antes considerados como fijos, XX, se le aade la inversa de la matriz de
varianzas covarianzas de estos efectos, justamente como ocurre en los efectos aditivos con
la matriz G. En el caso de una ignorancia total sobre los valores a priori de los efectos fijos,
estos podran variar en el intervalo ]- , + [ , con lo que su varianza tendera a infinito y S-1
tendera a cero. Si S-1 se anula tenemos entonces las ecuaciones del modelo mixto.
El BLUP no es, pues, sino un estimador bayesiano que considera que la distribucin a priori
de los efectos aditivos es normal de media cero y varianza G, y la de los efectos
ambientales es plana (todos los posibles valores tienen la misma probabilidad a priori ) y
vara a lo largo de toda la recta real (pueden tomar cualquier valor). Este ltimo punto es
ilgico y demuestra que el BLUP no es el mejor estimador posible desde un punto de vista
Bayesiano. Presumiblemente se puede construir un estado de creencias a priori sobre los
efectos fijos y tratarlos como a los aleatorios, pero esto no es siempre fcil de hacer, como
ya discutimos en el apartado 3.4.2. Fijos o aleatorios?.
105
El BLUP y las estimas por mnimos cuadrados
Al principio del apartado 3.4.2 comentamos que el BLUP no puede estimarse de forma
mximo-verosmil porque al condicionar sobre los efectos aleatorios estos quedaban
finados y su estima era la misma que en el caso de mnimos cuadrados. Para ver las
diferencias entre el BLUP y las estimas de mnimos cuadrados, vamos a combinar dos
estimadores. El primero es el estimador de mnimos cuadrados de t; esto es, considerando
b y u fijos, con lo que y|t N ([Xb+Zu] , I 2e )
t1 = (WW)-1 W y
La informacin a priori, como en el caso anterior, est contenida en la media y la varianza a
priori de los efectos genticos y ambientales. El segundo estimador es simplemente la
media a priori de los efectos:
t2 = m*
Las varianzas de los estimadores son
var(t1) = (WW)-1 W var(y) W (WW)-1 = (WW)-1(1/ 2e )
var(t2) = V*
Cuando se dispone de dos estimadores incorrelacionados t1 y t2, y se desea combinarlos
para optimizar la estimacin, el nuevo estimador t sopesa ambos estimadores con unos
pesos que son proporcionales a las inversas de sus varianzas (Apndice III). Combinando
ambos estimadores
t = [WW + V*-1]-1 [WW (WW)-1 W y + V*-1m*] = [WW + V*-1]-1 [Wy + V*-1 m*]
este estimador es idntico al estimador Bayesiano de la ecuacin 3.20, y por tanto a las
ecuaciones del modelo mixto. El BLUP no es, pues, sino un estimador de mnimos
cuadrados tradicional, combinado con otro estimador que recoge la informacin a priori.
106
aplicados a cada carcter no siempre coinciden. Un programa muy completo y de uso muy
frecuente, que puede obtener BLUP multivariantes con modelos distintos para cada
carcter, es el programa PEST de Groeneveld, Kovak y Wang (1990), que se puede adquirir
por un mdico precio para usos acadmicos, y con un coste algo mayor para usos
comerciales.
Otro programa, en este caso pblico, ms limitado, es el de Misztal (PONER REFERENCIA
WEB). Un excelente programa pblico para usos didcticos es el GENUP(PONER
REFERENCIA WEB), que contiene un amplio abanico de programas relativos a la mejora
gentica, incluyendo ndices de seleccin multicarcter, en los que el alumno va rellenando
paso a paso y de forma interactova los elementos requeridos para la solucin de los
problemas que se plantean.
Los programas que calculan componentes de varianza proporcionan tambin los valores de
mejora, pero estos programas quedan fuera de los alcances de este captulo.
107
(3.22)
cov 2 (C, )
C4
2
C
cov(C, )
C2
cov 2 (C, )
C2
cov(C, )
cov 2 (C, )
C2
var(t )
(3.23)
108
A la media del error de estimacin Ee = E Et se le llama sesgo del estimador, y en el caso
de los efectos fijos es considerado como una propiedad atractiva el que un estimador sea
insesgado; esto es, que tenga sesgo nulo, E(t) = , y por tanto se distribuya alrededor del
valor verdadero en cada repeticin conceptual de la experiencia. Esta propiedad es mucho
menos atractiva en el caso de los efectos aleatorios, puesto que en cada repeticin del
experimento no slo cambia t sino tambin , con lo que el estadstico no se distribuye
alrededor del valor verdadero. Algunos estadsticos frecuentistas como Fisher, consideran la
propiedad de insesgamiento como ms bien irrelevante, puesto que transformaciones de un
estadstico insesgado pierden la propiedad de insesgamiento; por ejemplo, la raz cuadrada
de un estimador insesgado de la varianza no es un estimador insesgado de la desviacin
tpica, por lo que es intil utilizar estimadores insesgados de la varianza si el inters est en
obtener desviaciones tpicas.
En general, el estadstico que minimiza el riesgo depende de , no hay un nico estadstico
que lo minimice. Por eso se le busca dentro de algn subconjunto que resuelva esta
indeterminacin, por ejemplo el estadstico insesgado de varianza mnima. En ese caso el
riesgo del estimador coincide con la varianza del error de estimacin.
109
La forma esencial de trabajar de la escuela bayesiana consiste en, dados los datos observados
en el experimento, describir toda la incertidumbre que puede existir en torno a un parmetro,
usando como medida natural de la incertidumbre la probabilidad de que el parmetro tome
determinados valores. Por ejemplo, en el caso de la heredabilidad se obtendra la funcin de
densidad de probabilidad f(h2|y) siendo y el vector de valores observados. Una vez obtenida
esa distribucin se pueden hacer inferencias de mltiples maneras: por ejemplo, se puede
desear averiguar entre qu valores se encuentra h2 con una probabilidad del 95%, o qu
probabilidad tiene el que h2 est entre tal y tal valor. En los casos en los que es necesaria una
estimacin puntual de h2, por ejemplo para un ndice de seleccin, hay varios parmetros de la
funcin de densidad f(h2|y) que pueden ser usados como estimacin puntual, y cuyo uso
depende de la preferencia del investigador. Por ejemplo, la moda, que es el valor ms probable
de h2 dada la muestra y ; la mediana, cuyo valor hace tan probable que el valor verdadero sea
superior como inferior a esta estima y minimiza el riesgo de estimacin cuando la funcin de
prdidas es | h 2 h 2 | ; o la media, que es el estimador que minimiza el riesgo mnimo
cuadrtico E (h 2 h 2 ) 2 .
Para poder hacer todas estas inferencias es menester disponer de la funcin de densidad de
probabilidad f(h2|y). De acuerdo con las leyes de la probabilidad, la probabilidad P(A,B)de que
se presenten dos sucesos simultneamente es
P(A,B) = P(A|B) P(B) = P(B|A) P(A)
con lo que
P(A|B) = P(B|A) P(A) / P(B)
En nuestro caso,
f(h2|y) = f(y|h2) f(h2) / f(y) = cte f(y|h2) f(h2)
donde f significa funcin de densidad, pero no es necesariamente la misma para y|h2 que
para h2. Obsrvese que f(h2|y) es una funcin de h2 , pero no de y, que est fijada; por tanto
f(y|h2) es aqu funcin de h2 , pero no de y, que es exactamente la definicin de verosimilitud.
Por la misma razn f(y) es una constante, ya que no depende de
h2 e y est fijado.
110
Las crticas al bayesianismo tienen que ver con esta ltima probabilidad llamada a priori porque
no depende de los datos, es previa al experimento. En ocasiones esta informacin est
claramente determinada; por ejemplo, la probabilidad a priori de obtener un individuo recesivo
en el cruce de dos heterocigotos es 1/4, al margen del experimento, pero en el caso de la
heredabilidad no est claro qu se quiere decir con esta probabilidad previa. En muchas
ocasiones es difcil cuantificar la informacin a priori de una forma tan objetiva como la de los
ejemplos que acabamos de citar. En esos casos los estadsticos no bayesianos consideran que
no es posible aplicar el teorema de Bayes y el problema no tiene solucin por la va de las
probabilidades. Dentro del campo bayesiano se ha intentado dar respuesta a esta dificultad de
varias formas, bien definiendo la probabilidad como un estado de creencias del investigador,
quien define f(h2) segn su opinin y los experimentos realizados previamente o consultados en
la literatura, o bien eliminando en la prctica la influencia de la probabilidad a priori a base de
aumentar el tamao muestral. Si se dispusiera de suficientes datos, la probabilidad a priori no
influira en la distribucin de la densidad posterior de probabilidades, por tanto se deben hacer
experimentos con un nmero de datos suficiente como para que la funcin a priori carezca de
relevancia. En ese caso la funcin de densidad de probabilidades a priori se busca de forma
relativamente arbitraria (se procura que coincida en lo posible con una opinin defendible; p. ej,
que no sea muy probable que la heredabilidad tenga un valor de 0.95), y habitualmente se
procura que facilite los clculos de la funcin posterior y que no conduzca a paradojas o a
resultados inadmisibles. Es frecuente en ese caso probar varias funciones a priori diferentes y
alguna funcin de referencia (p. ej., un a priori plano en el que todos los valores presentan la
misma probabilidad) para comprobar que el resultado final (la funcin posterior) apenas se
altera. Cuando no hay informacin a priori, o cuando se desea actuar como si no la hubiera, el
bayesianismo se enfrenta a la dificultad de que es imposible realizar inferencias, puesto que la
probabilidad a priori es necesaria para poder aplicar el teorema de Bayes, y cualquier forma
que tenga esa probabilidad es de alguna manera informativa. Se ha sugerido suponer que
cuando no hay informacin sobre los distintos sucesos posibles, hay que asignarles a todos la
misma probabilidad a priori. En el caso de variables continuas esto implica representarlas como
una recta paralela al eje de las X en un intervalo concreto, por ejemplo al intervalo [0,1] para el
caso de la heredabilidad, por lo que se les conoce tambin como a prioris planos o no
informativos, siendo este ltimo nombre inapropiado, puesto que s que son informativos (no es
lo mismo decir que se ignora la probabilidad de los distintos sucesos que decir que todos tienen
la misma probabilidad). Estos a prioris planos son frecuentes en la literatura como funciones
de referencia. Otras soluciones ms complejas aunque escasamente aplicadas en el campo de
la mejora gentica son discutidas por Blasco (2001).
111
Apndice III
Cuando se dispone de dos estimadores incorrelacionados t1 y t2, y se desea combinarlos
para optimizar la estimacin, el nuevo estimador t sopesa ambos estimadores con unos
pesos w1 y w2
t = w1 t1 + w2 t2
var (t) = w 12 var(t1) + w 22 var (t2)
Vamos a calcular w1 y w2 de forma que la varianza de t sea mnima y que ambos sumen la
unidad; esto es, consiste el problema en saber qu peso se le da a un estimador respecto al
otro.
w1 + w2 = 1
w1
var( t 2 )
var( t 1 ) var( t 2 )
1
var( t 1 )
1
1
var( t 1 ) var( t 2 )
y anlogamente con w2
w2
var(t 1 )
var(t 1 ) var(t 2 )
Cuestiones
1
var(t 2 )
1
1
var(t 1 ) var(t 2 )
112
Libros recomendados
Referencias