|
Daniel Villalba Mata (*)
Alberto Morillo Alujas (**)
Jaume Feixa Cercós (***)
Comenzamos con éste una serie de capítulos dedicados al cálculo del tamaño
muestral. Esto es: "¿Cuál es el número de unidades experimentales [en nuestro
caso animales, corrales, etc.
Se
deben controlar para poder contestar, apoyados por un test estadístico, a la
pregunta que nos lleva a realizar una prueba o experimento?". Este es un paso
clave para el diseño de una prueba que pueda después ser analizada
estadísticamente y de la que se puedan obtener unas conclusiones adecuadas.
En
este capítulo plantearemos el concepto de diferencia relevante y diferencia
significativa, clave para continuar con el cálculo del tamaño muestral. Para
ello es necesario introducir algunos conceptos previos, y para ilustrarlo
utilizaremos la base de datos sobre espesor de grasa dorsal que se presentó en
el capítulo anterior y que está disponible en www.testsandtrials.com.
Variabilidad de los datos
Para el cálculo del tamaño muestral es necesario conocer la variabilidad de la
población que utilizamos. Para la obtención de la varianza [medida de
dispersión, ver capítulo 1 de esta serie] de la variable que analizamos tenemos
dos posibilidades:
Recurrir a la información de pruebas previas realizadas en las que se hayan
tomado datos de la variable en cuestión. Este es la mejor metodología,
especialmente si los datos provienen de animales lo más parecidos posibles a los
que pretendemos analizar ahora.
Buscar en la bibliografía pruebas lo más análogas posible y utilizar la
variabilidad que hayan obtenido.
En
el ejemplo del espesor de grasa dorsal tenemos que la media general era 16,4 mm
y la varianza 10,415. La varianza es una medida muy utilizada para la dispersión
pero su raiz cuadrada, la desviación estándar es más fácil de interpretar. En
este caso la desviación estándar de la muestra era 3,227. En variables que se
distribuyen siguiendo la función normal (que son las más típicas en producción
animal), el 95 % de los animales tendrán valores entre aproximadamente dos veces
la desviación estándar por debajo de la media y dos veces la desviación estándar
por encima de la media. En este caso los valores de la egd para los animales
debería estar entre 9,9 (16,4 - 2*3.227) y 22.8 (16,4 + 2*3.3227). Si observamos
la distribución de los valores que obteníamos en el capítulo anterior, vemos que
efectivamente se cumple.
Estimación de la media
El
segundo concepto es que en realidad, cuando hacemos una prueba tenemos una
muestra de la población, y por tanto "estimamos" la media de la población a
partir de la muestra que tenemos. Si la población tiene una dispersión pequeña
(varianza pequeña), con pocos datos en la muestra estimaremos bien la media, si
la población tiene una dispersión grande, nos harán falta mayor número de datos
para estimar bien la muestra. Esto es, cuantos más datos utilicemos, mejor
estimada estará la media de la población. El parámetro que nos define lo bien o
mal estimada que está una media es el error estándar de la media:
error estándar =
donde, o2 es el símbolo de la varianza, s es la desviación estándar y n el
número de datos de la muestra.
Cuando comparamos la media de dos muestras, estamos en realidad comprobando si
las estimas de las medias son iguales o diferentes (confirmar en capítulo 2 de
la serie). Supongamos un caso en el que estudiamos el egd en cerdas procedentes
de dos muestras, nos podemos encontrar con dos situaciones extremas, la media de
la muestra 1 es 14 mm, y la de la muestra 2 de 17 mm, y están estimadas con 100
datos por muestra, entonces el error estándar es 0,32 (figura 1a), estamos
bastante "seguros" de que la media es 14 y 17. En el segundo caso (figura 1b)
las medias son las mismas, pero estimadas con sólo 6 datos por muestra, el error
estandar es entonces 1,32 (estamos menos seguros de las medias, su distribución
es más dispersa). Gráficamente, cuando las dos medias solapan sus distribuciones
(figura 1b) no podemos asegurar que las dos medias sean estadísticamente
diferentes, si no se solapan (figura 1a) podemos asegurar que son
estadísticamente diferentes.
En
resumen, cuanto mayor sea el número de datos por muestra más "seguros" estaremos
de la media que estimemos y podremos demostrar estadísticamente diferencias más
pequeñas entre medias. En un caso extremo, si tuviéramos 1000000 de datos el
error estándar sería tan pequeño que podríamos demostrar estadísticamente
diferencias de 6 micrómetros entre medias.
|
Figura 1. Dos posibilidades de dos muestras con medias diferentes (14mm y
17mm) pero estimadas a partir de 100 datos por muestra (a) o 6 datos por
muestra (b) |
|
a
b |
Un
punto clave es la decisión de la diferencia que se espera obtener y que queremos
que sea significativa estadísticamente. El tamaño muestral aumenta mucho si
intentamos demostrar diferencias de muy pequeña magnitud, que además es posible
que no sean relevantes. La decisión de la diferencia relevante debe provenir de
la experiencia del cliente con su producto (él debe saber cuanto espera de su
producto) y de la discusión con los técnicos de Tests and Trials.
Es
posible detectar diferencias significativas de 10 g en el peso al sacrificio de
los cerdos, pero harían falta más de 10000 animales por tratamiento, y además
decir que un tratamiento produce cerdos 10g más pesados al sacrificio no es
relevante desde el punto de vista comercial.
(*)
Doctor Ingeniero Agrónomo - 1º.
Universidad de Lleida. - Departamento de Producción animal. - Avda. Rovira Roure
191. 25198 Lleida
(**)Veterinario
- 2. Tests
and Trials, S.L. -Nuestra
Señora del Pilar, 33, 2º, izqda. 22500 Binéfar. Huesca
(***)
Ingeniero Técnico Agrícola -
2. Tests
and Trials, S.L. -Nuestra
Señora del Pilar, 33, 2º, izqda. 22500 Binéfar. Huesca
Fuente: Exopol
www.exopol.com
|