UNIVERSIDAD DE GUADALAJARA
Centro Universitario de Ciencias de la Salud
Licenciatura en Cultura Física y Deportes


Webquest
Estadística aplicada al Deporte
Introducción
Dos o más variables pueden estar involucradas en el análisis de regresión y correlación. Si solamente están involucradas dos variables, se dice que la técnica es una regresión o correlación simple, también llamada regresión y correlación lineal. Cuando están implicadas tres o más variables, se tratará de una regresión o correlación múltiple.
La variable a estimar o predecirse se denomina variable dependiente; y la otra variable, aquella que proporciona la base para la estimación, se denomina variable independiente. En un problema de regresión simple, existe solamente una variable independiente y una variable dependiente. La regresión múltiple implica dos o más variables independientes y una variable dependiente.
El análisis de regresión pretende determinar si hay una relación entre dos variables cuantitativas. La principal diferencia con el análisis de correlación es que podemos identificar tanto a la variable explicativa como a la variable de respuesta. En muchos casos el tipo de relación entre dos variables es lineal, es decir el modelo teórico que explicaría la relación entre ambas variables puede ser modelado por una recta:
y = a + bx.
En donde a es la intersección con el eje Y; esto es, el punto en que la recta y el eje Y se interceptan; b es la pendiente de la recta, la cual es el cambio en Y, y por cada cambio unitario en X. La tarea de obtener una ecuación de regresión implica el cálculo de los valores para a y b.
Otro concepto asociado con la regresión es el diagrama de dispersión, conocido como "Nube de puntos". La forma usual de construir un diagrama de dispersión es localizar los valores de la variable independiente X sobre el eje horizontal y los de la variable dependiente Y sobre el eje vertical; así se forma un plano bidimensional con X y Y. Cada par de observaciones de X y Y (X, Y) está representado mediante un punto en el plano.
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina recta de regresión. A continuación veremos en la siguiente gráfica, el diagrama de dispersión generado por los puntos: (2,2), (4,2), (5,5), (5,6), (6,5), (6,7), (7,5), (7,8), (8,7), (9,10):
El criterio de cuadros mínimos implica que la recta elegida para ajustar los puntos del diagrama de dispersión sea tal que la suma de los cuadrados de las distancias verticales entre los puntos y la recta sea lo más pequeño posible.
Para encontrar los coeficientes "a" y "b" de la recta de regresión y(x) = a + bx, utilizamos las siguientes fórmulas:
Pendiente de la ecuación:
Intersección en Y
Una vez encontrados estos valores, los cuales pueden determinarse en forma sencilla a través de programas de cómputo u hojas de cálculo, se sustituyen en la ecuación y(x) = a + bx para encontrar la ecuación de regresión o ecuación de mínimos cuadrados o recta de ajuste.
Una vez que encontramos la ecuación de regresión, la cual nos predice los valores de la variable dependiente (y) en función a la variable independiente (x), es importante conocer que tan "fuerte" es la relación entre estas variables, para esto se requiere determinar el coeficiente de correlación.
El coeficiente de correlación lineal fue desarrollado por el matemático ingles Karl Pearson (1857-1936). Es una medida descriptiva de la intensidad de relación lineal entre dos variables. Los valores del coeficiente de correlación van desde -1 hasta +1. El coeficiente se calcula con la siguiente fórmula:
Para ilustrar los conceptos y las fórmulas usaremos el siguiente ejemplo (tomado de Levin Richard I, Rubin David S, Estadísticas para la administración y economía. Pearson Educación, México, 2004):
En una empresa se realizaron las siguientes investigaciones durante los periodos del 1987 al 1992, con sus respectivas ganancias. En este caso, la variable independiente se representa con las inversiones en investigación y la variable dependiente está representada con las ganancias.
Calculamos la media de las investigaciones y las ganancias (X y Y).
La media de X y Y se realiza sumando la cantidad de datos entre los años, esto nos da X media= 5, y Y media = 30
n es el número de pagas (investigación y ganancias). En este caso n=6.
1.- Substituya la siguiente fórmula para encontrar b.
2.- Substituya la siguiente fórmula para encontrar a.
De esta forma la ecuación de regresión y(x) = a + bx se convierte en y(x) = 20 + 2x.
Para determinar la relación entre las dos variables, usamos el coeficiente de correlación:
Esto se interpreta como: “ El cambio o variación en la variable independiente influye en un 82% en el cambio en la variable dependiente". En otras palabras: La variación en la investigación y desarrollo influye en un 82% en la variación en las ganancias".










