Quel est un modèle de régression linéaire simple et comment il fonctionne

Quel est un modèle de régression linéaire simple et comment il fonctionne

Des modèles de régression linéaire sont utilisés pour montrer ou prédire la relation entre deux variables ou facteurs. Le facteur prévu (le facteur que l'équation résout) est appelé levariable dépendante. Les facteurs utilisés pour prédire la valeur de la variable dépendante sont appelés les variables indépendantes.

En régression linéaire, chaque observation se compose de deux valeurs. Une valeur est pour la variable dépendante et une valeur est pour la variable indépendante. Dans ce modèle simple, une ligne droite se rapproche de la relation entre la variable dépendante et la variable indépendante.

Lorsque deux variables indépendantes ou plus sont utilisées dans l'analyse de régression, le modèle n'est plus simple linéaire. Ceci est connu sous le nom de régression multiple.

Formule pour un modèle de régression linéaire simple

Les deux facteurs impliqués dans une analyse de régression linéaire simple sont désignés X et y. L'équation qui décrit comment y est liée à X est connu comme le Modèle de régression.

Le modèle de régression linéaire simple est représenté par:

y = β0 +β1X

Le modèle de régression linéaire contient un terme d'erreur représenté par ε. Le terme d'erreur est utilisé pour tenir compte de la variabilité de y qui ne peut pas être expliqué par la relation linéaire entre X et y. Si ε n'était pas présent, cela signifierait que savoir X fournirait suffisamment d'informations pour déterminer la valeur de y.

Il y a aussi des paramètres qui représentent la population étudiée. Ces paramètres du modèle sont représentés par β0 et β1.

L'équation de régression linéaire simple est représentée graphiquement comme une ligne droite, où:

  1. β0 est l'ordonnée Y de la ligne de régression.
  2. β1 est la pente.
  3. Ε(y) est la valeur moyenne ou attendue de y pour une valeur donnée de X.

Une ligne de régression peut montrer une relation linéaire positive, une relation linéaire négative ou aucune relation.

  1. Pas de relation: La ligne graphique dans une régression linéaire simple est plate (non en pente). Il n'y a pas de relation entre les deux variables.
  2. Relation positive: La ligne de régression est à la hausse avec l'extrémité inférieure de la ligne à l'ordonnée Y (axe) du graphique et l'extrémité supérieure de la ligne s'étendant vers le haut dans le champ du graphique, loin de l'ordonnée X (axe). Il existe une relation linéaire positive entre les deux variables: à mesure que la valeur de l'une augmente, la valeur de l'autre augmente également.
  3. Relation négative: La ligne de régression descend vers le bas avec l'extrémité supérieure de la ligne à l'ordonnée Y (axe) du graphique et l'extrémité inférieure de la ligne s'étendant vers le bas dans le champ du graphique, vers l'ordonnée X (axe). Il existe une relation linéaire négative entre les deux variables: à mesure que la valeur de l'une augmente, la valeur de l'autre diminue.

L'équation de régression linéaire estimée

Si les paramètres de la population étaient connus, la simple équation de régression linéaire (illustrée ci-dessous) pourrait être utilisée pour calculer la valeur moyenne de y pour une valeur connue de X.

Ε(y) = β0 +β1X

En pratique, cependant, les valeurs des paramètres ne sont généralement pas connues, elles doivent donc être estimées en utilisant des données d'un échantillon de la population. Les paramètres de population sont estimés en utilisant des statistiques d'échantillon. Les échantillons de statistiques sont représentés par β0 et β1. Lorsque les statistiques de l'échantillon sont remplacées par les paramètres de population, l'équation de régression estimée est formée.

L'équation de régression estimée est:

(ŷ) = β0 +β1X

Note: (ŷ) est prononcé y chapeau.

Le graphique de l'équation de régression simple estimée est appelé la ligne de régression estimée.

  1. β0 est l'ordonnée Y de la ligne de régression.
  2. β1 est la pente.
  3. (ŷ) est la valeur estimée de y pour une valeur donnée de X.

Limites de la régression linéaire simple

Même les meilleures données ne racontent pas une histoire complète. 

L'analyse de régression est couramment utilisée dans la recherche pour établir qu'une corrélation existe entre les variables. Mais la corrélation n'est pas la même que la causalité: une relation entre deux variables ne signifie pas que l'une provoque une autre. Même une ligne dans une simple régression linéaire qui correspond bien aux points de données peut ne pas garantir une relation de cause à effet.

L'utilisation d'un modèle de régression linéaire vous permettra de découvrir si une relation entre les variables existe. Pour comprendre exactement ce qu'est cette relation et si une variable en cause une autre, vous aurez besoin de recherches supplémentaires et d'analyses statistiques.