Séance 6-7: Corrélations et régression linéaire bivariée
1️⃣ Résumé simple du concept - Covariance et correlation
On veut mesurer si les rendements de l’action A et de l’action B bougent ensemble:
La covariance dit dans quel sens les deux titres évoluent.
La corrélation dit à quel point ils évoluent ensemble, sur une échelle entre –1 et +1.
6️⃣ Erreurs fréquentes / pièges
❌ Croire que corrélation = causalité
❌ Oublier de convertir les % en valeurs décimales
❌ Oublier les probabilités dans la covariance
❌ Penser qu’une corrélation élevée signifie un bon investissement
❌ Ne pas vérifier si la relation est linéaire (corrélation ne détecte pas les relations non-linéaires)
On veut savoir si la corrélation qu’on observe dans nos données est “réelle” ou si elle pourrait être due au hasard.
Le test vérifie donc si la corrélation vraie dans la population est zéro ou non.
Si le test rejette H₀, cela veut dire que la corrélation est significative.
h0 : r = 0
h1 : r <> 0
Conditions du test
Le test suppose :
une distribution conjointe bi-normale (les deux variables suivent une loi normale ensemble)
ou un échantillon assez grand pour que le théorème central limite s’applique
des observations indépendantes (c’est très important en finance : pas d’autocorrélation)
1️⃣ Résumé simple du concept - Test T pour la correlation
On utilise une formule pour transformer la corrélation r en une statistique t.
Cette statistique nous dit si la corrélation est suffisamment grande, comparée au bruit aléatoire, pour être considérée comme “réelle”.
On compare la valeur obtenue avec une valeur critique t pour décider si on rejette H₀ : r = 0.
La statistique t :
augmente quand la corrélation r est grande
augmente quand le nombre d’observations n augmente
diminue quand r est proche de 0
Une fois calculé, on compare t à une valeur critique tα/2 (test bilatéral) pour déterminer si la corrélation est statistiquement significative.
6️⃣ Erreurs fréquentes / pièges
❌ Penser que r élevé = toujours significatif → faux si échantillon petit
❌ Utiliser le test quand les observations sont autocorrélées (cas fréquent en finance → le test devient invalide)
❌ Oublier qu’un test bilatéral vérifie r ≠ 0, pas r > 0 ou r < 0
❌ Croire que significatif = important → corrélation de 0.10 peut être significative si n est grand
❌ Interpréter la significativité comme preuve de causalité
1️⃣ Résumé simple du concept - TCL
Si on additionne beaucoup de petites variables aléatoires qui se ressemblent, le total finit par suivre une distribution normale, même si chaque variable prise séparément ne l’est pas.
C’est une règle magique des statistiques : quand n est grand, la somme (ou la moyenne) devient presque normale.
On considère des variables :
indépendantes (chacune ne dépend pas des autres)
identiquement distribuées (même loi, même moyenne μ, même variance σ²)
Exemples : rendements quotidiens, erreurs aléatoires en régression, fluctuations de prix, etc.
Ce que dit le TCL :
Quand tu additionnes beaucoup de ces variables, la distribution de la somme Y = X₁ + X₂ + … + Xₙ devient approximativement normale, même si les Xᵢ ne sont pas du tout normales à la base.
Le TCL est la raison pour laquelle :
On peut utiliser des tests t et F même si les données ne sont pas parfaitement normales
Les moyennes d’échantillons sont presque normales
Les statistiques construites à partir des données deviennent plus stables quand n augmente
5️⃣ Quand et pourquoi on l’utilise
Pour justifier les tests statistiques (t, F, χ²) même quand les données ne sont pas parfaitement normales
Pour l’inférence en régression linéaire (les erreurs ε suivront approximativement une loi normale si n est grand)
En finance, pour approximer la distribution :
des rendements cumulés
des erreurs de prédiction
des variations journalières, hebdo, mensuelles
Utilisé dans le modèle de marché (MEDAF/CAPM) pour justifier des intervalles de confiance
Essentiel pour expliquer pourquoi les moyennes deviennent plus stables à mesure qu’on observe plus de données
6️⃣ Erreurs fréquentes / pièges
❌ Penser que les Xᵢ doivent être normales → NON, c’est la somme qui devient normale
❌ Appliquer le TCL avec n trop petit (souvent n < 30 → approximation faible)
❌ Oublier l’hypothèse d’indépendance (violée dans les séries financières autocorrélées)
❌ Croire que le TCL rend obligatoirement toutes les statistiques normales → faux
❌ Confondre “distribution de la somme” et “distribution de la moyenne”
1️⃣ Résumé simple du concept — Moments centraux et estimations
Les moments servent à décrire comment une variable se comporte : son centre, sa dispersion, sa forme.
Le premier moment (m₁) est la moyenne.
Le second moment central (m₂) est la variance autour de la moyenne.
Avec un échantillon, on utilise les versions estimées, comme la moyenne échantillonnale et la variance corrigée (n−1).
2 degré: Pourquoi n−1 ?
Parce que c’est une estimation non biaisée de la variance populationnelle.
En remplaçant μ par X , on introduit un léger biais — le diviseur n−1 corrige ce biais
1️⃣ Résumé simple du concept — Moments centraux d’ordre 3 et 4
Le moment d’ordre 3 mesure si les données sont penchées vers la gauche ou la droite : c’est la skewness (l’asymétrie).
Le moment d’ordre 4 mesure si les données ont des queues fines ou très épaisses : c’est la kurtosis (l’aplatissement).
1️⃣ Résumé simple du concept — Coefficient d’asymétrie (Skewness)
Le coefficient d’asymétrie mesure si une distribution est penchée vers la droite ou vers la gauche.
On le calcule à partir du moment d’ordre 3, normalisé par l’écart-type au cube.
Si la skewness est positive, la queue est plus longue à droite ; si elle est négative, la queue est plus longue à gauche.
Pourquoi normaliser ?
Le moment d’ordre 3 dépend de l’échelle des données (unités, variabilité).
Pour rendre la mesure comparable d’un jeu de données à un autre, on divise par :
(Sx)^3
est l’écart-type de l’échantillon.
On obtient alors une mesure sans unité, plus facile à interpréter.
(Kurtosis)
Le coefficient d’aplatissement mesure si une distribution a des queues épaisses (beaucoup de valeurs extrêmes) ou au contraire si elle est plus aplatie que la normale.
Il est basé sur le moment d’ordre 4, normalisé par l’écart-type à la puissance 4.
Une valeur positive signifie des queues plus lourdes que la normale ; une valeur négative signifie une distribution plus plate.
Interprétation intuitive :
Si la distribution a beaucoup de valeurs extrêmes, elle sera leptokurtique (pic plus haut, queues épaisses).
Si elle est très plate et a peu de valeurs extrêmes, elle sera platykurtique.
Lien avec la loi normale :
La courbe normale standard a une kurtosis de référence : α₄ = 0 (kurtosis excédentaire).
(En pratique, certains logiciels utilisent la kurtosis “non excédentaire” où la normale vaut 3, mais ici, c’est bien la kurtosis excédentaire qui est utilisée.)
1️⃣ Résumé simple du concept — Régression linéaire simple
La régression linéaire simple sert à expliquer ou prédire une variable
Y à partir d’une seule variable X
On suppose qu’il existe une relation linéaire dans la population, mais on ne la connaît pas.
On utilise donc les données de l’échantillon pour estimer la droite qui “passe le mieux” au milieu des points observés.
👉 On ne peut jamais observer les vrais 𝛽0 β1
(ils appartiennent à la population entière).
On doit donc les estimer à partir d’un échantillon.
6️⃣ Erreurs fréquentes / pièges
❌ Confondre modèle théorique (β) et modèle estimé (b)
❌ Croire que la relation est causale — la régression ne prouve pas la causalité
❌ Oublier qu’une bonne régression minimise les distances verticales, pas horizontales
❌ Penser que la droite passe au milieu de tous les points → elle minimise une mesure mathématique, pas l’intuition visuelle
❌ Utiliser la régression quand la relation n’est pas linéaire
❌ Oublier l’analyse des résidus (eᵢ) pour vérifier les hypothèses
1️⃣ Résumé simple du concept — Estimation de la droite des moindres carrés
Pour tracer la meilleure droite en régression, on calcule deux choses :
la pente b1, qui dit comment Y change quand X augmente,
l’ordonnée à l’origine b0, qui est la valeur de Y quand X = 0.
Ces deux valeurs sont choisies pour que la droite soit la plus proche possible des points observés.
2️⃣ Explication complète :
La méthode des moindres carrés (OLS) essaie de trouver la droite qui “fit” le mieux aux données.
Elle minimise la somme des carrés des résidus, c’est-à-dire les distances verticales entre les vrais points (Yi) et les valeurs prédites (Yhat).
Le modèle théorique est basé sur :
Y = B0 + B1 * X + e
Mais comme B0 et B1 sont inconnus dans la population, on les remplace par leurs versions estimées : b0 et b1.
La droite estimée est :
Yhat = b0 + b1 * X
Rôle de b1
b1 mesure l’effet moyen d’une unité de X sur Y.
Rôle de b0
b0 ajuste la hauteur de la droite pour qu’elle passe par le point moyen (X bar, Y bar).
1️⃣ Résumé simple du concept — Hypothèses du modèle de régression linéaire simple
La régression linéaire simple ne fonctionne bien que si certaines conditions sont respectées : relation linéaire, erreurs qui ont une moyenne de 0, variance constante, pas de corrélation entre les erreurs et distribution normale. Si ces conditions ne sont pas vraies, les estimations peuvent être trompeuses.
2️⃣ Explication complète
Le modèle de régression linéaire simple repose sur un ensemble d’hypothèses essentielles. Ces hypothèses ne sont pas juste théoriques : elles garantissent que les estimateurs (b0 et b1) sont fiables, non biaisés et efficaces.
Voici les hypothèses une par une :
✔️ 1. Relation linéaire entre X et Y
Le lien entre la variable X et la variable Y doit être approximativement linéaire.
Cela signifie que la droite est une bonne façon de décrire la tendance générale.
✔️ 2. La variable X n’est pas aléatoire
Dans le modèle OLS classique, les valeurs de X sont considérées comme fixes (ou indépendantes des erreurs).
Cela simplifie l’analyse et garantit que les variations dans Y viennent des erreurs et non de X.
✔️ 3. Espérance des erreurs égale à 0
Pour chaque observation i :
E(e_i) = 0
Cela signifie que les erreurs ne doivent pas systématiquement tirer la droite vers le haut ou vers le bas.
✔️ 4. Variance constante des erreurs (homoscédasticité)
Pour chaque observation i :
Var(e_i) = constante
Indépendamment du niveau de X.
Si la variance des erreurs change selon X (par exemple plus de dispersion lorsque X augmente), on tombe dans l’hétéroscédasticité, qui pose problème.
✔️ 5. Les erreurs ne sont pas corrélées entre elles
Pour i ≠ j :
Cov(e_i, e_j) = 0
Cela veut dire que l’erreur commise pour un point ne doit rien dire sur l’erreur commise pour un autre.
En séries temporelles, cette hypothèse est souvent violée → problème d’autocorrélation.
✔️ 6. Les erreurs suivent une distribution normale
Cette condition n’est pas nécessaire pour estimer b0 et b1,
mais elle est indispensable pour faire des tests statistiques valides (tests t, intervalles de confiance, etc.).
5️⃣ Quand et pourquoi on l’utilise
Ces hypothèses sont utilisées pour :
garantir que b0 et b1 sont non biaisés ;
garantir que OLS est la méthode la plus précise (théorème de Gauss-Markov) ;
permettre les tests t et les intervalles de confiance ;
valider la pertinence de la régression.
1️⃣ Résumé simple du concept — Écart-type résiduel et coefficient de détermination
L’écart-type résiduel (SEE) mesure à quel point les prédictions du modèle sont loin des valeurs réelles.
Le coefficient de détermination, appelé R2, indique quelle proportion de la variabilité de Y est expliquée par le modèle.
Plus SEE est petit et plus R2 est grand, meilleure est la régression.
Cette diapo introduit deux indicateurs fondamentaux pour évaluer la qualité d’une régression linéaire simple :
✔️ 1. Écart-type résiduel (SEE : Standard Error of the Estimate)
Le SEE mesure l’erreur moyenne que fait le modèle lorsqu’il prédit Y.
C’est une mesure de la dispersion des résidus e_i autour de la droite estimée.
Le but : comprendre si les prédictions sont proches des observations réelles.
Si SEE est petit → les points sont proches de la droite.
Si SEE est grand → le modèle prédit mal les valeurs de Y.
Le SEE est basé sur la somme des erreurs au carré, mais corrigée en divisant par (n − 2).
Pourquoi n − 2 ?
Parce qu’on a estimé deux paramètres : b0 et b1 → perte de 2 degrés de liberté.
✔️ 2. Coefficient de détermination R2
R2 mesure la proportion de la variation totale de Y qui est expliquée par la régression.
Interprétation simple :
R2 = 0 → la régression n’explique rien.
R2 = 1 → la droite explique parfaitement toutes les variations.
En pratique :
R2 faible → relation faible entre X et Y ;
R2 élevé → X explique bien Y.
R2 est une mesure de qualité d’ajustement.
5️⃣ Quand et pourquoi on l’utilise
✔️ SEE permet de mesurer la précision des prédictions.
✔️ R2 indique à quel point la variable X explique les variations de Y.
✔️ Ces indicateurs sont utilisés pour comparer plusieurs modèles entre eux.
✔️ Le SEE est essentiel pour construire les tests t des coefficients.
1️⃣ Résumé simple du concept — Intervalles de confiance et tests d’hypothèses en régression
Un intervalle de confiance permet d’estimer une fourchette plausible pour un coefficient comme b0 ou b1.
Un test d’hypothèses permet de vérifier si un coefficient est significatif (ex.: si b1 est réellement différent de zéro).
Enfin, un intervalle de prévision donne une plage dans laquelle une future valeur de Y pourrait se trouver pour un X donné.
2️⃣ Explication complète
✔️ 1. Intervalles de confiance pour les coefficients
L’intervalle de confiance pour un coefficient estime la zone dans laquelle se trouve la vraie valeur du paramètre dans la population, avec un certain niveau de confiance (souvent 95 %).
Forme générale :
coefficient estimé ± valeur critique t * erreur standard du coefficient
Pour b0 :
b0 ± t_(alpha/2) * se_b0
Pour b1 :
b1 ± t_(alpha/2) * se_b1
Plus l’erreur standard est grande, plus l’intervalle est large.
Un intervalle qui ne contient pas zéro signifie généralement que le coefficient est significatif.
✔️ 2. Test d’hypothèse sur b1 : vérifier si la pente est significative
On veut vérifier si la variable X contribue réellement à expliquer Y.
Hypothèses classiques :
H0 : B1 = 0 (X n’explique pas Y)
H1 : B1 ≠ 0 (X a un effet sur Y)
On utilise la statistique t :
t = b1 / se_b1
Interprétation :
t grand (positif ou négatif) → b1 est loin de 0 → X explique Y
t proche de 0 → b1 n’est pas significativement différent de 0 → X n’explique pas Y
La statistique t suit une distribution de Student à (n – 2) degrés de liberté.
Règle de décision :
Rejeter H0 si t < -t_(alpha/2) ou t > t_(alpha/2)
✔️ 3. Test d’hypothèse — Cas général (b1 comparé à une valeur delta)
H0 : B1 = delta
H1 : B1 ≠ delta
Statistique t :
ini
Copier le code
t = (b1 – delta) / se_b1
Même règle de décision que précédemment.
✔️ 4. Intervalle de prévision pour une nouvelle observation
Il s’agit d’estimer la plage dans laquelle une future valeur Y pourrait se trouver pour une valeur donnée de X.
Important :
Un intervalle de prévision est plus large qu’un intervalle de confiance, car il inclut l’incertitude du modèle + la variabilité naturelle des observations.