MQ - Final Flashcards by Jorge V.C Enrique

Séance 6-7: Corrélations et régression linéaire bivariée

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept - Covariance et correlation

On veut mesurer si les rendements de l’action A et de l’action B bougent ensemble:

La covariance dit dans quel sens les deux titres évoluent.
La corrélation dit à quel point ils évoluent ensemble, sur une échelle entre –1 et +1.

6️⃣ Erreurs fréquentes / pièges

❌ Croire que corrélation = causalité
❌ Oublier de convertir les % en valeurs décimales
❌ Oublier les probabilités dans la covariance
❌ Penser qu’une corrélation élevée signifie un bon investissement
❌ Ne pas vérifier si la relation est linéaire (corrélation ne détecte pas les relations non-linéaires)

How well did you know this?

Not at all

Perfectly

On veut savoir si la corrélation qu’on observe dans nos données est “réelle” ou si elle pourrait être due au hasard.
Le test vérifie donc si la corrélation vraie dans la population est zéro ou non.
Si le test rejette H₀, cela veut dire que la corrélation est significative.

h0 : r = 0
h1 : r <> 0

Conditions du test

Le test suppose :

une distribution conjointe bi-normale (les deux variables suivent une loi normale ensemble)

ou un échantillon assez grand pour que le théorème central limite s’applique

des observations indépendantes (c’est très important en finance : pas d’autocorrélation)

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept - Test T pour la correlation

On utilise une formule pour transformer la corrélation r en une statistique t.
Cette statistique nous dit si la corrélation est suffisamment grande, comparée au bruit aléatoire, pour être considérée comme “réelle”.
On compare la valeur obtenue avec une valeur critique t pour décider si on rejette H₀ : r = 0.

How well did you know this?

Not at all

Perfectly

La statistique t :

augmente quand la corrélation r est grande

augmente quand le nombre d’observations n augmente

diminue quand r est proche de 0

Une fois calculé, on compare t à une valeur critique tα/2 (test bilatéral) pour déterminer si la corrélation est statistiquement significative.

6️⃣ Erreurs fréquentes / pièges

❌ Penser que r élevé = toujours significatif → faux si échantillon petit
❌ Utiliser le test quand les observations sont autocorrélées (cas fréquent en finance → le test devient invalide)
❌ Oublier qu’un test bilatéral vérifie r ≠ 0, pas r > 0 ou r < 0
❌ Croire que significatif = important → corrélation de 0.10 peut être significative si n est grand
❌ Interpréter la significativité comme preuve de causalité

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept - TCL

Si on additionne beaucoup de petites variables aléatoires qui se ressemblent, le total finit par suivre une distribution normale, même si chaque variable prise séparément ne l’est pas.
C’est une règle magique des statistiques : quand n est grand, la somme (ou la moyenne) devient presque normale.

On considère des variables :

indépendantes (chacune ne dépend pas des autres)

identiquement distribuées (même loi, même moyenne μ, même variance σ²)

Exemples : rendements quotidiens, erreurs aléatoires en régression, fluctuations de prix, etc.

Ce que dit le TCL :

Quand tu additionnes beaucoup de ces variables, la distribution de la somme Y = X₁ + X₂ + … + Xₙ devient approximativement normale, même si les Xᵢ ne sont pas du tout normales à la base.

How well did you know this?

Not at all

Perfectly

Le TCL est la raison pour laquelle :

On peut utiliser des tests t et F même si les données ne sont pas parfaitement normales

Les moyennes d’échantillons sont presque normales

Les statistiques construites à partir des données deviennent plus stables quand n augmente

5️⃣ Quand et pourquoi on l’utilise

Pour justifier les tests statistiques (t, F, χ²) même quand les données ne sont pas parfaitement normales

Pour l’inférence en régression linéaire (les erreurs ε suivront approximativement une loi normale si n est grand)

En finance, pour approximer la distribution :

des rendements cumulés

des erreurs de prédiction

des variations journalières, hebdo, mensuelles

Utilisé dans le modèle de marché (MEDAF/CAPM) pour justifier des intervalles de confiance

Essentiel pour expliquer pourquoi les moyennes deviennent plus stables à mesure qu’on observe plus de données

How well did you know this?

Not at all

Perfectly

6️⃣ Erreurs fréquentes / pièges

❌ Penser que les Xᵢ doivent être normales → NON, c’est la somme qui devient normale
❌ Appliquer le TCL avec n trop petit (souvent n < 30 → approximation faible)
❌ Oublier l’hypothèse d’indépendance (violée dans les séries financières autocorrélées)
❌ Croire que le TCL rend obligatoirement toutes les statistiques normales → faux
❌ Confondre “distribution de la somme” et “distribution de la moyenne”

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Moments centraux et estimations

Les moments servent à décrire comment une variable se comporte : son centre, sa dispersion, sa forme.
Le premier moment (m₁) est la moyenne.
Le second moment central (m₂) est la variance autour de la moyenne.
Avec un échantillon, on utilise les versions estimées, comme la moyenne échantillonnale et la variance corrigée (n−1).

2 degré: Pourquoi n−1 ?

Parce que c’est une estimation non biaisée de la variance populationnelle.
En remplaçant μ par X , on introduit un léger biais — le diviseur n−1 corrige ce biais

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Moments centraux d’ordre 3 et 4

Le moment d’ordre 3 mesure si les données sont penchées vers la gauche ou la droite : c’est la skewness (l’asymétrie).
Le moment d’ordre 4 mesure si les données ont des queues fines ou très épaisses : c’est la kurtosis (l’aplatissement).

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Coefficient d’asymétrie (Skewness)

Le coefficient d’asymétrie mesure si une distribution est penchée vers la droite ou vers la gauche.
On le calcule à partir du moment d’ordre 3, normalisé par l’écart-type au cube.
Si la skewness est positive, la queue est plus longue à droite ; si elle est négative, la queue est plus longue à gauche.

Pourquoi normaliser ?

Le moment d’ordre 3 dépend de l’échelle des données (unités, variabilité).
Pour rendre la mesure comparable d’un jeu de données à un autre, on divise par :

(Sx)^3

est l’écart-type de l’échantillon.

On obtient alors une mesure sans unité, plus facile à interpréter.

How well did you know this?

Not at all

Perfectly

(Kurtosis)

Le coefficient d’aplatissement mesure si une distribution a des queues épaisses (beaucoup de valeurs extrêmes) ou au contraire si elle est plus aplatie que la normale.
Il est basé sur le moment d’ordre 4, normalisé par l’écart-type à la puissance 4.
Une valeur positive signifie des queues plus lourdes que la normale ; une valeur négative signifie une distribution plus plate.

Interprétation intuitive :

Si la distribution a beaucoup de valeurs extrêmes, elle sera leptokurtique (pic plus haut, queues épaisses).

Si elle est très plate et a peu de valeurs extrêmes, elle sera platykurtique.

Lien avec la loi normale :

La courbe normale standard a une kurtosis de référence : α₄ = 0 (kurtosis excédentaire).

(En pratique, certains logiciels utilisent la kurtosis “non excédentaire” où la normale vaut 3, mais ici, c’est bien la kurtosis excédentaire qui est utilisée.)

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Régression linéaire simple

La régression linéaire simple sert à expliquer ou prédire une variable
Y à partir d’une seule variable X
On suppose qu’il existe une relation linéaire dans la population, mais on ne la connaît pas.
On utilise donc les données de l’échantillon pour estimer la droite qui “passe le mieux” au milieu des points observés.

👉 On ne peut jamais observer les vrais 𝛽0 β1

(ils appartiennent à la population entière).
On doit donc les estimer à partir d’un échantillon.

How well did you know this?

Not at all

Perfectly

6️⃣ Erreurs fréquentes / pièges

❌ Confondre modèle théorique (β) et modèle estimé (b)
❌ Croire que la relation est causale — la régression ne prouve pas la causalité
❌ Oublier qu’une bonne régression minimise les distances verticales, pas horizontales
❌ Penser que la droite passe au milieu de tous les points → elle minimise une mesure mathématique, pas l’intuition visuelle
❌ Utiliser la régression quand la relation n’est pas linéaire
❌ Oublier l’analyse des résidus (eᵢ) pour vérifier les hypothèses

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Estimation de la droite des moindres carrés

Pour tracer la meilleure droite en régression, on calcule deux choses :

la pente b1, qui dit comment Y change quand X augmente,

l’ordonnée à l’origine b0, qui est la valeur de Y quand X = 0.
Ces deux valeurs sont choisies pour que la droite soit la plus proche possible des points observés.

How well did you know this?

Not at all

Perfectly

2️⃣ Explication complète :
La méthode des moindres carrés (OLS) essaie de trouver la droite qui “fit” le mieux aux données.
Elle minimise la somme des carrés des résidus, c’est-à-dire les distances verticales entre les vrais points (Yi) et les valeurs prédites (Yhat).

Le modèle théorique est basé sur :

Y = B0 + B1 * X + e

Mais comme B0 et B1 sont inconnus dans la population, on les remplace par leurs versions estimées : b0 et b1.

La droite estimée est :

Yhat = b0 + b1 * X

Rôle de b1

b1 mesure l’effet moyen d’une unité de X sur Y.

Rôle de b0

b0 ajuste la hauteur de la droite pour qu’elle passe par le point moyen (X bar, Y bar).

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Hypothèses du modèle de régression linéaire simple

La régression linéaire simple ne fonctionne bien que si certaines conditions sont respectées : relation linéaire, erreurs qui ont une moyenne de 0, variance constante, pas de corrélation entre les erreurs et distribution normale. Si ces conditions ne sont pas vraies, les estimations peuvent être trompeuses.

How well did you know this?

Not at all

Perfectly

2️⃣ Explication complète

Le modèle de régression linéaire simple repose sur un ensemble d’hypothèses essentielles. Ces hypothèses ne sont pas juste théoriques : elles garantissent que les estimateurs (b0 et b1) sont fiables, non biaisés et efficaces.

Voici les hypothèses une par une :

✔️ 1. Relation linéaire entre X et Y

Le lien entre la variable X et la variable Y doit être approximativement linéaire.
Cela signifie que la droite est une bonne façon de décrire la tendance générale.

✔️ 2. La variable X n’est pas aléatoire

Dans le modèle OLS classique, les valeurs de X sont considérées comme fixes (ou indépendantes des erreurs).
Cela simplifie l’analyse et garantit que les variations dans Y viennent des erreurs et non de X.

✔️ 3. Espérance des erreurs égale à 0

Pour chaque observation i :

E(e_i) = 0

Cela signifie que les erreurs ne doivent pas systématiquement tirer la droite vers le haut ou vers le bas.

✔️ 4. Variance constante des erreurs (homoscédasticité)

Pour chaque observation i :

Var(e_i) = constante

Indépendamment du niveau de X.
Si la variance des erreurs change selon X (par exemple plus de dispersion lorsque X augmente), on tombe dans l’hétéroscédasticité, qui pose problème.

✔️ 5. Les erreurs ne sont pas corrélées entre elles

Pour i ≠ j :

Cov(e_i, e_j) = 0

Cela veut dire que l’erreur commise pour un point ne doit rien dire sur l’erreur commise pour un autre.
En séries temporelles, cette hypothèse est souvent violée → problème d’autocorrélation.

✔️ 6. Les erreurs suivent une distribution normale

Cette condition n’est pas nécessaire pour estimer b0 et b1,
mais elle est indispensable pour faire des tests statistiques valides (tests t, intervalles de confiance, etc.).

How well did you know this?

Not at all

Perfectly

5️⃣ Quand et pourquoi on l’utilise

Ces hypothèses sont utilisées pour :

garantir que b0 et b1 sont non biaisés ;

garantir que OLS est la méthode la plus précise (théorème de Gauss-Markov) ;

permettre les tests t et les intervalles de confiance ;

valider la pertinence de la régression.

How well did you know this?

Not at all

Perfectly

1️⃣ Résumé simple du concept — Écart-type résiduel et coefficient de détermination

L’écart-type résiduel (SEE) mesure à quel point les prédictions du modèle sont loin des valeurs réelles.
Le coefficient de détermination, appelé R2, indique quelle proportion de la variabilité de Y est expliquée par le modèle.
Plus SEE est petit et plus R2 est grand, meilleure est la régression.

Cette diapo introduit deux indicateurs fondamentaux pour évaluer la qualité d’une régression linéaire simple :

✔️ 1. Écart-type résiduel (SEE : Standard Error of the Estimate)

Le SEE mesure l’erreur moyenne que fait le modèle lorsqu’il prédit Y.
C’est une mesure de la dispersion des résidus e_i autour de la droite estimée.

Le but : comprendre si les prédictions sont proches des observations réelles.

Si SEE est petit → les points sont proches de la droite.

Si SEE est grand → le modèle prédit mal les valeurs de Y.

Le SEE est basé sur la somme des erreurs au carré, mais corrigée en divisant par (n − 2).
Pourquoi n − 2 ?
Parce qu’on a estimé deux paramètres : b0 et b1 → perte de 2 degrés de liberté.

✔️ 2. Coefficient de détermination R2

R2 mesure la proportion de la variation totale de Y qui est expliquée par la régression.

Interprétation simple :

R2 = 0 → la régression n’explique rien.

R2 = 1 → la droite explique parfaitement toutes les variations.

En pratique :

R2 faible → relation faible entre X et Y ;

R2 élevé → X explique bien Y.

R2 est une mesure de qualité d’ajustement.

How well did you know this?

Not at all

Perfectly

5️⃣ Quand et pourquoi on l’utilise

✔️ SEE permet de mesurer la précision des prédictions.
✔️ R2 indique à quel point la variable X explique les variations de Y.
✔️ Ces indicateurs sont utilisés pour comparer plusieurs modèles entre eux.
✔️ Le SEE est essentiel pour construire les tests t des coefficients.

Study These Flashcards

1️⃣ Résumé simple du concept — Intervalles de confiance et tests d’hypothèses en régression

Un intervalle de confiance permet d’estimer une fourchette plausible pour un coefficient comme b0 ou b1.
Un test d’hypothèses permet de vérifier si un coefficient est significatif (ex.: si b1 est réellement différent de zéro).
Enfin, un intervalle de prévision donne une plage dans laquelle une future valeur de Y pourrait se trouver pour un X donné.

Study These Flashcards

2️⃣ Explication complète
✔️ 1. Intervalles de confiance pour les coefficients

L’intervalle de confiance pour un coefficient estime la zone dans laquelle se trouve la vraie valeur du paramètre dans la population, avec un certain niveau de confiance (souvent 95 %).

Forme générale :

coefficient estimé ± valeur critique t * erreur standard du coefficient

Pour b0 :
b0 ± t_(alpha/2) * se_b0

Pour b1 :
b1 ± t_(alpha/2) * se_b1

Plus l’erreur standard est grande, plus l’intervalle est large.

Un intervalle qui ne contient pas zéro signifie généralement que le coefficient est significatif.

Study These Flashcards

✔️ 2. Test d’hypothèse sur b1 : vérifier si la pente est significative

On veut vérifier si la variable X contribue réellement à expliquer Y.

Hypothèses classiques :

H0 : B1 = 0 (X n’explique pas Y)
H1 : B1 ≠ 0 (X a un effet sur Y)

On utilise la statistique t :

t = b1 / se_b1

Interprétation :

t grand (positif ou négatif) → b1 est loin de 0 → X explique Y

t proche de 0 → b1 n’est pas significativement différent de 0 → X n’explique pas Y

La statistique t suit une distribution de Student à (n – 2) degrés de liberté.

Règle de décision :

Rejeter H0 si t < -t_(alpha/2) ou t > t_(alpha/2)

✔️ 3. Test d’hypothèse — Cas général (b1 comparé à une valeur delta)
H0 : B1 = delta
H1 : B1 ≠ delta
Statistique t :

ini
Copier le code
t = (b1 – delta) / se_b1
Même règle de décision que précédemment.

Study These Flashcards

✔️ 4. Intervalle de prévision pour une nouvelle observation

Il s’agit d’estimer la plage dans laquelle une future valeur Y pourrait se trouver pour une valeur donnée de X.

Important :
Un intervalle de prévision est plus large qu’un intervalle de confiance, car il inclut l’incertitude du modèle + la variabilité naturelle des observations.

1️⃣ Résumé simple du concept — Hypothèses du modèle de régression multiple Un modèle de régression multiple cherche à expliquer Y à l’aide de plusieurs variables explicatives X1, X2… Xk. Pour que les résultats soient fiables, le modèle repose sur des hypothèses essentielles : la relation doit être linéaire dans les paramètres (B0, B1… Bk), les variables indépendantes ne doivent pas être colinéaires entre elles, l’erreur doit avoir une moyenne de 0, une variance constante (homoscedasticité), être non corrélée d’une observation à l’autre, et souvent on suppose qu’elle suit approximativement une distribution normale.

3️⃣ Interprétation intuitive La régression multiple fonctionne correctement seulement si : Les X expliquent Y de manière additive et linéaire. Chaque variable X apporte sa propre information unique (pas de colinéarité). L’erreur représente uniquement le bruit aléatoire, sans structure cachée. L’erreur est stable : même variance, aucune corrélation. L’erreur ressemble à du bruit « normal », ce qui permet d’utiliser les tests t et F. On peut voir ces hypothèses comme les « règles du jeu » : si elles sont respectées, l’estimation fonctionne parfaitement ; sinon, les coefficients deviennent peu fiables.

1️⃣ Résumé simple du concept — Validation globale et performance du modèle La validation globale vérifie si le modèle complet explique significativement la variation de Y. Le test de Fisher compare la variation expliquée à la variation résiduelle pour déterminer si au moins une variable explicative contribue réellement. Le R2 ajusté mesure la performance en tenant compte du nombre de variables dans le modèle

2️⃣ Explication détaillée Validation globale avec un test F L’idée est d’évaluer si l’ensemble des variables X1, X2, …, Xk améliore la prédiction de Y par rapport à un modèle sans variables (modèle constant). Hypothèse nulle : H0 : B1 = B2 = … = Bk = 0 (aucune variable explicative ne contribue) Hypothèse alternative : H1 : au moins un coefficient Bj est différent de 0 (le modèle a un pouvoir explicatif) Statistique F On compare deux sources de variation : Variation expliquée (SCR) Variation résiduelle (SCE) La statistique F mesure si la variation expliquée est suffisamment grande par rapport à la variation non expliquée.

Performance du modèle : R2 ajusté Le R2 simple augmente toujours, même si on ajoute une variable inutile.

3️⃣ Quand et pourquoi on l’utilise 🔹 Test F global Pour vérifier si le modèle complet vaut mieux qu’un modèle sans variables. Pour valider l’intérêt global du modèle avant d'interpréter les résultats individuels. 🔹 R2 ajusté Pour comparer des modèles avec un nombre différent de variables. Pour juger la performance en tenant compte du risque de surajout de variables. Pour évaluer si l’ajout d’une nouvelle variable améliore réellement la qualité prédictive.

5️⃣ Erreurs fréquentes / pièges ❌ Croire qu’un R2 élevé signifie un bon modèle Un modèle surajusté peut avoir R2 = 0.99 mais être inutile en prédiction. ❌ Utiliser uniquement le R2 (et pas R2 ajusté) Très problématique quand le modèle contient plusieurs variables. ❌ Interpréter des Bj sans vérifier le test F global Si le modèle n’est pas globalement significatif, interpréter les Bj n’a aucun sens. ❌ Oublier que le test F exige les hypothèses du modèle linéaire Homoscédasticité Indépendance des erreurs Absence de multicolinéarité sévère Normalité des erreurs (approximative) ❌ Penser qu’un test F significatif signifie que toutes les variables sont utiles Le test indique seulement que au moins une variable contribue. Il faut ensuite analyser les tests t individuels.

❌ Penser qu’un test F significatif signifie que toutes les variables sont utiles Le test indique seulement que au moins une variable contribue. Il faut ensuite analyser les tests t individuels.

1️⃣ Résumé simple du concept — Le seuil expérimental (p-value) Le seuil expérimental, aussi appelé p-value, est la plus petite valeur de alpha à laquelle on pourrait rejeter H0. C’est la probabilité d’obtenir une statistique de test au moins aussi extrême que celle observée si H0 est vraie. Plus la p-value est petite, plus les données s’opposent à H0.

2️⃣ Explication détaillée Le seuil expérimental, noté a*, représente : la probabilité, sous H0, d’obtenir une statistique de test aussi extrême ou plus extrême que celle calculée ; une mesure de l’évidence contre H0 ; Interprétation intuitive Plus a* est faible, plus l’observation obtenue est improbable si H0 est vraie. Donc : a* petit → forte preuve contre H0 → on rejette H0. a* grand → pas assez de preuve → on ne rejette pas H0. Règle de décision On compare la p-value au niveau de signification (alpha), souvent alpha = 0.05. Rejeter H0 si: a*

5️⃣ Erreurs fréquentes / pièges ❌ Croire que la p-value est la probabilité que H0 soit vraie Non : c’est la probabilité des données, conditionnellement à H0. ❌ Croire qu’une p-value faible implique un effet important On peut avoir une p-value minuscule mais un effet sans importance pratique (ex : grands échantillons). ❌ Penser qu’une p-value juste au-dessus de 0.05 signifie qu’on “accepte H0” On ne l’accepte jamais : on ne rejette pas par manque d’évidence. ❌ Comparer des p-values entre modèles sans regarder les degrés de liberté Les tests ne sont parfois pas comparables directement.

MQ - Final Flashcards

(50 cards)