Cours 6 Flashcards

Question

Selon ce graphique, faisons-nous affaire à une ACP ou une AF?

Answer 1

ACP L'ACP partage (et préserve) la totalité de la variance des données, c’est-à-dire à la fois la variance commune (covariance) et la variance unique de chaque variable

Answer 2

R = VLV' R = Matrice de corrélation ACP L = valeurs propres de la matrice R (variance expliquée) V = vecteurs propres de la matrice R (coordonnées des axes permettant de capturer le maximum de variance)

Answer 3

Dans l'ACP, la matrice A est la matrice des saturations factorielles (factor loadings), qui correspondent aux corrélations entre chaque variable et chaque composante. Elle permet de savoir quelle variable permet de savoir quelle variable contribue de quelle façon à quelle dimension

Answer 4

La création de la matrice A (des saturations factorielles): L’égalité peut être transformée par substitution en un produit d’une matrice appelée A et de sa transposée. **Quelles sont les variables qui corrèlent le plus dans la première composante**: La 3^e et la 4^e. À l'origine, ces variables corrélait à .9 et plus. Donc la première composante capte le plus de variance. Par rapport à la première composante, je vois deux valeurs positives. Donc ces facteurs corrèlent positivement avec la composante. **Quelles sont les variables qui corrèlent le plus dans la première composante**: La 1^e est corrélé forte et positive et la 2^e est corrélé négative et forte

Answer 5

L‘AF vise à créer un espace artificiel qui possède **moins** de dimensions que l'espace original. Le but est de représenter l'ensemble des **données** en utilisant un nombre restreint de **dimensions** (facteurs) tout en maintenant les relations entre les sujets. La solution factorielle de l’AF ne représente que la variance commune (les covariances) entre les variables

Answer 6

FAUX L'AF postule que la valeur de chaque variable observée est latent à une autre influence qui est commune.

Answer 7

Une matrice de corrélation en forme réduite **R\*** est utilisée pour réaliser l’AF. Elle contient les mêmes corrélations hors de la diagonale, mais les 1 de la diagonale sont remplacés par les Squared Multiple Correlations (SMC) (i.e., R² provenant de la régression de chaque variable avec l’ensemble des autres variables).

Answer 8

Les corrélations en dehors de la diagonale sont de la variance commune (pas commune à tous mais à des groupes de variables). La diagonale représente alors la variance totale. Puisque je veux seulement la variance commune, je la remplace par un R² (je fais une régression par ligne). Je prend toutes mes corrélation de la ligne (.961, .95, .06, .13) et je prend leur variance commune. Donc dans cette matrice de corrélation (R\*), j'ai seulement ma variance commune. Je vais donc avoir moins de variance expliquée.

Answer 9

AF Lorsque les estimés initiaux de variance de chaque variable (communalité) sont inférieurs à l’unité, on sait automatiquement que nous sommes en AF (et non en ACP)

Answer 10

En AF, on retient un nombre réduit de valeurs (et vecteurs) propres. Les valeurs propres extraites de **R\*** sont moins importantes (seulement la variance commune).

Answer 11

Deux séries de **_valeurs propres_** indiquées dans SPSS : les valeurs initiales provenant de la matrice de corrélation (**ACP**) et les valeurs extraites selon la matrice de corrélation avec les SMC comme communalités (diagonale de R\*) (**AF**) Ici, on a 4 unités et 2 dimensions. **Initial Eigenvaleurs:** Valeurs propres extrait de la matrice (Valeurs propres de l'**ACP**). Donc on a autant de valeurs propres que de dimensions possibles. **Extraction:** Valeurs propres extrait dans la matrice corrigé (Valeurs propre de l'**AF**) **Sums of squared loading:** Somme des petits a au carré **Total:** Si un facteur capte moins de 1 unité de variance (1 question), on peut le garder. Lorsqu'il s'explique par moins de 1 unité, il n'explique même pas une question donc on peut le retirer. **Critère:** La valeur propre doit être égale ou plus élevée que l'unité. **% of variance:** La première composante a expliqué 50.4% de l'espace de données, la deuxième explique 48.5%, la troisième explique .9% et la 4e explique .1% . Il est donc très clair que nous avons seulement besoin de 2 dimensions. **Critère:** Le seuil souvent utilisé est de 5% et plus, il doit capturer au moins 1% de la variance.

Answer 12

FAUX En **ACP**, la matrice A a la même dimension que la matrice de corrélations R.

Answer 13

VRAI En AF, la matrice A est de dimension réduite (selon le nombre de facteurs) et il est plus difficile de trouver une matrice qui respecte la relation d’égalité, ce qui explique pourquoi une solution par étape (itérative) est utilisée.

Answer 14

Si on compare à la matrice obtenue en AF, on remarque que les corrélations sont un peu plus faibles. Les corrélation et les variances en ACP sont plus élevés et donc plus facilement significatives. Malgré cela, il est plutôt recommandé d'utiliser l'AF.

Answer 15

1. **Principal axis factoring** (PAF: Méthode des axes principaux) : Même méthode que composante principale mais avec SMC comme estimé initial de communalité, n’assume pas normalité. Objectif = *maximiser la variance expliquée par facteur*. En général, tout le monde prend cette méthode. 2. **Maximum likelihood** (ML: Méthode de maximum de ressemblance) : Assume la normalité, demande un gros N, produit des indices d'ajustement (usqu'à quel point ma méthode arrive à reproduire la matrice de corrélation initialement évaluée), permet des tests inférentiels pour le nombre de facteurs, erreurs std pour saturations. Objectif = *maximiser la probabilité de reproduire **R*** 3. **Unweighted / generalized least squares** (ULS/GLS) : objectif = minimiser les résidus entre matrices **R** observée vs reproduite, tests pour #facteurs, favorise solution avec variables uniques. Fonctionne quand les variable sont plus binaires, catégorielles, etc. mais très rare.

Answer 16

FAUX La question ci-dessous représente une question répondue par l'AF **exploratoire**. *Quels sont les processus qui pourraient produire les corrélations observées entre ces variables?* Question répondue par l’AF **confirmatoire** : *Est-ce que les corrélations observées entre les variables sont cohérentes avec les corrélations attendues selon la structure factorielle postulée (i.e., le modèle théorique)?*

Answer 17

L'idée de l'AF exploratoire est qu'on regarde notre matrice et on essaye de comprendre s'il y a une corrélation entre mes variables et qu'est-ce que ça peut dire. L'idée de l'AF confirmatoire est de vérifier si mon mon jeu de données arrive à reproduire la matrice qui est postulée par mon modèle théorique.

Answer 18

Dans l'AF confirmatoire, on utilise une modélisation avec des outils relatifs aux équations structurelles. Il est possible de tester la présence d'un méta-facteur (facteur de 2^e ordre) ## Footnote Exemple: On va postuler que les facteurs 1 à 7 sont corrélés entre elles tout comme 8 à 11. On va essayer de voir si j'arrive à reproduire ce que je postule dans ce que je vois sur ces 11 variables. C'est rien d'autre qu'un modèle d'équation structurelle.

Answer 19

Une rotation de la structure factorielle est généralement effectuée pour augmenter les saturations factorielles fortes et diminuer les saturations faibles \* C'est une étape de clarification de la solution de l'AF et l'ACP

Answer 20

La rotation des axes dans l'AF et l'ACP ne change pas la saturation moyenne, mais accroît la capacité à interpréter la solution factorielle et donc à identifier la nature de chaque facteur. Elle va souligner les extrêmes. ## Footnote *\* On va donner aux facteurs qui ont tout et enlever à ceux qui ont peut (augmenter les bonnes corrélations et réduire les mauvaises)*

Answer 21

La rotation des axes dans l'AF et l'ACP est réalisée par le produit de la matrice de saturations (A) et une matrice de « transformation » Exemple: Après la rotation des axes, les .90 sont montés et le .4 sont descendus. On a donc obtenu exactement ce qu'on voulait. À la fin, c'est encore plus clair quelle question est corrélée avec quelle question, MAIS on change pas la variance par question. Elle est simplement répartie différement (.4² \* .9² = .08² \* .98²).

Answer 22

**Rotation orthogonale** (le plus souvent) **:** Les facteurs sont indépendants (la corrélation entre les facteurs est zéro). Préserve les axes à angle droit. Interprétation simplifiée. **Rotation oblique :** Les facteurs sont corrélés entre eux, ce qui rend l'interprétation plus difficile. Il n'y a pas nécessairement une conservation des angles droits. Pourquoi? La saturation entre une variable et un facteur surestime la corrélation réelle dû au fait que les facteurs ne sont pas indépendants

Answer 23

* *Orthogonale :** varimax, quartimax, equamax, orthomax et parsimax * *Oblique :** oblimin, quartimin, promax et procrustes

Answer 24

C'est le **pourcentage de la variance d'une variable expliquée par tous les facteurs** (0 – 100%) ou toutes les composantes (100%). Mathématiquement, c’est la somme des saturations factorielles (loadings) mises au carré (SSL - sum of square loadings). ## Footnote *Plus la communalité est grande, plus la solution factorielle est adéquate pour représenter cette variable.*

Answer 25

Dans l'ACP et l'AF, la variance expliquée par chaque facteur peut être déterminé dans l'espace des données (ACP - variance totale de chaque variable) ou dans l'espace factoriel (AF - variance commune) Ce % de variance dans l'espace des données est le SSL (sum of square loadings) du facteur divisé par le nombre total de variables Ce % de variance expliquée par un facteur dans l'espace factoriel est le SSL du facteur divisé par la somme des SSLs (total de la variance extraite)

Answer 26

C'est avec ce tableau qu'on comprend l'AF. ## Footnote Analyse factorielle avec 4 ensembles factoriels. **Titre:** Données après la rotation orthogonale des axes **Factor 1** et **Factor 2:** Représente les corrélations (saturation) entre chacune des variables. Ces deux colonnes est la matrice A _après_ rotation orthogonalle. Permet de savoir que ces deux variables relatives à la neige sont corrélés donc facteur 1 est clairement la neige et la 2e est clairement le coût. *\*C'est une recommandation d'usage de toujours rapporter la matrice A après la rotation\*.* **Communalités:** Représente la somme des saturations au carré (.09 au carré + .98 au carré = .97). Répond à la question "*est-ce que le coût est bien expliqué par la structure factorielle?*". Ici, j'explique 97% de la variance du coût avec ma solution factorielle à deux facteurs. Donc, j'ai une excellente modèle factoriel car j'explique presque 100% de la variabilité. **Variance totale de la solution:** Ma solution actuelle explique 98% (3.915/4 facteurs) de la variance de mes données. Les chiffres des communalités ne dépasseront jamais le 1, mais les chiffres de factor 1/2 va idéalement le dépasser. **Proportion de la variance:** Le factor 1 explique 50% de la variance. Le facteur 2 explique 48% de la variance. Ici, tous les chiffres se balancent car la rotation est orthogonale, j'ai préservé l'indépendance des facteurs. Si j'avais une rotation oblique, je vais me retrouver avec des % au dessus de 1 (car je me retrouve avec des variances qui sont comptés 2 fois et plus).

Answer 27

C’est la « portion » des corrélations qui n’a pu être reproduite par la matrice de saturations (**A**). *Mathématiquement, c’est la différence entre deux matrices : matrice de corrélation observée* (**R**) *et matrice de corrélation reproduite par* **A***. En gros, c'est la matrice de corrélation de départ, moins la matrice de corrélation après la rotation pour nous donner la matrice résiduelle.*

Answer 28

Quand il reste des corrélations de .1 et plus, on peut commencer à se questionner. *À mettons qu'à la 2^e colonne/1^e ligne on a une corrélation de .12, qu'est-ce que ça veut dire? Que 12% de ma relation (corrélation) n'est pas capturé par mes facteurs donc peut-être qu'il me manque 1 facteur (trop comprimé), ou que j'ai un facteur complètement indépendant qui n'a pas été pris en compte.* Donc vient nous dire si la matrice de corrélation finale (rotationnée) vient bien résumer la relation à l'étude.

Answer 29

1. Le nombre de valeurs propres plus grandes que 1 (une eigenvalue supérieure à 1 indique que le facteur explique plus de variance qu’un seul item) (Dans le tableau initiale, valeur propre initiale) 2. Le test du « coude » ou scree plot (complète le premier test de façon graphique) 1. On va faire un graphique avec touts les facteurs (axe x) et leurs valeurs propres (axe y). Ça va faire une droite en L. On va venir voir ce qui se situe dans le "coude" du L et placer la valeur "1" sur le graphique. Tous les critères sous la valeur 1 ne sont pas intéressants. Le moment/facteur où la valeur propre tombe sous 1 va nous donner une idée du nombre de facteur que nous pourrons garder. Malheureusement, avec AF on va couper automatiquement avant d'arriver au coude. 3. Le pourcentage de variance expliquée par chaque facteur (supérieur à 5%) 4. Le concept de structure simple de Thurstone (chaque item doit être corrélé à 0.30 et plus sur un seul facteur) 1. Il n'y a rien de plus difficile à expliquer qu'un facteur qui corrèle avec tout. Donc si un facteur corrèle avec tout, il est peut-être un ramassi de résiduel. Donc on peut prendre le critère .3. 5. L’absence de corrélations résiduelles 1. Lorsqu'il ne reste plus de corrélations résiduelles ou presque pas, veut dire que notre modèle est bon et pas trop parcimonieux. 6. L’interprétabilité des facteurs (subjectif) 1. Décision en fonction de notre théorie. Notre choix final va être une pondération de tous ces critères.

Answer 30

On a clairement des facteurs 1 et 2 ainsi que des points corrélés à aucun facteur. Les points du milieu suggèrent qu'on aurait besoin d'un autre facteur (3D) qui capturait ses points. Pour l'instant, c'est comme si les questions corrélaient avec rien et donc était mauvaises. Il faudrait donc retirer les valeurs entourées.

Answer 31

Le graphique est très dispersé. Probablement qu'un graphique comme ça ne passerait même pas le test du MSA

Answer 32

**Total (Initial et extraction):** Valeurs propres (initiales ou extraites) avant la rotation **Total (rotation):** Valeurs propres après la rotation Mes 3 facteurs expliquent 68% de la variance total (initial) et environ 15% était dû à de la variance unique (extraction et rotation 53%)

Answer 33

Test du coude Le plan d'inflection semble inclure 3 facteurs, mais un 4^efacteur pourrait être inclut car il est proche de 1. Analyse subjectif.

Answer 34

Matrice de saturation (**A**) ## Footnote * Dominant et leadership semble être plus touché par le regroupement de facteur* * Indépendant et auto-suffisant semblent être le 3^e facteur (Corrélation haute comparé aux deux autres)*

Cours 6 Flashcards

(59 cards)