ibm spss bootstrapping 21 - audentia-gestion.fr

i

IBM SPSS Bootstrapping 21

Remarque : Avant d’utiliser ces informations et le produit qu’elles concernent, lisez lesinformations générales sous Remarques sur p. 43.

Cette version s’applique à IBM® SPSS® Statistics 21 et à toutes les publications et modificationsultérieures jusqu’à mention contraire dans les nouvelles versions.

Les captures d’écran des produits Adobe sont reproduites avec l’autorisation de Adobe SystemsIncorporated.

Les captures d’écran des produits Microsoft sont reproduites avec l’autorisation de MicrosoftCorporation.

Matériel sous licence - Propriété d’IBM

© Copyright IBM Corporation 1989, 2012.

Droits limités pour les utilisateurs au sein d’administrations américaines : utilisation, copie oudivulgation soumise au GSA ADP Schedule Contract avec IBM Corp.

PréfaceIBM® SPSS® Statistics est un système complet d’analyse de données. Le module complémentairefacultatif L’amorce fournit les techniques d’analyse supplémentaires décrites dans ce manuel. Lemodule complémentaire L’amorce doit être utilisé avec le système central SPSS Statistics auquelil est entièrement intégré.

A propos de IBM Business Analytics

Le logiciel IBM Business Analytics offre des informations complètes, cohérentes et précisespermettant aux preneurs de décision d’améliorer leurs performances professionnelles. Unportefeuille complet de solutions de business intelligence, d’analyses prédictives, de performancefinancière et de gestion de la stratégie, et d’applications analytiques permet une connaissanceclaire et immédiate et offre des possibilités d’actions sur les performances actuelles et la capacitéde prédire les résultats futurs. En combinant des solutions du secteur, des pratiques prouvées et desservices professionnels, les entreprises de toute taille peuvent générer la plus grande productivité,automatiser les décisions en toute confiance et apporter de meilleurs résultats.

Dans le cadre de ce portefeuille, le logiciel IBM SPSS Predictive Analytics aide les entreprises àprédire des événements futurs et à agir de manière proactive en fonction de ces prédictions pourapporter de meilleurs résultats. Des clients dans les domaines commerciaux, gouvernementaux etacadémiques se servent de la technologie IBM SPSS comme d’un avantage concurrentiel pourattirer ou retenir des clients, tout en réduisant les risques liés à l’incertitude et à la fraude. Enintégrant le logiciel IBM SPSS à leurs opérations quotidiennes, les entreprises peuvent effectuerdes prévisions, et sont capables de diriger et d’automatiser leurs décisions afin d’atteindreleurs objectifs commerciaux et d’obtenir des avantages concurrentiels mesurables. Pour plusd’informations ou pour contacter un représentant, visitez le site http://www.ibm.com/spss.

Support technique

Un support technique est disponible pour les clients du service de maintenance. Les clientspeuvent contacter l’assistance technique pour obtenir de l’aide concernant l’utilisation des produitsIBM Corp. ou l’installation dans l’un des environnements matériels pris en charge. Pour contacterl’assistance technique, visitez le site IBM Corp. à l’adresse http://www.ibm.com/support. Votrenom, celui de votre société, ainsi que votre contrat d’assistance vous seront demandés.

Support technique pour les étudiants

Si vous êtes un étudiant qui utilise la version pour étudiant, personnel de l’éducation ou diplôméd’un produit logiciel IBM SPSS, veuillez consulter les pages Solutions pour l’éducation(http://www.ibm.com/spss/rd/students/) consacrées aux étudiants. Si vous êtes un étudiant utilisantune copie du logiciel IBM SPSS fournie par votre université, veuillez contacter le coordinateurdes produits IBM SPSS de votre université.

© Copyright IBM Corporation 1989, 2012. iii

http://www-01.ibm.com/software/data/businessintelligence/

http://www-01.ibm.com/software/analytics/spss/

http://www-01.ibm.com/software/data/cognos/financial-performance-management.html

http://www-01.ibm.com/software/data/cognos/financial-performance-management.html

http://www-01.ibm.com/software/data/cognos/products/cognos-analytic-applications/

http://www.ibm.com/spss

http://www.ibm.com/support

http://www.ibm.com/spss/rd/students/

http://www.ibm.com/spss/rd/students/

Service clients

Si vous avez des questions concernant votre livraison ou votre compte, contactez votre bureaulocal. Veuillez préparer et conserver votre numéro de série à portée de main pour l’identification.

Séminaires de formation

IBM Corp. propose des séminaires de formation, publics et sur site. Tous les séminairesfont appel à des ateliers de travaux pratiques. Ces séminaires seront proposés régulièrementdans les grandes villes. Pour plus d’informations sur ces séminaires, accédez au sitehttp://www.ibm.com/software/analytics/spss/training.

iv

ContenuPartie I: Guide de l'utilisateur

1 Introduction à la méthode des amorces 1

2 L’amorce 3

Procédures prenant en charge l’amorce. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Fonctions supplémentaires de la commande BOOTSTRAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Partie II: Exemples

3 L’amorce 11

Utilisation de l’amorce pour obtenir des intervalles de confiances pour les proportions . . . . . . . . 11Préparation des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Spécifications de bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Tableau des effectifs : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Utilisation de l’amorce pour obtenir des intervalles de confiances pour les médianes . . . . . . . . . . 17Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Descriptifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Utilisation de l’amorce pour choisir de meilleures valeurs prédites . . . . . . . . . . . . . . . . . . . . . . . . 21Préparation des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Estimations des paramètres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

v

Annexes

A Fichiers d’exemple 32

B Remarques 43

Bibliographie 46

Index 47

vi

Partie I:Guide de l'utilisateur

Chapitre

1Introduction à la méthode des amorces

Lorsque vous collectez des données, vous êtes souvent intéressés à analyser les propriétés dela population parmi laquelle vous avez pris des échantillons. Vous produisez des inférencessur les paramètres de cette population à l’aide d’estimations calculées à partir de l’échantillon.Par exemple, si l’ensemble de données Employee data.sav inclus dans le produit est unéchantillon aléatoire tiré d’une population d’employés plus large, alors la valeur de la moyennede l’échantillon du salaire actuel de 34 419,57 $ est une estimation du salaire actuel moyen desemployés. De plus, cette estimation a une erreur standard de $784 311 pour un échantillon de474 individus, et un intervalle de confiance de 95% pour le salaire moyen actuel des employésqui est de 32 878,40 $ à 35 960,73 $. Mais à quel point ces estimations sont-elles fiables ? Pourcertaines populations « connues » et des paramètres conformes, nous en savons plus sur lespropriétés des estimations de l’échantillon et nous pouvons être confiants dans les résultats. Laméthode des amorces est destinée à rechercher des informations supplémentaires sur les propriétésdes estimateurs pour des populations « inconnues » et des paramètres non conformes.

Figure 1-1Production d’inférences paramétriques sur la moyenne de la population

Fonctionnement de l’amorce

Pour un ensemble de données dont la taille est N, vous prenez B échantillons de « bootstrap »de taille N avec remplacement de l’ensemble de données d’origine et calculez l’estimateur dechacun des B échantillons de bootstrap. Ces B estimations de bootstrap sont un échantillon detaille B à partir duquel vous produisez des inférences sur l’estimateur. Par exemple, si vous prenez1000 échantillons de bootstrap dans l’ensemble de données Employee data.sav , vous obtenezune erreur standard de bootstrap estimée de 776,91 $ pour la moyenne de l’échantillon du salaireactuel, différente de l’estimation de 784 311 $.

De plus, l’amorce fournit une erreur standard et un intervalle de confiance pour la médiane, pourlaquelle les estimations paramétriques ne sont pas disponibles.

© Copyright IBM Corporation 1989, 2012. 1

2

Chapitre 1

Figure 1-2Production d’inférences par bootstrap sur la moyenne de l’échantillon

Prise en charge de l’amorce dans le produit

L’amorce est intégrée en tant que sous-boîte de dialogue dans les procédures la prenant en charge.Reportez-vous à Procédures prenant en charge l’amorce pour obtenir des informations sur lesprocédures prenant en charge l’amorce.

Lorsque l’amorce est requise dans les boîtes de dialogue, une nouvelle commande distincteBOOTSTRAP est collée en plus de la syntaxe usuelle générée par la boîte de dialogue. Lacommande BOOTSTRAP crée les échantillons de bootstrap en fonction de vos spécifications. Eninterne, le produit traite les échantillons de bootstrap comme des scissions, même si ceux-ci nesont pas explicitement affichés dans l’éditeur de données. C’est à dire qu’en interne, il existeB*N observations, et le compteur d’observations de la barre d’état compte de 1 à B*N lors dutraitement des données par l’amorce. Le système de gestion des résultats (OMS) est utilisé pourcollecter les résultats de l’analyse de chaque « scission de bootstrap ». Ces résultats sont alorsregroupés et affichés dans le Viewer, en même temps que le résultat habituel généré par laprocédure. Dans certains cas, vous verrez une référence à un “scission 0 de bootstrap”, ellecorrespond à l’ensemble de données d’origine.

Chapitre

2L’amorce

L’amorce est une méthode consistant à dériver des estimations robustes des erreurs standard et desintervalles de confiance pour des estimations telles que la moyenne, la médiane, le calcul de laproportion, l’odds ratio, le coefficient de corrélation ou de régression. Elle peut aussi être utilisépour construire des tests d’hypothèse. L’amource est le plus souvent utile comme une alternativeaux estimations paramétriques lorsque les hypothèses liées à ces méthodes ne sont pas fiables(comme dans le cas de modèles de regression avec des résidus hétéroscédastiques ajustés à despetits échantillons), ou lorsque l’inférence paramétrique est impossible ou requiert des formulestrès complexes pour le calcul des erreurs standard (comme dans le cas du calcul d’intervalles deconfiance pour la médiane, les quartiles, et autres centiles).

Exemples : Une société en télécommunication perd environ 27% de ses clients chaque mois. Afinde réduire ce taux d’attrition, la direction souhaite savoir si ce taux varie selon les groupes deconsommateurs. A l’aide de la méthode de l’amorce, vous pouvez déterminer si un même tauxd’attrition décrit de manière appropriée le comportement des quatre types principaux de clients.Pour plus d'informations, reportez-vous à la section Utilisation de l’amorce pour obtenir desintervalles de confiances pour les proportions dans le chapitre 3 dans IBM SPSS Bootstrapping 21.

Lors d’une consultation des dossiers des employés, la direction souhaite vérifier leur expérienceprofessionnelle. L’expérience professionnelle est asymétrique, ce qui rend la moyenne moinsfiable comme moyen d’estimation de l’expérience antérieure des employés que la médiane.Cependant, les intervalles de confiance paramétriques ne sont pas disponibles pour la médianedans le produit. Pour plus d'informations, reportez-vous à la section Utilisation de l’amorcepour obtenir des intervalles de confiances pour les médianes dans le chapitre 3 dans IBM SPSSBootstrapping 21.

La direction est également intéressée à déterminer les facteurs associés aux augmentations dessalaires des employés, en ajustant un modèle linéaire aux différences entre le salaire actuel etle salaire d’embauche. Lorsque la méthode des amorces est appliquée à un modèle linéaire,il est possible d’utiliser des méthodes de ré-échantillonnage (échantillonnage résiduel et wildbootstrap) pour obtenir des résultats plus précis. Pour plus d'informations, reportez-vous à lasection Utilisation de l’amorce pour choisir de meilleures valeurs prédites dans le chapitre 3dans IBM SPSS Bootstrapping 21.

De nombreuses procédures prennent en charge l’échantillonnage par bootstrap et le regroupementdes résultats d’analyse d’échantillons de bootstrap. Les commandes permettant la spécificationdes analyses par bootstrap sont intégrées directement comme une sous-boîte de dialogue dansles procédures prenant en charge l’amorce. Les paramètres de la boîte de dialogue du bootstrapsont conservés d’une procédure à l’autre, ainsi si vous exécutez une analyse des effectifs à l’aidede l’amorce dans les boîtes de dialogues, elle sera activée par défaut pour les autres procédurela prenant en charge.


4

Chapitre 2

Pour obtenir une analyse par bootstrap

E Dans les menus, choisissez une procédure qui prend en charge l’amorce et cliquez sur Bootstrap.

Figure 2-1Boîte de dialogue Bootstrap

E Sélectionnez Effectuer une amorce.

Vous pouvez éventuellement modifier les options suivantes :

Nombre d’échantillons. Pour le centile et les intervalles BCa produits, il est recommandé d’utiliserau moins 1000 échantillons de bootstrap. Spécifiez un nombre entier positif.

Définissez un générateur pour le Mersenne Twister . Définir un générateur vous permet dereproduire les analyses. L’utilisation de cette commande revient à définir le Mersenne Twistercomme le générateur actif et à spécifier un point de départ fixe dans la boîte de dialogueGénérateurs de nombres aléatoires. La différence notoire est que la définition du générateur danscette boîte de dialogue conserve l’état actuel du générateur de nombres aléatoires et restaurecet état une fois l’analyse terminée.

Intervalles de confiance. Spécifiez un niveau de confiance supérieur à 50 et inférieur à 100. Lesintervalles de centile utilisent seulement des valeurs de bootstrap ordonnées correspondant auxcentiles d’intervalle de confiance souhaités. Par exemple, un intervalle de confiance de centilede 95 % utilise les 2,5e et 97,5e centiles des valeurs de bootstrap comme bornes inférieure etsupérieure de l’intervalle (en interpolant des valeurs de bootstrap si nécessaire). Les intervalles de

5

L’amorce

biais corrigé et accéléré (BCa) sont des intervalles ajustés plus précis, toutefois ils requièrent plusde temps de calcul.

Echantillonnage. La méthode Simple est le ré-échantillonnage des observations avec remplacementde l’ensemble de données d’origine. La méthode Stratifiée est le ré-échantillonnage desobservations avec remplacement de l’ensemble de données d’origine, au sein des strates définiespar la classification croisée des variables de strate. L’échantillonnage de bootstrap stratifié estutile lorsque les unités au sein des strates sont relativement homogènes, alors qu’elles sontdifférentes d’une strate à l’autre.

Procédures prenant en charge l’amorce

Les procédures suivants prennent en charge l’amorce.

Remarque :

L’amorce ne peut pas être utilisée avec des ensembles de données à imputation multiple.Si une variable Imputation_ est présente dans l’ensemble de données, la boîte de dialogueBootstrap est désactivée.

L’amorce ne fonctionne pas s’il n’existe aucune valeur de pondération non entière.

L’amorce utilise l’élimination des observations incomplètes pour déterminer la base del’observation ; c’est à dire que les observations avec des valeurs manquantes pour n’importequelle variable de l’analyse sont supprimées de l’analyse. Ainsi lorsque l’amorce est exécutée,l’élimination des observations incomplètes a lieu même si la procédure d’analyse spécifie uneautre forme de traitement des valeurs manquantes.

Option Statistiques de base

Effectifs

Le tableau de statistiques prend en charge les estimations par bootstrap pour la moyenne,l’écart type, la variance, la médiane, l’asymétrie, l’aplatissement et les centiles.

Le tableau Effectifs prend en charge les estimations par bootstrap pour les pourcentages.

Descriptifs

Le tableau de statistiques descriptives prend en charge les estimations par bootstrap pour lamoyenne, l’écart type, la variance, l’asymétrie et l’aplatissement.

Explorer

Le tableau Descriptives prend en charge les estimations par bootstrap pour la moyenne, lamoyenne tronquée à 5 %, l’écart type, la variance, la médiane, l’asymétrie, l’aplatissement etl’intervalle interquartile.

Le tableau M-Estimateurs prend en charge les estimations par bootstrap pour le M-Estimateurde Huber, l’estimateur à double pondération de Tukey, le M-estimateur de Hampel, etl’estimateur de Andrew.

Le tableau Centiles prend en charge les estimations par bootstrap pour les centiles.

6

Chapitre 2

Tableaux croisés

Le tableau Mesures directionnelles prend en charge les estimations par bootstrap pourLambda, le Tau de Goodman et Kruskal, le coefficient d’incertitude et le d de Somers.

Le tableau Mesures symétriques prend en charge les estimations par bootstrap pour Phi, le Vde Cramer, le coefficient de contingence, le tau-b de Kendall, le tau-c de Kendall, le Gamma,la corrélation de Spearman, et le R de Pearson.

Le tableau Estimation du risque prend en charge les estimations par bootstrap pour l’odds ratio.

Le tableau des odds ratio communs de Mantel-Haenszel prend en charge les estimations parbootstrap et les tests de signification pour In (estimation).

Moyennes

Le tableau Rapport prend en charge les estimations par bootstrap pour la moyenne, la médiane,la médiane groupée, l’écart type, la variance, l’aplatissement, l’asymétrie, la moyenneharmonique et la moyenne géométrique.

Test T pour échantillon unique

Le tableau Statistiques prend en charge les estimations par bootstrap pour la moyenne etl’écart type.

Le tableau Test prend en charge les estimations par bootstrap et les tests de significationpour la différence moyenne.

Test T pour échantillons indépendants

Le tableau Statistiques de groupe prend en charge les estimations par bootstrap pour lamoyenne et l’écart type.

Le tableau Test prend en charge les estimations par bootstrap et les tests de significationpour la différence moyenne.

Test T pour échantillons appariés

Le tableau Statistiques prend en charge les estimations par bootstrap pour la moyenne etl’écart type.

Le tableau Corrélations prend en charge les estimations par bootstrap pour les corrélations.

Le tableau Test prend en charge les estimations par bootstrap pour la moyenne.

ANOVA à 1 facteur

Le tableau Descriptive prend en charge les estimations par bootstrap pour la moyenne etl’écart type.

Le tableau Comparaisons multiples prend en charge les estimations par bootstrap pour ladifférence moyenne.

Le tableau Tests de contraste prend en charge les estimations par bootstrap et les tests designification pour la valeur de contraste.

GLM - Univarié


7

L’amorce

Le tableau Estimation des paramètres prend en charge les estimations par bootstrap et lestests de signification pour le coefficient, B.

Le tableau Résultats de contraste prend en charge les estimations par bootstrap et les testsde signification pour la différence.

Les moyennes marginales estimées : Le tableau Estimations prend en charge les estimationspar bootstrap pour la moyenne.

Les moyennes marginales estimées : Le tableau Comparaisons par paire prend en charge lesestimations par bootstrap pour la différence moyenne.

Les tests post hoc : Le tableau Comparaisons multiples prend en charge les estimations parbootstrap pour la différence moyenne.

Corrélations bivariées


Le tableau Corrélations prend en charge les estimations par bootstrap et les tests designification pour les corrélations.

Remarques :

Si des corrélations non paramétriques (tau-b de Kendall ou Spearman) sont requises en plus descorrélations de Pearson, la boîte de dialogue colle les commandes CORRELATIONS et NONPARCORR avec une commande BOOTSTRAP distincte pour chacune d’elles. Les mêmes échantillonsde bootstrap seront utilisés pour calculer toutes les corrélations.

Avant le regroupement, la transformation Z de Fisher est appliquée aux corrélations. Après leregroupement, la transformation Z inverse est appliquée.

Corrélations partielles



Régression linéaire



Le tableau Récapitulatif des modèles prend en charge les estimations par bootstrap pourDurbin-Watson.

Le tableau Coefficients prend en charge les estimations par bootstrap et les tests designification pour le coefficient, B.

Le tableau Coefficients de corrélation prend en charge les estimations par bootstrap pourles corrélations.

Le tableau Statistiques résiduelles prend en charge les estimations par bootstrap pour lamoyenne et l’écart type.

8

Chapitre 2

Régression ordinale


Analyse discriminante

Le tableau Coefficient de fonction de discriminant canonique standardisé prend en chargeles estimations par bootstrap des coefficients standardisés.

Le tableau Coefficient de fonction de discriminant canonique prend en charge les estimationspar bootstrap des coefficients non standardisés.

Le tableau Coefficient de fonction de classification prend en charge les estimations parbootstrap des coefficients.

Option Statistiques avancées

GLM - Multivarié


Modèles mixtes linéaires

Le tableau Estimations des effets fixes prend en charge les estimations par bootstrap et lestests de signification de l’estimation.

Le tableau Estimations des paramètres de covariance prend en charge les estimations parbootstrap et les tests de signification de l’estimation.

Modèles linéaires généralisés


Régression de Cox

Le tableau Variables dans l’équation prend en charge les estimations par bootstrap et lestests de signification pour le coefficient, B.

Option Régression

Régression logistique binaire

Le tableau Variables dans l’équation prend en charge les estimations par bootstrap et lestests de signification pour le coefficient, B.

Régression logistique multinomiale


9

L’amorce

Fonctions supplémentaires de la commande BOOTSTRAP

Le langage de syntaxe de commande vous permet aussi de :

réaliser l’échantillonnage résiduel et par wild bootstrap (sous-commande SAMPLING)

Reportez-vous à la Référence de syntaxe de commande pour une information complète concernantla syntaxe.

Partie II:Exemples

Chapitre

3L’amorce

L’amorce est une méthode consistant à dériver des estimations robustes des erreurs standard et desintervalles de confiance pour des estimations telles que la moyenne, la médiane, le calcul de laproportion, l’odds ratio, le coefficient de corrélation ou de régression. Elle peut aussi être utilisépour construire des tests d’hypothèse. L’amource est le plus souvent utile comme une alternativeaux estimations paramétriques lorsque les hypothèses liées à ces méthodes ne sont pas fiables(comme dans le cas de modèles de regression avec des résidus hétéroscédastiques ajustés à despetits échantillons), ou lorsque l’inférence paramétrique est impossible ou requiert des formulestrès complexes pour le calcul des erreurs standard (comme dans le cas du calcul d’intervalles deconfiance pour la médiane, les quartiles, et autres centiles).

Utilisation de l’amorce pour obtenir des intervalles de confiances pourles proportions

Une société en télécommunication perd environ 27% de ses clients chaque mois. Afin de réduirece taux d’attrition, la direction souhaite savoir si ce taux varie selon les groupes de consommateurs.Ces informations sont regroupées dans le fichier telco.sav. Pour plus d'informations,

reportez-vous à la section Fichiers d’exemple dans l'annexe A sur p. 32. A l’aide de la méthode del’amorce, vous pouvez déterminer si un même taux d’attrition décrit de manière appropriée lecomportement des quatre types principaux de clients.

Remarque : Cet exemple utilise la procédure Effectifs et requiert l’option Statistiques de base.

Préparation des données

Vous devez d’abord diviser le fichier en Catégorie de client.

E Pour diviser le fichier, dans les menus de l’éditeur de données, choisissez :Données > Scinder un fichier


12

Chapitre 3

Figure 3-1Boîte de dialogue Scinder un fichier

E Sélectionnez Comparer les groupes.

E Sélectionnez Catégorie de client comme variable sur laquelle les groupes sont basés.

E Cliquez sur OK.

Exécution de l’analyse

E Pour obtenir des intervalles de confiance bootstrap pour les proportions, choisissez les optionssuivantes dans les menus :Analyse > Statistiques descriptives > Effectifs...

Figure 3-2Boîte de dialogue Fréquences

E Sélectionnez Désabonné au cours du mois dernier [churn] comme variable dans l’analyse.

E Cliquez sur Statistiques.

13

L’amorce

Figure 3-3Boîte de dialogue Statistiques.

E Sélectionnez l’option Moyenne dans le groupe Tendance centrale.

E Cliquez sur Poursuivre.

E Cliquez sur Bootstrap dans la boîte de dialogue Fréquences.

14

Chapitre 3



E Afin de reproduire exactement les résultats de cet exemple, sélectionnez Définir le générateur pourMersenne Twister et saisissez 9191972 comme valeur du générateur.


E Cliquez sur OK dans la boîte de dialogue Fréquences.

Ces sélections génèrent la syntaxe de commande suivante :

SORT CASES BY custcat.SPLIT FILE LAYERED BY custcat.PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES INPUT=churn/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

FREQUENCIES VARIABLES=churn/STATISTICS=MEAN/ORDER=ANALYSIS.

RESTORE.

Les commandes SORT CASES et SPLIT FILE divisent le fichier en fonction de la variablecustcat.

15

L’amorce

Les commandes PRESERVE et RESTORE “mémorisent” l’état actuel du générateur de nombresaléatoires et restaure le système dans cet état, une fois l’amorce terminée.

La commande SET définit le générateur de nombres aléatoires sur le générateur MersenneTwister et l’index sur 9191972, afin que les résultats de l’amorce puissent être reproduits demanière exacte. La commande SHOW affiche l’index dans les résultats pour référence.

La commande BOOTSTRAP requiert 1 000 échantillons de bootstrap pour le ré-échantillonnagesimple.

La variable churn (désabonnement) est utilisée pour déterminer la base des observations pourle rééchantillonnage. Les observations contenant des valeurs manquantes sur cette variablesont supprimées de l’analyse.

La procédure FREQUENCIES suivant BOOTSTRAP est exécutée sur chacun des échantillons debootstrap.

La sous-commande STATISTICS produit la moyenne de la variable churn des donnéesd’origine. En outre, des statistiques groupées sont produites pour la moyenne et lespourcentages dans le tableau des effectifs.

Spécifications de bootstrapFigure 3-5Spécifications de bootstrap

Le tableau de spécifications de bootstrap contient les paramètres utilisés lors du rééchantillonnage,et il est une référence utile pour vérifier si l’analyse que vous souhaitiez réaliser a été effectuée.

16

Chapitre 3

StatistiquesFigure 3-6Tableau de statistiques avec intervalle de confiance de bootstrap pour les proportions

Le tableau des statistiques montre, pour chaque niveau de Catégorie de client, la valeur moyennede la variable Désabonné au cours du mois dernier. La variable Désabonné au cours du moisdernier ne peut prendre que les valeurs 0 et 1, la valeur 1 signifiant que le client s’est désabonnéet la moyenne étant égale à la proportion de désabonnements. La colonne Statistique affiche lesvaleurs généralement produites par la procédure Effectifs à l’aide de l’ensemble de donnéesd’origine. Les colonnes Bootstrap sont produites par des algorithmes d’amorce.

Le Biais est la différence entre la valeur moyenne des échantillons de bootstrap et la valeurde la colonne Statistique. Dans ce cas, la valeur moyenne de Désabonné au cours du moisdernier est calculée pour les 1000 échantillons de bootstrap, et la moyenne de ces moyennesest alors calculée.

Ecart- standard représente l’erreur standard de la valeur moyenne de la variable Désabonné aucours du mois dernier sur les 1000 échantillons de bootstrap.

La limite inférieure de l’intervalle de confiance de bootstrap à 95% est une interpolation des25e et 26e valeurs moyennes de la variable Désabonné au cours du mois dernier, si les 1000échantillons sont classés dans l’ordre croissant. La limite supérieure est une interpolation des975e et 976e valeurs moyennes.

Les résultats du tableau suggèrent que le taux d’attrition est différent selon les types de clients. Enparticulier, l’intervalle de confiance des clients Service Plus n’en recouvre aucun autre, ce quisuggère que ces clients sont, en moyenne, moins susceptibles de partir.

Lorsque vous utilisez des variables qualitatives à deux valeurs uniquement, les intervallesde confiance sont différents de ceux produits par la procédure Tests non paramétriques à unéchantillon ou Test T pour échantillon unique.

17

L’amorce

Tableau des effectifs :Figure 3-7Tableau des effectifs avec intervalle de confiance de bootstrap pour les proportions

Le tableau Effectifs affiche les intervalles de confiance pour les pourcentages (proportion ×100%) pour chaque catégorie, ils sont donc disponibles pour toutes les variables qualitatives. Desintervalles de confiance comparables ne sont pas disponibles ailleurs dans le produit.

Utilisation de l’amorce pour obtenir des intervalles de confiancespour les médianes

Lors d’une consultation des dossiers des employés, la direction souhaite vérifier leur expérienceprofessionnelle. L’expérience professionnelle est asymétrique, ce qui rend la moyenne moinsfiable comme moyen d’estimation de l’expérience antérieure des employés que la médiane.Toutefois, sans l’amorce, les intervalles de confiance pour la médiane ne sont généralement pasdisponibles dans les procédures statistiques du produit.Ces informations sont regroupées dans le fichier Employee data.sav. Pour plus d'informations,

reportez-vous à la section Fichiers d’exemple dans l'annexe A sur p. 32. Utilisation de l’amorcepour obtenir des intervalles de confiances pour la médiane.

Remarque : cet exemple utilise la procédure Explorer et requiert l’option Statistiques de base.


E Pour obtenir des intervalles de confiance de bootstrap pour la médiane, choisissez les optionssuivantes dans les menus :Analyse > Statistiques descriptives > Explorer

18

Chapitre 3

Figure 3-8Boîte de dialogue principale Explorer

E Sélectionnez Expérience préalable (mois) [prevexp] comme variable dépendante.

E Sélectionnez l’option Statistiques dans le groupe Afficher.

E Cliquez sur Bootstrap.

19

L’amorce




E Pour obtenir des intervalles plus précis (au prix d’un temps de traitement plus important),sélectionnez Biais corrigé accéléré (BCa).


E Cliquez sur OK dans la boîte de dialogue Explorer.


PRESERVE.SET RNG=MT MTINDEX=592004.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=prevexp/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

EXAMINE VARIABLES=prevexp/PLOT NONE/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

20

Chapitre 3

RESTORE.



La commande BOOTSTRAP requiert 1000 échantillons de bootstrap pour le ré-échantillonnagesimple.

La sous-commande VARIABLES spécifie que la variable prevexp est utilisée pour déterminerla base des observations pour le rééchantillonnage. Les observations contenant des valeursmanquantes sur cette variable sont supprimées de l’analyse.

La sous-commande CRITERIA , en plus de requérir le nombre d’échantillons de bootstrap,requiert des intervalles de confiance de bootstrap de biais corrigé et accéléré à la place desintervalles de centiles par défaut.

La procédure EXAMINE suivant BOOTSTRAP est exécutée sur chacun des échantillons debootstrap.

La sous-commande PLOT désactive les résultats graphiques.

Toutes les autres options sont définies à leur valeur par défaut.

DescriptifsFigure 3-10Tableau Descriptives avec intervalles de confiance de bootstrap

Le tableau Descriptives contient un nombre de statistiques et des intervalles de confiance debootstrap pour ces statistiques. L’intervalle de confiance de bootstrap pour la moyenne (86,39; 105,20) est similaire à l’intervalle de confiance paramétrique (86,42 ; 105,30) et suggère quel’employé type a environ de 7 à 9 ans d’expérience préalable. Cependant, Expérience préalable(mois) possède une distribution asymétrique, ce qui fait de la moyenne un indicateur moins fiabledu salaire “type” actuel que la médiane. L’intervalle de confiance de bootstrap pour la médiane(50,00 ; 60,00) est plus restreint et inférieur à l’intervalle de confiance pour la moyenne, et suggère

21

L’amorce

que l’employé type a environ de 4 à 5 ans d’expérience préalable. L’utilisation de l’amorce apermis d’obtenir une plage de valeurs qui représente mieux l’expérience préalable type.

Utilisation de l’amorce pour choisir de meilleures valeurs prédites

Lors d’une consultation des dossiers des employés, la direction est intéressée à déterminer lesfacteurs associés aux augmentations des salaires des employés, en ajustant un modèle linéaireaux différences entre le salaire actuel et le salaire d’embauche. Lorsque la méthode des amorcesest appliquée à un modèle linéaire, il est possible d’utiliser des méthodes de ré-échantillonnage(échantillonnage résiduel et wild bootstrap) pour obtenir des résultats plus précis.Ces informations sont regroupées dans le fichier Employee data.sav. Pour plus d'informations,

reportez-vous à la section Fichiers d’exemple dans l'annexe A sur p. 32.

Remarque : cet exemple utilise la procédure GLM Univarié et requiert l’option Statistiques debase.

Préparation des données

Vous devez d’abord calculer la différence entre le salaire actuel et le salaire de départ.

E A partir des menus, sélectionnez :Transformer > Calculer la variable...

22

Chapitre 3

Figure 3-11Boîte de dialogue Calculer la variable

E Saisissez diff comme variable cible.

E Saisissez salary-salbegin comme expression numérique.

E Cliquez sur OK.


Pour exécuter la procédure GLM Univarié avec une amorce résiduelle sauvage, vous devezd’abord créer des résidus.

E A partir des menus, sélectionnez :Analyse > Modèle linéaire général > Univarié

23

L’amorce

Figure 3-12Boîte de dialogue principale GLM Univarié

E Sélectionnez diff comme variable dépendante.

E Sélectionnez Sexe [gender], Catégorie d’emploi [jobcat] et Classification des minorités [minority]comme facteurs fixes.

E Sélectionnez Ancienneté [jobtime] et Expérience préalable (mois) [prevexp] comme covariables.

E Cliquez sur Modèle.

24

Chapitre 3

Figure 3-13Boîte de dialogue Modèle

E Sélectionnez Personnalisé puis Effets principaux dans la liste déroulante Termes construits.

E Sélectionnez les variables de gender à prevexp comme termes de modèle.


E Cliquez sur le bouton Enregistrer dans la boîte de dialogue GLM Univarié.

25

L’amorce

Figure 3-14Boîte de dialogue Enregistrer

E Sélectionnez l’option Non standardisés dans le groupe Résidus.


E Cliquez sur le bouton Bootstrap dans la boîte de dialogue GLM Univarié.

26

Chapitre 3


Les paramètres de bootstrap sont conservés dans les boîtes de dialogue qui prennent en charge lesamorces. L’enregistrement de nouvelles variables dans l’ensemble de données n’est pas pris encharge lorsque l’amorce est active, de sorte que vous devez vérifier qu’elle est désactivée.

E Si nécessaire, désélectionnez l’option Effectuer une amorce.

E Cliquez sur le bouton OK dans la boîte de dialogue GLM Univarié. L’ensemble de donnéescontient une nouvelle variable RES_1, qui comprend les résidus non-standardisés de ce modèle.

E Dans la boîte de dialogue GLM Univarié, cliquez sur Enregistrer.

27

L’amorce

E Désélectionnez l’option Non standardisé, puis cliquez sur Poursuivre et sur Options dans la boîtede dialogue GLM Univarié.

Figure 3-16Boîte de dialogue Options

E Sélectionnez l’option Estimations des paramètres dans le groupe Afficher.


E Cliquez sur le bouton Bootstrap dans la boîte de dialogue GLM Univarié.

28

Chapitre 3




E Il n’existe pas d’option pour effectuer une amorce sauvage à partir des boîtes de dialogue, vousdevez donc cliquer sur Poursuivre, puis sur Coller dans la boîte de dialogue GLM Univarié.



/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

29

L’amorce

RESTORE.

Afin de réaliser l’échantillonnage de wild bootstrap, éditez le mot-clé METHOD de lasous-commande SAMPLING de la façon suivante : METHOD=WILD(RESIDUALS=RES_1).

Le groupe de syntaxe de commande “ final ” apparaît comme suit :


/SAMPLING METHOD=WILD(RESIDUALS=RES_1)/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

RESTORE.



La commande BOOTSTRAP requiert 1000 échantillons de bootstrap pour l’échantillonnagesauvage et RES_1 comme la variable contenant les résidus.

La sous-commande VARIABLES spécifie que diff est la variable cible dans le modèle linéaire.Cette variable cible et les variables gender, jobcat, minority, jobtime, et prevexp sont utiliséespour déterminer la base des observations pour le rééchantillonnage. Les observationscontenant des valeurs manquantes sur ces variables sont supprimées de l’analyse.

La sous-commande CRITERIA , en plus de requérir le nombre d’échantillons de bootstrap,requiert des intervalles de confiance de bootstrap de biais corrigé et accéléré à la place desintervalles de centiles par défaut.

La procédure UNIANOVA suivant BOOTSTRAP est exécutée sur chacun des échantillons debootstrap et produit des estimations de paramètre pour les données d’origines. En outre, desstatistiques groupées sont produites pour les coefficients du modèle.

30

Chapitre 3

Estimations des paramètresFigure 3-18Estimations des paramètres

Le tableau Estimations des paramètres affiche les estimations des paramètres, habituelles etnon-amorcées pour les termes du modèle. La valeur de signification de 0,105 pour [minority=0]est supérieure à 0,05, et suggère que la Classification des minorités n’a aucun effet surl’augmentation du salaire.

Figure 3-19Estimations des paramètres de bootstrap

Consultez maintenant le bootstrap pour le tableau Estimations des paramètres. Dans la colonneErreur standard, vous pouvez voir que les erreurs standard paramétriques de certains coefficients,comme la constante, sont trop faibles comparés aux estimations de bootstrap et que les intervallesde confiance sont plus larges. Pour certains coefficients, comme [minority=0], les erreursstandard paramétriques sont trop grandes et la valeur de signification de 0.006 rapportée dans lesrésultats de bootstrap, inférieure à 0,05, montre que la différence observée dans les augmentationsde salaire entre les employés qui sont classés en tant que minorités et ceux qui ne le sont pas n’est

31

L’amorce

pas due au hasard. La direction est désormais au courant de cette différence et peut pousser soninvestigation plus loin pour en déterminer les causes.

Lectures recommandées

Reportez-vous aux documents suivants pour plus d’informations sur l’amorce :

Davison, A. C., et D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

Shao, J., et D. Tu. 1995. The Jackknife and Bootstrap. New York: Springer.

Annexe

AFichiers d’exemple

Les fichiers d’exemple installés avec le produit figurent dans le sous-répertoire Echantillons durépertoire d’installation. Il existe un dossier distinct au sein du sous-répertoire Echantillons pourchacune des langues suivantes : Anglais, Français, Allemand, Italien, Japonais, Coréen, Polonais,Russe, Chinois simplifié, Espangol et Chinois traditionnel.

Seuls quelques fichiers d’exemples sont disponibles dans toutes les langues. Si un fichierd’exemple n’est pas disponible dans une langue, le dossier de langue contient la version anglaisedu fichier d’exemple.

Descriptions

Voici de brèves descriptions des fichiers d’exemple utilisés dans divers exemples à travers ladocumentation.

accidents.sav.Ce fichier de données d’hypothèse concerne une société d’assurance qui étudieles facteurs de risque liés à l’âge et au sexe dans les accidents de la route survenant dans unerégion donnée. Chaque observation correspond à une classification croisée de la catégoried’âge et du sexe.

adl.sav. Ce fichier de données d’hypothèse concerne les mesures entreprises pour identifier lesavantages d’un type de thérapie proposé aux patients qui ont subi une attaque cardiaque. Lesmédecins ont assigné de manière aléatoire les patients du sexe féminin ayant subi une attaquecardiaque à un groupe parmi deux groupes possibles. Le premier groupe a fait l’objet de lathérapie standard tandis que le second a bénéficié en plus d’une thérapie émotionnelle. Troismois après les traitements, les capacités de chaque patient à effectuer les tâches ordinaires dela vie quotidienne ont été notées en tant que variables ordinales.

advert.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend undétaillant pour examiner la relation existant entre l’argent dépensé dans la publicité et lesventes résultantes. Pour ce faire, il collecte les chiffres des ventes passées et les coûts associésà la publicité.

aflatoxin.sav. Ce fichier de données d’hypothèse concerne le test de l’aflatoxine dans desrécoltes de maïs. La concentration de ce poison varie largement d’une récolte à l’autre et ausein de chaque récolte. Un processeur de grain a reçu 16 échantillons issus de 8 récoltes demaïs et a mesuré les niveaux d’alfatoxine en parties par milliard (PPB).

anorectic.sav. En cherchant à développer une symptomatologie standardisée du comportementanorexique/boulimique, des chercheurs(Van der Ham, Meulman, Van Strien, et Van Engeland,1997) ont examiné 55 adolescents souffrant de troubles alimentaires. Chaque patient a étéobservé quatre fois sur une période de quatre années, soit un total de 220 observations. Achaque observation, les patients ont été notés pour chacun des 16 symptômes. En raison del’absence de scores de symptôme pour le patient 71/visite 2, le patient 76/visite 2 et le patient47/visite 3, le nombre d’observations valides est de 217.


33

Fichiers d’exemple

bankloan.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend unebanque pour réduire le taux de défaut de paiement. Il contient des informations financièreset démographiques sur 850 clients existants et éventuels. Les premières 700 observationsconcernent des clients auxquels des prêts ont été octroyés. Les 150 dernières observationscorrespondant aux clients éventuels que la banque doit classer comme bons ou mauvaisrisques de crédit.

bankloan_binning.sav. Ce fichier de données d’hypothèse concerne des informationsfinancières et démographiques sur 5 000 clients existants.

behavior.sav. Dans un exemple classique (Price et Bouffard, 1974), on a demandé à52 étudiants de noter les combinaisons établies à partir de 15 situations et de 15 comportementssur une échelle de 0 à 9, où 0 = « extrêmement approprié » et 9 = « extrêmement inapproprié ».En effectuant la moyenne des résultats de l’ensemble des individus, on constate une certainedifférence entre les valeurs.

behavior_ini.sav. Ce fichier de données contient la configuration initiale d’une solutionbidimensionnelle pour behavior.sav.

brakes.sav. Ce fichier de données d’hypothèse concerne le contrôle qualité effectué dansune usine qui fabrique des freins à disque pour des voitures haut de gamme. Le fichier dedonnées contient les mesures de diamètre de 16 disques de 8 machines de production. Lediamètre cible des freins est de 322 millimètres.

breakfast.sav. Au cours d’une étude classique (Green et Rao, 1972), on a demandé à21 étudiants en MBA (Master of Business Administration) de l’école de Wharton et à leursconjoints de classer 15 aliments du petit-déjeuner selon leurs préférences, de 1= « alimentpréféré » à 15= « aliment le moins apprécié ». Leurs préférences ont été enregistrées dans sixscénarios différents, allant de « Préférence générale » à « En-cas avec boisson uniquement ».

breakfast-overall.sav. Ce fichier de données contient les préférences de petit-déjeuner dupremier scénario uniquement, « Préférence générale ».

broadband_1.sav. Ce fichier de données d’hypothèse concerne le nombre d’abonnés, parrégion, à un service haut débit. Le fichier de données contient le nombre d’abonnés mensuelsde 85 régions sur une période de quatre ans.

broadband_2.sav. Ce fichier de données est identique au fichier broadband_1.savmais contientles données relatives à trois mois supplémentaires.

car_insurance_claims.sav. Il s’agit d’un ensemble de données présenté et analysé ailleurs(McCullagh et Nelder, 1989) qui concerne des actions en indemnisation pour des voitures.Le montant d’action en indemnisation moyen peut être modelé comme présentant unedistribution gamma, à l’aide d’une fonction de lien inverse pour associer la moyenne de lavariable dépendante à une combinaison linéaire de l’âge de l’assuré, du type de véhicule etde l’âge du véhicule. Le nombre d’actions entreprises peut être utilisé comme pondérationde positionnement.

car_sales.sav. Ce fichier de données contient des estimations de ventes hypothétiques, desbarèmes de prix et des spécifications physiques concernant divers modèles et marques devéhicule. Les barèmes de prix et les spécifications physiques proviennent tour à tour deedmunds.com et des sites des constructeurs.

car_sales_uprepared.sav. Il s’agit d’une version modifiée de car_sales.sav qui n’inclut aucuneversion transformée des champs.

34

Annexe A

carpet.sav. Dans un exemple courant (Green et Wind, 1973), une société intéressée par lacommercialisation d’un nouveau nettoyeur de tapis souhaite examiner l’influence de cinqcritères sur la préférence du consommateur : la conception du conditionnement, la marque, leprix, une étiquette Economique et une garantie satisfait ou remboursé. Il existe trois niveauxde critère pour la conception du conditionnement, suivant l’emplacement de l’applicateur,trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pourchacun des deux derniers critères. Dix consommateurs classent 22 profils définis par cescritères. La variable Préférence indique le classement des rangs moyens de chaque profil.Un rang faible correspond à une préférence élevée. Cette variable reflète une mesure globalede préférence pour chaque profil.

carpet_prefs.sav. Ce fichier de données repose sur le même exemple que celui décrit pourcarpet.sav, mais contient les classements réels issus de chacun des 10 clients. On a demandéaux consommateurs de classer les 22 profils de produits, du préféré au moins intéressant. Lesvariables PREF1 à PREF22 contiennent les identificateurs des profils associés, tels qu’ilssont définis dans carpet_plan.sav.

catalog.sav. Ce fichier de données contient des chiffres de ventes mensuelles hypothétiquesrelatifs à trois produits vendus par une entreprise de vente par correspondance. Les donnéesrelatives à cinq variables explicatives possibles sont également incluses.

catalog_seasfac.sav. Ce fichier de données est identique à catalog.sav mais contient en plusun ensemble de facteurs saisonniers calculés à partir de la procédure de désaisonnalisation,ainsi que les variables de date correspondantes.

cellular.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend unopérateur téléphonique pour réduire les taux de désabonnement. Des scores de propension audésabonnement sont attribués aux comptes, de 0 à 100. Les comptes ayant une note égale ousupérieure à 50 sont susceptibles de changer de fournisseur.

ceramics.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend unfabricant pour déterminer si un nouvel alliage haute qualité résiste mieux à la chaleur qu’unalliage standard. Chaque observation représente un test séparé de l’un des deux alliages ; ledegré de chaleur auquel l’alliage ne résiste pas est enregistré.

cereal.sav. Ce fichier de données d’hypothèse concerne un sondage de 880 personnesinterrogées sur leurs préférences de petit-déjeuner et sur leur âge, leur sexe, leur situationfamiliale et leur mode de vie (actif ou non actif, selon qu’elles pratiquent une activité physiqueau moins deux fois par semaine). Chaque observation correspond à un répondant distinct.

clothing_defects.sav. Ce fichier de données d’hypothèse concerne le processus de contrôlequalité observé dans une usine de textile. Dans chaque lot produit à l’usine, les inspecteursprélèvent un échantillon de vêtements et comptent le nombre de vêtements qui ne sont pasacceptables.

coffee.sav. Ce fichier de données concerne l’image perçue de six marques de café frappé(Kennedy, Riquier, et Sharp, 1996). Pour chacun des 23 attributs d’image de café frappé,les personnes sollicitées ont sélectionné toutes les marques décrites par l’attribut. Les sixmarques sont appelées AA, BB, CC, DD, EE et FF à des fins de confidentialité.

contacts.sav. Ce fichier de données d’hypothèse concerne les listes de contacts d’un groupede représentants en informatique d’entreprise. Chaque contact est classé selon le service del’entreprise où il travaille et le classement de son entreprise. Sont également enregistrés le

35


montant de la dernière vente effectuée, le temps passé depuis la dernière vente et la taillede l’entreprise du contact.

creditpromo.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend ungrand magasin pour évaluer l’efficacité d’une promotion récente de carte de crédit. A cettefin, 500 détenteurs de carte ont été sélectionnés au hasard. La moitié a reçu une publicitéfaisant la promotion d’un taux d’intérêt réduit sur les achats effectués dans les trois mois àvenir. L’autre moitié a reçu une publicité saisonnière standard.

customer_dbase.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprendune société pour utiliser les informations figurant dans sa banque de données et proposer desoffres spéciales aux clients susceptibles d’être intéressés. Un sous-groupe de la base declients a été sélectionné au hasard et a reçu des offres spéciales. Les réponses des clientsont été enregistrées.

customer_information.sav. Un fichier de données d’hypothèse qui contient les informationspostales du client, telles que le nom et l’adresse.

customer_subset.sav. Un sous-ensemble de 80 observations de customer_dbase.sav.

debate.sav. Ce fichier de données d’hypothèse concerne des réponses appariées à une enquêtedonnée aux participants à un débat politique avant et après le débat. Chaque observationreprésente un répondant distinct.

debate_aggregate.sav. Il s’agit d’un fichier de données d’hypothèse qui rassemble les réponsesdans le fichier debate.sav. Chaque observation correspond à une classification croisée depréférence avant et après le débat.

demo.sav. Ce fichier de données d’hypothèse concerne une base de données clients achetée envue de diffuser des offres mensuelles. Les données indiquent si le client a répondu ou non àl’offre et contiennent diverses informations démographiques.

demo_cs_1.sav. Ce fichier de données d’hypothèse concerne la première mesure entreprisepar une société pour compiler une base de données contenant des informations d’enquête.Chaque observation correspond à une ville différente. La région, la province, le quartieret la ville sont enregistrés.

demo_cs_2.sav. Ce fichier de données d’hypothèse concerne la seconde mesure entreprise parune société pour compiler une base de données contenant des informations d’enquête. Chaqueobservation correspond à un ménage différent issu des villes sélectionnées à la premièreétape. La région, la province, le quartier, la ville, la sous-division et l’identification sontenregistrés. Les informations d’échantillonnage des deux premières étapes de la conceptionsont également incluses.

demo_cs.sav. Ce fichier de données d’hypothèse concerne des informations d’enquêtecollectées via une méthode complexe d’échantillonnage. Chaque observation correspondà un ménage différent et diverses informations géographiques et d’échantillonnage sontenregistrées.

dmdata.sav. Ceci est un fichier de données d’hypothèse qui contient des informationsdémographiques et des informations concernant les achats pour une entreprise de marketingdirect. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reçuun envoi d’essai, et dmdata3.sav contient des informations sur les contacts restants qui n’ontpas reçu l’envoi d’essai.

36

Annexe A

dietstudy.sav. Ce fichier de données d’hypothèse contient les résultats d’une étude portant surle régime de Stillman(Rickman, Mitchell, Dingman, et Dalen, 1974). Chaque observationcorrespond à un sujet distinct et enregistre son poids en livres avant et après le régime, ainsique ses niveaux de triglycérides en mg/100 ml.

dvdplayer.sav. Ce fichier de données d’hypothèse concerne le développement d’un nouveaulecteur DVD. A l’aide d’un prototype, l’équipe de marketing a collecté des données degroupes spécifiques. Chaque observation correspond à un utilisateur interrogé et enregistredes informations démographiques sur cet utilisateur, ainsi que ses réponses aux questionsportant sur le prototype.

german_credit.sav. Ce fichier de données provient de l’ensemble de données « Germancredit » figurant dans le référentiel Machine Learning Databases (Blake et Merz, 1998) del’université de Californie, Irvine.

grocery_1month.sav. Ce fichier de données d’hypothèse est le fichier de donnéesgrocery_coupons.sav dans lequel les achats hebdomadaires sont organisés par client distinct.Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montantdépensé enregistré est à présent la somme des montants dépensés au cours des quatresemaines de l’enquête.

grocery_coupons.sav. Il s’agit d’un fichier de données d’hypothèse qui contient des donnéesd’enquête collectées par une chaîne de magasins d’alimentation qui chercher à déterminer leshabitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaineset chaque observation correspond à une semaine distincte. Les informations enregistréesconcernent les endroits où le client effectue ses achats, la manière dont il les effectue, ainsique les sommes dépensées en provisions au cours de cette semaine.

guttman.sav. Bell (Bell, 1961) a présenté un tableau pour illustrer les groupes sociauxpossibles. Guttman (Guttman, 1968) a utilisé une partie de ce tableau, dans lequel cinqvariables décrivant des éléments tels que l’interaction sociale, le sentiment d’appartenance àun groupe, la proximité physique des membres et la formalité de la relation, ont été croiséesavec sept groupes sociaux théoriques, dont les foules (par exemple, le public d’un match defootball), l’audience (par exemple, au cinéma ou dans une salle de classe), le public (parexemple, les journaux ou la télévision), les bandes (proche d’une foule, mais qui seraitcaractérisée par une interaction beaucoup plus intense), les groupes primaires (intimes), lesgroupes secondaires (volontaires) et la communauté moderne (groupement lâche issu d’uneforte proximité physique et d’un besoin de services spécialisés).

health_funding.sav. Ce fichier de données d’hypothèse concerne des données sur lefinancement des soins de santé (montant par groupe de 100 individus), les taux de maladie(taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de santé (tauxpar groupe de 10 000 individus). Chaque observation représente une ville différente.

hivassay.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend unlaboratoire pharmaceutique pour développer une analyse rapide de détection d’infection HIV.L’analyse a pour résultat huit nuances de rouge, les nuances les plus marquées indiquant uneplus forte probabilité d’infection. Un test en laboratoire a été effectué sur 2 000 échantillons desang, la moitié de ces échantillons étant infectée par le virus HIV et l’autre moitié étant saine.

hourlywagedata.sav. Ce fichier de données d’hypothèse concerne les salaires horairesd’infirmières occupant des postes administratifs et dans les services de soins, et affichantdivers niveaux d’expérience.

37


insurance_claims.sav. Il s’agit d’un fichier de données hypothétiques qui concerne unecompagnie d’assurance souhaitant développer un modèle pour signaler des réclamationssuspectes, potentiellement frauduleuses. Chaque observation correspond à une réclamationdistincte.

insure.sav. Ce fichier de données d’hypothèse concerne une compagnie d’assurance qui étudieles facteurs de risque indiquant si un client sera amené à déclarer un incident au cours d’uncontrat d’assurance vie d’une durée de 10 ans. Chaque observation figurant dans le fichierde données représente deux contrats, l’un ayant enregistré une réclamation et l’autre non,appariés par âge et sexe.

judges.sav. Ce fichier de données d’hypothèse concerne les scores attribués par des jugesexpérimentés (plus un juge enthousiaste) à 300 performances de gymnastique. Chaque lignereprésente une performance distincte ; les juges ont examiné les mêmes performances.

kinship_dat.sav. Rosenberg et Kim (Rosenberg et Kim, 1975) se sont lancés dans l’analysede 15 termes de parenté (cousin/cousine, fille, fils, frère, grand-mère, grand-père, mère,neveu, nièce, oncle, père, petite-fille, petit-fils, sœur, tante). Ils ont demandé à quatre groupesd’étudiants (deux groupes de femmes et deux groupes d’hommes) de trier ces termes enfonction des similarités. Deux groupes (un groupe de femmes et un groupe d’hommes) ont étéinvités à effectuer deux tris, en basant le second sur un autre critère que le premier. Ainsi, untotal de six “sources” a été obtenu. Chaque source correspond à une matrice de proximité

, dont le nombre de cellules est égal au nombre de personnes dans une source moins lenombre de fois où les objets ont été partitionnés dans cette source.

kinship_ini.sav. Ce fichier de données contient une configuration initiale d’une solutiontridimensionnelle pour kinship_dat.sav.

kinship_var.sav. Ce fichier de données contient les variables indépendantes sexe, génér(ation)et degré (de séparation) permettant d’interpréter les dimensions d’une solution pourkinship_dat.sav. Elles permettent en particulier de réduire l’espace de la solution à unecombinaison linéaire de ces variables.

marketvalues.sav. Ce fichier de données concerne les ventes de maisons dans un nouvelensemble à Algonquin (Illinois) au cours des années 1999–2000. Ces ventes relèvent desarchives publiques.

nhis2000_subset.sav.Le NHIS (National Health Interview Survey) est une enquête degrande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avecun échantillon de ménages représentatifs de la population américaine. Des informationsdémographiques et des observations sur l’état de santé et le comportement sanitaire sontrecueillies auprès des membres de chaque ménage. Ce fichier de données contient unsous-groupe d’informations issues de l’enquête de 2000. National Center for Health Statistics.National Health Interview Survey, 2000. Fichier de données et documentation d’usage public.ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accès en 2003.

ozone.sav. Les données incluent 330 observations portant sur six variables météorologiquespour prévoir la concentration d’ozone à partir des variables restantes. Des chercheursprécédents (Breiman et Friedman, 1985), (Hastie et Tibshirani, 1990), ont décelé parmi cesvariables des non-linéarités qui pénalisent les approches standard de la régression.

38

Annexe A

pain_medication.sav. Ce fichier de données d’hypothèse contient les résultats d’un essaiclinique d’un remède anti-inflammatoire traitant les douleurs de l’arthrite chronique. Oncherche notamment à déterminer le temps nécessaire au médicament pour agir et les résultatsqu’il permet d’obtenir par rapport à un médicament existant.

patient_los.sav. Ce fichier de données d’hypothèse contient les dossiers médicaux de patientsadmis à l’hôpital pour suspicion d’infarctus du myocarde suspecté (ou « attaque cardiaque »).Chaque observation correspond à un patient distinct et enregistre de nombreuses variablesliées à son séjour à l’hôpital.

patlos_sample.sav. Ce fichier de données d’hypothèse contient les dossiers médicaux d’unéchantillon de patients sous traitement thrombolytique après un infarctus du myocarde.Chaque observation correspond à un patient distinct et enregistre de nombreuses variablesliées à son séjour à l’hôpital.

poll_cs.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend unenquêteur pour déterminer le niveau de soutien du public pour un projet de loi avantlégislature. Les observations correspondent à des électeurs enregistrés. Chaque observationenregistre le comté, la ville et le quartier où habite l’électeur.

poll_cs_sample.sav. Ce fichier de données d’hypothèse contient un échantillon des électeursrépertoriés dans le fichier poll_cs.sav. L’échantillon a été prélevé selon le plan spécifié dans lefichier de plan poll.csplan et ce fichier de données enregistre les probabilités d’inclusion et lespondérations d’échantillon. Toutefois, ce plan faisant appel à une méthode d’échantillonnagede probabilité proportionnelle à la taille (PPS – Probability-Proportional-to-Size), il existeégalement un fichier contenant les probabilités de sélection conjointes (poll_jointprob.sav).Les variables supplémentaires correspondant à la répartition démographique des électeurs et àleur opinion sur le projet de loi proposé ont été collectées et ajoutées au fichier de donnéesune fois l’échantillon prélevé.

property_assess.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprendun contrôleur au niveau du comté pour maintenir les évaluations de valeur de propriété à joursur des ressources limitées. Les observations correspondent à des propriétés vendues dans lecomté au cours de l’année précédente. Chaque observation du fichier de données enregistrela ville où se trouve la propriété, l’évaluateur ayant visité la propriété pour la dernière fois,le temps écoulé depuis cette évaluation, l’évaluation effectuée à ce moment-là et la valeurde vente de la propriété.

property_assess_cs.sav. Ce fichier de données d’hypothèse concerne les mesuresqu’entreprend un contrôleur du gouvernement pour maintenir les évaluations de valeur depropriété à jour sur des ressources limitées. Les observations correspondent à des propriétésde l’état. Chaque observation du fichier de données enregistre le comté, la ville et le quartieroù se trouve la propriété, le temps écoulé depuis la dernière évaluation et l’évaluation alorseffectuée.

property_assess_cs_sample.sav. Ce fichier de données d’hypothèse contient un échantillondes propriétés répertoriées dans le fichier property_assess_cs.sav. L’échantillon a étéprélevé selon le plan spécifié dans le fichier de plan property_assess.csplan et ce fichier dedonnées enregistre les probabilités d’inclusion et les pondérations d’échantillon. La variablesupplémentaire Valeur courante a été collectée et ajoutée au fichier de données une foisl’échantillon prélevé.

39


recidivism.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend uneagence administrative d’application de la loi pour interpréter les taux de récidive dans lajuridiction. Chaque observation correspond à un récidiviste et enregistre les informationsdémographiques qui lui sont propres, certains détails sur le premier délit commis, ainsi quele temps écoulé jusqu’à la seconde arrestation si elle s’est produite dans les deux annéessuivant la première.

recidivism_cs_sample.sav. Ce fichier de données d’hypothèse concerne les mesuresqu’entreprend une agence administrative d’application de la loi pour interpréter les taux derécidive dans la juridiction. Chaque observation correspond à un récidiviste libéré suiteà la première arrestation en juin 2003 et enregistre les informations démographiques quilui sont propres, certains détails sur le premier délit commis et les données relatives à laseconde arrestation, si elle a eu lieu avant fin juin 2006. Les récidivistes ont été choisis dansplusieurs départements échantillonnés conformément au plan d’échantillonnage spécifié dansrecidivism_cs.csplan. Ce plan faisant appel à une méthode d’échantillonnage de probabilitéproportionnelle à la taille (PPS - Probability proportional to size), il existe également unfichier contenant les probabilités de sélection conjointes (recidivism_cs_jointprob.sav).

rfm_transactions.sav.Un fichier de données d’hypothèse qui contient les données de transactiond’achat, y compris la date d’achat, le/les élément(s) acheté(s) et le montant monétaire pourchaque transaction.

salesperformance.sav. Ce fichier de données d’hypothèse concerne l’évaluation de deuxnouveaux cours de formation en vente. Soixante employés, divisés en trois groupes, reçoiventchacun une formation standard. En outre, le groupe 2 suit une formation technique et legroupe 3 un didacticiel pratique. A l’issue du cours de formation, chaque employé est testé etsa note enregistrée. Chaque observation du fichier de données représente un stagiaire distinctet enregistre le groupe auquel il a été assigné et la note qu’il a obtenue au test.

satisf.sav. Il s’agit d’un fichier de données d’hypothèse portant sur une enquête de satisfactioneffectuée par une société de vente au détail au niveau de quatre magasins. Un total de582 clients ont été interrogés et chaque observation représente la réponse d’un seul client.

screws.sav.Ce fichier de données contient des informations sur les descriptives des vis, desboulons, des écrous et des clous.(Hartigan, 1975).

shampoo_ph.sav. Ce fichier de données d’hypothèse concerne le processus de contrôle qualitéobservé dans une usine de produits capillaires. A intervalles réguliers, six lots de sortiedistincts sont mesurés et leur pH enregistré. La plage cible est 4,5–5,5.

ships.sav. Il s’agit d’un ensemble de données présenté et analysé ailleurs (McCullagh etal., 1989) et concernant les dommages causés à des cargos par les vagues. Les effectifsd’incidents peuvent être modélisés comme des incidents se produisant selon un taux dePoisson en fonction du type de navire, de la période de construction et de la période de service.Les mois de service totalisés pour chaque cellule du tableau formé par la classification croiséedes facteurs fournissent les valeurs d’exposition au risque.

site.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend une sociétépour choisir de nouveaux sites pour le développement de ses activités. L’entreprise a faitappel à deux consultants pour évaluer séparément les sites. Ces consultants, en plus de fournirun rapport approfondi, ont classé chaque site comme constituant une éventualité « bonne »,« moyenne » ou « faible ».

40

Annexe A

smokers.sav. Ce fichier de données est extrait de l’étude National Household Survey ofDrug Abuse de 1998 et constitue un échantillon de probabilité des ménages américains.(http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la première étape dans l’analyse de ce fichierdoit consister à pondérer les données pour refléter les tendances de population.

stocks.sav Ce fichier de données hypothétiques contient le cours et le volume des actionspour un an.

stroke_clean.sav. Ce fichier de données d’hypothèse concerne l’état d’une base de donnéesmédicales une fois celle-ci purgée via des procédures de l’option Validation de données.

stroke_invalid.sav. Ce fichier de données d’hypothèse concerne l’état initial d’une base dedonnées médicales et comporte plusieurs erreurs de saisie de données.

stroke_survival. Ce fichier de données d’hypothèse concerne les temps de survie de patientsqui quittent un programme de rééducation à la suite d’un accident ischémique et rencontrentun certain nombre de problèmes. Après l’attaque, l’occurrence d’infarctus du myocarde,d’accidents ischémiques ou hémorragiques est signalée, et le moment de l’événementenregistré. L’échantillon est tronqué à gauche car il n’inclut que les patients ayant survécudurant le programme de rééducation mis en place suite à une attaque.

stroke_valid.sav. Ce fichier de données d’hypothèse concerne l’état d’une base de donnéesmédicales une fois les valeurs vérifiées via la procédure Validation de données. Elle contientencore des observations anormales potentielles.

survey_sample.sav. Ce fichier de données concerne des informations d’enquête dont desdonnées démographiques et des mesures comportementales. Il est basé sur un sous-ensemblede variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnéesaient été modifiées et que des variables supplémentaires fictives aient été ajoutées à titre dedémonstration.

telco.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend une sociétéde télécommunications pour réduire les taux de désabonnement de sa base de clients.Chaque observation correspond à un client distinct et enregistre diverses informationsdémographiques et d’utilisation de service.

telco_extra.sav. Ce fichier de données est semblable au fichier de données telco.sav maisles variables de permanence et de dépenses des consommateurs transformées log ont étésupprimées et remplacées par des variables de dépenses des consommateurs transformées logstandardisées.

telco_missing.sav. Ce fichier de données est un sous-ensemble du fichier de données telco.savmais certaines des valeurs de données démographiques ont été remplacées par des valeursmanquantes.

testmarket.sav. Ce fichier de données d’hypothèse concerne une chaîne de fast foods et sesplans marketing visant à ajouter un nouveau plat à son menu. Trois campagnes étant possiblespour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieursmarchés sélectionnés au hasard. Une promotion différente est effectuée sur chaque site et lesventes hebdomadaires du nouveau plat sont enregistrées pour les quatre premières semaines.Chaque observation correspond à un site-semaine distinct.

testmarket_1month.sav. Ce fichier de données d’hypothèse est le fichier de donnéestestmarket.sav dans lequel les ventes hebdomadaires sont organisées par site distinct.Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes

http://dx.doi.org/10.3886/ICPSR02934

41


enregistrées sont à présent la somme des ventes réalisées au cours des quatre semaines del’enquête.

tree_car.sav. Ce fichier de données d’hypothèse concerne des données démographiques et deprix d’achat de véhicule.

tree_credit.sav. Ce fichier de données d’hypothèse concerne des données démographiqueset d’historique de prêt bancaire.

tree_missing_data.sav Ce fichier de données d’hypothèse concerne des donnéesdémographiques et d’historique de prêt bancaire avec un grand nombre de valeurs manquantes.

tree_score_car.sav. Ce fichier de données d’hypothèse concerne des données démographiqueset de prix d’achat de véhicule.

tree_textdata.sav. Ce fichier de données simples ne comporte que deux variables et viseessentiellement à indiquer l’état par défaut des variables avant affectation du niveau demesure et des étiquettes de valeurs.

tv-survey.sav. Ce fichier de données d’hypothèse concerne une enquête menée par un studiode télévision qui envisage de prolonger la diffusion d’un programme ou de l’arrêter. Ona demandé à 906 personnes si elles regarderaient le programme dans diverses situations.Chaque ligne représente un répondant distinct et chaque colonne une situation distincte.

ulcer_recurrence.sav. Ce fichier contient des informations partielles d’une enquête visant àcomparer l’efficacité de deux thérapies de prévention de la récurrence des ulcères. Il fournitun bon exemple de données censurées par intervalle et a été présenté et analysé ailleurs(Collett, 2003).

ulcer_recurrence_recoded.sav. Ce fichier réorganise les informations figurant dans le fichierulcer_recurrence.sav pour que vous puissiez modéliser la probabilité d’événement pourchaque intervalle de l’enquête plutôt que la probabilité d’événement de fin d’enquête. Il a étéprésenté et analysé ailleurs (Collett et al., 2003).

verd1985.sav. Ce fichier de données concerne une enquête (Verdegaal, 1985). Les réponses de15 sujets à 8 variables ont été enregistrées. Les variables présentant un intérêt sont diviséesen trois ensembles. Le groupe 1 comprend l’âge et la situation familiale, le groupe 2 lesanimaux domestiques et la presse, et le groupe 3 la musique et l’habitat. A la variable animaldomestique est appliqué un codage nominal multiple et à âge, un codage ordinal ; toutes lesautres variables ont un codage nominal simple.

virus.sav. Ce fichier de données d’hypothèse concerne les mesures qu’entreprend unfournisseur de services Internet pour déterminer les effets d’un virus sur ses réseaux. Il a suivile pourcentage (approximatif) de trafic de messages électroniques infectés par un virus sur sesréseaux sur la durée, de la découverte à la circonscription de la menace.

wheeze_steubenville.sav. Il s’agit d’un sous-ensemble d’une enquête longitudinale des effetsde la pollution de l’air sur la santé des enfants (Ware, Dockery, Spiro III, Speizer, et Ferris Jr.,1984). Les données contiennent des mesures binaires répétées de l’état asthmatique d’enfantsde la ville de Steubenville (Ohio), âgés de 7, 8, 9 et 10 ans, et indiquent si la mère fumaitau cours de la première année de l’enquête.

workprog.sav. Ce fichier de données d’hypothèse concerne un programme de l’administrationvisant à proposer de meilleurs postes aux personnes défavorisées. Un échantillon departicipants potentiels au programme a ensuite été prélevé. Certains de ces participants ont

42

Annexe A

été sélectionnés au hasard pour participer au programme. Chaque observation représente unparticipant au programme distinct.

worldsales.sav Ce fichier de données hypothétiques contient les revenus des ventes parcontinent et par produit.

Annexe

BRemarques

Ces informations ont été développées pour les produits et services offerts dans le monde.

Il est possible qu’IBM n’offre pas dans les autres pays les produits, services et fonctionnalitésdécrits dans ce document. Contactez votre représentant local IBM pour obtenir des informationssur les produits et services actuellement disponibles dans votre région. Toute référence à unproduit, programme ou service IBM n’implique pas que les seuls les produits, programmesou services IBM peuvent être utilisés. Tout produit, programme ou service de fonctionnalitééquivalente qui ne viole pas la propriété intellectuelle IBM peut être utilisé à la place. Cependantl’utilisateur doit évaluer et vérifier l’utilisation d’un produit, programme ou service non IBM.

IBM peut posséder des brevets ou des applications de brevet en attente qui couvrent les sujetsdécrits dans ce document. L’octroi de ce document n’équivaut aucunement à celui d’une licencepour ces brevets. Vous pouvez envoyer par écrit des questions concernant la licence à :

IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,États-Unis

Pour obtenir des informations de licence concernant la configuration de caractères codés surdeux octets (DBCS), veuillez contacter dans votre pays le département chargé de la propriétéintellectuelle chez IBM ou envoyez vos commentaires par écrit à :

Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japon.

Le paragraphe suivant ne s’applique pas au Royaume-Uni ni à aucun pays dans lequel ces dispositionssont contraires au droit local : INTERNATIONAL BUSINESS MACHINES FOURNIT CETTEPUBLICATION « EN L’ETAT » SANS GARANTIE D’AUCUNE SORTE, IMPLICITE OUEXPLICITE, Y COMPRIS, MAIS SANS ETRE LIMITE AUX GARANTIES IMPLICITES DENON VIOLATION, DE QUALITE MARCHANDE OU D’ADAPTATION POUR UN USAGEPARTICULIER. Certains états n’autorisent pas l’exclusion de garanties explicites ou impliciteslors de certaines transactions, par conséquent, il est possible que cet énoncé ne vous concerne pas.

Ces informations peuvent contenir des erreurs techniques ou des erreurs typographiques. Cesinformations sont modifiées de temps en temps ; ces modifications seront intégrées aux nouvellesversions de la publication. IBM peut apporter des améliorations et/ou modifications des produitset/ou des programmes décrits dans cette publications à tout moment sans avertissement préalable.

Toute référence dans ces informations à des sites Web autres qu’IBM est fournie dans un butpratique uniquement et ne sert en aucun cas de recommandation pour ces sites Web. Le matérielcontenu sur ces sites Web ne fait pas partie du matériel de ce produit IBM et l’utilisation de cessites Web se fait à vos propres risques.

IBM peut utiliser ou distribuer les informations que vous lui fournissez, de la façon dont il lesouhaite, sans encourir aucune obligation envers vous.


44

Annexe B

Les personnes disposant d’une licence pour ce programme et qui souhaitent obtenir desinformations sur celui-ci pour activer : (i) l’échange d’informations entre des programmes créésde manière indépendante et d’autres programmes (notamment celui-ci) et (ii) l’utilisation mutuelledes informations qui ont été échangées, doivent contacter :

IBM Software Group, Attention: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, États-Unis.

Ces informations peuvent être disponibles, soumises à des conditions générales, et dans certainscas payantes.

Le programme sous licence décrit dans ce document et toute la documentation sous licencedisponible pour ce programme sont fournis par IBM en conformité avec les conditions de l’accorddu client IBM, avec l’accord de licence du programme international IBM et avec tout accordéquivalent entre nous.

les informations concernant les produits autres qu’IBM ont été obtenues auprès des fabricants deces produits, leurs annonces publiques ou d’autres sources publiques disponibles. IBM n’a pastesté ces produits et ne peut confirmer l’exactitude de leurs performances, leur compatibilité outoute autre fonctionnalité associée à des produits autres qu’IBM. Les questions sur les capacités deproduits autres qu’IBM doivent être adressées aux fabricants de ces produits.

Ces informations contiennent des exemples de données et de rapports utilisés au coursd’opérations quotidiennes standard. Pour les illustrer le mieux possible, ces exemples contiennentdes noms d’individus, d’entreprises, de marques et de produits. Tous ces noms sont fictifs ettoute ressemblance avec des noms et des adresses utilisés par une entreprise réelle ne seraitque pure coïncidence.

Si vous consultez la version papier de ces informations, il est possible que certaines photographieset illustrations en couleurs n’apparaissent pas.

Marques commerciales

IBM, le logo IBM, ibm.com et SPSS sont des marques commerciales d’IBM Corporation,déposées dans de nombreuses juridictions du monde entier. Une liste à jour des marques IBM estdisponible sur Internet à l’adresse http://www.ibm.com/legal/copytrade.shtml.

Adobe, le logo Adobe, PostScript et le logo PostScript sont des marques déposées ou des marquescommerciales de Adobe Systems Incorporated aux Etats-Unis et/ou dans d’autres pays.

Intel, le logo Intel, Intel Inside, le logo Intel Inside, Intel Centrino, le logo Intel Centrino, Celeron,Intel Xeon, Intel SpeedStep, Itanium, et Pentium sont des marques commerciales ou des marquesdéposées de Intel Corporation ou de ses filiales aux Etats-Unis et dans d’autres pays.

Java et toutes les marques et logos Java sont des marques commerciales de Sun Microsystems,Inc. aux Etats-Unis et/ou dans d’autres pays.

Linux est une marque déposée de Linus Torvalds aux Etats-Unis et/ou dans d’autres pays.

Microsoft, Windows, Windows NT et le logo Windows sont des marques commerciales deMicrosoft Corporation aux Etats-Unis et/ou dans d’autres pays.

UNIX est une marque déposée de The Open Group aux Etats-Unis et dans d’autres pays.

Ce produit utilise WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,http://www.winwrap.com/.

http://www.ibm.com/legal/copytrade.shtml

45

Remarques

Les autres noms de produits et de services peuvent être des marques d’IBM ou d’autres sociétés.

Les captures d’écran des produits Adobe sont reproduites avec l’autorisation de Adobe SystemsIncorporated.

Les captures d’écran des produits Microsoft sont reproduites avec l’autorisation de MicrosoftCorporation.

BibliographieBell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.New York: Harper & Row.

Blake, C. L., et C. J. Merz. 1998. "UCI Repository of machine learning databases." Available athttp://www.ics.uci.edu/~mlearn/MLRepository.html.

Breiman, L., et J. H. Friedman. 1985. Estimating optimal transformations for multiple regressionand correlation. Journal of the American Statistical Association, 80, .

Collett, D. 2003. Modelling survival data in medical research, 2 éd. Boca Raton: Chapman &Hall/CRC.

Davison, A. C., et D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.

Green, P. E., et Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.Hinsdale, Ill.: Dryden Press.

Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space forconfigurations of points. Psychometrika, 33, .

Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons.

Hastie, T., et R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.

Kennedy, R., C. Riquier, et B. Sharp. 1996. Practical applications of correspondence analysisto categorical data in market research. Journal of Targeting, Measurement, and Analysis forMarketing, 5, .

McCullagh, P., et J. A. Nelder. 1989. Generalized Linear Models, 2nd éd. Londres: Chapman &Hall.

Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints asdimensions of social behavior. Journal of Personality and Social Psychology, 30, .

Rickman, R., N. Mitchell, J. Dingman, et J. E. Dalen. 1974. Changes in serum cholesterol duringthe Stillman Diet. Journal of the American Medical Association, 228, .

Rosenberg, S., et M. P. Kim. 1975. The method of sorting as a data-gathering procedure inmultivariate research. Multivariate Behavioral Research, 10, .

Shao, J., et D. Tu. 1995. The Jackknife and Bootstrap. New York: Springer.

Van der Ham, T., J. J. Meulman, D. C. Van Strien, et H. Van Engeland. 1997. Empirically basedsubgrouping of eating disorders in adolescents: A longitudinal perspective. British Journalof Psychiatry, 170, .

Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en néerlandais). Leiden:Department of Data Theory, University of Leiden.

Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, et B. G. Ferris Jr.. 1984. Passivesmoking, gas cooking, and respiratory health of children living in six cities. American Review ofRespiratory Diseases, 129, .


http://www.ics.uci.edu/~mlearn/MLRepository.html

Indexamorce, 3, 11Estimations des paramètres, 30intervalle de confiance pour la médiane, 20intervalle de confiance pour les proportions, 16–17procédures prises en charge, 5Spécifications de bootstrap, 15

Estimations des paramètresdans l’amorce, 30

fichiers d’exempleemplacement, 32

intervalle de confiance pour la médianedans l’amorce, 20

intervalle de confiance pour les proportionsdans l’amorce, 16–17

marques commerciales, 44mentions légales, 43

Spécifications de bootstrapdans l’amorce, 15

47

ibm spss bootstrapping 21 - audentia-gestion.fr

Documents