Liens transverses ENS de Lyon

Agenda de l'ENS de Lyon

Deep dive into social network and economic data : a data driven approach for uncovering temporal ties, human mobility, and socioeconomic correlations

Soutenance de thèse

Vendredi 16 déc 2016
14h00
Soutenance de M. Yannick LEO du LIP sous la direction de M. Eric FLEURY

Intervenant(s)

Soutenance de M. Yannick LEO du LIP sous la direction de M. Eric FLEURY

Description générale
Ces dernières années, la quantité de données digitales personnelles enregistrées explose. La facilité d'enregistrement et de stockage de grosses données combiné au développement rapide d'outils qui permettent d'analyser des données utilisateurs prédire le comportement des utilisateurs ouvrent de nombreuses possibilités d'analyses. Les chercheurs peuvent utiliser une approche « Big Data » afin d'attaquer avec un nouvel angle des hypothèses de longues dates ou même répondre à de nouvelles questions innovantes. Notamment, les liens entre utilisateurs, impossible à obtenir à grande échelle sans enregistrement numérique, jouent un rôle prépondérant dans l'organisation de notre société moderne. De surcroît, étant une approche novatrice, la méthodologie utilisée tout au long de l'étude « Big Data » se doit d'être minutieuse pour garantir la justesse des résultats obtenus.
Cette thèse, composée de 8 chapitres, proposent des études diversifiées se basant toutes sur des grosses données dites « Big Data ». La pluralité des études menées tend à montrer la diversité des types de résultats qu'il est possible d'obtenir en se basant sur des données de qualité. Plus précisément, ces travaux sont centrés sur les réseaux d'utilisateurs pouvant évoluer au court du temps dans l'espace. Premièrement, des outils sont développés au chapitre 2 et 3 afin de comprendre la justesse des analyses « Big Data ». Ils permettent de quantifier la différence entre l'objet mesuré et l'objet analysé lors d'une l'étude. Deuxièmement, l'analyse pure et dure de données téléphoniques selon les aspects notamment temporel et spatial ont pour but de mieux comprendre le rôle de paramètres qui impactent le trafic. Troisièmement, les données réelles permettent de réaliser des expériences sur des cas concrets. Par exemple, au chapitre 4, à partir des enregistrements de SMS incluant le temps, le lieu, l'origine et la destination, il est possible de tester de nouveaux protocoles. En plus de comprendre la nature de l'activité, il est donc faisable d'expérimenter de nouvelles idées sur des scénarios existants et récents. Quatrièmement, la richesse des données traitées étant vraiment exceptionnelle, il nous a été possible de proposer une étude sociologique poussée. La combinaison de données téléphoniques et bancaires donne l'accès à de nombreux paramètres individuels comme l'âge, le sexe, l'adresse du logement, l'adresse de travail, l'activité téléphonique mais aussi le salaire et les dépenses.
J'introduis ma thèse par un chapitre qui présente les données téléphoniques et bancaires utilisées dans les travaux de recherche qui composent les parties 1 & 2. Ce chapitre 1 permet d'appréhender non seulement la qualité des données mais aussi son potentiel et ses limites. Les possibilités de questions sont très nombreuses compte tenu de la quantité des dimensions individuelles incluses dans les données partagées par Grandata Labs à l'échelle nationale du Mexique. Il est montré notamment que la répartition spatiale est cohérente avec la distribution réelle et que la répartition d'âge est logiquement différente dès que l'on considère les clients bancaires. Par ailleurs, une sous-représentation de la proportion de femmes témoigne d'un déséquilibre homme-femme. Dans les études sociologiques, il faut garder ce biais en tête afin de proposer des résultats valides. Il est aussi important de noter les limites, nos résultats sont bien évidemment dépendant de l'espace et de la période temporelle considérée.
Dans la partie 1, uniquement les données téléphoniques sont analysées. Les appels et SMS sont enregistrés dans le temps à la seconde près et dans l'espace via l'antenne de télécommunication. Les contacts entre personnes constituent un réseau social évoluant en fonction du temps. Bien que les contacts téléphoniques ne constituent pas l'unique moyen de communiquer, il s'avère très représentatif du réseau social réel de chacun des utilisateurs. Beaucoup de réseaux dynamiques se représentent par une liste de lien (u,v,t) où u et v sont deux nœuds ayant un lien à l'instant t. Un très grand nombre d'études commence par agréger les données en fenêtres temporelles de taille fixe afin d'obtenir une série de graphes plus facile à analyser. Dans le chapitre 2, nous étudions l'impact du choix de la taille de la fenêtre temporelle. Nous nous posons la question fondamentale suivante : combien une série de graphes obtenue par l'agrégation temporel est représentative de la série de contacts ponctuels originale ? Nous répondons empiriquement à cette question en montrant qu'il y a un seuil au delà duquel les transitions temporels (ou causalités) ne sont plus préservées. Si on agrège trop la série de contacts en choisissant une fenêtre trop large, le signal est dit saturé et les propriétés tel que la propagation sont altérées. Nous proposons une méthode automatique qui détermine cette échelle de saturation pour n'importe qu'elle flot de liens que nous validons sur plusieurs données réelles.
La méthodologie s'avère cruciale pour assurer des résultats valides et intéressants. S'assurer que l'objet étudié est proche de l'objet réel en est la clé. En parallèle de l'information temporelle, l'information spatiale fait aussi l'objet de beaucoup d'approximations. Dans la plupart des cas, les localités dans les données téléphoniques sont enregistrées lors de l'appel. La mobilité de l'utilisateur est souvent approximée par sa mobilité lors de son activité. Nous avons, dans le chapitre 3, montré la corrélation entre la mobilité et l'activité téléphonique d'un utilisateur. Ensuite, nous proposons de déterminer la distribution des mouvements réels à partir des localités des appels téléphoniques. Cette étude a une approche intéressante car elle se base sur la théorie de Palm qui permet de faire le lien entre plusieurs distributions.
En enregistrant des liens entre personnes, les données sont le témoin de scénarios réels. A ce titre, en supposant que peu de biais sont introduits dans la mesure du système dynamique, l'objet à étudier se transforme en terrain d'expérimentations. Au lieu de partir de modèles plus ou moins proches de la réalité, les scénarios réels permettent d'obtenir les exactes propriétés du tissu social dynamique comme le phénomène petit monde, les distributions temporelles des contacts, etc... Ainsi, au chapitre 4, nous expérimentons des protocoles de communication avec deux buts majeurs. D'une part, il est important de faire une analyse des données téléphoniques afin de mieux comprendre et prédire l’activité. D'autre part, différents protocoles de communication sont expérimentés à travers le réseau ad hoc constitué par les utilisateurs mobiles. Cette analyse ne permet pas seulement de tester de nouvelles approches mais avant tout de quantifier empiriquement la potentialité du réseau d'utilisateurs au vu d'une grande densité urbaine, d'une mobilité accentuée pendant les rush hours et des communications le plus souvent très locales. Par exemple, à Mexico City, en s'appuyant sur ces atouts, il est possible de délivrer plus de 50% des SMS. Ce taux de réussite peut atteindre 78% pendant les pics d'activités au moment même où l'infrastructure des opérateurs est mise à l'épreuve.
La première partie, se focalisant uniquement sur les contacts temporels et spatiaux, développe l'idée selon laquelle une attention très particulière doit être faite afin d'éviter les fausses conclusions. En faisant un réel travail sur les biais, les données téléphoniques deviennent un terrain de jeu très intéressants. Elles permettent de reproduire des scénarios à grande échelle sur des périodes assez longues. Pour complémenter ces études sur les réseaux dynamiques, nous combinons des données démographiques et bancaires aux enregistrements téléphoniques. En plus, d'avoir le réseau de communications, les attributs individuels concernant des millions d'utilisateurs sont disponibles : l'âge, le sexe, les adresses du domicile et du travail, le salaire, les dépenses et bien entendu le réseau ego centré. La seconde partie présente une étude sociologique assez complète qui propose un nouveau point de vue pour valider ou infirmer d'anciennes hypothèses ou établir de nouveaux résultats.
L'entrée en matière de la seconde partie, au chapitre 5, explique le passage entre les données bancaires brutes et des paramètres basées sur les dépenses qui décrivent la richesse. Nous montrons non seulement l'inégalité de répartition de la richesse mais aussi des dettes, elles suivent toutes deux une loi de Pareto. Les classes sociales, bien que difficiles à définir, sont présentées et analysées. La pyramide des âges inclut aussi le paramètre d'appartenance à une des 9 classes sociales. Nous montrons que les classes plus élevées ont une moyenne d'âge plus élevée. De plus, l'accès aux classes les plus hautes reste très limitée pour les femmes. En effet, seulement un quart des femmes composent la classe la plus riche alors qu'elles représentent la moitié des utilisateurs.
L'inégale répartition de la richesse a une influence directe sur l'établissement des sociétés modernes et de la structure sociale induite. Cependant, l'étude des corrélations entre le réseau social et le statut économique au niveau de l'individu est difficile en raison d'un manque de grosses données disposant de ces dimensions très différentes. Dans notre étude sociologique, nous comblons ce manque avec l'analyse simultanée de données téléphoniques et bancaires pouvant être relié grâce à un identifiant commun pour des millions d'utilisateurs à Mexico. Au chapitre 6, nous observons une structure très fortement stratifiée. Les personnes sont, en général,bien plus connectées et vivent plus proches avec les relations appartenant à la même classe sociale qu''avec les autres plus pauvres ou plus riches. Ce phénomène fait notamment apparaître des clubs de riches connectés. Ces résultats sont obtenus par l'utilisation d'outils statistiques mais surtout en comparant des propriétés du graphe réel avec un graphe aléatoire qui garde la distribution de degré (appelé « configuration model graph »). Cette comparaison permet de s’affranchir des biais liés au degré et quantifie uniquement la tendance qu'ont les gens à se lier en fonction de leur statut social.
La consommation de biens et de services est un élément crucial du bien-être de chacun. Les différences de pouvoir d'achat est un des facteurs des inégalités socio-économiques. La capacité économique d'un individu restreint sa façon de consommer et ira de pair avec ces habitudes d'achat et donc sa classe sociale. Dans les données bancaires, chaque achat possède un code parmi les centaines de codes de catégorie marchande. L'entreprise American Express propose de regrouper ces catégories en 28 groupes nous permettant d'étudier les achats des clients à des niveaux différents. Nous montrons qu'au niveau des groupes, la consommation est très différente. Les pauvres se concentrent sur des groupes nécessaires comme la nourriture alors que les riches se permettent de dépenser dans les voitures, les bijoux, etc. De surcroît, nous démontrons que le réseau social a un impact sur la façon de consommer, spécialement sur les groupes de dépenses reliés à l'éducation, au transport et aux hôtels. Dès lors, en considérant simplement les clients qui achètent les produits, il est possible de relier un produit à un âge moyen, une tendance de genre et même une classe sociale moyenne. En analysant les dépenses des utilisateurs sur les différentes catégories, certaines corrélations positives entre les catégories émergent. A partir des fortes corrélations, nous avons obtenu un graphe des catégories marchandes. L'idée est de mettre en avant l'organisation des dépenses de la société à partir d'étapes claires et justifiées.
Les raisons des inégalités socio-économiques se constatent sur de longues périodes de temps et se retransmettent de génération en génération. Nos données correspondent à une période de 2 ans et permettent de suivre la façon dont les utilisateurs communiquent. Ainsi, pour chaque utilisateur, nous étudions la quantité de relations qui persistent, qui apparaissent ou qui disparaissent. En comparant les étudiants entrant à l'université et un panel aléatoire d'utilisateurs, nous montrons que dans la période universitaire des relations se créent alors que plus généralement, la quantité d'apparitions et de disparitions de relations est constante dans le temps. Nous démontrons aussi que la façon de concentrer les contacts sur très peu de relations ou de disperser son effort de communication sur de nombreuses relations est propre à chaque individu même si elle est influencée par différents paramètres extérieurs comme le réseau social. Une façon de continuer ce projet serait de comprendre à quel point la façon de créer des relations à l'université impacte le succès (ou le salaire) après l'université. Il semble très intéressant de réussir à faire un premier lien entre les relations naissantes, la façon de communiquer avec les autres et le succès.
Ces travaux montrent à quel point le big data est intrinsèquement multidisciplinaire. Ma thèse, majoritairement dans le domaine informatique, présente donc des résultats applicables aussi bien dans la théorie des graphes, dans les réseaux de télécommunication que dans la sociologie et l'économie. Ces exemples d'études rendent compte de l'importance des discussions entre les domaines et par dessus tout de la complémentarité des approches dans le but de confirmer empiriquement des hypothèses et d'obtenir de nouveaux résultats. Outre l'aspect interdisciplinaire, avoir le contrôle de la méthodologie, comprendre l'usage des utilisateurs, développer de nouveaux systèmes de communications et analyser les corrélations socio- économique à l'échelle du réseau est directement profitable aux entreprises. Les prédictions, les recommandations et plus généralement l'expérience utilisateur sont améliorés par la qualité et la diversité des contributions obtenues dans ce domaine.
Complément

Amphi Descartes - ENS de lyon

Disciplines