OK

Thèse Constitution de fils de discussion cohérents à partir de conversations issues d'outils professionnels de communication et de collaboration

ref : 0022595 | 26 avr. 2019

date limite de candidature : 24 juil. 2019

42 rue des Coutures 14000 CAEN - France

votre rôle

Votre rôle est d'effectuer un travail de thèse sur "la constitution de fils de discussion cohérents à partir de conversations issues d'outils professionnels de communication et de collaboration".

Contexte :

Au cours des dernières décennies, le travail collaboratif en entreprise s'est beaucoup développé ce qui génère d'énormes quantités de données, notamment sur le poste de travail. Ces données d'échange représentent une source considérable de connaissance potentielle, souvent ignorée. Comment exploiter cette connaissance explicite, mais souvent peu structurée, contextuelle et noyée dans un océan d'information ?

Qui n'est pas régulièrement confronté à la difficulté de retrouver un mail ou un document sur le poste de travail, même en utilisant les outils de recherche avancée ? Le travailleur du savoir perd un temps considérable à retrouver l'information dont il a besoin. Différentes études indiquent qu'on passe entre 20 et 30% de notre temps à chercher l'information.

Si l'on pouvait établir des liens logiques entre diverses sous-parties des messages d'une conversation, cela permettrait de reconstituer des fils de discussion distincts et de mieux comprendre la teneur des échanges : qui fait quoi, quand et pourquoi ? Par exemple, quelle est l'intention de l'auteur sur telle partie du contenu, et à qui cela s'adresse-t-il ? Une réponse a-t-elle été apportée en temps voulu ?» Cette compréhension fine des échanges devrait permettre d'améliorer la réalisation de différentes tâches quotidiennes comme, par exemple, la recherche d'information, le classement automatique, le suivi d'actions ou la génération de réponses automatiques.

Etat de l'art :

En 2004, pour aller au-delà du traditionnel classement thématique des mails, Cohen et al. [1] proposaient une approche visant à détecter l'intention des auteurs des mails grâce à une ontologie d'actes de langage (Speech Acts). Leur conclusion était, d'une part, qu'il faudrait tenir compte du contexte d'un mail afin de pouvoir détecter des actes de langage implicites et, d'autre part, qu'il est fréquent qu'un message porte sur plusieurs sujets de discussion en même temps. Ceci soulève deux problèmes difficiles : la segmentation des messages et les discussions imbriquées.

La segmentation de texte, dont le but est de déterminer les frontières entre les différents sujets abordés dans des textes longs - ce qui peut être le cas des mails - ou dans des flux de texte afin de diviser ces textes en un ensemble de segments cohérents [2], semble être un prérequis pour traiter le problème des discussions imbriquées.

Le problème des discussions imbriquées fait l'objet de nombreux travaux récents. Dulceanu [3] propose une méthode pour démêler les conversations en chat (Disentanglement) de manière à organiser toutes les « paroles » (Utterances) en fils de discussion logiquement ordonnés. Ceci peut être utile pour la génération de synthèse, le suivi des conversations, l'extraction de connaissance de ce type de flux d'échange, ou pour identifier les facilitateurs de collaborations. Dans son approche, l'auteur combine similarité sémantique, actes de langage et aspects temporels et lexicaux. Les résultats obtenus semblent encourageants sauf pour les fils courts (de 1 à 5 échanges).

D'autres travaux [4] combinent démêlage des conversations, actes de langage et analyse de la cohérence (Coherence Analysis) afin de (re)donner plus de sens au discours en ligne et de mieux comprendre les actions demandées ou réalisées. L'analyse de la cohérence vise à corriger l'incohérence naturelle du discours en reconstruisant des relations critiques pour la compréhension (e.g. la relation "répondre à").

Des précisions sur la mission scientifique et les principales activités associées sont dans la section 3 "Le plus d'offre".

votre profil

Vous avez un Master ou diplôme d'ingénieur en informatique ou « data science ».
connaissances générales, théoriques et pratiques, dans les techniques et outils d'IA et de modélisation de données ;

  • compétences élevées dans plusieurs des disciplines suivantes : Conversation Disentanglement, Speech Acts, Text Segmentation, Coherence Analysis ;
  • expérience en développement et prototypage logiciel ;
  • connaissances dans le domaine des outils de communication et de collaboration, et des média sociaux ;
  • capacités d'analyse et de synthèse ;
  • savoir communiquer et partager au sein d'une équipe ;
  • anglais maitrisé (lu, écrit, parlé).

stage significatif ou expérience professionnelle en entreprise ;

  • mise en oeuvre de techniques de gestion des connaissances et d'intelligence artificielle ;
  • projet(s) orienté(s) recherche ;
  • rédaction d'une ou plusieurs publications scientifiques.

le plus de l'offre

Objectif scientifique - verrous à lever

L'objectif de la thèse est de produire des fils de discussion à partir de l'analyse de conversations issues d'outils professionnels de communication et de collaboration (e.g. messagerie, IM, réseau social d'entreprise). Plus précisément, il s'agit de décomposer des conversations existantes (réalisées par exemple via l'outil de messagerie Outlook) en sous-conversations qui présentent chacune une logique conversationnelle focalisée sur un objectif collaboratif clair et identifié.

Le but visé par ces travaux est de mieux connaître l'état des échanges en cours, pour chaque partie prenante, afin de permettre de fluidifier les échanges, de faciliter les fonctions de recherche d'information (Search) ou de fournir à l'utilisateur la bonne information au bon moment (Push d'information contextuel).

Concernant la fluidification des échanges, par exemple, il s'agit d'identifier :

  • les points de blocage en cours - pour action éventuelle,
  • les tâches ou actions terminées - archivage possible,
  • les canaux de communication à privilégier - gain en efficacité,
  • les parties d'un échange en cours qui me concernent - gain de temps.

Concernant la fonction Search, les mécanismes actuels se caractérisent typiquement par la combinaison d'une recherche de contenu (mots-clés, texte…) et d'un filtrage appliqué sur les métadonnées (expéditeur, date, type, dossier cible, pièce jointe…). Une limite principale de ces mécanismes réside dans le fait que les messages sont traités indépendamment les uns des autres et que la recherche fonctionne de manière binaire (vrai ou faux). Grâce à un découpage des messages en sous-parties reliées les unes aux autres selon des fils de conversation cohérents, en tenant compte du contexte, on devrait alors pouvoir proposer un mécanisme de recherche approchée via l'application d'outils d'IA (notamment d'analyse sémantique) ; en effet, ces fils de discussion constituent une sorte de « prétraitement » des sources de données.

En outre, un travail de thèse en cours à Orange Labs permet d'établir des liens logiques entre des conversations « physiquement » disjointes réalisées via Outlook, mais qui contribuent au même objectif collaboratif. Ceci ne fait que renforcer la notion de source de données pré-traitées.

Approche méthodologique-planning

Voici une proposition de plan de travail organisé selon quatre grandes parties, séquentielles ou non. Ceci pourra être adapté au fil du déroulement des travaux.

Partie 1

  • Réaliser un état de l'art sur des modèles d'échanges permettant de décomposer les conversations de messagerie en sous-parties cohérentes, ainsi que sur les outils permettant d'exploiter ces modèles.
  • Monter en compétence sur les divers modèles et outils (sémantique, statistique, actes de langage…) existants au sein d'Orange, et analyser leur potentiel et leurs limites.

Partie 2

  • Proposer une ou plusieurs pistes d'évolution du(des) modèle(s) retenu(s) et l'(les)adapter au contexte et aux usages des échanges par messagerie réalisés à Orange.
  • Spécifications d'un prototype.
  • Développement, test, validation et expérimentation du prototype.
  • Analyse et conclusions ; présentation des résultats.

Partie 3

  • Etendre les travaux à l'IM, puis aux réseaux collaboratifs d'entreprise en prenant en compte leurs spécificités. Par exemple, les CR de réunion déposés sur un espace partagé peuvent-ils être reliés directement à des fils de discussion ?
  • Proposer un ou plusieurs use cases permettant d'illustrer au mieux la valorisation des résultats obtenus.

Partie 4

  • Communiquer sur les travaux, notamment au travers de documents écrits, de démos et de présentations orales. Une ou plusieurs publications scientifiques sont à prévoir.
  • Rédiger le manuscrit de thèse.

entité

Vous travaillerez au sein d'une équipe d'une douzaine de personnes dont une partie contribue au projet de recherche « Smart Working » qui s'inscrit dans le domaine « Digital Enterprise ». Cette équipe rassemble diverses compétences techniques et métier sur les outils et services de communications et de collaboration en entreprise. Elle travaille régulièrement en collaboration avec d'autres équipes d'Orange spécialisées en gestion de la connaissance, en machine learning, en ergonomie et en sociologie.

Qu'est ce qui fait la valeur ajoutée de cette offre ?

Cette offre est une opportunité de réaliser des travaux de recherche approfondis au sein d'un des acteurs majeurs au niveau européen de la recherche dans le secteur des télécommunications et du numérique. Les travaux à mener s'inscrivent dans un contexte d'entreprise, avec des use cases concrets et des données d'échanges et d'utilisations réelles.

Les travaux de cette thèse requièrent un bon équilibre entre savoirs théoriques, compétences techniques et capacités de mise en oeuvre au travers d'un prototype.

Vous serez amené-e à collaborer régulièrement avec des spécialistes internes de l'IA (en particulier de l'analyse sémantique, du traitement du langage naturel, du machine learning).

Références :

[1]Cohen, W., Carvalho, V. & Mitchell, T. (2004). Learning to classify email into « Speech Acts ».

[2]Ji, X. & Zha, H. (2003). Domain-independent Text Segmentation Using Anisotropic Diffusion and Dynamic Programming.

[3]Dulceanu, A. (2016). Recovering implicit thread structure in chat conversations.

[4]Abbasi, A., Zhou, Y., Deng, S. & Zhang, P. (2018). Text analytics to support sense-making in social media: a Language-Action Perspective.

contrat

Thèse

Orange

top employer FR-2019 Happy Candidates - Happy AT WORK

en savoir plus sur nos  étapes de recrutement