Une nouvelle méthode d’Analyse de Données Textuelles au service du secteur financier

Publish date:

L’Analyse de Données Textuelles regroupe de nombreuses méthodes et de nombreux outils, qui visent à mettre en évidence l’information « essentielle » contenue dans un texte (article de presse, email, rapport, avis client, tweet, etc.).

Par Zied Haj Yahia, Adrien Sieg, Data Scientists chez Capgemini Invent et Léa Deleris, Head of Risk Artificial Intelligence Research chez BNP Paribas.

 

Définition de l’Analyse de Données Textuelles

L’Analyse de Données Textuelles (Natural Language Processing en anglais) regroupe aujourd’hui de nombreuses méthodes et de nombreux outils, qui visent à mettre en évidence l’information « essentielle » contenue dans un texte (article de presse, email, rapport, avis client, tweet, etc.). A cet égard, la classification automatique de textes est une des meilleures applications et illustrations de l’analyse de données textuelle – en permettant de trier et d’ordonner automatiquement des documents dans des catégories prédéfinies ou non. Le choix de la méthode de classification des données textuelles repose généralement sur deux critères :

  1. L’existence ou non de catégories « cibles » définies par le métier dans lesquelles les données sont rangées.
  2. Et dans le cas où ces catégories existent, la disponibilité ou non d’exemples de données textuelles pour chaque catégorie.

Les algorithmes d’apprentissage automatique (Machine Learning en anglais) sont performants lorsqu’il existe un grand nombre de données rattachées à des catégories. C’est ce qu’on appelle en data science un « échantillon d’apprentissage ».

Comment automatiser une tâche sans historique de données

Dans l’exemple que nous avons choisi de vous présenter, les données textuelles représentent des rapports d’incidents bancaires liés au risque opérationnel et les catégories cibles correspondent à une nouvelle taxonomie de risques. Celle-ci est une cartographie à plusieurs niveaux de granularité récemment créée par les fonctions et métiers de la banque afin de recenser et de résumer les risques opérationnels.

Étant nouvellement créée, il n’existe pas encore de rapports d’incidents et d’historiques de ces catégories de risques.

Un rattachement manuel des incidents serait très couteux en termes de temps et de ressources humaines. L’enjeu est donc de mettre en place une démarche de labellisation automatique des incidents dans des catégories de risques sans utiliser de données d’apprentissage – puisqu’il n’en n’existe pas.

Nous avons donc dû imiter le processus de rattachement que réalise un humain en deux phases : une première qui consiste à interpréter le texte à classer et lui associer une sémantique donnée ; et une seconde, qui considère cette sémantique pour trouver la classe qui lui est la plus proche.

Ceci passe par la bonne définition de dictionnaires apportant une notion de sémantique complémentaire à la description des incidents et des catégories de risque opérationnel.

Exemple de description d’un incident externe

En mai 2011, Seven Bank Ltd, une institution financière japonaise, a annoncé qu’elle avait perdu environ 4,4 millions de dollars (356 millions de yens) suite à un tremblement de terre et un tsunami au Japon. Le 11 mars 2011, un séisme d’une magnitude de 9,0 a déclenché des vagues de tsunami le long de la côte nord-est du Japon. Le tremblement de terre et le tsunami ont causé des dégâts considérables aux sept banques régionales basées dans les préfectures d’Iwate, Miyagi et Fukushima. Seven Bank a signalé que 2 100 de ses guichets automatiques sont devenus inutilisables en raison de la catastrophe. En avril 2011, seuls 70 de ces guichets automatiques étaient encore inutilisables. Seven Bank a déclaré avoir perdu 4,4 millions de dollars au cours de l’exercice 2010 en raison de la perte de guichets automatiques et d’autres actifs.

Label de la classe : Natural disaster

Dictionnaire de la classe :

Catastrophe naturelle, catastrophe, inondation, tremblement de terre, ouragan, tornade, éruption volcanique, tornade, éruption volcanique, éruption, tsunami, avalanche, glissement de terrain, gouffre, cyclone, tempête, typhon, blizzard, grêle, sécheresse, orage, feux de forêt, vagues de chaleur, chaleur, vagues, terre, sism, magnitude, destruction, dégâts

Figure 1 : Illustration du mécanisme de rattachement d’un rapport d’incident à une classe cible.
Source : https://worldwidescience.org

La solution que nous avons donc proposée consiste à inverser le problème en une similarité entre un document représentant l’incident et un autre représentant une catégorie. Néanmoins, les algorithmes de similarité textuelle qui se basent sur le descriptif de l’incident et le label de la catégorie ne suffisent pas pour avoir de bons rattachements. Il peut très bien s’agir de la fraude ou d’un prix erroné sans qu’il y ait le mot « fraude » ou « prix » dans les données brutes (cf. figure 1).

Il est donc nécessaire de définir des dictionnaires pour chaque catégorie de risque afin de se rapprocher de la syntaxe développée naturellement par un humain. Ces dictionnaires associés aux catégories de risque opérationnel doivent répondre à deux enjeux :

  1. Intégrer, pour chaque catégorie, le maximum de termes ou expressions techniques possibles issus du jargon du risque opérationnel et donc de la vision d’un expert.
  2. Intégrer le champ lexical associé à chaque catégorie : synonymes, variantes orthographiques, illustrations, etc.

Pour ce faire, un expert apporte 3 à 5 mots clés initiaux qui décrivent chaque catégorie de risque en plus de son label. Ensuite, nous complétons cette liste afin d’enrichir la connaissance que l’algorithme a des catégories de risques. Cela se fait en deux temps : d’une part, nous la complétons avec des modèles d’embeddings pré-entrainés sur des corpora externes (Wikipedia et articles de presse). D’autre part, nous complétons les catégories cibles par des mots clés issus des incidents eux-mêmes et qui ont une co-occurrence forte avec le dictionnaire des risques. Cette dernière méthode consiste à construire un espace vectoriel à partir du vocabulaire des incidents et des mots clés des catégories et ensuite transformer un mot en vecteur et lui rapporter les mots dont les vecteurs sont géométriquement proches.

Cette approche pour labelliser automatiquement un ensemble d’observations par des catégories cibles constitue une avancée par rapport à l’état de l’art de l’utilisation des algorithmes de similarité textuelle entre des documents. Elle a été réfléchie et conçue dans un cadre réglementaire lié au risque opérationnel mais elle reste généralisable à d’autres cas d’usages où la problématique se prête bien à un apprentissage supervisé sans qu’il y ait d’historique d’observations pour construire des algorithmes prédictifs.

Le facteur clé de réussite de cette approche réside dans la bonne définition d’une sémantique associée à chaque observation et à chaque catégorie cible à prédire. Celle-ci se matérialise sous forme de dictionnaires amenés à évoluer dans le temps afin de continuer à « capter » tous les mots ou expressions susceptibles de contribuer à affiner le calcul des scores de similarités. La solution utilisée en ce sens consiste à coupler l’expertise métier avec l’apport de plusieurs embeddings ou représentations vectorielles d’un mot clé dans un espace défini par tous les mots pertinents liés à l’évènement à modéliser. Grâce à cette sémantique, nous maximisons les chances de l’algorithme de bien associer une observation à une classe donnée.

En résumé : 

Lisez l’article complet (en anglais)