context.tex (18373B)
1 \section{Contexte} 2 \label{sec:french:context} 3 L'extraction de relations peut nous aider à mieux comprendre le fonctionnement des langues. 4 Par exemple, la question de savoir s'il est possible d'apprendre une langue à partir d'une petite quantité de données reste une question ouverte en linguistique. 5 L'argument de la pauvreté du stimulus affirme que les enfants ne devraient pas être capable d'acquérir des compétences linguistiques en étant exposés à si peu de données.% 6 \sidenote{Ce qui impliquerait qu'une partie de la maîtrise du langage est innée.} 7 Il s'agit de l'un des principaux arguments en faveur de la théorie controversée de la grammaire universelle. 8 Capturer des relations à partir de rien d'autre qu'un petit nombre d'expressions en langue naturelle serait un premier pas vers la réfutation de l'argument de la pauvreté du stimulus. 9 10 Ce type de motivation derrière le problème d'extraction de relations cherche à avancer l'\emph{épistémè}.% 11 \sidenote{Du grec ancien \foreignlanguage{greek}{ἐπιστήμη} : connaissance, savoir.} 12 Cependant, la plupart des avancées sur cette tâche découlent d'une recherche de \emph{technè}.% 13 \sidenote{Du grec ancien \foreignlanguage{greek}{τέχνη} : technique, art.} 14 L'objectif final est de construire un système ayant des applications dans le monde réel. 15 Dans cette perspective, l'intelligence artificielle a pour but de remplacer ou d'assister les humains dans des tâches spécifiques. 16 La plupart des tâches nécessitent une certaine forme de connaissances techniques (par exemple, le diagnostic médical nécessite la connaissance des relations entre symptômes et maladies). 17 Le principal vecteur de connaissances est le langage (par exemple, à travers l'éducation). 18 Ainsi, l'acquisition de connaissances à partir d'énoncés en langue naturelle est un problème fondamental pour les systèmes destinés à avoir des applications concrètes. 19 20 \Textcitex{assisted_curation} présentent une analyse de l'impact des systèmes d'extraction de connaissances à partir de textes sur un problème concret. 21 Leur article montre que les annotateurs humains peuvent utiliser un système d'apprentissage automatique pour mieux extraire un ensemble d'interactions protéine--protéine de la littérature biomédicale. 22 Il s'agit clairement d'une recherche de \emph{technè} : les interactions protéine--protéine ne sont pas de nouvelles connaissances, elles sont déjà publiées ; cependant, le système améliore le travail de l'opérateur humain. 23 24 Cet exemple d'application est révélateur du problème plus vaste de l'explosion informationnelle. 25 La quantité d'informations publiées n'a cessé de croître au cours des dernières décennies. 26 L'apprentissage automatique peut être utilisé pour filtrer ou agréger cette grande quantité de données. 27 Pour ce genre de tâches, l'objet d'intérêt n'est pas le texte en lui-même mais la sémantique véhiculée, sa signification. 28 Une question se pose alors : comment définir la sémantique que l'on cherche à traiter ? 29 En effet, la définition du concept de \frquote{sens} fait l'objet de nombreuses discussions dans la communauté philosophique. 30 Bien que certains sceptiques, comme Quine, ne reconnaissent pas le sens comme un concept essentiel, ils estiment qu'une description minimale du sens devrait au moins englober la reconnaissance de la synonymie. 31 Cela fait suite à la discussion ci-dessus sur la reconnaissance des répétitions : si \input{frontmatter/gavagai 1.tex} est une répétition de \input{frontmatter/gavagai 2.tex}, nous devrions pouvoir dire que \input{frontmatter/gavagai 1.tex} et \input{frontmatter/gavagai 2.tex} sont synonymes. 32 En pratique, cela implique que nous devrions être en mesure d'extraire des classes de formes linguistiques ayant la même signification ou le même référent --- la différence entre les deux n'est pas pertinente pour notre problème. 33 34 \begin{marginparagraph}[-5cm] 35 \includegraphics[width=\marginparwidth]{frontmatter/Paris Quadrifolia.jpg} 36 Paris (\wdent{162121}) n'est ni la capitale de la France, ni le prince de Troie, c'est le genre de la parisette à quatre feuilles. 37 La capitale de la France est Paris (\wdent{90}) et le prince de Troie, fils de Priam, Pâris (\wdent{167646}). 38 Illustration tirée de \textcite{paris_quadrifolia}. 39 \label{margin:french:paris quadrifolia} 40 \end{marginparagraph} 41 \begin{epigraph} 42 {Willard Van Orman Quine} 43 {\citetitle{quine_two_dogma}} 44 {\cite*{quine_two_dogma}} 45 [Traduction de \textsc{Laugier} (\cite*{quine_two_dogma_fr})][5cm] 46 La signification, c'est ce que devient l'essence, une fois divorcée d'avec l'objet de la référence et remariée au mot. 47 \end{epigraph} 48 49 Bien que la discussion au sujet du sens soit essentielle pour définir la notion de relation qui nous intéresse, il est important de noter que nous travaillons sur la langue naturelle ; nous voulons extraire des relations à partir de textes, et non de répétitions d'entités abstraites. 50 Pourtant, la correspondance entre les signifiants linguistiques et leur signification n'est pas bijective. 51 Nous pouvons distinguer deux types de désalignement entre les deux : soit deux expressions renvoient au même objet (synonymie), soit la même expression renvoie à des objets différents selon le contexte dans lequel elle apparaît (homonymie). 52 La première variété de désalignement est la plus courante, surtout au niveau de la phrase. 53 Par exemple, \frquote{Paris est la capitale de la France} et \frquote{la capitale de la France est Paris} véhiculent le même sens malgré des formes écrites et orales différentes. 54 Au contraire, le second type est principalement visible au niveau des mots. 55 Par exemple, la préposition \frquote{de} dans les phrases \frquote{frémir de peur} et \frquote{Bellérophon de Corinthe} traduit soit une relation \textsl{causé par} soit une relation \textsl{né à}. 56 Pour distinguer ces deux utilisations de \frquote{de,} nous pouvons utiliser des identifiants de relation tels que \wdrel{828} pour \textsl{causé par} et \wdrel{19} pour \textsl{né à}. 57 Un exemple avec des identifiants d'entités --- qui ont pour but d'identifier de manière unique les concepts d'entité --- est donné dans la marge. 58 59 Alors que la discussion qui précède donne l'impression que tous les objets s'inscrivent parfaitement dans des concepts clairement définis, en pratique, c'est loin d'être le cas. 60 Très tôt dans la littérature de la représentation des connaissances, \textcitex{is-a_analysis} a remarqué la difficulté de définir clairement des relations apparemment simples telles que \textsl{instance de} (\wdrel{31}). 61 Ce problème découle de l'hypothèse selon laquelle la synonymie est transitive et, par conséquent, induit des classes d'équivalence. 62 Cette hypothèse est assez naturelle puisqu'elle s'applique déjà au lien entre le langage et ses références : même si deux chats peuvent être très différents l'un de l'autre, nous les regroupons sous le même signifiant. 63 Cependant, la langue naturelle est flexible. 64 Lorsque nous essayons de capturer l'entité \frquote{chat,} il n'est pas tout à fait clair si nous incluons \frquote{un chat avec le corps d'une tarte aux cerises} dans les expériences ordinaires de chat.% 65 \sidenote[][-14mm]{Le lecteur qui décrirait une telle entité comme étant un chat est invité à remplacer diverses parties du corps de ce chat imaginaire par des aliments jusqu'à ce que cesse son expérience de \emph{félinité}.} 66 Pour contourner ce problème, certains travaux récents sur le problème d'extraction de relations \parencitex{fewrel} définissent la synonymie comme une association continue intransitive. 67 Au lieu de regrouper les formes linguistiques dans des classes bien définies partageant un sens unique, ils extraient une fonction de similarité mesurant la ressemblance de deux objets. 68 69 \smallskip 70 71 Maintenant que nous avons conceptualisé notre problème, concentrons-nous sur l'approche technique que nous proposons. 72 Tout d'abord, pour résumer, cette thèse se concentre sur l'extraction non supervisée de relations à partir de textes.% 73 \sidenote[][-6.4mm]{Nous utilisons le texte car il s'agit de l'expression la moins ambiguë et la plus facile à traiter de la langue.} 74 Les relations étant des objets capturant les interactions entre les entités, notre tâche est de trouver la relation reliant deux entités données dans un texte. 75 Par exemple, dans les trois exemples suivants où les entités sont soulignées : 76 \begin{marginparagraph} 77 Nous utilisons les identifiants Wikidata (\url{https://www.wikidata.org}) pour indexer les entités et les relations. 78 Les identifiants des entités commencent par \texttt{Q}, tandis que les identifiants des relations commencent par \texttt{P}. 79 Par exemple, \wdent{35120} est une entité. 80 \end{marginparagraph} 81 \begin{marginparagraph} 82 \includegraphics[width=\marginparwidth]{frontmatter/Ship of Theseus.jpg} 83 Ariane se réveille sur le rivage de Naxos où elle a été abandonnée, peinture murale d'Herculanum dans la collection du \textsc{British Museum} (\cite*{ship_of_theseus}). 84 Le navire au loin peut être identifié comme étant le bateau de Thésée, pour l'instant. 85 Selon le point de vue philosophique du lecteur (\wdent{1050837}), son identité en tant que bateau de Thésée pourrait ne pas perdurer. 86 \end{marginparagraph} 87 \begin{indentedexample} 88 \uhead{Megrez} est une étoile de la constellation circumpolaire nord de la \utail{Grande Ourse}. 89 90 \smallskip 91 92 \uhead{Posidonios} était un philosophe, astronome, historien, mathématicien et professeur grec originaire d'\utail{Apamée}. 93 94 \smallskip 95 96 \uhead{Hipparque} est né à \utail{Nicée}, et est probablement mort sur l'île de Rhodes, en Grèce. 97 \end{indentedexample} 98 nous souhaitons reconnaître que les deux dernières phrases véhiculent la même relation --- dans ce cas, \sfTripletHolds{e_1}{né à}{e_2} (\wdrel{19}) --- ou du moins, suivant la discussion du paragraphe précédent sur la difficulté de définir des classes de relations, nous voulons reconnaître que les relations exprimées par les deux derniers échantillons sont plus proches l'une de l'autre que celle exprimée par le premier échantillon. 99 Nous avançons que cela peut être réalisé par des algorithmes d'apprentissage automatique. 100 En particulier, nous étudions comment aborder cette tâche en utilisant l'apprentissage profond. 101 Bien que l'extraction de relations puisse être abordée comme un problème de classification supervisée standard, l'étiquetage d'un jeu de données avec des relations précises est une tâche fastidieuse, en particulier lorsque l'on traite des documents techniques tels que la littérature biomédicale étudiée par \textcite{assisted_curation}. 102 Un autre problème fréquemment rencontré par les annotateurs est la question de l'applicabilité d'une relation, par exemple, l'expression \frquote{le \utail{père} fondateur du \uhead{pays}} doit-elle être étiquetée avec la relation \textsl{produit--producteur} ?% 103 \sidenote{ 104 L'annotateur de ce morceau de phrase dans le jeu de données SemEval~2010 Task~8 a considéré qu'il exprimait effectivement la relation \textsl{produit--producteur}. 105 La difficulté d'appliquer précisément une définition est un argument supplémentaire en faveur des approches basées sur les fonctions de similarité par rapport aux approches de classification. 106 } 107 Nous examinons maintenant comment l'apprentissage profond est devenu la technique la plus prometteuse pour s'attaquer aux problèmes de traitement de la langue naturelle. 108 109 La matière première du problème d'extraction de relations est le langage. 110 Le traitement automatique de la langue naturelle (\textsc{tal})% 111 \sidenote{\emph{natural language processing} (\textsc{nlp})} 112 était déjà une direction de recherche importante dans les premières années de l'intelligence artificielle. 113 On peut le voir du point de vue \emph{épistémè} dans l'article fondateur de \textcitex{turing_test}. 114 Cet article propose la maîtrise du langage comme preuve d'intelligence, dans ce qui est maintenant connu sous le nom de test de Turing. 115 La langue était également un sujet d'intérêt pour des objectifs de \emph{technè}. 116 En janvier 1954, l'expérience de Georgetown--\textsc{ibm} tente de démontrer la possibilité de traduire le russe en anglais à l'aide d'ordinateurs \parencite{georgetown-ibm}. 117 L'expérience proposait de traduire soixante phrases en utilisant un dictionnaire bilingue pour traduire individuellement les mots et six types de règles grammaticales pour les réorganiser. 118 Les premières expériences ont suscité beaucoup d'attentes, qui ont été suivies d'une inévitable déception, entraînant un \frquote{hiver} durant lequel les fonds attribués à la recherche en intelligence artificielle ont été restreints. 119 Si la traduction mot à mot est assez facile dans la plupart des cas, la traduction de phrases entières est beaucoup plus difficile. 120 La mise à l'échelle de l'ensemble des règles grammaticales dans l'expérience de Georgetown--\textsc{ibm} s'est avérée impraticable. 121 Cette limitation n'était pas d'ordre technique. 122 Avec l'amélioration des systèmes de calcul, davantage de règles auraient pu facilement être codées. 123 L'un des problèmes identifiés à l'époque était celui de la compréhension du sens commun.% 124 \sidenote[][-42.5mm]{\emph{commonsense knowledge}} 125 Pour traduire ou, plus généralement, traiter une phrase, il faut la comprendre dans le contexte du monde dans lequel elle a été prononcée. 126 De simples règles de réécriture ne peuvent pas rendre compte de ce processus.% 127 \sidenote[][-5cm]{ 128 Par ailleurs, la grammaire est encore un domaine de recherche actif. 129 Nous ne comprenons pas parfaitement la réalité sous-jacente capturée par la plupart des mots et sommes donc incapables d'écrire des règles formelles complètes pour leurs usages. 130 Par exemple, \textcite{prepositions_francais} présente un article de linguistique traitant de l'utilisation des prépositions françaises \frquote{de} et \frquote{à.} 131 C'est l'un des arguments en faveur des approches non supervisées ; en évitant d'étiqueter manuellement les jeux de données, nous évitons la limite des connaissances des annotateurs humains. 132 } 133 Pour pouvoir traiter des phrases entières, un changement de paradigme était nécessaire. 134 135 Une première évolution a eu lieu dans les années 1990 avec l'avènement des approches statistiques \parencite{statistical_methods}. 136 Ce changement peut être attribué en partie à l'augmentation de la puissance de calcul, mais aussi à l'abandon progressif de préceptes linguistique essentialistes au profit de préceptes distributionnalistes.% 137 \sidenote{ 138 Noam Chomsky, l'un des linguistes essentialistes les plus importants, considère que la manipulation de probabilités d'extraits de texte ne permet pas d'acquérir une meilleure compréhension du langage. 139 Suite au succès des approches statistiques, il n'a reconnu qu'un accomplissement de \emph{technè} et non d'\emph{épistémè}. 140 Pour une réponse à cette position, voir \textcite{statistical_methods, norvig_chomsky}. 141 } 142 Au lieu de s'appuyer sur des experts humains pour concevoir un ensemble de règles, les approches statistiques exploitent les répétitions dans de grands corpus de textes pour déduire ces règles automatiquement. 143 Par conséquent, cette progression peut également être considérée comme une transformation des modèles d'intelligence artificielle symbolique vers des modèles statistiques. 144 La tâche d'extraction de relations a été formalisée à cette époque. 145 Et si les premières approches étaient basées sur des modèles symboliques utilisant des règles prédéfinies, les méthodes statistiques sont rapidement devenues la norme après les années 1990. 146 Cependant, ces modèles statistiques reposaient toujours sur des connaissances linguistiques. 147 \tatefix{3mm}{6mm}{6mm}% 148 \begin{cjkepigraph}[\traditionalChinese]{45mm} 149 {\begin{epigraphcontent}[35mm] 150 {} 151 {``Gongsun Longzi'' Chapitre~2} 152 {circa~300~\textsc{~av.~n.~è.}} 153 Cheval blanc n'est pas cheval. 154 \end{epigraphcontent}} 155 [% 156 Un paradoxe bien connu de la philosophie chinoise illustrant la difficulté de définir clairement le sens véhiculé par la langue naturelle. 157 Ce paradoxe peut être résolu en désambiguïsant le mot \frquote{cheval.} 158 Fait-il référence à \frquote{l'ensemble de tous les chevaux} (la vision méréologique) ou à \frquote{la chevalité} (la vision platonicienne) ? 159 L'interprétation méréologique a été célèbrement --- et de manière controversée --- introduite par \textcite{hansen_mass_noun_hypothesis}, voir \textcite{chinese_ontology} pour une discussion des premières vues ontologiques du langage en Chine. 160 ] 161 白馬非馬 162 \end{cjkepigraph}% 163 Les systèmes d'extraction de relations étaient généralement divisés en une première phase d'extraction de caractéristiques linguistiques spécifiées à la main et une seconde phase où une relation était prédite à partir de ces caractéristiques à l'aide de modèles statistiques peu profonds. 164 165 Une deuxième évolution est survenue dans les années 2010 lorsque les approches d'apprentissage profond ont effacé la séparation entre les phases d'extraction de caractéristiques et de prédiction. 166 Les modèles d'apprentissage profond sont entrainés pour traiter directement les données brutes, dans notre cas des extraits de texte. 167 À cette fin, des réseaux de neurones capables d'approcher n'importe quelle fonction sont utilisés. 168 Cependant, l'entraînement de ces modèles nécessite généralement de grandes quantités de données étiquetées. 169 Il s'agit d'un problème particulièrement important pour nous puisque nous traitons un problème non supervisé. 170 En tant que technique la plus récente et la plus efficace, l'apprentissage profond est un choix naturel pour s'attaquer à l'extraction de relations. 171 Cependant, ce choix s'accompagne de problématiques que nous essayons de résoudre dans ce manuscrit. 172 173 \begin{marginparagraph} 174 {\centering\includegraphics[width=\marginparwidth]{frontmatter/OuCuiPo.jpg}\\} 175 Frontispice de la bibliothèque OuCuiPienne par \textcite{oucuipo}. 176 Une autre façon de cuisiner avec les lettres. 177 \end{marginparagraph}