PhD

The LaTeX sources of my Ph.D. thesis
git clone https://esimon.eu/repos/PhD.git
Log | Files | Refs | README | LICENSE

fitb.tex (4805B)


      1 \section{Régularisation des modèles discriminatifs d'extraction non supervisée de relations}
      2 \label{sec:french:fitb}
      3 L'évolution des méthodes d'extraction de relations non supervisées suit de près celle des méthodes de \textsc{tal} décrite ci-dessus.
      4 La première approche utilisant des techniques d'apprentissage profond a été celle de \textcite{vae_re}.
      5 Cependant, une partie de leur modèle reposait toujours sur des caractéristiques linguistiques extraites en amont.
      6 La raison pour laquelle cette extraction ne pouvait pas être faite automatiquement, comme c'est habituellement le cas en apprentissage profond, est étroitement liée à la nature non supervisée du problème.
      7 Notre première contribution est de proposer une technique permettant l'entraînement d'approches d'extraction non supervisée de relations par apprentissage profond.
      8 
      9 Nous avons identifié deux problèmes critiques des modèles discriminants existant qui entravent l'utilisation de réseaux neuronaux profonds pour l'extraction de caractéristiques.
     10 Ces problèmes concernent la sortie du classifieur,
     11 \begin{marginparagraph}
     12 	Cette section a fait l'objet d'une publication:\\
     13 	\hbadness=8000% :'(
     14 	Étienne Simon, Vincent Guigue, Benjamin Piwowarski. \citefield{fitb}[linkedtitle]{title} \citefield{fitb}{shortseries}~\cite*{fitb}
     15 \end{marginparagraph}
     16 qui a tendance à s'effondrer en une distribution triviale, soit déterministe, soit uniforme.
     17 Nous proposons d'introduire deux fonctions de coût sur la distribution des relations pour atténuer ces problèmes : une fonction d'asymétrie éloigne la prédiction d'une loi uniforme, et une distance de distributions empêche la sortie de s'effondrer vers une distribution déterministe.
     18 Cela nous a permis d'entraîner un modèle \textsc{pcnn} \parencitex{pcnn} pour regrouper les échantillons non supervisés en partitions%
     19 \sidenote{\emph{clusters}}
     20 véhiculant la même relation.
     21 
     22 \begin{marginfigure}
     23 	\centering
     24 	\input{mainmatter/fitb/problem 1.tex}
     25 	\scaption[Illustration du problème d'uniformité.]{
     26 		Illustration du problème d'uniformité.
     27 		Le classifieur attribue la même probabilité à toutes les relations.
     28 		À la place, nous souhaitons que le classifieur prédise clairement une relation unique pour chaque échantillon.
     29 		\label{fig:french:fitb problem}
     30 	}
     31 \end{marginfigure}
     32 \begin{margintable}
     33 	\centering
     34 	\input{backmatter/french/fitb quantitative.tex}
     35 	\scaption[Résultats quantitatifs des méthodes de partitionnement sur le dataset \textsc{nyt-fb}.]{
     36 		Résultats quantitatifs des méthodes de partitionnement sur le jeu de données \textsc{nyt-fb}.
     37 		On distingue le classifieur utilisé (Classif.) de la régularisation utilisée (Reg.).
     38 		La régularisation \loss{vae reg} est celle issue de l'article de \textcite{vae_re}.
     39 		\label{tab:french:fitb}
     40 	}
     41 \end{margintable}
     42 
     43 Notre approche se base sur le problème de remplissage de texte à trous:
     44 \begin{indentedexample}
     45 	``Le \uhead{sol} a été la monnaie du \utail{~?~} entre 1863 et 1985.''
     46 \end{indentedexample}
     47 Pour pouvoir remplir cette phrase avec le mot manquant, il est nécessaire de comprendre la relation véhiculée.
     48 Nous utilisons cette tâche comme un substitut nous permettant d'identifier la sémantique relationnelle de la phrase.
     49 Étant donné une phrase \(s\) contenant deux entités \(\vctr{e}\) exprimant la relation \(r\), nous modélisons la probabilité suivante:
     50 \begin{equation*}
     51 	P(e_{-i} \mid s, e_i) = 
     52 	 \sum_{r\in\relationSet} \underbrace{P(r\mid s)}_{\text{(i)\,classifieur}} \underbrace{P(e_{-i} \mid r, e_i)}_{\text{(ii)\,prédicteur d'entité}} \qquad \text{pour } i=1, 2.
     53 \end{equation*}
     54 
     55 Nous utilisons un réseau profond (\textsc{pcnn}, \cite{pcnn}) pour le classifieur et le même modèle que \textcite{vae_re} pour la prédiction d'entité.
     56 Le modèle résultant présente des instabilités, comme celle illustrée par la Figure~\ref{fig:french:fitb problem}.
     57 Nous proposons deux fonctions de coût supplémentaires sur les paramètres \(\vctr{\phi}\) du classifieur pour résoudre ces problèmes:
     58 \begin{align*}
     59 	\loss{s}(\vctr{\phi}) & = \expectation_{(s, \vctr{e})\sim \uniformDistribution(\dataSet)} \left[ \entropy(\rndm{R} \mid s, \vctr{e}; \vctr{\phi}) \right] \\
     60 	\loss{d}(\vctr{\phi}) & = \kl(P(\rndm{R}\mid\vctr{\phi}) \mathrel{\|} \uniformDistribution(\relationSet)).
     61 \end{align*}
     62 
     63 La première fonction force la sortie du classifieur a avoir une entropie faible ce qui résout le problème de la Figure~\ref{fig:french:fitb problem}.
     64 La seconde fonction s'assure qu'une variété de relations soient prédites pour différents échantillons.
     65 Ces deux fonctions nous permettent d'entrainer un réseau profond pour l'extraction non supervisée de relations comme le montrent les scores de la Table~\ref{tab:french:fitb}.