# D√©monstration de coreferee sur du fran√ßais

## Charger un mod√®le
Example avec le mod√®le large fr_core_news_lg

In [1]:
import spacy, coreferee

In [2]:
nlp = spacy.load("fr_core_news_lg")
nlp.add_pipe("coreferee")
nlp.pipe_names

['tok2vec',
 'morphologizer',
 'parser',
 'attribute_ruler',
 'lemmatizer',
 'ner',
 'coreferee']

## Identifier les chaines de cor√©f√©rence

In [3]:
text = "M√™me si elle √©tait tr√®s occup√©e par son travail, Julie en avait marre. Alors, elle et son mari d√©cid√®rent qu'ils avaient besoin de vacances. Ils all√®rent en Espagne car ils adoraient le pays."
doc = nlp(text)
doc


M√™me si elle √©tait tr√®s occup√©e par son travail, Julie en avait marre. Alors, elle et son mari d√©cid√®rent qu'ils avaient besoin de vacances. Ils all√®rent en Espagne car ils adoraient le pays.

### Afficher les chaines

In [4]:
doc._.coref_chains.print()

0: elle(2), son(7), Julie(10), elle(17), son(19)
1: travail(8), en(11)
2: [elle(17); mari(20)], ils(23), Ils(29), ils(34)
3: Espagne(32), pays(37)


### Parcourir les chaines

In [5]:
for chain in doc._.coref_chains:
    print("La chaine num√©ro", chain.index, "contient les mentions suivantes :")
    for mention in chain:
        print("\t", mention.pretty_representation, "compos√©e des tokens num√©ro :", mention.token_indexes)

La chaine num√©ro 0 contient les mentions suivantes :
	 elle(2) compos√©e des tokens num√©ro : [2]
	 son(7) compos√©e des tokens num√©ro : [7]
	 Julie(10) compos√©e des tokens num√©ro : [10]
	 elle(17) compos√©e des tokens num√©ro : [17]
	 son(19) compos√©e des tokens num√©ro : [19]
La chaine num√©ro 1 contient les mentions suivantes :
	 travail(8) compos√©e des tokens num√©ro : [8]
	 en(11) compos√©e des tokens num√©ro : [11]
La chaine num√©ro 2 contient les mentions suivantes :
	 [elle(17); mari(20)] compos√©e des tokens num√©ro : [17, 20]
	 ils(23) compos√©e des tokens num√©ro : [23]
	 Ils(29) compos√©e des tokens num√©ro : [29]
	 ils(34) compos√©e des tokens num√©ro : [34]
La chaine num√©ro 3 contient les mentions suivantes :
	 Espagne(32) compos√©e des tokens num√©ro : [32]
	 pays(37) compos√©e des tokens num√©ro : [37]


### R√©soudre la cor√©f√©rence pour un token donn√© (par exemple un pronom):
Obtenir la mention la plus repr√©sentative de ce token

In [5]:
print("Le pronom ¬´", doc[2], "¬ª d√©signe", doc._.coref_chains.resolve(doc[2]))

Le pronom ¬´ elle ¬ª d√©signe [Julie]


## Construire les mentions compl√®tes
Obtenir les syntagmes (nominaux ou pronominaux) entiers √† partir des t√™tes

In [7]:
from build_mentions import build_mention, create_mentions

In [8]:
doc = nlp("Les enfants de l'√©cole primaire rentrent chez leurs parents")
doc._.coref_chains.print()

0: enfants(1), leurs(8)


### Retrouver le syntagme d'une mention

In [9]:
print("Le syntagme de la t√™te ¬´", doc[1], "¬ª est ¬´", build_mention([doc[1]], nlp), "¬ª")

Le syntagme de la t√™te ¬´ enfants ¬ª est ¬´ Les enfants de l'√©cole primaire ¬ª


### Obtenir les syntagmes et leur num√©ro de chaine pour tout le document
M√™me les singletons ! 

In [10]:
new_mentions = create_mentions(doc, nlp, add_singletons=True)
new_mentions

{Les enfants de l'√©cole primaire: 0,
 leurs: 0,
 l'√©cole primaire: 1,
 leurs parents: 2}

In [11]:
from build_mentions import make_new_chains

make_new_chains(new_mentions)


{0: [Les enfants de l'√©cole primaire, leurs],
 1: [l'√©cole primaire],
 2: [leurs parents]}

## Exemples r√©els

### Article de presse
Source : https://www.lemonde.fr/election-presidentielle-2022/article/2022/03/04/eric-zemmour-condamne-pour-la-quatrieme-fois_6116185_6059010.html

In [12]:
doc = nlp('''Eric Zemmour condamn√© pour la quatri√®me fois
Le candidat d‚Äôextr√™me droite a √©t√© condamn√© √† une amende pour ¬´ contrefa√ßon de droit d‚Äôauteur ¬ª par le tribunal de Paris. Il avait utilis√© des extraits vid√©o sans autorisation dans son clip de d√©claration de candidature.

Eric Zemmour a √©t√© de nouveau condamn√©, vendredi 4 mars, mais cette fois pour ¬´ contrefa√ßon de droit d‚Äôauteur ¬ª, apr√®s la diffusion de son clip de candidature, le 30 novembre 2021, o√π il avait utilis√© nombre d‚Äôextraits de films sans aucune sorte d‚Äôautorisation.

Le candidat d‚Äôextr√™me droite √† l‚Äô√©lection pr√©sidentielle, son parti Reconqu√™te ! et Fran√ßois Miramont, alors responsable de l‚Äôassociation Les Amis de Zemmour, se voient condamn√©s √† verser 5 000 euros √† chacune des onze parties civiles et 10 000 euros de frais de justice, soit un total de 165 000 euros. Ils disposent d‚Äôune semaine pour couper les s√©quences litigieuses, sous peine d‚Äôune astreinte de 1 500 euros par jour de retard ‚Äì ce qui revient √† supprimer la fameuse vid√©o.

¬´ Il n‚Äôest plus temps de r√©former la France, mais de la sauver. C‚Äôest pourquoi j‚Äôai d√©cid√© de me pr√©senter √† l‚Äô√©lection pr√©sidentielle ¬ª, avait d√©clar√© l‚Äôancien chroniqueur du Figaro dans une vid√©o cr√©pusculaire de dix minutes. Il lisait un texte, dans une sombre biblioth√®que et devant un micro tr√®s Radio-Londres, entrecoup√© d‚Äôimages d‚Äôarchives et de sa campagne, sur fond du 2e mouvement de la 7e Symphonie de Beethoven.
''')
doc

Eric Zemmour condamn√© pour la quatri√®me fois
Le candidat d‚Äôextr√™me droite a √©t√© condamn√© √† une amende pour ¬´ contrefa√ßon de droit d‚Äôauteur ¬ª par le tribunal de Paris. Il avait utilis√© des extraits vid√©o sans autorisation dans son clip de d√©claration de candidature.

Eric Zemmour a √©t√© de nouveau condamn√©, vendredi 4 mars, mais cette fois pour ¬´ contrefa√ßon de droit d‚Äôauteur ¬ª, apr√®s la diffusion de son clip de candidature, le 30 novembre 2021, o√π il avait utilis√© nombre d‚Äôextraits de films sans aucune sorte d‚Äôautorisation.

Le candidat d‚Äôextr√™me droite √† l‚Äô√©lection pr√©sidentielle, son parti Reconqu√™te ! et Fran√ßois Miramont, alors responsable de l‚Äôassociation Les Amis de Zemmour, se voient condamn√©s √† verser 5 000 euros √† chacune des onze parties civiles et 10 000 euros de frais de justice, soit un total de 165 000 euros. Ils disposent d‚Äôune semaine pour couper les s√©quences litigieuses, sous peine d‚Äôune astreinte de 1 500 euros par j

In [13]:
new_mentions = create_mentions(doc, nlp)
make_new_chains(new_mentions)

{0: [Eric Zemmour condamn√© pour la quatri√®me fois,
  Le candidat d‚Äôextr√™me droite,
  Il,
  son,
  Eric Zemmour,
  son,
  il,
  Le candidat d‚Äôextr√™me droite √† l‚Äô√©lection pr√©sidentielle, son parti Reconqu√™te ! et Fran√ßois Miramont, alors responsable de l‚Äôassociation,
  son,
  Zemmour],
 1: [la quatri√®me fois, cette fois],
 2: [Fran√ßois Miramont, responsable de l‚Äôassociation],
 3: [Les Amis de Zemmour, Ils],
 4: [la France, la],
 5: [l‚Äôancien chroniqueur du Figaro, Il, sa]}

### Avis d'acheteur

In [14]:

doc = nlp('''üëÄ Achet√© pour ma ni√®ce pour son anniversaire. Sa m√®re et moi ne voulions pas que ce soit son premier t√©l√©phone co√ªt√© tr√®s cher. Alors apr√®s quelques recherches, j'ai s√©lectionn√© celui-ci.

üì≥ Avant de le lui offrir, j'ai fait un test et j'ai essay√© d'√©valuer le potentiel, et comment j'ai voulu m'adapter aux besoins de notre jeune ado j'ai imm√©diatement remarqu√© la haute qualit√© des images.
üì∑ Les 4 cam√©ras permettent de combler les √©carts qualitatifs; les photos pr√©sent√©es dans cet avis ont √©t√© prises au cours de la journ√©e ( matin par temps gris ) et donc je ne peux rien dire sur les photos de nuit; n√©anmoins l'autofocus du smartphone a beaucoup de difficult√© √† esquisser un objectif correct √† certaines distances; la cam√©ra r√©agit bien m√™me dans des conditions de faible luminosit√© ( √† l'ombre ) tout en gardant un excellent niveau de d√©tail. Bonne s√©lection exacte du foyer en gros plan; couleurs parfaites.

üìå En ce qui a trait aux performances du smartphone; les 4 Go de RAM permettent une navigation en douceur et un jeu d√©filant support√© par un processeur Unisoc T310.

üëçUn √©cran plein Waterdrop 6.517" HD peut contenir la taille du smartphone lui-m√™me; avec √©galement comme s√©curit√©, vous pouvez d√©finir les empreintes digitales, je trouve que pour le prix de vente par rapport √† la qualit√© de l'appareil il a un pourcentage tr√®s b√©n√©fique, parfait pour ma ni√®ce. Elle √©tait enchant√©e de son cadeau pour son √¢ge.
Moi √† mon √©poque, j'utilisais d√©j√† une ficelle et 2 pots de yogourt pour communiquer entre amis.

J'esp√®re que mes observations vous seront utiles et vous aideront √† faire un choix positif ou n√©gatif, mais je suis toujours disponible pour r√©pondre √† vos questions.
‚¨á‚¨áÔ∏è Merci de cliquer sur le bouton Vote utile''')
doc

üëÄ Achet√© pour ma ni√®ce pour son anniversaire. Sa m√®re et moi ne voulions pas que ce soit son premier t√©l√©phone co√ªt√© tr√®s cher. Alors apr√®s quelques recherches, j'ai s√©lectionn√© celui-ci.

üì≥ Avant de le lui offrir, j'ai fait un test et j'ai essay√© d'√©valuer le potentiel, et comment j'ai voulu m'adapter aux besoins de notre jeune ado j'ai imm√©diatement remarqu√© la haute qualit√© des images.
üì∑ Les 4 cam√©ras permettent de combler les √©carts qualitatifs; les photos pr√©sent√©es dans cet avis ont √©t√© prises au cours de la journ√©e ( matin par temps gris ) et donc je ne peux rien dire sur les photos de nuit; n√©anmoins l'autofocus du smartphone a beaucoup de difficult√© √† esquisser un objectif correct √† certaines distances; la cam√©ra r√©agit bien m√™me dans des conditions de faible luminosit√© ( √† l'ombre ) tout en gardant un excellent niveau de d√©tail. Bonne s√©lection exacte du foyer en gros plan; couleurs parfaites.

üìå En ce qui a trait aux performances

In [15]:
new_mentions = create_mentions(doc, nlp)
new_chains = make_new_chains(new_mentions)
new_chains

{0: [ma ni√®ce pour son anniversaire, son, Sa, son],
 1: [son premier t√©l√©phone, celui-ci, le lui],
 2: [la journ√©e, matin],
 3: [des conditions de faible luminosit√© ( √† l'ombre, en],
 4: [lui-m√™me, il],
 5: [ma ni√®ce, Elle, son, son]}

### Tweets

In [67]:
doc = nlp('''Solaire et rayonnant, @Cyprien_Zeni est √† l'image de son √Æle, La R√©union ‚òÄ
Il nous entra√Æne avec son titre "Ma famille"...  le choisirez vous pour nous repr√©senter pour cette √©dition ?

#EurovisionFrance #Eurovision2022'''.replace("@","").replace("#",""))
print(doc, "\n---------------")
make_new_chains(create_mentions(doc, nlp))

Solaire et rayonnant, Cyprien_Zeni est √† l'image de son √Æle, La R√©union 
Il nous entra√Æne avec son titre "Ma famille"...  le choisirez vous pour nous repr√©senter pour cette √©dition ?

#EurovisionFrance #Eurovision2022 
---------------


{0: [Cyprien_Zeni, son, Il, son, le]}

In [19]:
doc = nlp('''Yseult. Aucune modestie. Aucune classe. 
Je voulais qu‚Äôelle repr√©sente la France, mais si c‚Äôest pour entendre "I AM not agree" en direct quand elle aura 4 points no thanks. Mes oreilles d‚Äô√™tre humain ET de prof d‚Äôanglais saignent. #cvqd #EurovisionFrance''')
print(doc, "\n---------------")
make_new_chains(create_mentions(doc, nlp))

Yseult. Aucune modestie. Aucune classe. 
Je voulais qu‚Äôelle repr√©sente la France, mais si c‚Äôest pour entendre "I AM not agree" en direct quand elle aura 4 points no thanks. Mes oreilles d‚Äô√™tre humain ET de prof d‚Äôanglais saignent. #cvqd #EurovisionFrance 
---------------


{0: [Yseult, elle, elle]}

In [59]:
doc = nlp('''Tadej Pogacar. Cet homme est la future l√©gende du cyclisme moderne, tout simplement. 

J‚Äôai pos√© mes couilles avec 
@GaltierFabien
 et les bugattis aussi chez 
@BDPetrelli
. 

Continuer √† nous sous-estimer. 

PS : Demain j‚Äôai rendez-vous avec la gloire ''')
print(doc, "\n-------------")
make_new_chains(create_mentions(doc, nlp))

Tadej Pogacar. Cet homme est la future l√©gende du cyclisme moderne, tout simplement. 

J‚Äôai pos√© mes couilles avec 
@GaltierFabien
 et les bugattis aussi chez 
@BDPetrelli
. 

Continuer √† nous sous-estimer. 

PS : Demain j‚Äôai rendez-vous avec la gloire  
-------------


{0: [Tadej Pogacar, Cet homme, la future l√©gende du cyclisme moderne]}