Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Aller au contenu

Utilisateur:Simon Villeneuve/PoV/Wikidata

Une page de Wikipédia, l'encyclopédie libre.
Wikidata : « Resistance is futile (en) »Q220652.

août 2015 - Je perçois l'avancée de Wikidata sur les projets de la WMF comme inéluctable depuis environ 2 ans. Bien qu'initialement rebuté par sa licence CC0, je me rends compte que cette dernière permet à cette base de données de servir d'ossature aux projets. Son architecture permet un mariage de plus en plus étroit avec nos wikis.

Cela s'est d'abord produit en y transférant les liens inter-langue des différentes versions linguistiques de Wikipédia. Ensuite, certains liens inter-Wiki ont été intégrés. Depuis un certain temps, de nouvelles générations d'outils permettent l'insertion à grande échelle de contenus de Wikidata sur Wikipédia en français. Ainsi, les modèles {{Autorité}} et {{Site officiel}} insèrent des liens externes en fin d'articles alors que {{Wikidata list}} permet de créer des listes entretenues automatiquement par ListeriaBot. Certaines inbobox ont été codées de manière à importer automatiquement des informations de Wikidata et depuis peu, il est possible de programmer des bots pour insérer automatiquement ces infobox.

En attendant Skynet

Le libre permet aux amateurs de réaliser des choses qu'ils auraient difficilement pu réaliser autrement. Ainsi, malgré mes connaissances limitées en informatique, grâce au AutoWikiBrowser script, j'ai pu faire des appositions semi-automatiques d'infobox sur des articles d'astronomie ainsi que biographiques. Toujours grâce à ce script, j'ai pu programmer un bot, LuaBot, pour apposer automatiquement des infobox automatiques sur les articles biographiques n'en ayant pas. Je me suis dit qu'un article biographique sans infobox est un article sous-développé qui n'a rien à perdre par l'ajout d'une infobox automatique généraliste. J'ai pensé que lorsqu'un humain s'intéresserait à nouveau à cet article, il pourrait soit compléter les champs de l'infobox généraliste sur Wikipédia ou sur Wikidata, soit remplacer l'infobox automatique généraliste par une infobox spécialisée, soit retirer purement et simplement l'infobox s'il juge cette dernière inappropriée[note 1]. On peut ainsi résumer ma vision de la chose par « pas d'infobox < infobox généraliste apposée par bot < infobox généraliste apposée par humain < infobox spécialisée < décision éditoriale humaine ».

Au cours de l'été 2015, LuaBot a apposé plusieurs dizaines de milliers d'infobox biographiques qui importent automatiquement des informations de Wikidata sur Wikipédia en français. Il a ainsi procédé à ~60 000 inclusions de {{Infobox Biographie2}}, ~6 000 de {{Infobox Footballeur}} et ~15 000 de {{Infobox Artiste}}. Au total, j'estime que l'infobox généraliste Biographie2 pourrait être apposée sur ~150 000 articles[note 2].

Est-ce que ces insertions sont une bonne chose pour notre projet ? Plusieurs discussions ont été lancées à ce sujet et on peut dire que ce sujet divise fortement la communauté[note 3]. Au-delà des problèmes techniques, qui ont en grande majorité été réglés, voici ce que je crois être les points de fonds des discussions :

  1. Wikidata est incomplète/inexacte/rebutante pour les lecteurs/contributeurs
  2. Seuls les humains peuvent effectuer certaines tâches encyclopédiques
  3. Aucune modification à grande échelle ne doit être faite sans discussion préalable

Stop ou Encore ?

[modifier | modifier le code]
Bot débroussailleur (allégorie).

« J'ai [X] ans, qu'est-ce que j'fais?
Qu'est-ce que j'fais?
Je m'arrête ou j'continue
J'ai [X] ans où j'en suis
à la fin ou au début »

— Q20866745

Puisque l'avancée de Wikidata sur notre projet semble inéluctable, je crois que si nous la percevons comme incomplète/inexacte/rebutante, nous risquons de sous-utiliser cette dernière alors que sa progression sur les autres projets, bien qu'à géométrie variable, est néanmoins constante. Àmha, le contact interprojet et interlangue doit être le plus facile possible, notamment pour bénéficier de l'ensemble des PoV culturels sur notre encyclopédie, et cette base de données facilite ce contact. Je crois qu'il faut faire avec. Que ce soit un mariage d'amour ou de raison, plus nous y mettrons d'efforts, plus ce mariage sera épanouissant et plus le lecteur en sortira gagnant.

Ensuite, est-ce que seuls des humains peuvent effectuer certaines tâches encyclopédiques ? Bien sûr ! Quelles sont-elles ? Il faut voir. Bien qu'elle demeure limitée, la perception de la capacité des bots a évolué au cours du temps. Au total, ils effectuent officiellement 5 à 15 % des contributions de notre projet[note 4], mais officieusement, considérant le nombre de contributeurs humains qui utilisent des scripts sous leur nom d'utilisateur sans avoir le statut de bot, je soupçonne que le nombre de modifications automatiques est beaucoup plus grand. Ajoutons que les Neuf contributeurs ayant effectué le plus grand nombre d'éditions sur fr sont non-humains.

Évidemment, les bots ne peuvent pas remplacer un Wikipédien aguerrit, mais lorsqu'aucun Wikipédien aguerrit n'est disponible, ne peut-on pas envoyer un bot « défricher/débroussailler le terrain » ?

Finalement, quel est le niveau de discussion préalable à avoir concernant les modifications à grande échelle ? Bonne question. Probablement que la réponse est « ça dépend du niveau de réaction de la communauté envers ces modifications ». La capacité d'un wikipédien à anticiper les réactions communautaires amène ce dernier à pouvoir modifier à plus ou moins grande échelle le projet. Dans mon cas, mes fortes tendances à « ne pas hésiter » et à supposer la bonne foi, conjuguées à mon impatience et ma capacité limitée de répéter ad nauseam les mêmes choses, font en sorte que, selon cette perspective, je ne suis probablement pas le meilleur contributeur qui soit pour effectuer des modifications à grande échelle du projet.

Je termine cette sortie en répétant qu'il me semble non-seulement illusoire, mais également indésirable de vouloir faire de Wikipédia un produit fini, de la circonscrire dans une boîte aux contours bien arrêtés. Je crois qu'une telle attitude nous coupe des avantages du libre. C'est vouloir casser les vagues plutôt que les surfer. Je crois que si votre perception du savoir est qu'il doit être fini, alors vous trouverez à coup sûr sur votre chemin des contributeurs qui agrandiront, de gré ou de force, votre univers. Si de ce fait vous découvrez un endroit de Wikipédia que vous jugez inintéressant, plutôt que de vouloir détruire ces nouveaux territoires en défrichement, aller ailleurs dans le bazar visiter et construire vos cathédrales. On sait jamais, de leurs sommets, peut-être que votre perception du savoir s'agrandira...

Si votre perception du savoir est qu'il doit être fini, alors vous risquez de devoir vous acheter des œillères.

Quantifier les centrismes de Britannica et Universalis

[modifier | modifier le code]
lem go

10 décembre 2017 - Nous sommes quelques contributeurs à avoir associé des entrées de deux encyclopédies classiques d'influence, l'Encyclopaedia Britannica (EB) et l'Encyclopaedia Universalis (EU), avec des éléments Wikidata équivalents. Ainsi, on peut désormais établir des statistiques sur un échantillon plus ou moins aléatoire d'environ 75 000 entrées[note 5] pour Britannica et 7 000 articles pour Universalis, ce qui représente environ 37 % et 19 % de l'ensemble des entrées recensées en ligne pour ces encyclopédies. Puisque ce ne sont que des échantillons, il faut se concentrer sur les rapports entre les valeurs d'une même colonne, qui doivent être relativement représentatifs de l'ensemble du contenu, et non sur les valeurs mêmes.

Pour chaque statistique des encyclopédies classiques, j'ai ajouté, à titre comparatif, des statistiques de frwiki et de Wikidata.

Statistique Britannica Universalis Total Wikipédia en
français
Wikidata
Nombre total d'entrées 206 761 35 714 242 475 1 936 819 40 681 003
Échantillon 75 642 (37 %) 6 809 (19 %) 82 451 (34 %) 1 936 819 (100 %) 40 681 003 (100 %)
Nombre d'entrées biographiques[note 6] 30 293 4 605 34 898 524 141 3 746 525
Biographies d'hommes[note 7] 26 450 4 244 30 694 435 506 2 881 719
Biographies de femmes[note 7] 3 857 357 4 214 86 651 608 360
Drapeau des États-UnisBiographies d'Américain-ne-s 9 861 664 10 525 68 529 355 844
Drapeau de l'AllemagneBiographies d'Allemand-e-s 2 073 313 2 386 24 407 214 458
Drapeau de la FranceBiographies de Français-e-s 2 354 1 375 3 729 129 362 153 856
Drapeau du Royaume-UniBiographies de Britanniques 3 637 326 3 963 26 259 135 771
Drapeau du JaponBiographies de Japonai-se-s 488 190 678 13 127 106 134
Drapeau de l'URSSBiographies de Soviétiques 513 61 574 5 725 65 019
Drapeau du CanadaBiographies de Canadien-ne-s 579 35 614 20 322 54 153
Drapeau de la RussieBiographies de Russes 216 17 233 6 342 53 613
Drapeau de la BelgiqueBiographies de Belges 203 76 279 14 101 30 898
Drapeau de la SuisseBiographies de Suisse-sse-s 362 76 438 8 893 27 102
Drapeau de la République populaire de ChineBiographies de Chinoi-se-s 168 25 193 2 776 15 082

On note ainsi (ajoutez votre phrase) :

  • Il y a plus d'entrées consacrées aux femmes sur Britannica que sur Universalis (12,7 % de l'ensemble des biographies vs. 7,8 %). Pour Wikipédia en français et Wikidata, c'est respectivement 16,5 % et 16,2 % de l'ensemble des entrées biographiques.
  • Il y a cinq fois plus d'entrées sur les Allemand-e-s que sur les Suis-ses-ses, qui sont 1,5 fois plus nombreux-ses que les Belges.
  • Il y a une entrée sur un-e Russe pour 20 entrées sur des Allemand-e-s sur Universalis, alors qu'il-elle est 1 pour 10 sur Britannica.
  • Les entrées japonaises sont 3 à 4 fois plus nombreuses que les chinoises (8 fois plus sur Universalis seulement).
  • Il y a exactement le même nombre de biographies pour les Belges et les Suisse-sse-s sur Universalis.

La requête SPARQL pour obtenir les statistiques précédentes, et plus encore, est la suivante. Pour obtenir le résultat désiré, vous devez enlever le début de la ligne concernée du dièse (#) jusqu'à l'expression ?item. Ainsi, par exemple, pour obtenir l'ensemble des éléments rattachés à Britannica, vous devez retirer #Britannica de la requête et laisser ?item wdt:P1417 [] . . Pour obtenir toutes les personnalités canadiennes présentes sur Universalis, vous devez retirer #Universalis , #être humain et #Canadien-ne-s de la requête ci-dessous.

#Requête permettant d'obtenir des statistiques
#concernant les entrées de Britannica et d'Universalis.

#Pour rendre opérante la requête, enlevez, au début
#de la ligne, du dièse (#) jusqu'à l'expression ?item

#Pour des requêtes qui dépassent les capacités de l'outil 
#(le message « Limite du temps de requête atteinte » s'affiche), remplacez 
#la première ligne (SELECT ?item ?itemLabel...[AUTO_LANGUAGE],fr" }) 
#par SELECT (COUNT(?item) AS ?count) WHERE {

SELECT DISTINCT ?itemLabel ?itemDescription ?item WHERE { SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
##Si excède capacités de l'outil SELECT DISTINCT (COUNT(?item) AS ?count) WHERE {
#Britannica ?item wdt:P1417 ?britannica . 
#Universalis ?item wdt:P3219 ?universalis .
#localités ?item wdt:P31/wdt:P279* wd:Q486972 .
#êtres humains ?item wdt:P31 wd:Q5 . 
#femmes ?item wdt:P21 wd:Q6581072 .
#hommes ?item wdt:P21 wd:Q6581097 .
#Allemand-e-s ?item wdt:P27 wd:Q183 .
#Américain-e-s ?item wdt:P27 wd:Q30 .
#Belges ?item wdt:P27 wd:Q31 .
#Britanniques ?item wdt:P27 wd:Q145 .
#Canadien-ne-s ?item wdt:P27 wd:Q16 .
#Chinois-e-s ?item wdt:P27 wd:Q148 .
#Français-e-s ?item wdt:P27 wd:Q142 .
#Japonais-e-s ?item wdt:P27 wd:Q17 .
#Russes ?item wdt:P27 wd:Q159 .
#Russes (1721-1917) ?item wdt:P27 wd:Q34266 .
#Soviétiques ?item wdt:P27 wd:Q15180 .
#Suisse-sse-s ?item wdt:P27 wd:Q39 .
#musicien-ne-s ?item wdt:P106/wdt:P279* wd:Q639669 .
#artistes ?item wdt:P106/wdt:P279* wd:Q483501 .
#scientifiques ?item wdt:P106/wdt:P279* wd:Q901 .
#personnalité politique ?item wdt:P106/wdt:P279* wd:Q82955 .
#lien vers une version linguistique OPTIONAL {?article 	schema:about ?item ; schema:isPartOf <https://CODE_LANGUE.wikipedia.org/> .}
##sans lien vers une version linguistique FILTER (!BOUND(?article))
#lier au numéro des éléments Wikidata situé entre BORNE_INFÉRIEURE et BORNE_SUPÉRIEURE BIND( xsd:integer( STRAFTER( STR( ?item ), STR( wd:Q ) ) ) AS ?num ) . FILTER( BORNE_INFÉRIEURE < ?num && ?num < BORNE_SUPÉRIEURE ) .
}
#Classer par VARIABLE. ORDER BY ?VARIABLE
#Si temps limite atteint, limiter les résultats à X. LIMIT X
#Si temps limite atteint, fractionner les résultats en sautant les X premiers et en affichant les Y suivants. OFFSET X LIMIT Y

Cliquez pour essayer !

Mise à jour

[modifier | modifier le code]
Élémentaire de terre.

11 janvier 2018 - Un mois plus tard, nous sommes en mesure d'actualiser les statistiques précédentes pour un échantillon à peu près doublé d'Universalis. Pour les données de frwiki et Wikidata, nous avons mis entre parenthèses le % d'augmentation depuis le mois dernier :

Statistique Britannica Universalis Total Wikipédia en
français
Wikidata
Nombre total d'entrées 206 761 35 714 242 475 1 945 754 (+ 0,5 %) 42 391 870 (+ 5 %)
Échantillon 89 673 (43,3 %) 13 519 (37,9 %) 103 192 (42,6 %) 1 945 754 (100 %) 42 391 870 (100 %)
Nombre d'entrées biographiques 33 549 7 944 41 493 527 105 (+ 0,6 %) 4 081 001 (+8,2 %)
Biographies d'hommes 29 305 7 280 36 585 437 573 (+0,5 %) 2 894 901 (+0,5 %)
Biographies de femmes 4 226 659 4 885 88 562 (+2,2 %)[note 8] 612 573 (+0,7 %)
Drapeau des États-UnisBiographies d'Américain-ne-s 10 800 1 268 12 068 68 953 (+0,6 %) 356 685 (+0,2 %)
Drapeau de l'AllemagneBiographies d'Allemand-e-s 2 112 569 2 681 24 598 (+0,8 %) 214 772 (+0,1 %)
Drapeau de la FranceBiographies de Français-e-s 2 679 2 499 5 178 130 501 (+0,9 %) 154 942 (+0,7 %)
Drapeau du Royaume-UniBiographies de Britanniques 3 851 550 4 401 26 449 (+0,7 %) 136 262 (+0,4 %)
Drapeau du JaponBiographies de Japonai-se-s 567 198 765 13 127 (+0,0 %) 106 217 (+0,1 %)
Drapeau de l'URSSBiographies de Soviétiques 544 117 661 5 814 (+1,5 %) 66 299 (+1,9 %)
Drapeau du CanadaBiographies de Canadien-ne-s 640 76 716 20 484 (+0,8 %) 54 347 (+0,4 %)
Drapeau de la RussieBiographies de Russes 236 39 275 6 368 (+0,4 %) 54 078 (+0,9 %)
Drapeau de la BelgiqueBiographies de Belges 224 126 350 14 209 (+0,8 %) 31 063 (+0,5 %)
Drapeau de la SuisseBiographies de Suisse-sse-s 369 133 502 8 969 (+0,8 %) 27 243 (+0,5 %)
Drapeau de la République populaire de ChineBiographies de Chinoi-se-s 189 28 217 2 796 (+0,7 %) 16 222 (+7,0 %)[note 9]

La première des choses qui me vient à l'esprit est de vérifier si les proportions ont beaucoup variées entre le premier et le second échantillon. Ainsi, par exemple, les biographies représentaient respectivement environ 40 % et 68 % du contenu du premier échantillon de Britannica et d'Universalis, alors qu'elles représentent 37 % et 59 % du second. Ainsi, comme je l'anticipais, le poids des biographies diminue.
Voici les pourcentages des différents types d'articles biographiques par rapport au total :

Type de biographies Britannica Universalis
premier échantillon second échantillon premier échantillon second échantillon
hommes 87,3 87,3 92,2 91,6
femmes 12,7 12,6 7,8 8,3
Américain-ne-s 32,6 32,2 14,4 16
Allemand-e-s 6,8 6,3 6,8 7,2
Français-e-s 7,8 8,0 29,9 31,5
Britanniques 12 11,5 7,1 6,9
Japonai-se-s 1,6 1,7 4,1 2,5
Soviétiques 1,7 1,6 1,3 1,5
Canadien-ne-s 1,9 1,9 0,8 1
Russes 0,7 0,7 0,4 0,5
Belges 0,7 0,7 1,7 1,6
Suisse-sse-s 1,2 1,1 1,7 1,7
Chinoi-se-s 0,6 0,6 0,5 0,4

Mon intuition, à savoir que la taille du premier échantillon était suffisante pour que les proportions ne bougent pas beaucoup, semble confirmée. Ainsi, on observe au maximum 0,5 % de variation pour Britannica (biographies d'Américain-e-s et de Britannique-s) et 1,6 % pour Universalis (biographies d'Américain-e-s, de Français-e-s et de Japonai-se-s).

VIGNERON, qui avait déjà créé plusieurs des requêtes SPARQL précédentes, a créé une autre requête permettant de sélectionner une plage d'éléments en fonction de leur numéro. Cela permet, notamment, de voir quelle proportion d'entrées de Britannica et d'Universalis auraient été intégrées à Wikidata si cette dernière avait été limitée au même nombre d'entrées de ces deux encyclopédies classiques[note 10]. Ainsi, cela donne 23 296 entrées de Britannica et 1 733 articles d'Universalis du second échantillon, ce qui représente respectivement 26 % et 12,8 %. Cela signifie que les wikidatistes ont jugé qu'environ les trois quart des notions de Britannica et que près de 90 % des notions d'Universalis n'étaient pas aussi « prioritaires » que ce que les éditeurs de ces publications l'ont jugé. Fort heureusement, Wikidata n'a pas de limite quant à son nombre d'élément et toutes les notions des deux encyclopédies classiques peuvent y être liées.
Du côté de frwiki, 26 098 notions de Britannica et 473 articles d'Universalis du second échantillon ne sont pas présents sur Wikipédia en français, soit respectivement 29 % et 3,5 %.

Je termine cette section en réunissant mes impressions après plus de 12 000 associations d'articles d'Universalis sur Wikidata :

  • Une grande partie du contenu est consacrée aux biographies de personnalités liées aux beaux-arts.
  • Contrairement à frwiki, plusieurs titres d'articles sont au pluriel, suivant un peu les recommandations de nommage des catégories de Wikipédia en anglais.
  • Les articles sur les familles nobiliaires sont difficiles à associer rapidement car la recherche automatique ne donne généralement rien. Même chose pour les articles sur les œuvres.
  • Les articles sur les êtres vivants sont intitulés selon leur nom commun en France, et non, comme sur Wikipédia en français, selon le nom latin.
  • Une proportion surprenante du contenu concerne les différents groupes ethniques (près de 1 % des entrées). Pour Britannica, la proportion est cinq fois moindre, alors que pour Wikipédia en français et Wikidata, elles sont respectivement 10 fois et 50 fois moindres. Indique possiblement une branche anthropologie particulièrement productive.
  • Beaucoup de notions sont associées en paires et doivent êtres liées à deux éléments (chouette et hibou, linguistique et littérature, circoncision et excision, vertical et horizontal, etc.). Il n'est donc pas possible d'utiliser mix'n'match (m&m) pour ces cas.
  • L'homonymie de plusieurs notions est plus ou moins bien définie dans certains articles (illuminisme, pouvoir, traditionnalisme, etc.), voire totalement occultée dans d'autres (incubation, anneau d'or, Chambord, Gueltre, Universal, etc.)[1].
  • Plusieurs sujets sont divisés en thématiques (un peu l'équivalent de nos articles détaillés), mais ces thématiques sont plus ou moins faciles à lier à Wikidata (voir, par exemple, les articles liés à l'automobile, avec, notamment, la notion d'« automobilisme »).
  • Certains titres me semblent trop compliqués pour rien (« CRISES FINANCIÈRES - Krachs boursiers » pour krach ou « SPIRAL JETTY Rozel Point, Grand Lac Salé, Utah, (R. Smithson) » pour Spiral Jetty).
mix'n'match
  • Catégories
    • Associés à la main : Articles liés à Wikidata. Nombre de liaisons traitées.
    • Associés automatiquement : Les pages sont associées automatiquement selon des algorithmes que j'ignore. Dans plusieurs cas, ils ont raison à de fortes proportions. Parcourir ces associations automatiques et les valider ou non est la méthode « manuelle » la plus rapide d'effectuer des liaisons entre Wikidata et des ressources externes.
    • Pas de Wikidata : Ne semblant pas posséder d'élément sur Wikidata.
    • Non applicable pour Wikidata : Liaison semblant impossible.
    • Non associés : C'est généralement la jungle.
    • Total : Nombre d'articles au total.
  • Onglet Action
    • Jeu mobile : Plus lent que l'outil visuel, il semble cependant plus précis sur des domaines particuliers. Ainsi, il est très efficace sur les personnalités vivantes, puis mortes. Il est meilleur que l'Outil visuel pour les œuvres et semble avoir une proportion de femmes à associer plus grande pour Universalis (?!).
    • Outil visuel : Ouvre dans une fenêtre constituée de multiples sous-fenêtres affichant la page de l'entité externe sélectionnée (bases de données, encyclopédies, dictionnaires biographiques, etc.), la recherche sur Wikidata et l'aperçu Wikidata de l'élément sélectionné. Particulièrement efficace sur les biographies, a permis le traitement rapide de milliers de liaisons. Inefficace pour l'association d’œuvres et de noms de dinosaures pour Universalis (?!).

Mise à jour

[modifier | modifier le code]

4 mai 2018 - Nouvelle mise à jour des données :

Statistiques Britannica Universalis Total Wikipédia
en français
Wikidata
Nombre total d'entrées 206 761
% articles : 49 %[note 11]
35 714 242 475 1 980 656 (+ 1,8 %) 47 392 548 (+ 11,8 %)
Échantillon 109 888 (53 %)
% articles : 47 %[note 12]
33 545 (93 %) 143 433 (59 %) 1 980 656 (100 %) 47 392 548 (100 %)
Entrées géolocalisées 12 012 3 196 15 208 269 774 5 845 247
Entrées biographiques 39 138 17 683 56 821 536 679 (+ 1,8 %) 4 264 736 (+ 4,5 %)
Personnes vivantes 5 333 1 955 7 288 284 044 2 720 924
Biographies d'hommes 34 261 16 121 50 382 445 715 (+ 1,9 %) 3 029 636 (+ 4,7 %)
Biographies de femmes 4 834 1 542 6 376 90 273 (+ 1,9 %) 665 137 (+ 8,6 %)
Biographies d'Américain-ne-s 12 271 2 743 15 014 70 174 (+ 1,8 %) 362 562 (+ 1,6 %)
Biographies d'Allemand-e-s 2 241 1 191 3 432 25 175 (+ 2,3 %) 216 914 (+ 1 %)
Biographies de Français-e-s 3 120 5 183 8 303 131 286 (+ 0,6 %) 159 268 (+ 2,8 %)
Biographies de Britanniques 4 265 1 144 5 409 27 048 (+ 2,3 %) 139 842 (+ 2,6 %)
Biographies de Japonai-se-s 687 241 928 13 295 (+ 1,3 %) 115 606 (+ 8,8 %)
Biographies de Russes 967 599 1 566 10 118 (+ 59 %) 79 265 (+ 19,6 %)
Biographies de Soviétiques 626 396 1 022 6 109 (+ 5 %) 69 796 (+ 5,3 %)
Biographies de Canadien-ne-s 756 166 922 20 710 (+ 1,1 %) 55 235 (+ 1,6 %)
Biographies de Belges 258 295 553 14 338 (+ 0,9 %) 37 135 (+ 19,5 %)
Biographies de Suisse-sse-s 385 292 677 9 093 (+ 1,4 %) 28 152 (+ 3,3 %)
Biographies de Chinoi-se-s 226 69 295 2 921 (+ 4,4 %) 26 240 (+ 61,8 %)

J'ai ajouté 2 statistiques par rapport aux deux premières analyses : le nombre d'articles géolocalisés et le nombre de biographies de personnes vivantes. On remarque, notamment, que les entrées géolocalisées représentent 10,9 % de l'échantillon de Britannica et 9,5 % de celui d'Universalis. En comparaison, ceux de frwiki et de Wikidata représentent respectivement 13,6 et 12,3 % du contenu.

Le poids des biographies sur le total des entrées est descendu à 30,5 % pour Britannica et 52,7 % pour Universalis.

Contrairement aux tableaux précédents, j'ai combiné les personnalités de l'Empire russe et de la Russie, ce qui explique probablement une partie du fort écart de Russes entre les échantillons précédents. Cependant, je ne m'explique pas certains pourcentages d'écart pour Wikipédia en français et Wikidata. À part l'augmentation totale du nombre d'éléments de Wikidata, tout pourcentage d'augmentation qui excède 5 % me semble louche. Est-ce que c'est les requêtes SPARQL qui ne sont pas robustes ? Est-ce qu'il y a eu un ajout massif de localisations dernièrement ? Je ne sais pas.

Voici les proportions des articles biographiques pour le troisième échantillon :

Type de biographies Britannica Universalis
1er échantillon 2e échantillon 3e échantillon 1er échantillon 2e échantillon 3e échantillon
vivant-e-s - - 13,6 - - 11,1
hommes 87,3 87,3 87,5 92,2 91,6 91,2
femmes 12,7 12,6 12,4 7,8 8,3 8,7
Américain-ne-s 32,6 32,2 31,4 14,4 16 15,5
Allemand-e-s 6,8 6,3 5,7 6,8 7,2 6,7
Français-e-s 7,8 8,0 8,0 29,9 31,5 29,3
Britanniques 12 11,5 10,9 7,1 6,9 6,5
Japonai-se-s 1,6 1,7 1,8 4,1 2,5 1,4
Soviétiques 1,7 1,6 1,6 1,3 1,5 2,2
Canadien-ne-s 1,9 1,9 1,9 0,8 1 0,9
Russes 0,7 0,7 2,5 0,4 0,5 3,4
Belges 0,7 0,7 0,7 1,7 1,6 1,7
Suisse-sse-s 1,2 1,1 1,0 1,7 1,7 1,7
Chinoi-se-s 0,6 0,6 0,6 0,5 0,4 0,4

Du côté de frwiki, 32 243 notions de Britannica et 1 929 articles d'Universalis du troisième échantillon ne sont pas présents sur Wikipédia en français, soit respectivement 29,3 % et 5,8 %. Ces proportions ont considérablement augmentées par rapport au second échantillon, ce qui s'explique par le fait que les outils de mix'n'match permettent d'associer les notions les plus faciles en premier. Ainsi, retirant peu à peu ces dernières, il reste de plus en plus de notions qui n'existent que peu ou pas sur les différentes versions linguistiques de Wikipédia.

Commentaires
  • J'ai trouvé pourquoi l'outil mobile permet d'associer plus de femmes que l'outil visuel. C'est tout simplement parce qu'il est plus efficace pour associer les personnes vivantes que l'outil visuel et qu'il y a plus de femmes chez les biographies de personnes vivantes.
  • Les articles liés à des alphabets non-latins ou à des transcriptions d'alphabets non-latins vers l'alphabet latin sont plus difficiles à associer. On peut donc supposer qu'il y a une sous-représentation des sujets « non-latins » dans les échantillons de Britannica et d'Universalis actuellement associés.
  • J'ai épuisé les capacités de l'outil visuel et du jeu mobile pour Universalis. J'ai fait le tour à plusieurs reprises des éléments non-associés restant en traitant « à la main » les articles restant, puis j'ai cessé. Le travail qui reste est fastidieux et je crois que l'association des éléments de Britannica restant est un investissement de mon temps plus rentable. Pour celles et ceux qui voudraient tenter d'associer les quelque 2 500 articles d'Universalis manquants, voici quelques indications :
    • La plupart de ces articles nécessiteront probablement la création d'un item. C'est le cas de toutes les mises en scène de pièces de théâtre et des expositions. C'est également le cas de presque toutes les œuvres écrites (livres et articles).

Quantifier les centrismes de l'EC et du DBC

[modifier | modifier le code]

« L'EC met plus en valeur les femmes que les autres encyclopédies classiques. »

« Il faut être un homme mort depuis longtemps pour être dans le DBC. »

septembre-octobre 2018 - L'association des entrées de Britannica avec des éléments de Wikidata se poursuit tranquillement. Nous en sommes à un peu plus de 130 000 associations sur 206 761 entrées.
J'ai entrepris des associations de L'encyclopédie canadienne (EC) et du Dictionnaire biographique du Canada (DBC), qui affirment avoir chacun respectivement 20 239[2] et 8 500[3] entrées.

Statistiques EC DBC frwiki Wikidata
Nombre total d'entrées
sur mix'n'match
8 587
(42,2 %)
7 754
(91,2 %)
2 047 014 50 777 465
Échantillon 5 894
(29 %)
4 692
(55,2 %)
2 047 014
(100 %)
50 777 465
(100 %)
Entrées géolocalisées 825
(14 %)
0 7 025 384
(13,8 %)
Localités 684
(11,6 %)
0 2 154 400
(4,2 %)
Entrées biographiques 3 486
(59,1 %)
4 690[note 13] 548 708
(26,8 %)
4 590 524
(9 %)
Personnes vivantes 1 260
(36,1 %)
216
(4,6 %)
289 328
(52,7 %)
2 931 578[note 14]
(63,9 %)
Biographies d'hommes 2 747
(78,8 %)
4 412
(94,1 %)
3 177 491
(69,2 %)
Biographies de femmes 684
(19,6 %)
253
(5,4 %)
94 115
(17,2 %)
715 262
(15,6 %)

Quelques observations :

  • La proportion d'articles biographiques de l'EC est semblable à celui de EB et EU.
  • La proportion d'articles biographiques consacrés à des femmes est, pour EC, la plus haute des encyclopédies classiques jusqu'ici (19,6 %), alors qu'elle est la plus basse pour le DBC (5,4 %).
  • 95 % des entrées du DBC concernent des personnalités décédées, alors que c'est près des deux tiers pour l'EC.
  • L'EC possède plusieurs entrées constituées de la recopie d'articles de Maclean's.
  • Les associations automatiques du DBC étaient à peu près toutes erronées. C'est étonnant puisque le format des dates pour ce site me semblent facilement réutilisable dans un outil externe automatique.
    J'imagine qu'il serait facile de refaire l'exercice avec un bien meilleur succès.
  • Un nombre surprenant d'entrées des deux publications sont absentes de Wikidata.
  • C'est toujours plaisant de mettre à jour les statistiques de frwiki et Wikidata en même temps. Ça rappelle une énième fois à quel point on ne joue pas dans les mêmes ligues.
  • Je suis surpris par la quantité d'articles biographiques qui ne sont classifiés ni chez les hommes, ni chez les femmes sur Wikidata (15,2 %). Je me demande à quel point je peux me fier à mes requêtes SPARQL.
  • Je suis irrité par mon incapacité à obtenir certaines quantités d'articles (cases vides du tableau) en raison de limitation de l'outil de requêtes. J'imagine qu'il y aurait moyen de reformuler mon SPARQL pour régler le problème, mais malgré cela, ça demeure un irritant majeur.

L'épreuve des faits

[modifier | modifier le code]

janvier 2019 - Grâce à l'incroyable talent de magicien de TomT0m, des requêtes de Wikidata nous permettent d'obtenir des évaluations de % de contenus en une seule opération automatisée. Voici donc, par exemple, la requête SPARQL permettant d'évaluer le pourcentage des valeurs de P21 (« sexe ou genre ») des éléments de propriétés qui sont des Q55452870 (« propriété Wikidata relative aux encyclopédies ») :

#Évaluer le contenu de genre masculin et féminin d'encyclopédies diverses
select ?property ?propertyLabel ?propertyDescription 
       (group_concat(concat(str(?sexe_label_final), 
                           ": ", 
                           str(?effectif), " ",
                           "(", str(round(?effectif / sum(?effectif) * 100)), "%",")") ; separator=" - ") as ?sexes) 
       (sum(?effectif) as ?total)

with {

select ?property ?sexe (count(?person) as ?effectif)
{
    ?property rdf:type wikibase:Property ;
              wdt:P31/wdt:P279* wd:Q55452870 ;
              wikibase:directClaim ?propertyMainValue .
  
    ?person ?propertyMainValue [] ;
            wdt:P31 wd:Q5 .
    optional {
       ?person wdt:P21 ?sexe2 .
       bind(if(isBlank(?sexe2), "inconnu", ?sexe2) as ?sexe3) 
    }
    bind(if(!bound(?sexe3), "non specifié", ?sexe3) as ?sexe)
    
 
} group by ?property ?sexe
  order by ?property ?sexe
} as %dataset

where {
  {
    select ?property ?propertyLabel ?propertyDescription ?sexe ?sexe_label_final ?effectif{
      include %dataset .
      optional { ?sexe rdfs:label ?label_sexe filter langmatches(lang(?label_sexe), "fr") }
      SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
      bind (if(bound(?label_sexe), ?label_sexe, ?sexe) as ?sexe_label_final)
    }
  }
  bind( (?effectif / ?total )  as ?pourcent)
} group by ?property ?propertyLabel ?propertyDescription

Cliquez pour essayer !

Ne me demandez pas de l'expliquer. Tout ce que je peux dire est que cette requête donne les mêmes résultats pour l'EB, l'EC, l'EU et le DBC que ceux que j'ai calculés.

« Va vite et casse des choses. Si tu ne casses rien, c'est que tu ne vas pas assez vite[trad 1]. »

— Ghuron, citant probablement Mark Zuckerberg

septembre 2018 - Le vendredi 7 septembre 2018, je franchis la barre des 500 000 contributions sur Wikidata. Nous sommes 77 contributeurs dans cette situation. Je profite de l'occasion pour faire un bilan :

  • Débuts : Je commence à contribuer à Wikidata en février 2013. Jusqu'en juin 2015, j'y contribue peu, y faisant environ 3 000 contributions qui concernent surtout des modifications de libellés, alias, descriptions et liens interwikis des éléments.
    En mai 2015, j'adapte {{Wikidata list}} (WL) pour fr.
  • Infobox : À partir de fin juin 2015, c'est l'histoire des infobox Wikidata qui commence pour moi (voir #LuaBot). Je fais quelques milliers d'interventions manuelles par mois jusqu'en mars 2016. D'abord presque exclusivement sur des éléments dédiés à des êtres humains (Q5 (« être humain »)) ou liés à des êtres humains, notamment à la traduction de plusieurs labels d'éléments affichés dans des articles de la catégorie:Page utilisant des données de Wikidata à traduire, puis un peu sur des éléments liés à des mines à partir de septembre lorsqu'on m'a demandé de retoucher des aspects de {{Infobox Mine}}. Le sujet semble me passionner car je crée plusieurs listes de mines avec WL. D'ailleurs, avant que je la subdivise, la listes de mines devient momentanément en novembre le plus gros article de frwiki, frôlant le million d'octets.
    Novembre est mon plus « gros » mois contributif de l'année. J'ajoute, notamment, plusieurs labels en français concernant des objets astronomiques. J'ai l'impression que j'ai utilisé un outil automatique ou semi-automatique pour ce faire, mais rien dans l'historique de mes contributions ne l'indique.
    En janvier 2016, je continue à traiter des sujets géologiques et fais des contributions sur des éléments liés aux séismes. On dirait que j'utilise à l'époque un ancêtre de Wikidata Query, Wikidata Query Service, dont le difficile apprentissage de la syntaxe ne servira pas longtemps puisque celle-ci sera remplacée par le SPARQL. En février, je fais quelque contributions à l'aide de Kasparbot, mais ça ne semble pas concluant (j'en garde aucun souvenir). J'ajoute également des légendes d'images wikifiées avant de comprendre que ce n'est pas adéquat sur Wikidata. Enfin, à la fin du mois, je crée {{Infobox Localité}} dans la foulée du MOI d'un contributeur.
saint Magnus
  • Automatisation : En décembre, après la fin des cours, je (re?)découvre QuickStatements (QS). Je commence donc l'automatisation de mon parcours contributif wikidatien et je ne ferai jamais en-dessous de 3 000 contributions par mois par la suite.
    J'utilise d'abord QS pour ajouter des populations sur des éléments liés à des localités du Mexique, puis, en janvier 2017, je fais quelques autres expérimentations, notamment sur des fonctions politiques, puis sur des occupations de sportifs et joueurs d'échecs.

    Au milieu du mois, après y avoir pensé quelque mois à la suite d'une suggestion de Cantons-de-l'Est (encore lui !), j'arrive à trouver une méthode pour ajouter le label en plusieurs langues pour les quelque 2 000 satellites russo-soviétiques Cosmos. J'ajoute par la suite le pays de nationalité de plusieurs personnalités canadiennes, puis, en fouillant les contributions de Fralambert, je (re?)découvre mix'n'match.

    Avec enthousiasme, je crée environ 1 400 éléments sur des joueuses d'échecs et complète ces derniers, ainsi que certains concernant des joueurs masculins, avec QS. J'ai momentanément peur six mois plus tard quand on met en doute l'admissibilité des joueuses, mais le tri a bien été fait sur mix'n'match et je suis à ce moment plus habile avec les outils automatiques. Je peux donc compléter adéquatement les créations.
    Je fais 63 000 contributions en janvier. Ce sera mon plus gros mois avant que, un an et demi plus tard, en fouillant les contributions de Thierry Caro, je (re)découvre Harvest Templates (HT).

    L'ami Fralambert et moi prenons un mastodon au cours de l'année et il me montre comment contribuer à l'aide de PetScan. Une toute nouvelle dimension s'ouvre à moi pour cet outil[note 15].

    5 Wikipédien-ne-s à Alma
    À la fin de l'automne, à la suite de la visite de la caravane wiki dans ma région, je me lance éperdu dans l'association d'éléments avec des entrées web d'encyclopédies classiques avec mix'n'match (voir #Quantifier les centrismes de Britannica et Universalis). J'arrive désormais vers la fin de mes capacités à ce niveau, après avoir associé à 93 % Universalis et 20 % Britannica. Je suis passé à l'encyclopédie Canadienne (voir #Quantifier les centrismes de l'EC et du DBC).
  • Vitesse supérieure : J'ai fait plus de la moitié de mes contributions sur Wikidata au cours du dernier mois. Le harvest porte bien son nom. Il s'agit de bien identifier la propriété concernée, le champ d'infobox qui y correspond et bingo. Ne reste qu'à faire rouler l'ordi toute la nuit. J'ai ajouté ainsi des séquences d'albums musicaux et labels discographiques associés, des scénaristes et réalisateurs de films, des dates de découvertes par découvreur, des ...
  • En route vers M : Au rythme actuel, je devrais atteindre le million de modifications d'ici la fin de l'année avec HT. Par la suite, qu'arrivera-t-il ? Je ne sais pas. J'aimerais mieux lier les différents projets wiki entre-eux (je crois que c'est pour ça que j'aime autant contribuer à Wikidata) et je regrette, notamment, de ne pas connaître le python. Cela aurait pu me permettre d'explorer Pywikibot. Mais bon, peut-être dans une autre vie.
    Ma philosophie contributive wikidatienne est toujours guidée par WP:NHP. Bien que cette attitude ne semble plus vraiment possible sur frwiki, pour l'instant, elle l'est encore sur Wikidata. D'ailleurs, la citation des RAW 200 disant que « Wikipédia est un labyrinthe sans murs » cristallise l'idée qu'il faut faire son chemin, son parcours contributif pour mieux y voir. C'est en marchant le chemin qu'on arrive à comprendre de mieux en mieux les choses et que les influences sur sa manière de contribuer se font sentir. De plus, puisque le site est aisément modifiable, il est facile de corriger le tir si l'initiative est malheureuse.
    Cette citation me fait également penser à la Directive Première, qui dit de ne pas partager des connaissances avec quelqu'un qui n'est pas prêt à les gérer, autrement il pourrait se retrouver dans une position d'apprenti sorcier. Cela me fait réfléchir sur le contenu du manuel Savoir libre en éducation.
Vivement une image sous licence libre de la vraie (d), évidemment sous 🄯.

octobre 2018 - Je franchis le cap du million de contributions le mardi 9 octobre 2018. D'après le message de félicitation automatique que j'ai reçu, ma millionième contribution a été faite sur Gay Life (d) (!).
Nous sommes actuellement 49 millionnaires humains[note 16] sur Wikidata. Quoi de neuf un mois plus tard ?

Cette image est très utilisée dans en:template:Infobox cricketer. À la suite d'une erreur de manipulation, je l'ai importée sur plusieurs dizaines d'éléments. Ça a fait en sorte que j'ai été bloqué quelques heures sur Wikidata.
  • Comme prévu, c'est l'utilisation de HT qui m'a permis de faire 90 % des 500 000 nouvelles contributions. J'ai ainsi écrémé plusieurs modèles d'infobox de enwiki, à commencer par les infobox biographiques. J'ai été notamment surpris par le nombre d'images non-importées sur Wikidata (P18 (« image »)). J'aurais cru que d'autres utilisateurs auraient importé depuis longtemps ces dernières sur la base de données libre.
    Bien que je ne pense pas que cela soit un facteur déterminant, il faut cependant souligner que certaines images des infobox sont indésirables. Ainsi, par exemple, les images soulignant l'absence d'image et invitant les internautes à téléverser une image sous licence libre (voir ci-contre). Cependant, j'ai appris qu'il est possible de restreindre les valeurs importées automatiquement pour certaines propriétés. J'ai ainsi pu faire plusieurs ajustements afin d'éviter la plupart des mauvaises importations automatiques pour P18. Cependant, cet apprentissage ne s'est pas fait sans heurts et j'ai perdu ma virginité de blocage sur Wikidata à la suite d'une erreur de manip et d'une absence de réponse trop longue de ma part sur ma page de discussion utilisateur.

    L'importation sur Wikidata de cette carte de localisation a directement mené à son importation sur l'article Vașcău.
    Sinon, dans les autres types de données importées, notons l'ajout de plusieurs cartes de localisation (P242 (« carte de localisation »)), de superficies (P2046 (« superficie »)), d'images du blason (P94 (« image du blason »)) ou de drapeaux (P41 (« image du drapeau »)). J'ai créé des tableaux de statistiques sur plusieurs pages de discussion des catégories de frwiki recensant les pages utilisant des données de Wikidata. Je m'y suis malheureusement pris trop tard pour P18, mais je me suis repris pour, notamment, P242. J'ai ainsi pu constater que l'importation de plusieurs dizaines de milliers d'images de localisation sur Wikidata a résulté en l'ajout d'environ 1 500 images de cartes de localisation sur des articles de frwiki utilisant l'infobox Localité.

    Je suis particulièrement fier de l'ajout d'une dizaine de millier de types d'établissements humains (P31 (« nature de l’élément »)) qui me demandaient de revérifier la validité de l'élément parmi une liste de plusieurs dizaines d'éléments types.
    Numéros d'éléments liés à des types communs de localités.
    En entrapercevant la feuille du coin de l’œil, une collègue s'est demandée si je n'étais pas en train de péter les plombs à la John Nash.

    Notons le peu d'ajouts de dates de décès (P570 (« date de mort »)) en raison de l'utilisation de modèles imbriqués dans les infobox sur ces dernières afin, notamment, d'afficher l'âge au décès. D'autres difficultés ont également émergées, comme par exemple l'ajout de date de fondation (P571 (« date de fondation ou de création »)) de localités. Cela s'explique par la nature même de la propriété (une localité peut changer à plusieurs reprises de classification au cours de son histoire).
  • Dans le 10 % restant, notons que j'ai finalement réussi, un an après avoir posé la question sur le Bistro de Wikidata, à importer automatiquement la langue des sites officiels[note 17] de dix à vingt mille éléments à l'aide de QS2[note 18]. Pour ce faire, j'ai d'abord recensé et ajouté le qualificatif aux localités des États-Unis. Par la suite, j'ai fait la même chose avec les éléments qui n'ont que l'anglais pour P407 (« langue de l'œuvre, du nom ou du terme »). Pour ce faire, j'ai bénéficié de l'aide d'autres Wikidatistes[note 19] pour finir par forger la requête suivante :
    SELECT ?item ?itemLabel
    WHERE
    {
    {
      SELECT ?item (COUNT(DISTINCT ?lang) AS ?count) WHERE
    { 
      ?item wdt:P407 wd:Q1860 .
      ?item wdt:P407 ?lang .
      ?item p:P856 ?statement .
      ?statement ps:P856 ?url .
      MINUS {?statement pq:P407 wd:Q1860 . }
    }
      GROUP BY ?item
    }
    FILTER ( ?count = 1 )
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . }
    }
    ORDER BY DESC(?count) ?itemL
    
    Cliquez pour essayer !
    Ma maîtrise du SPARQL continue de progresser, mais, bien honnêtement, elle demeure rudimentaire.

Voilà. Quelle est l'étape suivante ? Je crois que je vais me contenter de terminer mes imports actuels et prendre une petite pause pour digérer le tout. Le travail et la vraie vie sont prenants ces temps-ci et je ne peux malheureusement pas me permettre de continuer mes explorations wikidatiennes pour le moment.

« Le premier million est le plus difficile. »

décembre 2018 - Je franchis le cap du 2 millions de contributions le 24 décembre 2018. Cette fois, pas de message de félicitation automatique. Ma deux millionième contribution est un ajout de label « cours d'eau aux États-Unis » sur l'un des nombreux cours d'eau aux États-Unis n'ayant pas de label en français.
Nous sommes actuellement 19 utilisateurs non-bot bi-millionnaires. Quoi de neuf depuis le cap du million ?

  • octobre 2018 J'ajoute encore environ 150 000 contributions à l'aide de HT. Je délaisse par la suite cet outil pour revenir au trio query - PS - QS.
    Je déniche tout d'abord tous les éléments ayant un URL officiel et comme pays les États-Unis. Je leur ajoute comme qualificatif Q1860 (« anglais ») avec P407 (« langue de l'œuvre, du nom ou du terme »). Cela touche environ 100 000 éléments. Je fais quelques requêtes supplémentaires pour ajouter des P407 sur quelques milliers d'autres URL.

  • connecteurs logiques Par la suite, en novembre, je m'intéresse aux connecteurs logiques entre les propriétés pour repérer des éléments qui possèdent des triplets qui ne vont pas que dans un seul sens. Ce faisant, je me rappelle que vers 2015, j'avais voulu insérer des noms de compagnies sur des éléments d'êtres humains à l'aide de la propriété P112 (« fondé par ») et qu'on m'avait rapidement signalé que cette propriété n'allait que dans un sens (compagnie P112 fondateur). J'ai mis un certain temps à comprendre/accepter le sens unique des triplets[note 20].
    Donc, première chose, je constate que puisque la propriété P3373 (« frère ou sœur ») est égalitaire (), c'est-à-dire que élément1 P3373 élément2 élément2 P3373 élément1, on peut ajouter automatiquement l'élément1 en P3373 de tous les éléments2 qui n'ont pas de valeur pour P3373.
    J'ai été étonné de la simplicité de la requête SPARQL permettant de dénicher ces éléments :
    SELECT DISTINCT ?fratrie ?item WHERE
    {
      ?item wdt:P3373 ?fratrie
      MINUS {?fratrie wdt:P3373 ?pasfratrie}
    }
    
    Cliquez pour essayer !
    Cela m'a donné environ 4 500 résultats.
    Il a été facile d'adapter la chose pour les relations profs/élèves (il manquait 2 directeurs de thèse, 10 000 étudiants de thèse[note 21], 8 700 élèves et 4 900 élèves de) ainsi que les relations entre père/mère et enfants (~1 000 résultats), enfant mère (~1 600 résultats) et enfant père (~4 000 résultats). On remarque ainsi, notamment, qu'il y a 2,5 fois plus d'éléments Wikidata sans père que sans mère lorsque la propriété P40 (« enfant ») est renseignée chez ces derniers. En croisant cela avec le contenu des catégories des pages utilisant P22 et P25 (21 180 vs. 8 431), on peut conclure qu'il semble que les mamans sont beaucoup mieux liées à leurs enfants que les papas.
    The Mamas and the Papas, dans cet ordre.

    Une autre requête simple permet de trouver les éléments qui n'ont pas de P17 (« pays ») mais qui ont une P131 (« localisation administrative ») liée à un pays :
    SELECT DISTINCT ?item WHERE {?item wdt:P131* wd:PAYS . MINUS {?item wdt:P17 [] .} }
    
    Cliquez pour essayer !. J'ai donc ainsi ajouté Q29 (« Espagne ») sur environ 11 200 éléments (!?[note 22]), Q142 (« France ») sur environ 3 600 éléments, Q145 (« Royaume-Uni ») sur environ 2 000 éléments, Q30 (« États-Unis ») sur environ 1 500 éléments, etc..

    La découverte de P1696 (« inverse de cette propriété ») m'aide à mieux établir les connexions, ce qui me permet d'ajouter des conjoints (environ 5 000[note 23]), des capitales (environ 19 000 P1376 (« capitale de ») et 600 P36 (« capitale »)), des P1889 (« à ne pas confondre avec ») (~7 000 éléments).

J'ai également tenté de lier des P1830 (« propriétaire de ») (~154 000 éléments !) et des P4969 (« œuvre dérivée »), ce qui m'a amené à battre le record de l'élément avec le plus grand nombre de déclaration[note 24], mais plusieurs contributeurs ont pété les plombs et retiré mes ajouts à ce niveau. Ils m'auraient même momentanément bloqué si je n'avais pas réagit promptement à leur doléances. J'ai tenté une discussion sur le Bistro anglophone de Wikidata sur le sujet, soulignant que la symétrie de ces propriétés impose que le contenu de l'une soit entièrement reflété dans le contenu de l'autre et que soit on le fait, soit on supprime la propriété inverse. Malheureusement, personne n'a répondu. La communauté n'est manifestement pas prête/mûre sur ce sujet.

Le même mois, je trouve enfin une page listant les principaux modèles d'infobox utilisés sur enwiki. J'en profite donc pour importer une bonne partie du contenu des principaux modèles que je n'avais pas encore explorés avec HT. J'utilise également PS pour lister les éléments qui n'ont pas de P31 et dont les articles de enwiki utilisent un modèle d'infobox particulier. J'ajoute ensuite ce P31 en fonction de l'infobox concernée. Ainsi, par exemple, il y avait environ 4 000 éléments sans P31 et dont l'article en anglais utilise en:Template:Infobox school (petscan:6618629). Je leur ai donc ajouté Q3914 (« école »).
Après avoir écumé les principaux modèles d'infobox utilisés, je suis passé à d'autres modèles très utilisés recensés sur en:Wikipedia:WikiProject Accessibility/Most widely used templates/Top 200 et son équivalent en français.

Amédée Robitaille
Je continue de mix'n'matcher des éléments, au rythme de quelque milliers par mois. Ici, un exemple (d) d'élément que j'ai créé à la suite de l'association de tous les P3055 (« identifiant Assemblée nationale du Québec »).
Fonction
Député à l'Assemblée nationale du Québec
Biographie
Naissance
Décès
Voir et modifier les données sur Wikidata (à 77 ans)
Nationalité
Activité
  • Descriptions : À la mi-décembre, en observant l'ami VIGNERON ajouter des descriptions en breton sur des lacs du Canada, je fais de même en y ajoutant des descriptions en anglais. J'ajoute également des descriptions en anglais et en français pour des lacs et cours d'eau des États-Unis, de la Russie, de la Chine et de l'Inde. Cela amène rapidement environ 200 000 contributions m'amenant à dépasser les deux millions de modifications. La requête SPARQL concernée m'a longtemps échappée, alors qu'elle est relativement simple :
#Tous les lacs du Canada qui n'ont pas de description en français
SELECT DISTINCT ?item
WHERE
{
	?item wdt:P31 wd:Q23397 .
	?item wdt:P17 wd:Q16 .
	MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="fr") .}
}

Cliquez pour essayer !

J'arrive difficilement à saisir certains phénomènes projetés sur une carte 2-D. C'est là l'une de mes nombreuses failles.
  • Quel taux d'erreur peut-on tolérer ? : Je me rends compte que ma manière de contribuer entraîne un taux incompressible d'erreurs. Je m'interroge sur les valeurs acceptables d'un tel taux.
    Ainsi, par exemple, un contributeur me suit régulièrement pour méticuleusement annuler toute modification de ma part qu'il juge inadéquate. Bien que je crois qu'il est souvent trop perfectionniste, j'imagine que ses interventions améliorent en général la base de données libre. J'arrive désormais à ne pas le prendre personnel et à accepter cette wikitraque, mais ces interventions sont cependant stressantes pour moi car elle amènent une bonne quantité de notifications qui m'attendent à chaque matin et j'anticipe toujours que le ciel va me tomber sur la tête.
    Alors, quel est le taux d'erreurs incompressible acceptable ? 1 %, 0,1 %, 0,01 %, aucun ? Pour le moment, je crois que mes erreurs sont largement compensées par mes bons coups, mais je peux faire erreur.
    Si jamais vous avez une opinion sur le sujet, je suis preneur.
Opinions
  • Un ami wikimédien me dit qu'un taux d'erreur mène à moins de problèmes. En effet, dans cette situation, si quelqu'un remarque une erreur, il lui faudra vérifier en moyenne 100 autres de vos contributions pour trouver une autre erreur. Cela est trop énergivore pour le contributeur moyen et si toutefois la personne s'y met, elle pourra probablement être accusée de wikitraque.
    Je trouve ce PoV intéressant. Bien qu'on parle moins d'un taux acceptable d'erreur qu'un taux qui "passe sous le radar", il permet de faire évoluer ma réflexion.

3 minions et plus

[modifier | modifier le code]
Ophioderma peruana (es). Au cours de cette période, j'ai importé des images de taxons à partir de plusieurs versions linguistiques à l'aide d'HT.

« Vers l'infini...et plus loin encore ! »

— Buzz Lightyear

février 2019 - Je franchis le cap des 3 millions de contributions le 2 février 2019. Ma trois millionième contribution est un ajout de label « établissement humain » ou « human settlement » sur l'un des nombreux éléments du genre n'ayant pas de label en français ou en anglais sur Wikidata.
Je franchis à peu près en même temps le cap du milliard d'octets ajouté (Global diff) sur Wikidata.
Nous sommes actuellement 12 utilisateurs non-bot tri-millionnaires. Quoi de neuf ?

  • Ère des descriptions : Je continue mon voyage dans l'ère des descriptions en ajoutant les descriptions en français « établissement humain à/au/aux PAYS » et en anglais « human settlement in PAYS » aux quelques ~100 000 éléments classifiés comme tels pour les États-Unis, aux 12 000 éléments similaires du Canada, 16 000 de la France, 12 000 du Royaume-Uni, 110 000 de l'Inde, ~300 000 de la Russie, ~210 000 du Mexique, etc. Il est certain que ces descriptions n'ajoutent pas beaucoup de plus value et que certains informaticiens doivent même juger qu'elles n'apportent absolument rien de plus puisque ces informations sont déjà disponibles dans les propriétés P31 et P17, mais je rationalise la chose en me disant que ce qui favorise la redondance est bon. De plus, si je ne prends que mon expérience personnelle, il m'arrive souvent d'être irrité par l'absence de description quand j'effectue une recherche dans Wikidata, surtout quand je tente de trier des notions homonymes. Enfin, sur mix'n'match, il faut souvent faire un choix parmi les associations automatiques à l'aides des descriptions. Avoir ainsi la meilleure description possible permet un plus grand succès. Dans cette optique, pas de description < description générale < description précise.
    Je prends des initiatives pour mieux comprendre le SPARQL. Je lis de la documentation qui y est liée[note 25] et je continue à développer tranquillement d:User:Simon Villeneuve/SPARQL. Je compte également sur la nouvelle section "SPARQL du mois" dans les RAW pour avancer à ce niveau.
  • Étiquettes : Au cours de la deuxième semaine de février, je fais une pause d'ajout de description. Je me lance dans l'ajout d'étiquettes (labels) en français de personnalité n'en ayant pas, mais en ayant une en anglais. Je le fais pour des personnalités canadiennes (~4 300), américaines, etc.
  • Instrument de musique : En même temps, je recense tous les éléments ayant comme P106 (« occupation ») Q177220 (« chanteur ou chanteuse »), mais sans Q17172850 (« voix ») dans P1303 (« instrument de musique pratiqué »). J'ajoute donc cet instrument pratiqué avec PetScan sur les ~82 000 éléments concernés :
select distinct ?item where {?item wdt:P106 wd:Q177220 . minus {?item wdt:P1303 wd:Q17172850 .} }

Cliquez pour essayer !

select distinct ?item where {?item wdt:P31 wd:Q5 ; wdt:P735 ?prenom ; wdt:P735/wdt:P31 wd:Q11879590 . minus { {?item wdt:P735/wdt:P31 wd:Q12308941 .} union {?item wdt:P21 ?sexe .} } } group by ?item having(COUNT(DISTINCT ?prenom) = 1)

Cliquez pour essayer ! Ce qui me permet d'ajouter Q6581072 (« féminin ») dans P21 sur un peu plus de 8 000 éléments.
Je continue à traduire des descriptions anglo to fr. On gagne 2 000 nageuses par ci, 2 000 joueurs de cricket par là, 7 000 femmes politiques par ici, 4 000 hommes politiques américains par là, etc.. Je perds tranquillement un ordre de grandeur contributif.

Petite incursion dans le cinéma iranien.
  • Bref retour à HT et poursuite des descriptions : Manquant d'inspiration, je fais un petit retour sur HT en m'intéressant aux modèles d'infobox Film en espagnol, italien, néerlandais, etc.. J'en profite pour détecter les films américains, canadiens, britanniques, etc. qui n'ont pas de description en français. À l'aide de Google Traduction, j'arrive à décoder quelques champs de l'infobox fa:الگو:جعبه اطلاعات فیلم. Wikidata y gagne, notamment, près de 500 « nouveaux » films.
    Des membres du projet:Cinéma se mobilisent pour supprimer l'infobox Film. Je perds le goût de développer cette thématique.
    À elle seule, la revue Nature est liée à près de 300 000 articles scientifiques. La plupart de ceux-ci ne possédaient pas de description ni de précision sur la langue de publication.
    Réfléchissant aux éléments Wikidata les plus utilisés, je regarde ce que je pourrais faire concernant les Q13442814 (« article scientifique »). À ma grande surprise, plusieurs ne possèdent pas de description en français. Je commence ainsi par sélectionner les articles scientifiques publiés par Q180445 (« Nature ») et j'ajoute ~250 000 descriptions (!) sur ces derniers.
SELECT DISTINCT ?item
{
	?item wdt:P31 wd:Q13442814 ;
          wdt:P1433 wd:Q180445 ;
	MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="fr") .} 
}

Cliquez pour essayer !

  • mars : Je franchis le cap des 4 millions de contributions le 7 mars en ajoutant des descriptions en anglais et en français sur des articles scientifiques.
    J'en profite pour détecter les articles scientifiques publiés par des revues anglophones et qui n'ont pas de P407 afin d'ajouter Q1860 avec petscan:8174056. Cela mène à environ 350 000 contributions.
    Je recherche des Q8502 (« montagne ») aux États-Unis sans descriptions en anglais ou en français (environ 110 000 résultats), puis j'affine ma recherche pour ajouter l'État :
select distinct ?item ?etatLabel where {?item wdt:P31/wdt:P279* wd:Q8502 ; 
                                   wdt:P17 wd:Q30 ;
                                   wdt:P131 ?loc .
                                   ?loc wdt:P131* ?etat .
                                   ?etat wdt:P31 wd:Q35657 .
                             MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="en") .}  
                                        SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
                                       }

Cliquez pour essayer !

Je poursuis avec les Q41176 (« bâtiment »), en ajoutant la localisation administrative, l'État et le pays. Exemple de requête concernée :

SELECT DISTINCT ?item ?locLabel ?etatLabel
WHERE
{
    ?item
            wdt:P31 wd:Q41176 ;
            wdt:P17 wd:Q30 ;
            wdt:P131 ?loc ;
            wdt:P131* ?etat .
            #wdt:P131* wd:Q99 .
            ?etat wdt:P31 wd:Q35657 .
            #wdt:P17/wdt:P30 ?continent ;
            #wdt:P17/wdt:P30 wd:Q15 .
MINUS { ?item schema:description ?itemDescription filter(lang(?itemDescription)="en") .}
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
#group by ?item ?locLabel having(COUNT(DISTINCT ?continent) = 1) order by desc (?count)

Cliquez pour essayer !

Ceci n'est pas un bâtiment.

J'ai dû réviser mes expressions rationnelles pour être capable de retirer les doublons entre localité et État.
Je reçois des messages irrités sur ma page de discussion, ce qui indique que j'approche le point de "casser quelque chose" avec ma vitesse de contribution. Je ralentis donc le rythme et corrige selon les doléances exprimées. L'une des critiques me permet de créer une requête peaufinée permettant de faire des correction de descriptions :

SELECT ?item
?locLabel 
?etatLabel
?paysLabel WHERE {
  ?item schema:description "cours d'eau aux États-Unis"@fr  ;
        wdt:P31/wdt:P279* wd:Q355304 ;
        wdt:P17 wd:Q30 ;
        wdt:P17 ?pays ;
        wdt:P131 ?loc ;
        wdt:P131* ?etat .
 ?etat  wdt:P131 wd:Q30 .
        #?pays2 .
       # filter (?pays2 = ?pays) .
  #?country wdt:P30 wd:Q46 . 
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
  }
LIMIT 15000

Cliquez pour essayer !
Je franchis le cap des 5 millions de contributions le 20 mars 2019, soit avec une description en anglais ou en français de bâtiments d'Allemagne, soit avec l'ajout de langue=anglais sur un article publié par Nature ou The Astrophysical Journal, soit avec l'ajout d'une image tirée de biographies de Wikipédia en hongrois.
Je commence à préciser quelques descriptions un peu floues avec des modifications de la requête précédente, d'abord en remplaçant les descriptions "ville américaine" par "ville de P131, État, États-Unis" :

SELECT DISTINCT ?item ?locLabel ?etatLabel WHERE {
  ?item schema:description "ville américaine"@fr ;
        wdt:P17 wd:Q30 ;
        wdt:P131 ?loc .
  ?loc  wdt:P131*/wdt:P31 wd:Q35657 ;
        wdt:P131 ?etat .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
  }

Cliquez pour essayer !

  • fin mars : Je vais limiter les nouvelles descriptions avec QS pour un temps. Ça prend vraiment trop de temps IRL. Je vais donc plutôt préciser les descriptions que j'ai importées précédemment.
  • avril : J'atteins les 6 millions de contributions le 1er avril, probablement avec une modification de description de lac américain ou canadien, ou en ajoutant langue=en sur l'un des millions d'éléments dédiés à des articles scientifiques.
    J'ai enfin trouvé le moyen d'optimiser mon nettoyage des genres des livres. En effet, souvent, je constate que Q8261 (« roman ») fait doublon avec un sous-genre de roman dans P136 (« genre artistique »). Je me contentais d'identifier le sous-genre en question dans P136 et de retirer Q8261. Maintenant, avec cette requête, je peux détecter automatiquement tout élément possédant à la fois Q8261 et un sous-genre de Q8261 dans P136 :
select distinct ?item where {?item wdt:P136 wd:Q8261 ; wdt:P136 ?genre . ?genre wdt:P279* wd:Q8261 minus {?item wdt:P31 wd:Q5}.} group by ?item having(COUNT(DISTINCT ?genre) > 1)

Cliquez pour essayer ! À l'aide de la communauté, on arrive à créer des requêtes permettant de produire des listes de localités avec 3 niveaux de subdivisions.

SELECT distinct ?item ?level1Label ?level2Label ?level3Label
WHERE {
  ?item wdt:P31/wdt:P279* wd:Q486972 ;
        wdt:P17 wd:Q159 ;
        schema:description "human settlement in Russia"@en ;
        wdt:P131 ?level1 .
  ?level1 wdt:P131 ?level2 .
  ?level2 wdt:P131 ?level3 .
  minus {?level2 wdt:P576 ?fin .}
  minus {?level3 wdt:P576 ?fin2 .}
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
LIMIT 25000

Cliquez pour essayer !

Je développe une autre requête pour tenter de détecter les liens entre livre-base et les films-oeuvre dérivée, mais ça dépasse le temps de calcul alloué :

SELECT DISTINCT ?item WHERE {
  ?item wdt:P31 wd:Q11424 ;
        wdt:P31 ?film ;
        rdfs:label ?label .
  ?item2 wdt:P31 wd:Q571 ;
         wdt:P31 ?film2 ;
         rdfs:label ?label2
  filter(lang(?label) = "fr") .
  filter(lang(?label2) = "fr") .
  filter(?label = ?label2) .
  minus{?item wdt:P144 ?base .}
  minus{?item2 wdt:P4969 ?derive .}
}
LIMIT 1000

Cliquez pour essayer !

Je franchis le cap des 7 millions de contributions le 24 avril 2019.

Je développe une requête pour trouver les écrivain-e-s ayant une étiquette en anglais, mais pas en français :

select distinct ?item ?itemLabel where {?item wdt:P31 wd:Q5 ; wdt:P21 ?sexe ; wdt:P106 wd:Q36180 . minus { ?item rdfs:label ?label_fr filter(lang(?label_fr) = "fr") .} SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } } limit 25000

Cliquez pour essayer !

En annulant plusieurs dizaines de mes contributions, un utilisateur me fait réaliser que je dois retirer les étiquettes ayant les expressions "of , di , der , da" (exemple).

  • fin mai : Au détour d'une discussion de Bistro, je repère environ 20 000 éléments qui possèdent une parenthèse dans leur étiquette. Je déplace cette dernière en alias et j'enlève la parenthèse de l'étiquette en anglais et en allemand (exemple). J'en profite pour ajouter une étiquette et un alias en français.
  • mi-juin : Je franchis le cap des huit millions de contributions le 16 juin en ajoutant P407:Q1860 sur un article scientifique quelconque. À peu près au même moment, je passe le cap des 5 000 éléments créés.
  • fin juillet : En faisant différentes listes de records (surtout listes des plus grands humains et liste des plus petits humains), je me rends compte que des P2048 (« hauteur ») et P2049 (« largeur ») ont été importées de Wikipédia en italien à partir d'infobox d’œuvres d'art présentes sur des articles consacrés à des êtres humains. Cela m'a permis de corriger le tir sur une vingtaine d'entrées (exemple) et d'intégrer une contrainte sur P2049.
  • mi-juin : Je franchis le cap des huit millions de contributions le 16 juin en ajoutant P407:Q1860 sur un article scientifique quelconque. À peu près au même moment, je passe le cap des 5 000 éléments créés.
Cette œuvre fait 110×29,5 cm, mais pas son auteur.
1 200 000 contributions plus tard...
Droit devant!
Distribution des principaux Q9779 (« alphabet ») du monde
  • Q41670 (« alphabet latin »)
  • Q8209 (« écriture cyrillique »)
  • Q8196 (« alphabet arabe »)
  • Q467037 (« écriture brahmique »)
  • mélange latin et cyrillique
  • mélange latin et arabe
  • mélange sans alphabet et autres alphabets
  • autres alphabets
  • pas d'alphabet
    • octobre : Je vais atteindre ma dix millionième modification au cours de ce mois par l'ajout d'une langue quelconque sur un article scientifique.
      Je compte faire une série de requêtes SPARQL pour montrer l'intérêt de ces ajouts. En effet, je dis depuis un temps déjà que ce n'est pas une grosse plus value et mes échanges récents avec deux autres contributeurs de masse pointent dans le même sens. J'ai ainsi tenté sans succès de convaincre le plus gros contributeur de l'heure d'ajouter la langue des éléments créés par son bot. Un autre contributeur a créé plusieurs (dizaines|centaines ?) de milliers d'éléments liés à des articles scientifiques à partir de Q654724 (« Simbad »). Là encore, j'ai tenté de le convaincre d'ajouter les langues, sans succès.

    « S'il n'y avait qu'une chose à garder des States, c'est leur volonté de mettre des résultats gouvernementaux dans le domaine public. »

    octobre 2019 Voilà, le 3 octobre 2019 (ou le 5 selon Wikiscan), un an après 106, je passe à un Q518730 (« ordre de grandeur ») supérieur et atteint les 107 contributions. Nous sommes 5 contributeurs non-bots dans cette situation.
    Au cours de la même période, Q2013 (« Wikidata ») a passé le cap du 109 contributions. Cela me dit donc que je suis l'initiateur d'environ 1 % du total des contributions sur Wikidata. J'y vois un écho de la barre du un millième des articles de frwiki.

    Par le passé, j'aimais bien utiliser Q68458829 (« Wikiscan ») pour faire un bilan lors des différents jalons de mon parcours wikimédien. Cependant, en ce qui concerne Wikidata, l'outil est mal adapté. En effet, pour Wikidata, contrairement à Wikipédia (pour laquelle l'outil a d'abord été conçu), des statistiques telles le nombre d'heures/jours/mois participés, la taille des diffs ou le fait que les modifications aient été effectuées à la chaîne ou non ne sont pas très intéressantes[note 27]. On peut cependant dire que la quantité d'octets ajoutée, même si elle n'est pas aussi pertinente que pour Wikipédia, permet cependant de se faire une idée de l'impact d'un contributeur sur le contenu de la Q593744 (« base de connaissance ») libre.
    Ainsi, par exemple, on constate que malgré ses 31 millions de modifications, le premier contributeur non-bot, Renamerr, n'a ajouté que 2 G sur 858 G "révisés" (la taille totale de tous les éléments parcourus lors des contributions). On peut donc établir un pourcentage d'export-import en divisant l'un par l'autre, ce qui donne 0,23 %.
    Les deux contributeurs suivants, Daniel Mietchen et Harej, ont sensiblement le même nombre de contributions (15 millions). Cependant, ils n'ont vraiment pas le même profil.

    harej = Harej ? en 2009.

    Employé de la WMF, Harej a longtemps été le premier contributeur du site en terme du nombre de contributions et de volume (58 G !). Il a connu son apogée en 2017 et a quasiment disparu du radar depuis 2018.

    Daniel Mietchen, en 2017.

    En ce qui concerne Q20895785 (« Daniel Mietchen »), il est actuellement le contributeur le plus prolifique de Wikidata à plusieurs niveaux[4]. Il est dans les premiers en terme du nombre de modifications par minute, ce qui lui assure de demeurer un certain temps dans cette position. Ensuite, le volume apporté par son Research Bot est phénoménal (340 G !!!), tout comme le nombre de créations de ce dernier (16 millions !!!). Ces records ne sont pas prêts d'être dépassés. Mietchen a carrément lancé l'ère des articles scientifiques sur Wikidata et celle-ci va capter une bonne partie des énergies du site encore un certain temps.
    Fait marquant, il est quand même saisissant de voir qu'un biochimiste et un biophysicien allemands soient les deux personnalités les plus notables de Wikidata.

    L'un des Jura.

    Le suivant est Jura1. J'ai eu plus de contacts avec ce dernier qu'avec les autres. Il intervient régulièrement sur le Bistro francophone. J'ai cru saisir un contributeur relativement polyvalent, qui me fait découvrir régulièrement plusieurs outils d'éditions/de révision du contenu de Wikidata. Avec ses 5,1 G de volume pour 12 millions de modifications, on voit qu'il est le plus (constant|stable) des contributeurs de tête, jouant aux alentours de 2 millions de modifications par année depuis 2014[5].

    Ghuron a créé des centaines de milliers d'éléments sur des références de Q654724 (« Simbad »).

    Je suis donc le suivant en terme de contributions, mais lorsque l'on regarde mon volume (3 G), je suis bien en-dessous de Ghuron, un russophone qui me suit avec 6,9 millions de modifications, mais qui a 3 fois plus de volume. Même chose en terme de création d'éléments, où mon 5 500 fait pâle figure devant son 430 000. J'ai "révisé" 380 G alors que Ghuron en a ratissé 78. J'ai un export-import de 0,7 %, Ghuron de 11,5 %. Je suis donc plus proche du type de Renamerr (de petits ajouts à des millions d'éléments) que des 4 autres (un gros ajout de contenu par, notamment, la création de centaines de milliers d'éléments).
    Au-delà des 6 premiers contributeurs, les deux statistiques sont cependant relativement corrélées, à part l'exception notable d'Harmonia Amanda, qui a probablement le plus haut pourcentage d'export-import (17,3 %) et le ratio le plus élevé de Wikidata.

    Donc, après 10 millions, où en suis-je ? Je vais tenter un bilan de mon évolution au cours de cette dernière année en tirant quelques statistiques à l'aide de certaines de mes contributions.

    Recenser la langue des œuvres de Wikidata me semble être fondamental, ne serait-ce que pour rendre plus accessible le contenu de la base de connaissances aux personnes monolingues, surtout monolingues Q66724591 (« non anglais »).

    Tout d'abord, cela fait plusieurs millions de contributions que j'ajoute la langue sur des articles scientifiques. Me contentant d'abord de l'anglais, j'ai abordé d'autres langues au cours des deux derniers mois.
    Malheureusement, Q20950365 (« Wikidata Query Service »), le service de requêtes de Wikidata, ne permet pas (encore ?) d'effectuer des recherches sur les gros échantillons. En effet, l'outil plante lorsque le nombre de résultats dépasse les 100 000. Même en mode COUNT, l'outil plante au-delà de 3 millions.
    L'ami VIGNERON m'a fait découvrir [[:d:Q7935239|Q7935239 (« Virtuoso Universal Server »)]] sur Wikidata, qui permet de faire des requêtes sur de très gros échantillons, mais les données semblent dater de la fin juin. On peut quand même faire quelques investigations. J'ai ainsi pu compter en une fraction de seconde les quelque 22 millions d'Q13442814 (« article scientifique ») et en tirer quelques statistiques. Ainsi, ceux-ci sont associés à 98 % à une publication via P1433 (« publié dans ») et à 17,7 % à une langue via P407 (« langue de l'œuvre, du nom ou du terme »)[6]. Voici un tableau recensant la quantité d'article pour toutes les langues ayant plus de 10 éléments associés[7] :

    Langue Nombre
    d'éléments
    %
    Q1860 (« anglais ») 3 430 477 89,3 %
    Q7850 (« langues chinoises ») 395 573 10,3 %
    Q809 (« polonais ») 11 471 0,3 %
    Q150 (« français ») 4 234 0,1 %
    Q1321 (« espagnol ») 512 0,01 %
    Q188 (« allemand ») 287 < 0,01 %
    Q652 (« italien ») 215 < 0,01 %
    Q1412 (« finnois ») 204 < 0,01 %
    Q7737 (« russe ») 55 < 0,01 %
    Q9035 (« danois ») 55 < 0,01 %
    Q7918 (« bulgare ») 44 < 0,01 %
    Q5287 (« japonais ») 18 < 0,001 %
    Q5146 (« portugais ») 15 < 0,001 %
    Q7411 (« néerlandais ») 11 < 0,001 %
    Q397 (« latin ») 11 < 0,001 %
    Total 3 843 182 100 %

    On peut trouver les valeurs actuelles une par une avec la requête suivante :

    #Requête permettant de dénombrer les éléments selon une langue donnée
    select (count (distinct ?item) as ?count) where {?item wdt:P31 wd:Q13442814 ; wdt:P407 wd:LANGUE .}
    

    Cliquez pour essayer !

    Ce qui donne, pour quelques-unes d'entre-elles :

    Langue Nombre
    d'éléments
    %
    anglais ? ?
    langues chinoises 784 490 ?
    japonais 53 155 ?
    allemand 48 156 ?
    français 38 925 ?
    polonais 21 104 ?
    espagnol 18 608 ?
    Total ? ?
    Avec un peu d'énergie, qui sait où ça pourrait aller !

    On voit donc que la situation a pas mal évolué depuis fin juin. Le nombre d'articles en langues chinoises a doublé, celui en allemand a augmenté de 168 fois et celui en japonais a été multiplié par 3 000.

    Chronologie

    En plus de dénombrer les éléments en fonction des langues et faire des rapports entre celles-ci, on peut également explorer ces éléments selon différents autres critères, comme par exemple dénombrer les éléments par décennie pour une langue donnée :

    #defaultView:LineChart
    #Requête permettant de dénombrer le nombre d'article scientifiques publié par décennie dans une LANGUE donnée
    SELECT ?decade (count (distinct ?item) as ?count) where {
      ?item wdt:P31 wd:Q13442814 ; wdt:P577 ?p577 ; wdt:P407 wd:LANGUE .
      BIND(SUBSTR(CONCAT(STR(ROUND(YEAR(?p577)/10)*10),'/01/01'),1,4) AS ?decade)
    } 
    GROUP BY ?decade
    

    Cliquez pour essayer !

    On remarque, notamment, que les publications en langues chinoises connaissent un déclin entre les années 1965 à 1974, puis augmentent fortement par la suite, alors que les publications en allemand connaissent un creux entre les années 1985 et 1994.

    Titres

    On peut aussi rechercher une expression particulière dans l'étiquette en anglais[note 28] :

    #Requête permettant de rechercher une EXPRESSION rationnelle dans l'étiquette en anglais d'un élément associé à un article scientifique d'une certaine LANGUE
    select ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q13442814 ; rdfs:label ?label ; wdt:P407 wd:LANGUE . filter(lang(?label) = "en") FILTER regex (?label, "EXPRESSION") .}
    

    Cliquez pour essayer !

    On constate ainsi, entre autres, que le mot pain ("douleur" en anglais) est dans le titre en anglais de 242 publications francophones[8] et dans celui de 780 publications germanophones[9]. Quant à lui, death ("mort" en anglais) apparaît 140 fois en français et 286 fois en allemand.
    On peut faire un comparatif avec sex, qui apparaît 41 fois en fr et 56 fois en de.

    Puisque les outils manquent pour explorer autant d'éléments, on peut remonter d'un niveau et explorer les P1433 (« publié dans ») d'où ils sont issus, domaine que j'ai travaillé au cours des dernières semaines.
    D'abord, sur 46 016 éléments associés à des Q5633421 (« revue scientifique »)[10], 17 269 sont associés à une ou des langues[11]. De ce nombre, 16 588 sont associés à une seule langue[12] et 681 sont associés à plus d'une langue[13]. En dénombrant ces éléments en fonction des langues[14], nous obtenons, pour les langues ayant plus de 100 éléments associés :

    Langue Nombre
    d'éléments
    %
    anglais 15 252 86 %
    français 814 4,6 %
    espagnol 591 3,3 %
    allemand 543 3,1 %
    langues chinoises 155 0,9 %
    portugais 134 0,8 %
    italien 131 0,7 %
    russe 111 0,6 %
    total 17 731[note 29] 100 %

    Là encore, c'est l'anglais qui domine, mais moins fort. Cela laisse croire que puisque l'origine première de millions d'articles scientifiques est Q180686 (« PubMed »), le contenu des revues associées est plus avancé que pour d'autres langues. J'y vois l'influence du public domain américain. Reste à voir comment les autres bases de données vont réagir. En passant, il faudrait trouver un nom pour le ratio nombre d'article scientifiques sur nombre de publications, qui pourrait être un indicateur de degré d'import.

    Quelle sera la suite de mon parcours wikidatien ? Difficile à prévoir. Jamais j'aurais pu prédire l'année dernière que j'aurais fait 10 millions de modifications.
    Je pense cependant que je vais de plus en plus sourcer mes ajouts sur Wikidata.

    chevaucher le Ver ne pardonne pas l'erreur
    Fin octobre

    J'atteins les 11 millions de modifications le 27 octobre. En chemin, je me décide à lire plus attentivement le livre Wikibook dédié au SPARQL. Ça me permet, notamment, d'enfin pouvoir régler mes problèmes de conversion d'unités sur Discussion:Listes des plus grands humains#Liste Wikidata et sur Discussion:Liste des plus petits humains#Liste Wikidata. La prochaine étape est la maîtrise des sous-requêtes. J'ai hâte !

    OR permet d'importer plus facilement que n'importe quel autre outil que je connais du contenu extérieur vers Wikidata.

    À la suite de l'élection fédérale canadienne et d'une discussion de Bistro, je recommence à utiliser OpenRefine (OR), qui en est à sa version 3.3. Avec l'aide d'autres Wikidatiens, ma maîtrise d'OR progresse considérablement, au point de m'ouvrir de nouvelles perspectives contributives dans un avenir proche. En effet, contrairement à QS, OR permet de réconcilier de manière surprenamment fiable des entrées texte avec leur numéro d'élément Wikidata associé.

    Novembre

    J'ai laissé OR de côté pour le moment. Je suis revenu au Author Disambiguator (AD), qui ne passe plus par QS pour faire ses modifications et qui réalisent désormais ces dernières d'un seul coup. J'ai créé une requête SPARQL afin de voir quel-le-s physicien-ne-s sont lié-e-s au plus grand nombre d'articles scientifiques.

    #Les 100 physicien-ne-s ayant le plus grand nombre d'articles scientifiques associés.
    select distinct ?auteurLabel ?auteurDescription ?sexeLabel ?count ?auteur where {
    {select distinct ?auteur ?sexe (count (distinct ?item) as ?count) where {
    ?item wdt:P31 wd:Q13442814 ;
          wdt:P50 ?auteur .
    ?auteur wdt:P106/wdt:P279* wd:Q169470 ;
            wdt:P21 ?sexe .
    }
    group by ?auteur ?sexe
    order by desc (?count)
    limit 100
    }
    SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
    }
    order by desc (?count)
    

    Cliquez pour essayer !

    Les éléments ayant comme description "chercheur et physicien" sont de mon cru.
    On remarque que j'ai commencé à faire des (sous-requêtes|requêtes imbriquées). Je me contente pour le moment d'en faire pour optimiser mes requêtes afin d'éviter le dépassement du temps de calcul alloué.

    X

    [modifier | modifier le code]
    Mai 2020
    J'ai longtemps choisi des chemins contributifs semés d'embûches. Je me contente désormais de rouler ma pierre sur des pentes isolées.

    À la mi-mai 2020, je passe le cap des 15 millions de contributions. Plusieurs mois ont passé depuis mon dernier bilan. Cela s'explique par le fait que mes contributions sont sur le pilote automatique. En effet, je continue d'ajouter la langue anglaise sur les articles scientifiques qui ne le précisent pas[note 30] et je crée des éléments sur des physicien-ne-s/chercheu-se-r-s que je remplace sur les articles scientifiques avec AD. Je crée également régulièrement des éléments à partir d'articles biographiques de Wikipédia en français qui affichent l'infobox Biographie2, mais qui n'ont pas d'élément Wikidata. Enfin, j'associe de temps à autres les entrées de Britannica qui ne sont toujours pas associées à Wikidata. Ce travail dure depuis des années et je n'en vois pas la fin.
    Depuis environ 2 mois, l'outil PetScan connaît des ratés, ce qui m'irrite de plus en plus. En effet, je l'utilise abondamment pour ajouter la langue des articles scientifiques et pour détecter les articles de frwiki sans élément. J'ai dû me rabattre sur QS pour les articles scientifiques, mais l'onglet dédié sur mon navigateur plante régulièrement, ce qui fait en sorte que je dois reconstruire la requête en établissant au pif où elle en était rendue. J'ai bien essayé de faire rouler la chose en arrière-plan, mais ça ne semble pas fonctionner.

    Ce creux créatif est corrélé avec les événements engendrés par la pandémie de Covid-19 ainsi que l'arrivée d'un deuxième enfant. Ainsi, j'anticipais avec plaisir la mobilisation engendrée par La Grande Wikiphonie, mais celle-ci, comme bien d'autres choses, a été fauchée au début de la pandémie. On nous a dit qu'elle serait remise, mais plus les semaines passent, plus cette lueur d'espoir d'enfin voir une communauté intellectuelle significative donner de la visibilité aux projets Wikimedia en sol québécois s'estompe. J'espérais que l'événement donnerait un coup de pouce au monde de l'éducation québécois, ou au moins à une institution d'enseignement supérieure, pour qu'il décide de s'approprier de manière significative les projets Wikimedia. Le retour aux ténèbres me rend triste et je tente de ne pas devenir amer.

    𒐕 𒌋𒐘 𒐘 《𒐚 𒐏

    [modifier | modifier le code]
    noframe
    noframe

    janvier 2022 J'atteins les seize millions de modifications le 15 janvier 2022, près de deux ans après les quinze millions.
    J'ai fortement ralenti le rythme après avoir dépassé Harej. Je dois m'avouer que c'était un objectif. Faut dire aussi que je commençais à en avoir assez d'ajouter des millions de P407:Q1860 sur des éléments dédiés à des articles scientifiques. J'ai donc cessé les modifications de masse vers 15 950 000, et ce n'est que maintenant que j'ai fait le reste pour obtenir le chiffre rond, profitant d'un désir d'association de P21 (« sexe ou genre ») ravivé[note 31] par le travail intensif sur un texte à paraître à propos du fossé des genres.

    Alors, en détail, j'ai ressorti le trio Query-PS-QS pour atteindre les éléments ayant différents prénoms genrés, mais sans P21.

    #Prénoms les plus utilisés sur Wikidata
    SELECT ?p #?ndfLabel 
    (count (DISTINCT ?item) as ?count) WHERE 
    {
      ?item wdt:P735 ?p . 
    } 
    group by ?p #?ndfLabel
    order by desc(?count)
    offset 40 #plus loin, c'est la centaine
    LIMIT 10
    

    Cliquez pour essayer !

    Par la suite, il s'agit d'entrer chacun des prénoms trouvés dans une requête PS dédiée. Après environ 50 prénoms de faits, la requête descend sous la barre du millier d'éléments à modifier et j'ai donc arrêté là, après environ 80 000 ajouts de genres. Il y a certainement des exceptions à la George Sand, mais j'imagine qu'elles sont rares. Malheureusement, ce n'est que plus tard que j'ai compris que je pouvais sourcer la chose avec P3452 (« déduit de ») -> Q202444 (« prénom »).

    6e

    J'ai tenu un temps la quatrième position des contributeurs non-bot avec le plus de contributions au compteur. Maintenant, je suis sixième et je devrais glisser bientôt en septième position. Même si on dit que c'est pas la quantité qui compte, ça demeure la porte d'entrée pour assoir l'intérêt de bien des gens.

    Éducation

    Mon unique projet terrain en éducation est incertain avec l'adaptation locale de la réforme du programme de Sciences de la nature. Qu'en sera-t-il du cours d'astrophysique que je donne ? Je n'en ai aucune idée. Disons simplement que le faible nombre d'étudiants qu'il attire agace des collègues, qui ont travaillé sur un cours alternatif à offrir. Dans tous les cas, j'ai d'autres chats à fouetter. Pour le moment, j'en suis à sauver les meubles.

    De beaux projets en ligne se concrétisent avec la participation de partenaires tels Lacogency (d) et CAPACOA (d). Ainsi, le 6 février, je dépasse les 8 000 éléments créés grâces à l'importations d'informations du Japanese Canadian Artists Directory (d).

    Juin

    L'école est terminée depuis un mois et j'ai pu reprendre un travail wiki significatif.

    Déçu d'être arrivé à la fin des articles biographiques sans infobox, dont le renouvellement hebdomadaire n'entraîne qu'une dizaine de nouveaux articles, je suis tombé sur le catalogue de m&m dédié aux membres de l'Union astronomique internationale. Même si j'en ai fait un peu plus de 500 jusqu'ici, avec plus de 6 000 entrées pré-associées et 5 000 non-associées, c'est pas le travail qui va manquer avant longtemps ! En plus, ce faisant, je suis tombé sur un physicien des particules, ce qui m'a relancé dans ce domaine. L'outil AD a été adapté depuis la dernière fois pour ne pas surcharger les serveurs et je gruge tranquillement ces milliers d'auteurs d'environ 1 000 articles chacun en moyenne. On m'a pointé un article qui recense ceux du projet CMS et j'ai trouvé celui qui recense ceux d'ATLAS.

    Ajoutons qu'un petit contrat lié au Regroupement québécois de la danse m'a amené à créer quelques centaines d'éléments dédiés à cet organisme.

    En conséquence, je vais terminer le mois en tournant autour de 200 000 contributions, 700 créations d'éléments et 75 Mo ajoutés.

    Septembre

    Voilà. J'ai passé une bonne partie de l'été à travailler sur les physicien-ne-s de l'infiniment petit et grand. Résultat : plusieurs centaines de milliers de modifications, environ deux mille créations (surtout des noms de famille) et près de 200 Mo d'ajoutés à la base de connaissance libre.

    L'interpellation d'un contributeur sur ma page de discussion utilisateur de Wikidata m'a permis de découvrir deux outils fort intéressants :

    Mes recherches connexes m'ont permis de trouver également Q108311207 (« Label Collector ») (LC), qui permet un ajout de libellés et descriptions plus large que le script d'Amanda et plus rapidement que libellé de VIP.

    Enfin, une nouvelle extraordinaire : on m'a pointé un autre accès SPARQL aux données de Wikidata qui est considérablement plus puissant que l'habituel. Le seul bémol est qu'il se fait sur un dump récent plutôt que sur les données en temps réel, mais c'est un désavantage mineur par rapport aux millions de statistiques que je vais pouvoir en tirer !

    juin

    Il ne s'est pas passé grand chose depuis ma dernière entrée. La vie familiale et professionnelle me demandent beaucoup. Je profite de mes temps libres pour faire de la contribution simple et répétitive. Je travaille donc à associer/créer les quelque 2 000 chercheurs des particules de la collaboration CMS à leur centaines/milliers d'articles correspondants. J'associe et développe aussi tranquillement les milliers d'articles liés aux membres de l'UAI. Voici quelques anecdotes :

    • J'ai éprouvé certaines difficultés à associer certains éléments de la collaboration CMS pour diverses raisons. Si l'absence de prénoms dans la liste ou les homonymes de patronymes sont des cas typiques, je n'avais pas vu venir certains cas atypiques. Ainsi, par exemple, quelques auteurs féminins ont changé de nom de famille à la suite de leur mariage. L'orthographe de certains noms d'auteurs non-occidentaux peut aussi varier dans le temps et selon les sites.
      Je suis tombé aujourd'hui sur un cas particulier, Q117315554 (« Samvel Khalatian »), qui a changé un "y" par un "i" dans son nom de famille (voir dans Q57834896 (« The CMS Collaboration ») et Q109555335 (« The CMS Collaboration »))

    Prenons le temps de faire le point sur ma progression et la progression de Wikidata depuis que j'y contribue :

    • J'ai commencé à travailler sérieusement sur Wikidata à l'été 2015, avant la naissance de mon premier enfant et au cours de mes vacances d'été. J'occupe celles-ci en prenant l'initiative de placer des dizaines de milliers d'{{Infobox Biographie2}} sur des articles biographiques sans infobox de Wikipédia en français à l'aide de LuaBot. L'initiative est du WP:NHP pur jus : Biographie2 est un work in progress à la base squelettique, je connais peu Wikidata et celle-ci compte à l'époque à peine 15 millions d'éléments[15] dont les développements sont encore sommaires. En conséquence, des dizaines de pcw sont bousculées par mon initiative, qui polarise la communauté. Le drame s'étend sur plusieurs mois, avec des échos s'étendant sur des années.
    • Au cours des années suivantes, je me penche de plus en plus sur Wikidata. J'explore différents coins de cette base de connaissance libre, de manière éclectique. Je suis attiré par le big data, ce qui me permet d'embrasser le plus grand nombre d'éléments possible, d'explorer la connaissance libre à grande échelle, à m'en faire péter les neurones. J'arrive donc à cerner des milliers et des dizaines de milliers d'éléments, mais je n'arrive pas à dépasser ces ordres de grandeur d'un seul coup. Malheureusement pour moi (et, probablement, heureusement pour Wikidata), les outils mis à ma disposition, tels l'outil de requêtes de Wikidata (d), ne me permettent pas de faire des requêtes dépassant la centaine de milliers d'éléments.
      Pendant ce parcours, je constate assez rapidement que le plus gros corpus d'éléments de la base concerne les articles scientifiques, qui sont au nombre de plusieurs dizaines de millions. Je cumule des interventions qui finissent, avec le temps, par dépasser la dizaine de millions d'éléments touchés, mais rien de vraiment significatif.
    • À la fin de 2018, je démarre une section SPARQL dans les RAW. L'un de mes objectifs est d'essayer de mieux comprendre ce langage de requête. Je dois avouer que cinq ans plus tard, mes progrès demeurent limités. En dehors des bases, je n'arrive pas vraiment à déchiffrer la documentation en ligne. J'ai cherché des cours spécifiques à mon université locale, qui possède un département d'informatique et mathématiques, mais je n'ai rien trouvé de concluant. Il faut également dire qu'avec deux enfants en bas âge, une absence de soutien institutionnel et une propension à tirer dans tous les sens, c'était écrit d'avance que j'allais dans le mur.
      La section a été mensuelle pendant la moitié de 2019, puis est apparue sporadiquement par la suite pour apparaître la dernière fois en janvier 2023. En les relisant, on peut établir la progression en 5 ans de plusieurs aspects de Wikidata :
    Wikidata 2019-2024
    aspect 2019 2024
    nombre d'éléments 50 millions[16] 111 millions[17]
    nombre de propriétés 6 000[16] 12 010[18]
    identifiants externes 3 700[16] 9 109[19]
    identifiants de personne 1 300[16] 2 954[20]
    identifiants encyclopédie/dico 60[16] 465[21]
    nombre de P856 (« site officiel ») 1 million[22] 2 millions[23]
    images, images de blasons, sceaux et
    vidéos utilisant P2096 (« légende de média »)
    66 000[22] 288 192[24]
    • 2022 : Ma découverte de QLever (d) vers la fin de l'été marque un tournant. En effet, l'outil permet de briser mon plafond des cent mille résultats et de dépasser la barre des 10 millions ! L'outil ne fonctionne pas sur les données en temps réel de Wikidata. Il fonctionne à l'aide de dumps de celle-ci, ce qui fait en sorte que les résultats concernent des données généralement âgées de quelques semaines. Perso, j'accepte très facilement ce sacrifice pour obtenir deux ordres de grandeurs supplémentaires dans mes requêtes. J'en profite pour faire des statistiques sur les éléments humains en septembre, sur les occupations de ceux-ci en octobre, sur les articles scientifiques en novembre et sur la nature des éléments en janvier 2023.
    Nature des éléments sur Wikidata[25]
    type janvier 2023 juillet 2024
    éléments
    100 000 000 111 000 000
    Q13442814 (« article scientifique ») 38 816 574 42 143 405
    Q5 (« être humain ») 10 000 000 11 292 238
    Q5 (« être humain »)
    avec P21 (« sexe ou genre »)
    8 039 540[note 32] 9 202 477[26],
    Q6999 (« objet céleste ») (et sous-classes) 8 411 882 8 415 232[27]
    Q4167836 (« page de catégorie d'un projet Wikimédia »)
    &
    Q4167410 (« page d'homonymie de Wikimédia »)
    6 503 756 6 874 480
    Q16521 (« taxon ») 3 490 467 3 726 984
    Q486972 (« localité ») (et sous-classes) 2 773 494 2 887 529[28]
    Q7318358 (« article de revue de littérature ») 2 099 624 2 099 699
    Q11173 (« composé chimique ») 1 249 531 1 277 011[note 33]
    Q7187 (« gène ») 1 211 476 1 222 105
    total ~72,2 % des éléments ~ 72,0 % des éléments

    QLever permet également de faciliter l'installation d'un miroir de Wikidata. À ma demande, mon frère, plus compétent que moi à ce niveau, a réussi à créer et maintenir un tel miroir non public pendant quelques mois à la fin de 2022.

    • 2024 : Depuis l'été 2022, peu de nouvelles. Je me réapproprie OR, LC est mort et un nouvel outil, Q127164342 (« Auhority Control data to Wikidata item ») a été développé par Magnus. Je suis toujours sur le cas des physiciens de l'infiniment petit et l'infiniment grand. Je compte mettre à jour en novembre les statistiques de novembre 2022 sur les chercheurs, question de voir si mon travail aura eu un impact significatif à ce niveau.
      En terminant, deux petites requêtes SPARQL développées ces temps-ci :
    #éléments humains ayant un identifiant VIAF et n'ayant qu'un seul identifiant externe. Donne ~10 000 résultats en juillet 2024. TIMEOUT souvent.
    select distinct ?item where {
    ?item wdt:P31 wd:Q5 ;
          wikibase:identifiers 1 ;
          wdt:P214 [] .
    }
    

    Cliquez pour essayer !

    #classe ou sous-classe d'oeuvre d'art ayant un précédent ou suivant menant à un élément humain. Résulte d'un reproche indigné https://www.wikidata.org/w/index.php?title=User_talk:Quesotiotyo&oldid=2200310846#pr%C3%A9c%C3%A9d%C3%A9_par_(P155)_&_suivi_par_(P156)
    select distinct ?item ?item2 where {
    ?item wdt:P31/wdt:P279* wd:Q838948 ;
          (wdt:P155|wdt:P156) ?item2 .
    {{?item2 wdt:P31 wd:Q5.} union {?item2 wdt:P31/wdt:P279* wd:Q215380 .}}
    }
    

    Cliquez pour essayer !

    Il y a deux ans, je publiais dans les RAW des statistiques sur les éléments de Wikidata dédiés à des articles scientifiques. J'ai passé une bonne partie de mon temps de contribution à travailler le sujet depuis. Je suis curieux de voir si je peux déceler mon influence sur la progression des chiffres. Je vais donc réexposer les chiffres obtenus par QLever d'après le dump de septembre 2022 et refaire les mêmes requêtes avec le dump du 23 octobre 2024.

    aspect septembre 2022 octobre 2024 %
    total 38 314 021[29] 44 867 227 +17,1
    avec P2093 (« auteur ou autrice (chaîne) ») 36 113 116[30] 42 058 580 +16,5
    avec P50 (« auteur ou autrice ») 10 696 321[31] 11 946 130 +11,7
    sans P2093 2 217 014[32] 2 808 647 +26,7
    sans P50 27 633 079[33] 32 921 097 +19,1
    avec un seul P2093 9 185 401[34] 11 631 316 +26,6
    avec un seul P50 6 190 874[35] 6 692 267 +8,1
    Auteurs humains
    P21 (« sexe ou genre »)/Q6581097 (« masculin ») 383 941[36] 446 165 +16,2
    P21 (« sexe ou genre »)/Q6581072 (« féminin ») 181 117[37] 251 484 +38,9
    P214 (« identifiant VIAF ») 143 647[38] 226 219 +57,5
    P2930 (« identifiant INSPIRE-HEP ») 15 636[39] 20 759 +32,8
    P9467 (« identifiant Union astronomique internationale d'un membre ») 1 311[40] 3 255 +148,3
    un seul article 700 678[41] 656 635 -6,3
    >10 articles 375 923[42] 456 554 +21,4
    >100 articles 40 300[43] 50 665 +25,7
    >1000 articles 898[44] 1 633 +81,8

    Bon. J'ai clairement quelque chose à voir avec les membres de l'UAI et de HEP, ainsi qu'avec le nombre d'auteurs qui sont liés à plus de 100 articles. Pour VIAF et le nombre d'auteurs liés à plus de 10 articles, j'en ai fait plusieurs et je me suis peut-être rendu dans l'ordre de grandeur du millier, mais il y a clairement plus de monde que moi qui y travaillent pour avoir eu une telle augmentation.
    Je constate que le nombre d'autrices a augmenté plus de deux fois plus que celui des auteurs. Les efforts pour augmenter la place des femmes sur Wikidata semblent avoir des effets plus que significatifs à ce niveau.
    La seule diminution concerne le nombre d'auteurs n'ayant qu'un seul article lié, ce qui laisse croire à une progression d'une meilleure liaison des auteurs à leurs travaux. La forte augmentation des articles sans P2093 pourrait pointer dans ce sens, mais peut-être qu'il y a eu une forte importation d'articles scientifiques sans auteurs ou avec seulement des auteurs enregistrés. Je ne suis pas assez bon en statistiques pour pouvoir explorer ces hypothèses.
    La forte augmentation des articles scientifiques sans P50 durant cette période montre que, pour le moment, le travail continue de s'accumuler.

    Notes et références

    1. (en) « Move fast and break things. Unless you are breaking stuff, you are not moving fast enough »
    1. Dans ce cas, j'ai suggéré qu'on appose au début de l'article en commentaire
      <!--ne pas apposer d'infobox automatique -->
      pour éviter qu'une infobox automatique soit réapposée après le retrait.
    2. Voir Projet:Articles sans infobox/Liste1, Projet:Articles sans infobox/Liste2, Projet:Articles sans infobox/Liste3 et Projet:Articles sans infobox/Liste4
    3. Voir, par exemple,
    4. À l’œil en lisant le Weeklypedia
    5. Une majorité des entrées de Britannica concerne des « directory pages », des pages de résultats de recherches internes pour l'élément ciblé à l'intérieur des articles existants. Ce ne sont pas des articles à proprement parler, contrairement à Universalis, dont chaque notion est distincte.
    6. La plupart des entrées ont été associées avec mix'n'match et y associer des entrées biographiques est plus facile que d'autres. Conséquemment, la proportion de biographies de l'échantillon est probablement non-représentative de l'ensemble du contenu des deux encyclopédies classiques.
    7. a et b Sur Wikidata, les qualificatifs de genre féminin et masculin sont indiqué-e-s avec, dans cet ordre, des éléments appelés Q6581072 et Q6581097 au sein de la propriété P21 (« sexe ou genre »). Moi qui baragouine à peine le SPARQL, ça rend l'extraction difficile. Je peux pas croire qu'il y avait 6 581 971 priorités précédentes avant de démêler ça correctement.
      On le fait pour Mind the Gap.
    8. Ceci est la plus forte augmentation des données du dernier mois pour frwiki. Je soupçonne qu'elle est due à la forte activité de la communauté de fr sensibilisée au fossé des genres.
    9. Ceci est la plus forte augmentation des données du dernier mois pour Wikidata.
    10. Pour ce faire, j'ai placé comme limite le numéro 230 000 pour Britannica et 40 000 pour Universalis. En effet, pour diverses raisons, environ 10 % des numéros d'éléments Wikidata ne sont liés à aucun item.
    11. J'ai évalué ce pourcentage grâce à un échantillon aléatoire de 200 entrées de l'ensemble des entrées de mix'n'match obtenu avec ce site web.
    12. J'ai évalué ce pourcentage grâce à un échantillon aléatoire de 200 entrées Wikidata obtenu avec cette requête SPARQL déduite de cette conversation :
      SELECT ?item ?itemLabel ?burl WITH {
        SELECT ?item ?burl WHERE {
          wd:P1417 wdt:P1630 ?formaturl .
          ?item wdt:P1417 ?bid .
             BIND(IRI(REPLACE(?bid, '^(.+)$', ?formaturl)) AS ?burl).
        }
        ORDER BY MD5(CONCAT(STR(?item),STR(RAND())))
        LIMIT 200
      } AS %results WHERE {
        INCLUDE %results.
        SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
      }
      
      Cliquez pour essayer !
    13. Les deux exclus sont un être humain possiblement fictif et une fonction.
    14. La requête dépassant le temps limite, j'ai procédé en soustrayant de la ligne précédente les éléments ayant une entrée pour P570.
    15. à laquelle je mettrai des mois à comprendre comment y accéder autrement qu'en SPARQL au détour d'un bistro de Thierry Caro
    16. Quoique le terme « non-bot » serait probablement plus approprié.
    17. Q1860 (« anglais ») dans P407 (« langue de l'œuvre, du nom ou du terme ») de P856 (« site officiel »)
    18. Puisque j'ai lancé deux ou trois batch en arrière-plan, ces dernières ont été effectuées en mon nom par d:User:QuickStatementsBot. Je ne sais donc pas si elles ont été recensées sous mon compte par Wikiscan ou autres.
    19. Notons au passage que la page d:Wikidata:Request a query fonctionne à merveille. Les contributeurs y sont généreux et répondent aux questions généralement dans l'heure.
    20. Pour cet exemple particulier, encore aujourd'hui, il me semble manquer une propriété « a fondé » pour boucler la boucle fondateur P? compagnie. En effet, la seule propriété que j'ai vue pour ce faire, P800 (« œuvre notable »), me semble un peu trop vague.
    21. On comprend mieux pourquoi catégorie:Page utilisant P185 n'existe pas.
    22. Cela est un ordre de grandeur plus grand que les principaux pays du monde. Je soupçonne que les contributeurs des différentes régions de l'Espagne avaient volontairement évité d'ajouter un pays à ces éléments. Je me suis peut-être, sans m'en être rendu compte, fait des ennemis auprès, entre autres, des indépendantistes catalans, mais je crois que leur culture est plus accessible ainsi, plus liée, plus vivante.
    23. Mon initiative a mis en lumière plusieurs centaines d'entrées erronées. J'ai nettoyé à l'aide de la requête suivante :
      SELECT DISTINCT ?item ?conjoint WHERE {?item wdt:P26 ?conjoint MINUS {{?item wdt:P31/wdt:P279* wd:Q5 .} UNION {?item wdt:P31/wdt:P279* wd:Q4271324 .} UNION {?item wdt:P31/wdt:P279* wd:Q95074 .} UNION {?item wdt:P31/wdt:P279* wd:Q215627 .}} SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . } }
      
      Cliquez pour essayer !
    24. Plus de 10 000 entrées pour P1830 de Q861252 (« musée national d'Art de Catalogne »), ce qui est environ le double du record précédent ([[:d:Q21558717|Q21558717 (« Combined Measurement of the Higgs Boson Mass in p p Collisions at √s=7 and 8 TeV with the ATLAS and CMS Experiments »)]]).
    25. Pour le moment, j'explore le sujet avec un livre sur Wikibooks en anglais.
    26. La vision de Wikidata de ce dernier est particulièrement intéressante.
    27. Une adaptation intéressante de Wikiscan pour Wikidata serait qu'il recense les contributions faites à l'aide des principaux outils d'édition automatique ou semi-automatique, tels Q20084080 (« QuickStatements »), Q23665536 (« PetScan »), Q21914398 (« Harvest Templates »), Q28054658 (« Mix'n'match »), etc.
      Une autre adaptation serait de pouvoir trier les contributions en fonction des principales propriétés modifiées par l'utilisateur sur les éléments (P18, P407, P31, ajout de références ou de qualifiers, etc.).
    28. Les étiquettes en langue originale n'existent pas pour le moment.
    29. Ici, les publications associées à plus d'une langue sont comptées pour chacune d'elles, ce qui explique que ce nombre soit plus grand que 17 269.
    30. parfois, je me demande si la quantité de nouveaux articles scientifiques n'augmentent pas plus vite que je leur appose la langue.
    31. avant de relire mon expérience Wikidata recensée ici, j'avais oublié que j'avais déjà exploré cette voie.
    32. Le fait qu'environ 20 % des éléments humains soient sans P21 avait fait réagir à l'époque. J'imagine que cette réaction a engendré la progression de 1,5 % observée depuis.
    33. semble avoir changé vers Q113145171 (« type d'entité chimique ») depuis.
    1. Voir la requête suivante pour plus de détails :
      SELECT ?item ?itemLabel WHERE { SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],fr" }
      ?item wdt:P3219 [] .
      ?item wdt:P31 wd:Q4167410 .
      }
      
      Cliquez pour essayer !
    2. https://www.thecanadianencyclopedia.ca/fr
    3. http://www.biographi.ca/fr/about_us.php
    4. http://wikidata.wikiscan.org/user/Research_Bot
    5. http://wikidata.wikiscan.org/user/Jura1
    6. https://wikidata.demo.openlinksw.com/sparql?default-graph-uri=http%3A%2F%2Fwww.wikidata.org%2F&query=select+distinct+%28COUNT%28%3Fitem%29+AS+%3Fcount%29+where+%7B%3Fitem+wdt%3AP31+wd%3AQ13442814+%23%3B+wdt%3AP1433+%3Fpub+%3B+wdt%3AP407+%3Flang+%0D%0A.%7D&format=text%2Fhtml&CXML_redir_for_subjs=121&CXML_redir_for_hrefs=&timeout=30000&signal_void=on&signal_unconnected=on&run=+Run+Query+
    7. https://wikidata.demo.openlinksw.com/sparql?default-graph-uri=http%3A%2F%2Fwww.wikidata.org%2F&query=select+%3Flang+%28count+%28distinct+%3Fitem%29+as+%3Fcount%29+where+%7B%3Fitem+wdt%3AP31+wd%3AQ13442814+%3B+wdt%3AP407+%3Flang+.%0D%0A%7D%0D%0Agroup+by+%3Flang%0D%0Aorder+by+desc+%28%3Fcount%29&format=text%2Fhtml&CXML_redir_for_subjs=121&CXML_redir_for_hrefs=&timeout=30000&signal_void=on&signal_unconnected=on&run=+Run+Query+
    8. #Requête permettant de rechercher une EXPRESSION dans l'étiquette en anglais d'un élément associé à un article scientifique d'une certaine LANGUE
      select ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q13442814 ; rdfs:label ?label ; wdt:P407 wd:Q150 . filter(lang(?label) = "en") FILTER regex (?label, "\\Wpain\\W") .}
      
      Cliquez pour essayer !
    9. #Requête permettant de rechercher une EXPRESSION dans l'étiquette en anglais d'un élément associé à un article scientifique d'une certaine LANGUE
      select ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q13442814 ; rdfs:label ?label ; wdt:P407 wd:Q188 . filter(lang(?label) = "en") FILTER regex (?label, "\\Wpain\\W") .}
      
      Cliquez pour essayer !
    10. select (count (distinct ?item) as ?count) where {?item wdt:P31 wd:Q5633421 .}
      
      Cliquez pour essayer !
    11. select (count (distinct ?item) as ?count) where {?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .}
      
      Cliquez pour essayer !
    12. select distinct ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .} group by ?itemLabel ?item having(COUNT(DISTINCT ?lang) = 1)
      
      Cliquez pour essayer !
    13. select distinct ?itemLabel ?item where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang .} group by ?itemLabel ?item having(COUNT(DISTINCT ?lang) > 1)
      
      Cliquez pour essayer !
    14. select distinct ?langLabel (count (distinct ?item) as ?count) where {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q5633421 ; wdt:P407 ?lang
      .}
      group by ?langLabel
      order by desc (?count)
      
      Cliquez pour essayer !
    15. https://diff.wikimedia.org/2015/11/03/october-milestones-and-wikidata/
    16. a b c d et e Wikipédia:RAW/2019-03-01#SPARQL du mois
    17. d'après la page d'accueil de Wikidata
    18. https://w.wiki/AZbU
    19. https://w.wiki/AYYF
    20. https://w.wiki/AZbc
    21. https://w.wiki/AZbf
    22. a et b Wikipédia:RAW/2019-05-01#SPARQL du mois
    23. https://w.wiki/AZcH
    24. https://w.wiki/AZcR
    25. https://qlever.cs.uni-freiburg.de/wikidata/P9nnZ5
    26. https://qlever.cs.uni-freiburg.de/wikidata/sZS6BO
    27. https://qlever.cs.uni-freiburg.de/wikidata/3gGe4X . La faible différence me fais douter du chiffre de 2023.
    28. https://qlever.cs.uni-freiburg.de/wikidata/2rh4Yz
    29. https://qlever.cs.uni-freiburg.de/wikidata/kHzC7N
    30. https://qlever.cs.uni-freiburg.de/wikidata/qD4CT5
    31. https://qlever.cs.uni-freiburg.de/wikidata/DkpJHT
    32. https://qlever.cs.uni-freiburg.de/wikidata/Sjs2ay
    33. https://qlever.cs.uni-freiburg.de/wikidata/hHPWPQ
    34. https://qlever.cs.uni-freiburg.de/wikidata/gEjUoO
    35. https://qlever.cs.uni-freiburg.de/wikidata/ZBsD9q
    36. https://qlever.cs.uni-freiburg.de/wikidata/XuQI5c
    37. https://qlever.cs.uni-freiburg.de/wikidata/aoNEQd
    38. https://qlever.cs.uni-freiburg.de/wikidata/8Gy5P1
    39. https://qlever.cs.uni-freiburg.de/wikidata/UKVqI8
    40. https://qlever.cs.uni-freiburg.de/wikidata/escoFX
    41. https://qlever.cs.uni-freiburg.de/wikidata/rOJp5O
    42. https://qlever.cs.uni-freiburg.de/wikidata/isZIMn
    43. erreur du lien original.
    44. https://qlever.cs.uni-freiburg.de/wikidata/5rL6dE