XPath

Informations
Développé par	World Wide Web Consortium
Première version	1999
Dernière version	3.1 (21 mars 2017)
Formats lus	Extensible Markup Language et JavaScript Object Notation
Type	Langage de requête; Langage de programmation

XPath est un langage de requête pour localiser une portion d'un document XML. Initialement créé pour fournir une syntaxe et une sémantique aux fonctions communes à XPointer et XSL, XPath a rapidement été adopté par les développeurs comme langage d'interrogation simple d'emploi.

Syntaxe et sémantique

Une expression XPath est un chemin de localisation, constitué de pas de localisation (appelés également en français étapes^[2]). Les pas de localisation sont séparés par le caractère « / ».

Les pas de localisation ont chacun trois composants :

un axe (parent, descendant…) ;
un test de nœud (nom ou fonction désignant les nœuds) ;
des prédicats (entre crochets).

L'axe indique la direction dans laquelle se déplacer dans l'arbre XML, relativement au nœud courant ou depuis la racine. Par exemple, child:: sélectionnera les nœuds enfants du nœud courant. Dans XPath, quand l'axe n'est pas précisé, il s'agit implicitement de l'axe des enfants (child::). Un autre axe largement utilisé est celui des attributs, représenté avec le caractère arobase (@). Il existe en tout 13 axes qui permettent d'exprimer des relations généalogiques, ou qui considèrent l'ordre de lecture du document.

Le test de nœud permet de sélectionner ou non les nœuds en fonction de leur nom ou de leur type. Par exemple le test text() sélectionnera tous les nœuds de type texte (dans l'axe considéré).

Les prédicats sont des expressions plus complexes ; ils sont utilisés pour filtrer les nœuds sélectionnés par l'axe et le test de nœud. Les prédicats sont écrits entre crochets (« [ », « ] »). Si le prédicat est évalué à vrai, les nœuds correspondants seront sélectionnés.

XPath offre ainsi une recherche séquentielle par nœuds. Le résultat de l'évaluation d'une expression XPath est une séquence contenant des nœuds et des valeurs atomiques (textes, booléens…).

En fonction de la nature (nombre, booléen, texte) des valeurs sélectionnées, XPath offre un certain nombre de fonctions. Ces fonctions sont limitées car elles sont plus destinées à être utilisées dans les prédicats que pour effectuer un traitement sur les données sélectionnées.

Les fonctions qui s'appliquent aux nombres les plus utilisées sont : sum(), count() et les opérateurs arithmétiques. Les fonctions qui s'appliquent aux chaines les plus utilisées sont : substring(), string-length(), concat().

Exemples XPath 1

Considérons le document XML suivant :

 <?xml version="1.0"?>
 <racine>
  <encyclopedie nom="Wikipedia" site="http://fr.wikipedia.org/">
   <article nom="XPath">   
    <auteurs>
     <auteur>
      <nom>Dupont</nom>
     </auteur>
     <auteur>
      <nom>Dubois</nom>
     </auteur>
    </auteurs>
   </article>
  </encyclopedie>
 </racine>

Exemples de requêtes absolues
Expression XPath	Résultat
`/`	sélectionne un nœud "fictif", dit root element, qui englobe tout le document, y compris le doctype <?xml version="1.0"?>^[3]
`/root`	sélectionne le nœud vide, puisqu'il n'y a pas d'élément `"root"` (mais `"racine"`)
`//article`	sélectionne tous les éléments `"article"` du document où qu'ils soient
`/racine/encyclopedie`	sélectionne l'unique élément `"encyclopedie"` puisqu'il est ici le seul fils de `"racine"` portant ce nom
`//article[@nom='XPath']`	sélectionne tous les éléments `"article"` du document où qu'ils soient, ayant un attribut `"nom"` dont la valeur est `"XPath"`

Toutes ces expressions XPath sont absolues (elles commencent par un caractère "/"), c'est-à-dire qu'elles donnent le même résultat quel que soit le contexte. Les expressions suivantes sont relatives. Si le contexte courant est l'unique élément "encyclopedie", elles donnent :

Exemples de requêtes relatives
dans le contexte de l’élément `encyclopedie`
Expression XPath	Résultat
`article`	sélectionne l'élément `"article"`
`racine`	ne sélectionne rien, vu le contexte
`article[1]/auteurs/auteur[2]`	sélectionne le second auteur (Dubois) du premier article
`article[ count(article/auteurs/auteur) >1 ]`	sélectionne les articles qui ont au moins 2 auteurs
`../racine`	sélectionne l'élément `"racine"`, puisqu'il est parent de l'élément courant

Le résultat de ces sélections dépendra de la nature de la tâche :

En affichage, ce sera la valeur textuelle, propre à chaque type d'élément, qui apparaîtra. Si plusieurs nœuds sont sélectionnés, comme pour //article, seul le premier est concerné.
En sélection, il se comportera comme un pointeur sur lequel d'autres requêtes XPath pourront être effectuées.

Évolutions

La syntaxe XPath a évolué pour devenir plus complète. La norme XPath 2.0 (en), recommandation W3C depuis le 23 janvier 2007, décrit un sous-ensemble commun aux langages XSLT 2.0 et XQuery 1.0, constituant également un langage de requête XML autonome beaucoup plus riche que la première version incluse dans XSLT 1.

Exemples XPath 2

<?xml version="1.0" encoding="utf-8"?>
<wikimedia>
  <projects>
    <project name="Wikipedia" launch="2001-01-05">
      <editions>
        <edition language="English">en.wikipedia.org</edition>
        <edition language="German">de.wikipedia.org</edition>
        <edition language="French">fr.wikipedia.org</edition>
        <edition language="Polish">pl.wikipedia.org</edition>
        <edition language="Spanish">es.wikipedia.org</edition>
      </editions>
    </project>
    <project name="Wiktionary" launch="2002-12-12">
      <editions>
        <edition language="English">en.wiktionary.org</edition>
        <edition language="French">fr.wiktionary.org</edition>
        <edition language="Vietnamese">vi.wiktionary.org</edition>
        <edition language="Turkish">tr.wiktionary.org</edition>
        <edition language="Spanish">es.wiktionary.org</edition>
      </editions>
    </project>
  </projects>
</wikimedia>

Utilisations

XPath est le langage de requête élémentaire dans XSLT. Il détermine si une règle template s'applique (via son attribut match), et peut aussi servir à extraire des contenus du document XML transformé par le programme XSLT.

XPath peut être utilisé comme langage de requête dans les bases de données XML, souvent en tant que sous-ensemble de XQuery.

XPath est utilisé comme langage d'expression des règles dans Schematron, et partiellement aussi dans XML Schema.

XPath est intégré à certaines bibliothèques de scraping ou de manipulation html et/ou XML tel Parsel^[4] ou lxml^[5].

XPath peut être utilisé depuis la ligne de commande, ici avec la commande xpath qui vient du module Perl XML::XPath. Ici, on cherche les URL des articles dans un flux de syndication Atom :

$ xpath -e '//link[@rel="alternate"]/@href' feed.atom

Autre exemple, avec xfind pour chercher des fichiers (XML servant à modéliser les attributs du fichier) :

$ ./find -xpath '/bin/*[@size > /bin/bash/@size]' /bin/ipv6calc /bin/rpm

Voir aussi

Articles connexes

Liens externes

Sur les autres projets Wikimedia :

XPath, sur Wikibooks

(en) XML Path Language (XPath) 2.0, 23 janvier 2007, recommandation du W3C
(en) Tutoriel Xpath, sur le site de W3Schools
(en) Cours sur le langage XPath par Pierre Geneves

Références

↑ « https://www.w3.org/TR/xpath-31/ »
↑ Voir le terme étape dans la traduction française de la recommandation XPath
↑ http://www.xpathtester.com/
↑ « API reference — Parsel 1.9.1 documentation », sur parsel.readthedocs.io (consulté le 24 mai 2024)
↑ « XPath and XSLT with lxml », sur lxml.de (consulté le 24 mai 2024)

Portail de l’informatique

[wikidata-e879ef754b56e6c20fe8c5497e51a0db1e5435b0-1] « https://www.w3.org/TR/xpath-31/ »

[2] Voir le terme étape dans la traduction française de la recommandation XPath

[3] ttp://www.xpathtester.com/

[4] « API reference — Parsel 1.9.1 documentation », sur parsel.readthedocs.io (consulté le 24 mai 2024)

[5] « XPath and XSLT with lxml », sur lxml.de (consulté le 24 mai 2024)

[1]

[2]

[3]

[4]

[5]