Ceci est une ancienne révision du document !

Table des matières

XML(Extensible Markup Language)

XML(Extensible Markup Language)

Éléments d'un document XML

Balisage

Un document XML est constitué de balises. Une balise est une chaîne de caractères constituant un identificateur et placé entre un caractère < et un caractère >.

Il existe différentes sortes de balises :

Les balises ouvrantes
```
<item>
```
Les balises fermantes
```
</item>
```
Les balises vides
```
<nop/>
```
Les instructions de traitement
```
<?xml-stylesheet ... ?>
```
Les commentaires
```

```
Les sections CDATA (Character DATA)
```
<![CDATA[ Contenu de la section ]]>
```

Conventions de nommage des balises

Les noms ne peuvent pas commencer par la chaîne de caractères « xml », dans n'importe quelle combinaison de casse (ou Xml, ou XML…) ;
les noms sont sensibles à la casse (différentiation minuscules/majuscules) ;
les noms ne peuvent pas débuter par un nombre ou un signe de ponctuation ;
les noms ne peuvent pas contenir d'espaces ;
éviter les caractères accentués et les opérateurs, virgules, point-virgules…

Les balises ouvrantes

Une balise ouvrante est un élément délimitant une section. La section se termine ensuite par une balise fermante.

Une balise ouvrante est une chaîne composée de chiffres, de lettres et des caractères - et _. Cette chaîne est comprise entre un < et un >.

Exemple :

<balise>

Les balises fermantes

Une balise fermante reprend l'identificateur de la balise ouvrante, en le précédent d'un caractère « barre de fraction » (slash). Exemple :

</balise>

Les balises vides

Une balise « vide » est le résultat de la contraction d'une balise ouvrante et d'une balise fermante ne contenant pas de données.

<div></div> donne <div />

Les attributs

Les balises ouvrantes et les balises vides peuvent être enrichies avec des attributs.

<root>
     <item id="67af65c75b" date="22/01/2006">Contenu de l'élément</item>
     <break mode="immediat"/>
</root>

Dans l'exemple ci-dessus, la balise ouvrante 'item' est munie de deux attributs, 'id' et 'date'. La balise vide 'break' est munie de l'attribut 'mode'.

attention|Leurs valeurs doivent obligatoirement être entre guillemets ou apostrophes dactylographiques<ref>http://www.w3schools.com/xml/xml_attributes.asp</ref>.

Les instructions de traitement

Une instruction de traitement est destinée à être lue et comprise par un programme spécifique, afin de permettre le traitement du document XML<ref> url = http://www.yoyodesign.org/doc/w3c/xml11/index.html#sec-pi | titre = Le point sur les instructions de traitement | site = yoyodesign.org</ref>.

Une instruction de traitement commence par un point d'interrogation « ? ».

Exemple :

<?php echo date("d/m/Y") ?>

Les commentaires

Les commentaires sont des balises qui ne sont pas interprétées par l'application qui traite le document XML.

Un commentaire est une balise commençant par '<!–' et terminant par '–>'.

Exemple :

<!-- Ceci est un commentaire utilisé dans les langages web  -->

Les entités

XML 1.0 définit un petit nombre d'entités utilisables dans le document sans nécessiter de déclaration dans le doctype.

Ces entités sont :

Entité	Caractère	Description
&lt;	<	Symbole « inférieur »
&gt;	>	Symbole « supérieur »
&amp;	&	Esperluette, « et » commercial
&apos;	'	guillemet simple
&quot;	“	guillemet double

Toujours sans déclaration de doctype spécial, on peut écrire une entité avec « & », « # », une référence Unicode<ref name=“unicode”/> et un « ; ».

Entité	Caractère	Description

&#960;	π	pi
&#946;	β	bêta

Exemple

<balise>Étudions la balise &amp;lt;p&amp;gt;</balise> Étudions la balise &lt;p&gt;

Structure d'un document XML

En-tête

Les trois constituants de l'en-tête que nous allons décrire ne sont pas obligatoires. Ils sont employés en cas de besoin pour fixer l'encodage, définir le doctype et/ou associer une feuille de style.

Version, encodage

Il est souhaitable que le document XML commence par l'indication de la version du langage et le jeu de caractères utilisé. C'est souvent utf-8<ref name=“unicode”/>. Il est également souhaitable, si le document est stocké sur disque, que l'encodage du fichier soit le même que celui mentionné par l'attribut encoding…

<?xml version="1.0"?> <!-- minimal -->
 
     <!-- ou -->
 
<?xml version="1.0" encoding="utf-8"?>

Référence au DTD

La deuxième information utile est la mention du doctype. Certains documents XML en ont impérativement besoin, d'autres peuvent s'en passer.

<!DOCTYPE root[
<!ELEMENT root (premier,deuxieme+)>
<!ELEMENT premier (#PCDATA)>
<!ELEMENT deuxieme (#PCDATA)>
]>

Autre exemple:

<!ELEMENT bibliography (book)+> <!-- déclaration de l'élément bibliography davant contenir une suite non vide d'éléments book -->
<!ELEMENT book (title, author, year, publisher, isbn, url?)> <!-- Déclaration de l'élément book devant contenir les éléements title, author, ....isbn et url -->
<!ATTLIST book key NMTOKEN #REQUIRED> <!-- Déclaration des attributs obligatoires -->
<!ATTLIST book lang (fr | en) #REQUIRED> <!-- Déclaration des attributs obligatoires -->
<!ELEMENT title (#PCDATA)> <!-- Déclaration de l'élément title davant contenir uniquement du text -->
<!ELEMENT author (#PCDATA)>
<!ELEMENT year (#PCDATA)>
<!ELEMENT publisher (#PCDATA)>
<!ELEMENT isbn (#PCDATA)>
<!ELEMENT url (#PCDATA)>

Opérateur des DTD:

Opérateur

Signification

Exemple

,

Mise en séquence

 <!ELEMENT elem (elem1, elem2, elem3)> <!--L'élément elem doit contenir un élément elem1, un élément elem2 puis un élément elem3 dans cet ordre. -->

</noWiki>

Choix

 <!ELEMENT elem (elem1 | elem2 | elem3)> <!-- L'élément elem doit contenir un seul des éléments elem1, elem2 ou elem3 -->

En analysant ce doctype, l'analyseur syntaxique (le parser, p.ex. : via [http://www.xmlcooktop.com/ Cooktop] ou encore [http://sourceforge.net/projects/npp-plugins/files/XML%20Tools/ XML tools pour Notepad++]) est en mesure de considérer le document XML comme valide.

Mention d'une feuille de style

Il est possible d'associer un document XML à une feuille de style CSS ou XSL. Si la fonctionnalité fait réfléchir, au début, il y a fort à parier que vous en abandonnerez la pratique par la suite. En effet, la philosophie XML va à l'opposé.

<?xml-stylesheet type="text/xsl" href="../../style.xsl"?>
	<!-- ou -->
<?xml-stylesheet type="text/css" href="../../style.css"?>

Une seule racine

Une balise a un statut spécial, c'est la racine du document XML. C'est à partir de cette balise que se développe l'arborescence du document.

Règles de mise en œuvre des balises

Toute balise ouverte doit être fermée.
Les balises doivent être correctement imbriquées.
Les balises sont imbriquables hiérarchiquement sans limitation mais il ne doit y avoir qu'un seul élément à la racine.

Le corps d'un document XML est une arborescence d'éléments (balises) imbriqués, avec un élément racine unique.

<root>
    <balise1>
         <balise2>
         </balise2>
    </balise1>
</root>

Quand toutes ces règles sont respectées, on obtient un document XML « 'bien formé' ». Dans ce cas, un navigateur comme Internet explorer ou Firefox peut l'ouvrir. Dans le cas contraire, le navigateur affiche un message d'erreur.

Exemple de structure simple

<?xml version="1.0" ?>
<root>
     <items>
         <item no="1">Premier élément</item>
         <item no="2">Autre chose</item>      
         <item no="3">Troisième élément</item>
         <item no="4">Quatrième élément</item>
     </items>
</root>

Espace de nom

Syntaxe

L'exemple ci-dessous contient deux déclarations, la première par défaut et la seconde associant le préfixe « ip » à l'URI des adresses IP, pour les distinguer des adresses postales :

<adresse
 xmlns="http://www.example.com/adresses_postales"
 xmlns:ip="http://www.example.com/adresses_ip">

Attribut balise xml

Attribut	Description	Exemple
xml:lang	décrit la langue du contenue de l'élément, sur deux ou trois lettres	<p xml:lang="fr">Bonjour</p>
xml:space	permet de faire respecter à une application le traitement des caractères d'espacement; deux valeurs possible: default ou preserve	<p xml:space="default"> titre1</p> <!--L'application traitera les espaces selon ses propres règles --> <p xml:space="preserve">titre2 </p><!--L'application devra respecter les espaces contenue dans le titre2 à la lettre -->
xml:base	Permet de spécifié l'URI (URL+URN) d'un élément	<?xml version="1.0" encoding="iso-8859-1" standalone="yes"?> <book xml:base="http://www.somewhere.org/Teaching/index.html"> <chapter xml:base="XML/chapter.html"> <section xml:base="XPath/section.html"/> <section xml:base="/Course/section.html"/> <section xml:base="http://www.elsewhere.org/section.html"/> </chapter> </book>
xml:id	Permet d'attribuer un identificateur à tout élément	<personName xml:id="423"> Gaston </personName>

Interprétation du XML

Il existe de nombreuses API permettant d'interpréter un document XML. La plupart sont conçues pour un langage particulier :

Dom4J (Java)
JDOM (Java)
SimpleXML (PHP)
PyXML (Python)[1]

Tous ces interpréteurs peuvent être de deux types normalisés :

DOM (créé par le W3C) : un arbre de nœuds complet est construit à partir du document XML.
SAX (créé par David Megginson) : l'interpréteur appelle certaines fonctions de l'application en fonction de chacun des éléments de base rencontrés dans le document XML (ouvertures de balise, fermetures, données, commentaires, …).

XPath

Syntaxe

Le XPath est un langage de sélection de différents types d'objets XML, appelés « nœuds »http://www.w3schools.com/dom/dom_nodetype.asp. Un ensemble de nœuds est appelé « contexte ».

Le XPath se présente sous la forme de chemins composés de http://www.w3schools.com/xpath/xpath_syntax.asp

Sélecteur	Notes
nom du nœud	Sélectionne ce qui est compris dans le nœud nommé
/	Sélectionne en partant du nœud racine (chemin absolu).
/ /	Sélectionne en partant du nœud courant, peu importe le reste de l'emplacement.
.	Sélectionne à partir du nœud courant (chemin relatif). = self::node()
..	Sélectionne à partir du parent du nœud courant. = parent::node()
@	Sélectionne les attributs. = attribute::
\|	Opérateur de sélection multiple.

remarque|Il existe un interpréteur en ligne pour réaliser les exemples décrits ci-dessous : http://www.xpathtester.com/.<br/> La classe http://www.php.net/manual/fr/domxpath.query.php permet de les programmer.

Ces expressions sont appelées « chemin de localisation », composés d'un ou plusieurs « pas de localisation » (ou « étapes ») séparés par des « / ». Les pas de localisation ont chacun trois composants :

Un axe (parent, descendant…).
Un test de nœud (nom ou fonction désignant les nœuds).
Des prédicats (entre crochets).

Axes

Pour décrire les relations entre les nœuds, XPath utilise le vocabulaire suivant :

Axe	Abréviation
ancestor		ancêtre
ancestor-or-self		ancêtre ou soi
attribute	@	attribut, @abc signifie attribute::abc
child		enfant, xyz signifie child::xyz
descendant
descendant-or-self	//	// signifie /descendant-or-self::node()/
following			suivant
following-sibling			frère suivant
namespace			espace de noms
parent	..	.. signifie parent::node()
preceding			précédent
preceding-sibling
self	.	soi, . signifie self::node()

Tests de nœuds

Soit l'espace de nom

ns

:

```
//ns:*
```
sélectionne tout les éléments du namespace.
```
//ns:nom
```
récupère tous les éléments du namespace nommés “nom”.

Tests	Notes
comment()	trouve tous les commentaires (ex : <!-- commentaire 1 --> )
text()	trouve un nœud texte, (ex : hello world dans <k>hello<m> world</m></k> )
processing-instruction()	trouve les instructions de traitement (ex : //processing-instruction('php') trouve <?php echo $a; ?> )
node()	trouve tous les nœuds.

Prédicats

Les prédicats sont des fonctions filtrant les nœuds évalués à false, qui se placent à la fin des sélections<ref>http://www.w3.org/TR/xpath#corelib</ref> :

Par exemple, les quatre requêtes ci-dessous renvoie le même résultat (si la branche 2 est la dernière comme dans l'exemple en bas de cette page) :

/ /branche[2]
/ /branche[@nom=“branche2”]
/tronc/branche[last()]
/tronc/branche[position()=2]

Prédicats	Notes

last()	renvoie le dernier nœud de la sélection
position()	renvoie le nœud situé à la position précisée
count(contexte)	renvoie le nombre de nœuds en paramètre
starts-with(chaine1, sous-chaine2)	renvoie `true` si le premier argument commence avec le second
contains(botte_de_foin, aiguille)	renvoie `true` si le premier argument contient le second
sum(contexte)	renvoie la somme des valeurs numériques des nœuds en paramètre
floor(nombre)	renvoie le nombre arrondi à l'entier inférieur
ceiling(nombre)	renvoie le nombre arrondi à l'entier supérieur
round(nombre)	renvoie le nombre arrondi à l'entier le plus proche

Exemples

Soit l'arborescence suivante :

<?xml version="1.0" encoding="UTF-8"?>
<tronc nom="tronc1"> 
	<!-- commentaire 1 --> 
	<branche nom="branche1" epaisseur="gros"> 
		<brindille nom="brindille1"> 
			<!-- commentaire 2 --> 
			<feuille nom="feuille1" couleur="marron" />
			<feuille nom="feuille2" poids="50" />
			<feuille nom="feuille3" /> 
		</brindille> 
		<brindille nom="brindille2">
			<feuille nom="feuille4" poids="90" /> 
			<feuille nom="feuille5" couleur="violet" />   
		</brindille>
	</branche> 
	<branche nom="branche2">
		<brindille nom="brindille3"> 
			<feuille nom="feuille6" /> 
		</brindille> 
		<brindille nom="brindille4">	
			<feuille nom="feuille7" /> 
			<feuille nom="feuille8" /> 
			<feuille nom="feuille9" couleur="noir" /> 
			<feuille nom="feuille10" poids="100" />	 
		</brindille>
	</branche> 
	<branche nom="branche3">
		<brindille nom="brindille5"> 
		</brindille> 
	</branche> 
</tronc>

Abréviations

Sélection 1 : toutes les <feuille> d'une <brindille> contenue dans une <branche>, descendant du <tronc>, issu de la racine.
1. Abrégé :
```
/tronc/branche/brindille/feuille
```
2. Non abrégé :
```
/child::tronc/child::branche/child::brindille/child::feuille
```
Sélection 2 : la <branche> dont l'attribut “nom” est “branche3”, enfant du <tronc>, inclue dans la racine.
1. Abrégé :
```
/tronc/branche[@nom='branche3']
```
2. Non abrégé :
```
/child::tronc/child::branche[attribute::nom='branche3']
```
Sélection 3 : toutes les brindilles ont au moins une feuille.
1. ```
//brindille[feuille]
```
Sélection 4 : dernière branche du tronc.
1. ```
//tronc/branche[last()]
```
Sélection 5 : tous les noms des brindilles qui n'ont pas de feuille.
1. ```
//brindille[not(feuille)]/@nom
```

PHP

Créer le .php suivant à côté du tronc.xml publié ci-dessus.

<?php
  $file = 'tronc.xml';
  $xpath = "/tronc/branche/brindille/feuille[last()]";
  if(file_exists($file)) {
    $xml = simplexml_load_file($file);
    if($result = $xml->xpath($xpath)) {
		print 'Résultats :';
		var_dump($result);
    } else {
      echo 'Syntaxe invalide.';
	}
  }
  else
    exit("Le fichier $file n'existe pas.");
?>

Entité	Caractère	Description
&lt;	<	Symbole « inférieur »
&gt;	>	Symbole « supérieur »
&amp;	&	Esperluette, « et » commercial
&apos;	'	guillemet simple
&quot;	“	guillemet double

Entité	Caractère	Description
&lt;	<	Symbole « inférieur »
&gt;	>	Symbole « supérieur »
&amp;	&	Esperluette, « et » commercial
&apos;	'	guillemet simple
&quot;	“	guillemet double

2APartProx

Outils pour utilisateurs

Outils du site

Table des matières

XML(Extensible Markup Language)

Éléments d'un document XML

Balisage

Conventions de nommage des balises

Les balises ouvrantes

Les balises fermantes

Les balises vides

Les attributs

Les instructions de traitement

Les commentaires

Les entités

Structure d'un document XML

En-tête

Version, encodage

Référence au DTD

Mention d'une feuille de style

Une seule racine

Règles de mise en œuvre des balises

Exemple de structure simple

Espace de nom

Syntaxe

Attribut balise xml

Interprétation du XML

XPath

Syntaxe

Axes

Tests de nœuds

Prédicats

Exemples

Abréviations

PHP

Outils de la page

Entité	Caractère	Description
&lt;	<	Symbole « inférieur »
&gt;	>	Symbole « supérieur »
&amp;	&	Esperluette, « et » commercial
&apos;	'	guillemet simple
&quot;	“	guillemet double