XML

linguaggio di marcatura
(Reindirizzamento da Xml)
Disambiguazione – Se stai cercando altri significati, vedi XML (disambigua).

In informatica, l'XML (sigla di eXtensible Markup Language, lett. "linguaggio di marcatura estendibile") è un metalinguaggio per la definizione di linguaggi di markup, ovvero un linguaggio basato su un meccanismo sintattico che consente di definire e controllare il significato degli elementi contenuti in un documento o in un testo.

XML
Estensione.xml
Magic number<?xml
Tipo MIMEapplication/xml
text/xml
Uniform Type Identifier (UTI)public.xml
SviluppatoreW3C
ProprietarioWorld Wide Web Consortium
1ª pubblicazione10 febbraio 1998
Ultima versione1.1 (2ª ed.) (29 settembre 2006)
TipoLinguaggio di markup
Estensione diSGML
Esteso aXHTML, RSS, Atom, KML e altri
Standard1.0, 5ª ed. (26 novembre 2008)
1.1, 2ª ed. (16 agosto 2006)
Formato aperto?
Sito webwww.w3.org/XML

Il nome indica che si tratta di un linguaggio estendibile, in quanto permette di creare tag personalizzati e costituisce il tentativo di produrre una versione semplificata dello Standard Generalized Markup Language (SGML), che consente di definire nuovi linguaggi di markup.

Il World Wide Web Consortium (W3C), in seguito alla guerra dei browser (ovvero la situazione verificatasi negli anni novanta nella quale Microsoft e Netscape introducevano, con ogni nuova versione del proprio browser, un'estensione proprietaria all'HTML ufficiale), fu costretto a seguire le individuali estensioni al linguaggio HTML.[il nesso è poco chiaro]

Il W3C dovette scegliere quali caratteristiche standardizzare e quali lasciare fuori dalle specifiche ufficiali dell'HTML. Fu in questo contesto che iniziò a delinearsi la necessità di un linguaggio di markup che desse maggiore libertà nella definizione dei tag, pur rimanendo in uno standard.

Il "progetto XML", che ebbe inizio alla fine degli anni novanta nell'ambito della SGML Activity del W3C, suscitò un così forte interesse che il W3C creò un gruppo di lavoro, chiamato XML Working Group, composto da esperti mondiali delle tecnologie SGML, ed una commissione, XML Editorial Review Board, deputata alla redazione delle specifiche del progetto.

Nel febbraio del 1998 le specifiche divennero una raccomandazione ufficiale con il nome di Extensible Mark-up Language, versione 1.0. Ben presto ci si accorse che XML non era limitato al solo contesto web ma era qualcosa di più: uno strumento che permetteva di essere utilizzato nei più diversi contesti, dalla definizione della struttura di documenti, allo scambio delle informazioni tra sistemi diversi, dalla rappresentazione di immagini alla definizione di formati di dati.

Utilizzi

modifica

Rispetto all'HTML, l'XML ha uno scopo ben diverso: mentre il primo definisce una grammatica per la descrizione e la formattazione di pagine web (layout) e, in generale, di ipertesti, il secondo è un metalinguaggio utilizzato per creare nuovi linguaggi, atti a descrivere documenti strutturati. Mentre l'HTML ha un insieme ben definito e ristretto di tag, con l'XML è invece possibile definirne di propri a seconda delle esigenze.

L'XML è oggi molto utilizzato anche come mezzo per l'esportazione di dati tra diversi DBMS. Diffuso è l'uso nei file di configurazione di applicazioni e sistemi operativi.

Sintassi

modifica

Ecco un esempio tipico di file XML, visualizzabile all'interno di un browser qualsiasi semplicemente salvando il testo in un file con estensione .xml.

<?xml version="1.0" encoding="UTF-8"?>
<utenti>
    <utente anni="20">
        <nome>Ema</nome>
        <cognome>Princi</cognome>
        <indirizzo>Torino</indirizzo>
    </utente>
    <utente anni="54">
        <nome>Max</nome>
        <cognome>Rossi</cognome>
        <indirizzo>Roma</indirizzo>
    </utente>
</utenti>

La prima riga indica la versione di XML in uso e specifica la codifica UTF-8 per la corretta interpretazione dei dati.

I caratteri speciali che renderebbero il documento mal formato vanno sostituiti con le rispettive entità XML:

Carattere Entità
& &amp;
< &lt;
> &gt;
" &quot;
' &apos;

Va fatto presente che solo le prime tre[o solo le prime 2?] entità sono sempre da rispettare, mentre l'ultima &apos; in alcuni casi non è gestita (come nell'iPhone iOS 3.1.3 e successive).

I tag o etichette

modifica

L'XML, come l'HTML, utilizza dei marcatori, chiamati tag (etichette), per assegnare una semantica al testo. I tag possono contenere informazioni in due modi: attraverso dei parametri oppure racchiudendo del testo o altri tipi di informazioni. Segue che possono essere tag di apertura, necessariamente seguiti da tag di chiusura (tra i quali si può avere un contenuto) oppure tag che si aprono e chiudono, e possono quindi fornire informazioni solo attraverso i loro parametri.

Ogni etichetta inizia e finisce con delle parentesi angolari (<>) (che in altri contesti sarebbero i segni di minore e maggiore), mentre la chiusura del tag o il tag di chiusura è rappresentato dalla barra (/). Ecco degli esempi di tag:

<tagEsempio parametro1="etichetta di apertura" caratteristiche="solo l'etichetta di apertura ha dei parametri">
    contenuto
</tagEsempio>
<tagAutochiudente parametro1="etichetta autochiudente" caratteristiche="non ha etichetta di chiusura" />

XML consente dei commenti racchiusi da <!-- --> Ad esempio:

<!-- Questo è un commento -->

XML è molto rigido sulla sintassi da seguire rispetto all'HTML ed è pertanto necessario rispettare alcune regole:

  1. i tag non possono iniziare con numeri o caratteri speciali e non possono contenere spazi;
  2. i tag devono essere bilanciati, ovvero non sono consentiti errori di annidamento, ad esempio:
<rubrica>
  <nome>Mario</nome>
  <cognome>Rossi
</rubrica>

Il tag cognome non è stato chiuso, l'XML risulta quindi mal formato.

<rubrica>
  <nome>Mario</nome>
  <cognome>Rossi
</rubrica></cognome>

Il tag cognome è stato chiuso dopo il tag rubrica, anche in questo caso l'XML non è ben formato.

<rubrica>
  <nome>Mario</nome>
  <cognome>Rossi</COGNOME>
</rubrica>

XML è case sensitive quindi il tag cognome e il tag COGNOME sono considerati come due tag diversi; l'XML ancora una volta non è ben formato.

È possibile anche definire tag vuoti che vengono aperti e immediatamente chiusi:

<rubrica></rubrica>

Oppure in maniera abbreviata:

<rubrica />

Per poter essere correttamente interpretato, un documento XML deve essere formattato correttamente, deve cioè possedere le seguenti caratteristiche:

  • Un prologo, che è la prima istruzione che appare scritta nel documento. Nel nostro caso: <?xml version="1.0" encoding="UTF-8"?>.
  • Un unico elemento radice (ovvero il nodo principale, chiamato root element) che contiene tutti gli altri nodi del documento. Nel nostro esempio: <utenti>.
  • All'interno del documento tutti i tag devono essere bilanciati.

Se il documento XML non contiene errori si dice well-formed ("ben formato"). Se il documento è well formed e in più rispetta i requisiti strutturali definiti nel file DTD o schema XML associato viene chiamato valid ("valido").

Vantaggi di XML

modifica

I vantaggi dell’XML vengono solitamente riepilogati con l'acronimo SPEED, inteso anche con il significato della parola in lingua inglese (ovvero "velocità"). La velocità è innanzitutto la ragione principale che spinge molte aziende a passare al commercio elettronico: risposta più rapida alle esigenze dei clienti, pubblicazione più rapida di informazioni dirette ai clienti e ai partner della catena di approvvigionamento; elaborazione più rapida di ordini ricevuti via Internet. L'arconimo deriva da Storing, Publishing and Exchanging Electronic Documents ("memorizzazione, pubblicazione e scambio di documenti elettronici").

In XML le informazioni specifiche di un’applicazione sono contenute all’interno di "tag", marcati da parentesi < >, che descrivono il contenuto di un documento. Ogni tag definisce un tipo di elemento e, delimitando con tag ogni singolo dato, siamo in grado di comprenderne la struttura anche se non conosciamo l’applicazione che l’ha generata. Essendo poi i dati autodescrittivi, anche i partner saranno in grado di comprenderli ed elaborarli. Inoltre essi possono essere gestiti anche in futuro quando le applicazioni che li hanno generati saranno diventate obsolete.

L’estensibilità è un'altra caratteristica vincente di XML, in quanto è possibile per i programmatori riutilizzare i documenti XML esistenti semplicemente estendendoli con nuovi tag, lasciando che gli elementi chiave del documento originale rimangano comprensibili da tutti gli utilizzatori.

XML ha risposto al proverbiale motto americano: "adopt and adapt", ovvero, adotta uno standard vincente e affidabile e adattalo alle tue esigenze.

Un altro vantaggio non indifferente di XML è la possibilità di validarli mediante l'uso di XML Schema (XSD)[1].

Questa possibilità non è presente in tutti gli altri formati interscambiabili.

Per sintetizzare i vantaggi di XML, quindi, si può dire che XML richiede:

  • meno sforzi di manutenzione;
  • migliore riutilizzo;
  • maggiore capacità di mirare a dispositivi multipli;
  • possibilità di ridurre le risorse dedicate alla implementazione di progetti.

Tecnologie di supporto a XML

modifica

Linguaggi schema (permettono di creare nuovi linguaggi XML):

  • DTD (acronimo di Document Type Definition): è un documento attraverso cui si specificano le caratteristiche strutturali di un documento XML attraverso una serie di "regole grammaticali". In particolare definisce l'insieme degli elementi del documento XML, le relazioni gerarchiche tra gli elementi, l'ordine di apparizione nel documento XML e quali elementi e quali attributi sono opzionali o meno.
  • XML Schema: come la DTD, serve a definire la struttura di un documento XML. Oggi il W3C consiglia di adottarlo al posto della DTD stessa, essendo una tecnica più recente ed avanzata. La sua sigla è XSD, acronimo di XML Schema Definition.

Altre tecnologie legate a XML:

  • XLink: serve a collegare in modo completo due documenti XML; al contrario dei classici collegamenti ipertestuali che conosciamo in HTML, XLink permette di creare link multidirezionali e semanticamente avanzati.
  • XSL (acronimo di eXtensible Stylesheet Language): è il linguaggio con cui si descrive il foglio di stile di un documento XML. La sua versione estesa è l'XSLT (dove la T sta per Transformations).
  • XPath: è un linguaggio con cui è possibile individuare porzioni di un documento XML e sta alla base di altri strumenti per l'XML come XQuery.
    A supporto di questo scopo principale, fornisce anche elementari funzionalità per trattare stringhe, numeri e dati booleani. Il suo funzionamento si basa sulla creazione di un albero a partire dal documento e la sintassi succinta permette di indirizzare una specifica parte attraverso i nodi dell'albero con la semplice parola path.
  • XPointer: serve ad identificare univocamente precise porzioni di un documento XML; consente poi il loro accesso ad altri linguaggi o oggetti di interfaccia.
  • XQuery: è un linguaggio di query concepito per essere applicabile a qualsiasi sorta di documento XML e si basa sull'utilizzo di XPath per la specificazione di percorsi all'interno di documenti. XQuery ha funzionalità che consentono di poter attingere da fonti di dati multiple per la ricerca, per filtrare i documenti o riunire i contenuti di interesse.
  • SAX (Simple API for XML): è un'interfaccia di programmazione, implementata in numerosi linguaggi, che permette di leggere e modificare i documenti XML. Attraverso SAX è possibile implementare dei parser XML specifici. SAX è event based, al contrario di DOM, e reagisce agli eventi di parsing facendo rapporto all'applicazione. È compito del programmatore implementare i metodi per reagire agli eventi di parsing.
  • DOM: è un'interfaccia di programmazione, come SAX, implementata in una moltitudine di linguaggi di programmazione, per la manipolazione di file XML. DOM costruisce partendo dal file XML un albero dove ogni nodo dell'albero corrisponde ad un elemento del file; per questo motivo è detta tree based.
  • VTD-XML: DOM è più facile ed immediata da utilizzare rispetto a SAX ed è pertanto preferita solitamente dai programmatori per manipolare un file XML; tuttavia l'albero generato da DOM va mantenuto completamente nella memoria RAM e di conseguenza non è possibile utilizzare questa interfaccia per manipolare file che siano più grandi della memoria disponibile sul computer.
  • RSS: è uno standard che serve a creare un documento con una struttura di tipo XML univoca, atta allo sviluppo di un semplice scambio dati tra pagine Web ed accessibile da qualsiasi linguaggio di scripting. In sostanza si tratta di un documento XML la cui struttura dei nodi ed i relativi tag hanno lo stesso nome.
  • SVG (Scalable Vector Graphics) e VML (Vector Markup Language) sono standard per la creazione di immagini vettoriali che sfrutta dei documenti formattati in XML. Serve inoltre a descrivere immagini bidimensionali, statiche e dinamiche. Leggendo le istruzioni contenute nel documento sorgente XML, l'interprete disegna le figure-base fino al completamento dell'immagine.
  • WDDX (Word Data Description Exchange): WDDX è una struttura per contenimento di dati con la stessa struttura di un database, creato dalla Allaire oggi Macromedia e rilasciato Open presso la WDDX Organization Archiviato il 30 novembre 2001 in Internet Archive.

Linguaggi XML più diffusi

modifica
  • XForms: come il suo nome lascia intendere, è un linguaggio nato per creare moduli (forms) di tipo HTML all'interno di un documento XML.
  • SMIL (Synchronized Multimedia Integration Language): questo linguaggio definito in XML, viene utilizzato per descrivere il contenuto e gestire la tempistica di presentazioni multimediali che possono combinare insieme video, audio, immagini e testo.
  • MathML (Mathematical Markup Language): MathML è usato per la descrizione di notazioni matematiche, procedendo a fissarne contemporaneamente struttura e contenuti, così da poter essere riportate e processate sul Web.
  • X3D (eXtensible 3D): X3D è un linguaggio che permette di costruire modelli tridimensionali, siano essi semplici o sofisticati. Agli oggetti così creati possono applicarsi animazioni e meccanismi di interazione con l'utente. Come linguaggio, è costruito sul Virtual Reality Modeling Language (VRML), a sua volta assunto a standard internazionale nel 1997. A quest'ultimo, l'X3D acclude le capacità, tipiche dell'Extensible Markup Language (XML), di integrazione con le altre tecnologie del World Wide Web, di validazione dei contenuti e dell'aggiunta flessibile di nuove estensioni hardware qualora ve ne fosse necessità. In più, bisogna citare i vantaggi riguardanti la leggerezza del "profilo base" (Core Profile - Esistono sette profili, ognuno dei quali raggruppa un certo insieme di funzionalità comunemente utilizzate per differenti scopi. Questo permette agli sviluppatori di browser di raggiungere livelli intermedi di supporto dell'X3D, senza dover per forza implementare in una volta sola l'intera specifica) e dei browser componentizzati per un download più rapido.
  • XBRL (eXtensible Business Reporting Language): è un linguaggio usato per la comunicazione e lo scambio di dati finanziari e contabili in formato elettronico

XML e le pagine web: XHTML

modifica

XHTML è un linguaggio di markup atto a visualizzare pagine Web tramite browser, come l'HTML, e, essendo XML, ne rispetta la semantica. Ad esempio in XHTML, al contrario che in HTML tradizionale, i tag vuoti vanno chiusi con uno slash (/) finale, gli attributi vuoti devono essere valorizzati con true o false, la chiusura dei tag dev'essere a specchio (se viene aperto un Tag e prima di chiuderlo ne viene aperto un altro, è necessario chiudere prima il secondo tag e poi il primo), alcuni Tag e attributi, rispetto all'HTML 4.0 sono scomparsi, ed esiste una DTD dedicata.

Il mime type riservato alle pagine XHTML è (application/xhtml+xml). Se si trasmette una pagina XHTML non valida ma come text/html può capitare che venga però visualizzata perché viene interpretata come html (con degli errori, quali i tag chiusi come <br />) solo che non rispetta lo standard e non gode dei suoi vantaggi, primo tra i quali la portabilità su browser e client differenti.[2] Il vero vantaggio di una pagina XHTML è che essendo XML ne trae tutti i pregi, quali facilità di validazione e interpretazione programmatica. Le pagine XHTML sono solitamente più facilmente accessibili, data la loro semantica XML.

  1. ^ Andrea Chiarelli, XML Schema e Documenti XML, su HTML.it. URL consultato il 16 ottobre 2020.
  2. ^ (EN) Sending XHTML as text/html Considered Harmful

Voci correlate

modifica

Altri progetti

modifica

Collegamenti esterni

modifica
Controllo di autoritàLCCN (ENsh97007825 · GND (DE4501553-3 · BNE (ESXX546216 (data) · BNF (FRcb131774360 (data) · J9U (ENHE987007549204605171
  Portale Internet: accedi alle voci di Wikipedia che trattano di internet