Einige Begriffe zu XML
Um über XML zu reden, sollten vorher einige Begriffe erläutert
werden, damit es keine Missverständnisse gibt.
Markup
Eine XML-Datei teilt sich auf in Daten und Markup. Alles was dem
Aufbau der Struktur dient, gehört zum Markup. Also z.B. Start-Tags,
End-Tags und Entitäten
, aber auch die DTD.
Element
Die Elemente
strukturieren die Daten hierarchisch. Ein Element besteht aus einer
öffnenden Klammer(Start-Tag) und einer schließenden Klammer(End-Tag):
<element>...Daten...</element>. Ausnahmen sind
so genannte leere Elemente, die direkt wieder geschlossen werden:
<element/>.
Ein Element kann Attribute besitzen, die aus Namen und Werten bestehen:
<element attribut="wahr">...</element>
Struktur
Der Aufbau einer XML-Datei entspricht einer Baumstruktur. Es darf nur
ein oberstes Element (root-Element) geben. Alle innerhalb eines
Elementes geöffneten Elemente müssen innerhalb dieses Elements
geschlossen werden.
Document Type Definition (DTD)
DTDs sind eine verbreitete Art eine Sprache oder ein Dokument zu
beschreiben. Innerhalb der DTD sind die erlaubten Elemente und
Attribute aufgeführt und, ob sie obligatorisch oder fakultativ
sind. Es können auch Standardwerte für Attribute definiert
werden.
XML Schema
Eine weitere Sprache in der XML-Dokumente beschrieben werden können,
die aber im Gegensatz zu DTD ebenfalls XML-Form besitzt. Es gibt noch
eine Reihe weiterer Sprachen zur Deklaration von XML-Dokumente, die
aber hier nicht Thema sein sollen.
XSL-Stylesheet
Ein XSL-Stylesheet kann auf ein XML-Dokument angewendet werden und
enthält Anweisungen wie die XML-Daten verarbeitet werden sollen.
Entitäten (Entities)
Bereits in HTML gibt es Entities zur Verwendung von Sonderzeichen wie
z.B. ü für ü. Innerhalb und außerhalb der DTD ist es
bei XML möglich eigene Entities zu definieren. Dies ist sinnvoll bei
häufig wiederkehrenden Textstellen, oder falls Textstellen oder Wörter
schnell austauschbar sein sollen.
Wohlgeformtheit
Ein Dokument ist wohlgeformt, wenn es den Syntaxregeln von XML
entspricht. XML ist strenger definiert als HTML. Die wichtigsten Regeln:
- Jedes Element muss wieder geschlossen werden.
- Elementattribute dürfen nur mit Anführungszeichen
benutzt werden.
- Die Elemente müssen richtig geschachtelt werden.
Gültigkeit
Ein Dokument ist gültig (vaild), wenn es der angegebenen DTD oder
einer
anderen Strukturvorschrift genügt.
White-Space
Unter diesen Begriff fallen alle Leerzeichen, Tabulatoren,
Zeilenvorschüben und Zeilenende-Zeichen.
Processing Instruction (PI)
Mit den Processing Instructions können Anweisungen an Anwendungen
übergeben werden, wie das XML-Dokument bspw. verarbeitet werden soll.
Diese Anweisungen beginnen immer mit einer
öffnenden spitzen Klammer und einem Fragezeichen <?
und enden wieder mit einem Fragezeichen und einer schließenden
spitzen Klammer ?>. Eine zu dem XML-Dokument
gehörender XSL-Stylesheet wird zum Beispiel als PI
angegeben: <?xml-stylesheet href="/selfxml.xsl" type="text/xsl" ?>
Versionsdeklaration
Nicht zwingend vorgeschrieben, aber üblich ist die Deklaration,
welche Version von XML dem Dokument zugrunde liegt. Momentan existiert
ausschließlich Version 1.0. Zusätzlich kann in dieser Deklaration
auch noch der verwendete Schriftsatz angegeben werden. Hier eine
Beispieldeklaration: <?xml version="1.0" encoding="ISO-8859-1"?>
Dokumenttyp-Deklaration
Damit ein Dokument gültig ist, muss eine
Definition des Dokuments angegeben werden. Dies kann beispielsweise in
einer DTD erfolgen. Dies würde dann so aussehen:
<!DOCTYPE rootnode SYSTEM "selfxml.dtd">
|