Парсим просторы XML

Никита Кислицин

Xakep, номер #061, стр. 061-094-1

(nikitoz@real.xakep.ru, www.ired.ru)

Обработка XML-документов парсером PHP

До настоящего момента мы обсуждали лишь один формат представления текстовой информации в интернете - язык гипертекстовой разметки HTML. Да, этот язык действительно отлично справляется со своей задачей... Но что делать, если перед нами встает проблема иного рода: например, необходимо так представить текстовые данные, чтобы можно было удобно осуществлять доступ к ним из самых различных систем, легко их обрабатывать и производить по ним поиск. Тут на помощь и приходит расширяемый язык разметки XML.

Что такое XML?

XML предоставляет разработчикам очень гибкие инструментальные средства для создания структурированных документов. Сам язык внешне очень схож с HTML. Это объясняется тем, что оба языка произошли от стандарта SGML (Standart Generalized Markup Language - стандартный обобщенный язык разметки). Также стоит заметить, что SGML - это скорее не язык разметки, а способ определения подобных языков. Т.е. XML является упрощенной версией SGML, в то время как HTML это лишь приложение SGML, соответствующее этой модели только при строгом применении. Ознакомиться с подробной спецификацией и описанием SGML можно либо в интернете (xml.coverpages.org/sgml.html), либо посмотрев некоторые документы на CD.

Зачем нужен XML?

Если XML, как и HTML, разработан для использования в Сети и обмена данными, то зачем же он тогда вообще нужен? Ответ прост: на практике выходит, что XML на самом-то деле создан и используется совсем для других целей. Если разметка HTML указывает браузеру на то, каким способом следует отформатировать данные (вставить таблицу, поменять шрифт или выделить жирным какой-то кусок текста), то XML призван отделить содержание документа от его представления, создав удобный для восприятия структурированный документ. Важным различием является также то обстоятельство, что в XML можно задавать собственные теги для определения структуры данных. Ты, наверное, уже запутался, поэтому, чтобы все стало понятно, рассмотрим простой пример. Взгляни на этот HTML-документ:

HTML-код

<html>

<head>

<title>Список товаров</title>

</head>

<body>

<h1>Список товаров</h1>

<b>Название</b> Товар 1<br>

<b>Индекс</b> 23454<br>

<b>Цена</b> 532р.<br>

<hr>

<b>Название</b> Товар 2<br>

<b>Индекс</b> 23455<br>

<b>Цена</b> 1532р.<br>

</body></html>

А теперь на минуту представь, что у тебя есть такой же файл (только количество записей о товарах в нем, скажем, полторы тысячи), и тебе необходимо написать программу, производящую поиск информации о товаре по заданному индексу. Это вполне реализуемая задача при помощи теории конечных автоматов, но, думаю, тебе не по душе такой геморрой :). Так что посмотрим, как такой файл может быть представлен в XML:

XML-код

<?xml version="1.1"?>

<goods>

<good>

<name>Товар 1</name>

<index>23454</index>

Содержание  Вперед на стр. 061-094-2
ttfb: 3.9939880371094 ms