Парсим просторы XML

Никита Кислицин

Xakep, номер #061, стр. 061-094-1

(nikitoz@real.xakep.ru, www.ired.ru)

Обработка XML-документов парсером PHP

До настоящего момента мы обсуждали лишь один формат представления текстовой информации в интернете - язык гипертекстовой разметки HTML. Да, этот язык действительно отлично справляется со своей задачей... Но что делать, если перед нами встает проблема иного рода: например, необходимо так представить текстовые данные, чтобы можно было удобно осуществлять доступ к ним из самых различных систем, легко их обрабатывать и производить по ним поиск. Тут на помощь и приходит расширяемый язык разметки XML.

Что такое XML?

XML предоставляет разработчикам очень гибкие инструментальные средства для создания структурированных документов. Сам язык внешне очень схож с HTML. Это объясняется тем, что оба языка произошли от стандарта SGML (Standart Generalized Markup Language - стандартный обобщенный язык разметки). Также стоит заметить, что SGML - это скорее не язык разметки, а способ определения подобных языков. Т.е. XML является упрощенной версией SGML, в то время как HTML это лишь приложение SGML, соответствующее этой модели только при строгом применении. Ознакомиться с подробной спецификацией и описанием SGML можно либо в интернете (xml.coverpages.org/sgml.html), либо посмотрев некоторые документы на CD.

Зачем нужен XML?

Если XML, как и HTML, разработан для использования в Сети и обмена данными, то зачем же он тогда вообще нужен? Ответ прост: на практике выходит, что XML на самом-то деле создан и используется совсем для других целей. Если разметка HTML указывает браузеру на то, каким способом следует отформатировать данные (вставить таблицу, поменять шрифт или выделить жирным какой-то кусок текста), то XML призван отделить содержание документа от его представления, создав удобный для восприятия структурированный документ. Важным различием является также то обстоятельство, что в XML можно задавать собственные теги для определения структуры данных. Ты, наверное, уже запутался, поэтому, чтобы все стало понятно, рассмотрим простой пример. Взгляни на этот HTML-документ:

HTML-код

<html>

<head>

<title>Список товаров</title>

</head>

<body>

<h1>Список товаров</h1>

<b>Название</b> Товар 1<br>

<b>Индекс</b> 23454<br>

<b>Цена</b> 532р.<br>

<hr>

<b>Название</b> Товар 2<br>

<b>Индекс</b> 23455<br>

<b>Цена</b> 1532р.<br>

</body></html>

А теперь на минуту представь, что у тебя есть такой же файл (только количество записей о товарах в нем, скажем, полторы тысячи), и тебе необходимо написать программу, производящую поиск информации о товаре по заданному индексу. Это вполне реализуемая задача при помощи теории конечных автоматов, но, думаю, тебе не по душе такой геморрой :). Так что посмотрим, как такой файл может быть представлен в XML:

XML-код

<?xml version="1.1"?>

<goods>

<good>

<name>Товар 1</name>

<index>23454</index>

Содержание  Вперед на стр. 061-094-2
загрузка...
Журнал Хакер #151Журнал Хакер #150Журнал Хакер #149Журнал Хакер #148Журнал Хакер #147Журнал Хакер #146Журнал Хакер #145Журнал Хакер #144Журнал Хакер #143Журнал Хакер #142Журнал Хакер #141Журнал Хакер #140Журнал Хакер #139Журнал Хакер #138Журнал Хакер #137Журнал Хакер #136Журнал Хакер #135Журнал Хакер #134Журнал Хакер #133Журнал Хакер #132Журнал Хакер #131Журнал Хакер #130Журнал Хакер #129Журнал Хакер #128Журнал Хакер #127Журнал Хакер #126Журнал Хакер #125Журнал Хакер #124Журнал Хакер #123Журнал Хакер #122Журнал Хакер #121Журнал Хакер #120Журнал Хакер #119Журнал Хакер #118Журнал Хакер #117Журнал Хакер #116Журнал Хакер #115Журнал Хакер #114Журнал Хакер #113Журнал Хакер #112Журнал Хакер #111Журнал Хакер #110Журнал Хакер #109Журнал Хакер #108Журнал Хакер #107Журнал Хакер #106Журнал Хакер #105Журнал Хакер #104Журнал Хакер #103Журнал Хакер #102Журнал Хакер #101Журнал Хакер #100Журнал Хакер #099Журнал Хакер #098Журнал Хакер #097Журнал Хакер #096Журнал Хакер #095Журнал Хакер #094Журнал Хакер #093Журнал Хакер #092Журнал Хакер #091Журнал Хакер #090Журнал Хакер #089Журнал Хакер #088Журнал Хакер #087Журнал Хакер #086Журнал Хакер #085Журнал Хакер #084Журнал Хакер #083Журнал Хакер #082Журнал Хакер #081Журнал Хакер #080Журнал Хакер #079Журнал Хакер #078Журнал Хакер #077Журнал Хакер #076Журнал Хакер #075Журнал Хакер #074Журнал Хакер #073Журнал Хакер #072Журнал Хакер #071Журнал Хакер #070Журнал Хакер #069Журнал Хакер #068Журнал Хакер #067Журнал Хакер #066Журнал Хакер #065Журнал Хакер #064Журнал Хакер #063Журнал Хакер #062Журнал Хакер #061Журнал Хакер #060Журнал Хакер #059Журнал Хакер #058Журнал Хакер #057Журнал Хакер #056Журнал Хакер #055Журнал Хакер #054Журнал Хакер #053Журнал Хакер #052Журнал Хакер #051Журнал Хакер #050Журнал Хакер #049Журнал Хакер #048Журнал Хакер #047Журнал Хакер #046Журнал Хакер #045Журнал Хакер #044Журнал Хакер #043Журнал Хакер #042Журнал Хакер #041Журнал Хакер #040Журнал Хакер #039Журнал Хакер #038Журнал Хакер #037Журнал Хакер #036Журнал Хакер #035Журнал Хакер #034Журнал Хакер #033Журнал Хакер #032Журнал Хакер #031Журнал Хакер #030Журнал Хакер #029Журнал Хакер #028Журнал Хакер #027Журнал Хакер #026Журнал Хакер #025Журнал Хакер #024Журнал Хакер #023Журнал Хакер #022Журнал Хакер #021Журнал Хакер #020Журнал Хакер #019Журнал Хакер #018Журнал Хакер #017Журнал Хакер #016Журнал Хакер #015Журнал Хакер #014Журнал Хакер #013Журнал Хакер #012Журнал Хакер #011Журнал Хакер #010Журнал Хакер #009Журнал Хакер #008Журнал Хакер #007Журнал Хакер #006Журнал Хакер #005Журнал Хакер #004Журнал Хакер #003Журнал Хакер #002Журнал Хакер #001