Замути свой YAHOO-ЯНДЕКС

Докучаев Дмитрий aka Forb

Xakep, номер #063, стр. 063-124-1

(forb@real.xakep.ru)

Пишем поисковую систему

Если ты хочешь, чтобы тебя уважали пользователи твоей локальной сети, в которой существуют свои ftp-архивы, – подари им поисковик по локалке. Система, которая будет осуществлять поиск нужного файла на ftp-серверах сети – более чем реальность. Алгоритм работы такого поисковика очень прост и реализуется всего за несколько часов легкого кодинга.

Сама система состоит из двух частей. Это, собственно, web-интерфейс, работающий напрямую с mySQL, а также индексатор всех файлов в архивах, с помощью которого данные в базе будут периодически обновляться. Писать все будем на Perl’е – самом простом и в то же время функциональном языке.

Как это работает?

Давай рассмотрим самое главное – алгоритм работы поисковика. Прежде чем что-либо кодить, ты должен выпросить у всех, кто желает засветить свой FTP’шник на твоем поисковике, аккаунт к серверу. С его помощью будем индексировать заголовки файлов. Второй проблемой будет установка нужного программного обеспечения. В нашем случае это Perl и его модули: FTP::Recursive, DBD::Mysql, а также база данных MySQL.

Но это так, вводная. Самое главное – понять принцип интеграции индексатора и web-интерфейса. Он на удивление прост :). Итак, после рекурсивного процесса индексирования заголовков всех файлов с FTP-серверов, происходит запись в базу данных. Записывать будем следующие параметры: имя файла, путь к файлу и размер файла (что еще надо для счастья?). Таким образом, индексатор нужен только для обработки FTP-серверов.

Теперь о web-интерфейсе. Скрипт search.cgi проводит анализ запроса. Если запрос простой (одно слово), происходит выборка из БД. В противном случае строка разбивается по пробелам. В сценарии указывается число ссылок, которые будут отображаться на каждой странице, а также косметические переменные, содержащие цвет фона и найденной ссылки.

Рождение индексатора

По логике первым разумнее написать индексатор, так как тестировать web-интерфейс без заполненной базы данных весьма гиморно. Индексатор представляет собой сценарий, использующий четыре модуля. Вот их краткое описание:

Getopt::Std – модуль, позволяющий парсить параметры командной строки. Некоторые начинающие кодеры не знают о его наличии и лишний раз изобретают велосипед в своем коде ;).

DBI – модуль, который связывает индексатор с mySQL. В случае если ты ставишь поисковик под винду, придется повозиться с процессом установки DBI.pm. Особенности виндовой настройки смотри во врезке.

Net::Ftp::Recursive – модуль для рекурсивной обработки файлов на удаленном FTP-сервере. В функции этого модуля входит рекурсивный просмотр, скачивание и заливка файлов. Нам нужна процедура rdir, которая выдает информацию обо всех файлах в директории и последующих каталогах.

FileHandle – скрипт, с помощью которого можно создать файловый дескриптор, в который будет занесена информация произвольного вида. Например, инфа о файле.

С модулями разобрались. Теперь поговорим о процедурах, содержащихся в индексаторе. Это главная процедура connectftp(), позволяющая соединиться с FTP-сервером и получить рекурсивный список файлов. Затем insert_db. В ней происходит вставка информации в БД. Процедура getlist() получает информацию об FTP-серверах, которые необходимо проиндексировать. И в конце скрипта можно увидеть две неприметные процедуры getret() и putret(). Они нужны для реализации потоков и будут рассмотрены подробнее чуть ниже.

Содержание  Вперед на стр. 063-124-2
загрузка...
Журнал Хакер #151Журнал Хакер #150Журнал Хакер #149Журнал Хакер #148Журнал Хакер #147Журнал Хакер #146Журнал Хакер #145Журнал Хакер #144Журнал Хакер #143Журнал Хакер #142Журнал Хакер #141Журнал Хакер #140Журнал Хакер #139Журнал Хакер #138Журнал Хакер #137Журнал Хакер #136Журнал Хакер #135Журнал Хакер #134Журнал Хакер #133Журнал Хакер #132Журнал Хакер #131Журнал Хакер #130Журнал Хакер #129Журнал Хакер #128Журнал Хакер #127Журнал Хакер #126Журнал Хакер #125Журнал Хакер #124Журнал Хакер #123Журнал Хакер #122Журнал Хакер #121Журнал Хакер #120Журнал Хакер #119Журнал Хакер #118Журнал Хакер #117Журнал Хакер #116Журнал Хакер #115Журнал Хакер #114Журнал Хакер #113Журнал Хакер #112Журнал Хакер #111Журнал Хакер #110Журнал Хакер #109Журнал Хакер #108Журнал Хакер #107Журнал Хакер #106Журнал Хакер #105Журнал Хакер #104Журнал Хакер #103Журнал Хакер #102Журнал Хакер #101Журнал Хакер #100Журнал Хакер #099Журнал Хакер #098Журнал Хакер #097Журнал Хакер #096Журнал Хакер #095Журнал Хакер #094Журнал Хакер #093Журнал Хакер #092Журнал Хакер #091Журнал Хакер #090Журнал Хакер #089Журнал Хакер #088Журнал Хакер #087Журнал Хакер #086Журнал Хакер #085Журнал Хакер #084Журнал Хакер #083Журнал Хакер #082Журнал Хакер #081Журнал Хакер #080Журнал Хакер #079Журнал Хакер #078Журнал Хакер #077Журнал Хакер #076Журнал Хакер #075Журнал Хакер #074Журнал Хакер #073Журнал Хакер #072Журнал Хакер #071Журнал Хакер #070Журнал Хакер #069Журнал Хакер #068Журнал Хакер #067Журнал Хакер #066Журнал Хакер #065Журнал Хакер #064Журнал Хакер #063Журнал Хакер #062Журнал Хакер #061Журнал Хакер #060Журнал Хакер #059Журнал Хакер #058Журнал Хакер #057Журнал Хакер #056Журнал Хакер #055Журнал Хакер #054Журнал Хакер #053Журнал Хакер #052Журнал Хакер #051Журнал Хакер #050Журнал Хакер #049Журнал Хакер #048Журнал Хакер #047Журнал Хакер #046Журнал Хакер #045Журнал Хакер #044Журнал Хакер #043Журнал Хакер #042Журнал Хакер #041Журнал Хакер #040Журнал Хакер #039Журнал Хакер #038Журнал Хакер #037Журнал Хакер #036Журнал Хакер #035Журнал Хакер #034Журнал Хакер #033Журнал Хакер #032Журнал Хакер #031Журнал Хакер #030Журнал Хакер #029Журнал Хакер #028Журнал Хакер #027Журнал Хакер #026Журнал Хакер #025Журнал Хакер #024Журнал Хакер #023Журнал Хакер #022Журнал Хакер #021Журнал Хакер #020Журнал Хакер #019Журнал Хакер #018Журнал Хакер #017Журнал Хакер #016Журнал Хакер #015Журнал Хакер #014Журнал Хакер #013Журнал Хакер #012Журнал Хакер #011Журнал Хакер #010Журнал Хакер #009Журнал Хакер #008Журнал Хакер #007Журнал Хакер #006Журнал Хакер #005Журнал Хакер #004Журнал Хакер #003Журнал Хакер #002Журнал Хакер #001