Замути свой YAHOO-ЯНДЕКС

Докучаев Дмитрий aka Forb

Xakep, номер #063, стр. 063-124-1

(forb@real.xakep.ru)

Пишем поисковую систему

Если ты хочешь, чтобы тебя уважали пользователи твоей локальной сети, в которой существуют свои ftp-архивы, – подари им поисковик по локалке. Система, которая будет осуществлять поиск нужного файла на ftp-серверах сети – более чем реальность. Алгоритм работы такого поисковика очень прост и реализуется всего за несколько часов легкого кодинга.

Сама система состоит из двух частей. Это, собственно, web-интерфейс, работающий напрямую с mySQL, а также индексатор всех файлов в архивах, с помощью которого данные в базе будут периодически обновляться. Писать все будем на Perl’е – самом простом и в то же время функциональном языке.

Как это работает?

Давай рассмотрим самое главное – алгоритм работы поисковика. Прежде чем что-либо кодить, ты должен выпросить у всех, кто желает засветить свой FTP’шник на твоем поисковике, аккаунт к серверу. С его помощью будем индексировать заголовки файлов. Второй проблемой будет установка нужного программного обеспечения. В нашем случае это Perl и его модули: FTP::Recursive, DBD::Mysql, а также база данных MySQL.

Но это так, вводная. Самое главное – понять принцип интеграции индексатора и web-интерфейса. Он на удивление прост :). Итак, после рекурсивного процесса индексирования заголовков всех файлов с FTP-серверов, происходит запись в базу данных. Записывать будем следующие параметры: имя файла, путь к файлу и размер файла (что еще надо для счастья?). Таким образом, индексатор нужен только для обработки FTP-серверов.

Теперь о web-интерфейсе. Скрипт search.cgi проводит анализ запроса. Если запрос простой (одно слово), происходит выборка из БД. В противном случае строка разбивается по пробелам. В сценарии указывается число ссылок, которые будут отображаться на каждой странице, а также косметические переменные, содержащие цвет фона и найденной ссылки.

Рождение индексатора

По логике первым разумнее написать индексатор, так как тестировать web-интерфейс без заполненной базы данных весьма гиморно. Индексатор представляет собой сценарий, использующий четыре модуля. Вот их краткое описание:

Getopt::Std – модуль, позволяющий парсить параметры командной строки. Некоторые начинающие кодеры не знают о его наличии и лишний раз изобретают велосипед в своем коде ;).

DBI – модуль, который связывает индексатор с mySQL. В случае если ты ставишь поисковик под винду, придется повозиться с процессом установки DBI.pm. Особенности виндовой настройки смотри во врезке.

Net::Ftp::Recursive – модуль для рекурсивной обработки файлов на удаленном FTP-сервере. В функции этого модуля входит рекурсивный просмотр, скачивание и заливка файлов. Нам нужна процедура rdir, которая выдает информацию обо всех файлах в директории и последующих каталогах.

FileHandle – скрипт, с помощью которого можно создать файловый дескриптор, в который будет занесена информация произвольного вида. Например, инфа о файле.

С модулями разобрались. Теперь поговорим о процедурах, содержащихся в индексаторе. Это главная процедура connectftp(), позволяющая соединиться с FTP-сервером и получить рекурсивный список файлов. Затем insert_db. В ней происходит вставка информации в БД. Процедура getlist() получает информацию об FTP-серверах, которые необходимо проиндексировать. И в конце скрипта можно увидеть две неприметные процедуры getret() и putret(). Они нужны для реализации потоков и будут рассмотрены подробнее чуть ниже.

Содержание  Вперед на стр. 063-124-2
ttfb: 3.5700798034668 ms