Форум




Re: поисковик



Отправитель: , 10 Января 2002 01:22

В ответ на сообщение: Astra, кинь исходник поисковика на мейл, будем копаться, мобыть что интересного подскажу..., отправленное Ващейкин 09 Января 2002 22:53

# Astra, кинь исходник поисковика на мейл, будем копаться, мобыть что интересного подскажу...

Это не мой скрипт. Я немного подправил кое-что, но надо ещё доводить до ума...
Индексирование там, как у больших :) Параллельно ведётся несколько баз:
1. список страниц (в каждой строке: url,title,size и первые 50 символов текста на странице)
2. все найденные слова (в каждой строке слово)
3. файл с постоянным размером ~200Kb, где лежат координаты смещения по файлу(2) в зависимости от кода первых символов искомого слова (это бинарный файл)
4. тоже бинарный и как-то ссылается: строка в файле(2) - строка в файле(1) или что-то в этом духе.

Мудрено, но работает шустро! Загружает в память только файл(3), а по остальным делает смещение и читает по байтам нужное. Говорят - 1000 страниц нормальная загрузка. Минус скрипта - индексация конкретно грузит сервак. Этот сайт индексировался 50 сек., а тут страниц всего 60-70. На сайте, где хочу поставить, почти 700 стр. + 3 домена около 100 страниц.
Индексировать частями к сожалению нельзя.
Вот бы сделать запуск раз в сутки с индексацией по 50 страниц. Есть вероятность, что для создания индексов требуется иметь все файлы в памяти. Она после чтения файлов ещё думает половину времени. Если это так, то постепенное сканирование также будет грузить сервак. Причём, мгновенно!

Шлю тебе файлы с моими исправлениями...




В начало документаНаш e-mail Новости | О нас | Гемофилия | Поддержка ВОГ | Публикации | Форум | Друзья
Общество Больных Гемофилией Санкт-Петербурга (c) Copyright 1998–2008