февраля 18, 2010 | by Макс | Сегодня поговорим о том как правильно чистить базы каталогов для AllSubmitter’а от мусора… Для начала, перед тем как заниматься каталогами, нужно все же изучить руководство Allsubmitter. Затем перво-наперво сделть проверку индексации. Из всего что есть отсеется не меньше половины сайтов, у которых в индексе менее 10 страниц. Следом необходимо сделать “Определить названия сайтов” – сразу будет видно какие страницы отдают в тайтл ошибки либо пустоту (пустой титл – это либо несуществующая страница, либо add. html от ЛинкКлуб). Затем нужно провести проверку на ответ сервера (нам нужен ответ 200). Далее набором фильтров почистите оставшееся от форумов, досок, регистраций аккаунтов, коментариев к блогам. В сухом остатке, даже от самой большой базы выйдет 3-5 тысяч урлов. Всё это хозяйство прогнать через “Определить формы добавления”, где то треть распознается. Создать с десяток эталонов по движкам, прогнать на основе эталонов “Распознать эталонные формы”. Определится ещё треть. Не распознанным назначить в “Строку успешной регистрации” – “добавл|принят|отправл|спасибо|успешн|размещен|регистр|в каталог допускаются”, в “Строку повторной регистрации” – “уже” (сработает для 90-95% каталогов). Оставшиеся не распознанные пройти руками (их останется несколько сотен).
На всё – про всё уйдёт часов 4-6 и собственно через это время у вас будет своя собственная база… Теги: AllSubmitter