Августа 13, 2009 | by Макс | Допустим, есть сайт по нужной...

августа 13, 2009 | by Макс | Допустим, есть сайт по нужной нам тематике на 1000 страничек. Нужно сдереть с него всю инфу. Делаем вот что: с помощью телепорта качаем весь сайт себе в одну папочку. С помощью скрипта, который ниже, мы обрабатываем эту папочку. Прописываете папочку на сервере, где лежат нужные нам странички с инфой. И запускаете скрипт. После этого он аккуратненько пройдется по страничкам и выдерет оттуда всю инфу без всякого там хтмл-форматирования. И положит ее в файлик. Код скрипта, который дёргает инфу:

$dir=”dir”; $indexfile=”data. txt”; function text_2_base($url, &$baza) { $fd = fopen (’http://phpdirtobase/dir/’.$url, “r”); while (!feof($fd)) { $htmltotext = fgetss($fd, 1000); fwrite($baza, $htmltotext); } fclose ($fd); } $fp = fopen($indexfile, “w+”); if (is_dir($dir)) { if ($dh = opendir($dir)) { $i = -2; while ((($file = readdir($dh)) !== false)) {$i++; if ( $file!= “.” && $file!= “..”) { echo $i.’ obrabotan : ‘.$file. ‘ ‘; text_2_base($file, $fp); } } closedir($dh); } } fclose($fp);

Все. Инфа по тематике дора у нас есть. Есть конечно некоторые проблемы – не все хтмл форматирование убивается. Но ничего, можно и ручками немножко поработать :) Совсем немножко. h++p://doorwaycreation. jino-net. ru/info/kak-zagnat-vsyu-infu-s-nuzhnogo-sayta-sebe-v-bazu Теги: Black SEO, Doorway

Понравилась статья? Получай обновления и будь всегда в курсе событий!
Подпишись на RSS или
blog comments powered by Disqus