августа 13, 2009 | by Макс | Допустим, есть сайт по нужной нам тематике на 1000 страничек. Нужно сдереть с него всю инфу. Делаем вот что: с помощью телепорта качаем весь сайт себе в одну папочку. С помощью скрипта, который ниже, мы обрабатываем эту папочку. Прописываете папочку на сервере, где лежат нужные нам странички с инфой. И запускаете скрипт. После этого он аккуратненько пройдется по страничкам и выдерет оттуда всю инфу без всякого там хтмл-форматирования. И положит ее в файлик. Код скрипта, который дёргает инфу:
$dir=”dir”; $indexfile=”data. txt”; function text_2_base($url, &$baza) { $fd = fopen (’http://phpdirtobase/dir/’.$url, “r”); while (!feof($fd)) { $htmltotext = fgetss($fd, 1000); fwrite($baza, $htmltotext); } fclose ($fd); } $fp = fopen($indexfile, “w+”); if (is_dir($dir)) { if ($dh = opendir($dir)) { $i = -2; while ((($file = readdir($dh)) !== false)) {$i++; if ( $file!= “.” && $file!= “..”) { echo $i.’ obrabotan : ‘.$file. ‘ ‘; text_2_base($file, $fp); } } closedir($dh); } } fclose($fp);
Все. Инфа по тематике дора у нас есть. Есть конечно некоторые проблемы – не все хтмл форматирование убивается. Но ничего, можно и ручками немножко поработать Совсем немножко. h++p://doorwaycreation. jino-net. ru/info/kak-zagnat-vsyu-infu-s-nuzhnogo-sayta-sebe-v-bazu Теги: Black SEO, Doorway