function html2txt($document){ $search = array('@<script [^>]*?>.*?</script>@si', // togliamo i tag script '@ <style [^>]*?>.*?</style> @siU', // togliamo i tag style (codice CSS) '@< [?]php[^>].*?[?]>@si', //script php '@< [?][^>].*?[?]>@si', //script php '@< [\/\!]*?[^<>]*?>@si', // togliamo i tag HTML '@< ![\s\S]*?--[ \t\n\r]*>@' // togliamo commenti multi-line incluso CDATA );$text = preg_replace($search, '', $document); return $text; }
Attraverso le espressioni regolari è stata creata la funzione che pulisce il codice sorgente di un documento HTML, lasciando solo il testo presente all’interno. Applicando la funzione scriveremo:
$html_source = file_get_contents('http://www.rat86.netsons.org'); $txt = html2txt($html_source);