Estrarre testo da HTML in PHP

function html2txt($document){
     $search = array('@<script [^>]*?>.*?</script>@si', // togliamo i tag script
     '@
<style [^>]*?>.*?</style>
 
@siU', //  togliamo i tag style (codice CSS)
     '@< [?]php[^>].*?[?]>@si', //script php
     '@< [?][^>].*?[?]>@si', //script php
     '@< [\/\!]*?[^<>]*?>@si', // togliamo i tag HTML
     '@< ![\s\S]*?--[ \t\n\r]*>@' // togliamo commenti multi-line incluso CDATA
     );$text = preg_replace($search, '', $document);
     return $text;
}

Attraverso le espressioni regolari è stata creata la funzione  che pulisce il codice sorgente di un documento HTML, lasciando solo il testo presente all’interno. Applicando la funzione scriveremo:

 
$html_source = file_get_contents('http://www.rat86.netsons.org');
$txt = html2txt($html_source);

Lascia un commento