Caputo's blog

Informatica, tecnologia, programmazione, fai da te, papercraft e papertoy

Estrarre testo da HTML in PHP

Agosto 21st, 2010 by Giovanni Caputo

function html2txt($document){
     $search = array('@<script [^>]*?>.*?</script>@si', // togliamo i tag script
     '@
<style [^>]*?>.*?</style>
 
@siU', //  togliamo i tag style (codice CSS)
     '@< [?]php[^>].*?[?]>@si', //script php
     '@< [?][^>].*?[?]>@si', //script php
     '@< [\/\!]*?[^<>]*?>@si', // togliamo i tag HTML
     '@< ![\s\S]*?--[ \t\n\r]*>@' // togliamo commenti multi-line incluso CDATA
     );$text = preg_replace($search, '', $document);
     return $text;
}

Attraverso le espressioni regolari è stata creata la funzione  che pulisce il codice sorgente di un documento HTML, lasciando solo il testo presente all’interno. Applicando la funzione scriveremo:

 
$html_source = file_get_contents('http://www.rat86.netsons.org');
$txt = html2txt($html_source);

Questo post è stato postato sabato, Agosto 21st, 2010 at 17:52 nella categoria Programmazione, tutorial. Tags:, , .
Puoi seguire tutti i commenti di questo articolo attraverso RSS 2.0 feed. Puoi lasciare un commento, o trackback dal nostro sito.

Lascia un commento

You must be loggati to post a comment.