PHPでHTMLを解析する

作業効率化のツールを作る時なんか何かと便利。
PHP Simple HTML DOM Parser を使うと、PHPから読み込んだHTMLのソースがパースできるぞ。
早速、simple_html_dom.php をダウンロードして実証。

include( 'simple_html_dom.php' );

$src = file_get_contents( "http://hoge/" );
// ↓ HTMLの文字コードによって必要
// $src = mb_convert_encoding( $src, "UTF-8", "SJIS" );
$html = str_get_html( $src );
$datas = $html->find( 'table', 0 ); // 最初のテーブルタグを取得

こんな感じで、find を使って jQuery みたいにタグを拾える。

参考:PHP Simple HTML DOM Parser