HTMLタグを取り除きながらファイルのデータを取得する

最終更新日：2024-02-18
公開日：2019-01-07

ファイルから1行ずつデータを読み込むfgets関数とHTMLタグを削除するstrip_tags要素を使って、ファイルからHTMLタグを取り除きながらテキストを取得する方法を解説します。

この記事のポイント

fgets関数でテキストファイルのデータを1行ずつ読み込む
strip_tags関数でHTMLタグを取り除く
strip_tags関数の第2パラメータにはオプションで取り除かないHTMLタグを指定できる

HTMLタグを取り除きつつデータを1行ずつ取得する

テキストから<h1>や<a>などのHTMLタグ（HTML要素）のテキストを取り除き、プレーンなテキストとして取得したい場合はfgets関数とstrip_tags要素を組み合わせて使うと実現できます。

以下の例ではPHPでindex.htmlを読み込んで、h1要素とa要素以外のHTMLタグを全て削除してからvar_dump関数で出力します。

index.html

<!DOCTYPE html>
<html lang="ja">
<head>
  <meta charset="utf-8">
  <title>トップページ</title>
</head>
  <body>
    <h1>テストサイト</h1>
    <p>テストテキストテストテキストテストテキストテストテキストテストテキストテストテキストテストテキスト</p>
  </body>
</html>

PHPコード例

<?php

// ファイルへのパス
$path = './index.html';

if( is_readable($path) ) {

  // (1)ファイルを開く
  $file_handle = fopen( $path, 'r');

  // (2)ファイルから1行ずつデータを読み込む
  while( $data = fgets( $file_handle) ) {

    // (3)HTMLタグを取り除く
    $data = strip_tags( $data, ['h1','a']);

    // (4)前後の空白、改行を取り除く
    $data = preg_replace( '/\A[\p{C}\p{Z}]++|[\p{C}\p{Z}]++\z/u', '', $data);

    // (5)HTMLタグを取り除いたテキストを出力
    var_dump($data);
  }

  // (6)ファイルを閉じる
  fclose( $file_handle);

} else {
  echo 'ファイルの読み込み権限がありません。';
}

(2)のwhile文の条件式でファイルから1行だけデータを取り出すfgets関数を使って、テキストを1行ずつ読み込んでいます。
こうすることでテキストを読み込めたらwhile文の中の処理を実行し、ファイルデータを最終行まで読み込み終わってデータを取得できなかったらwhile文のループが終了します。

(3)でstrip_tags関数を使ってHTMLタグを取り除くとき、第1パラメータは対象になるテキストを渡します。
第2パラメータはオプションで任意ですが、取り除きたくないHTML要素があったら指定します。

第2パラメータの取り除かないHTMLタグの指定方法は、PHP7.4以降では上記のように配列形式で指定できます。
PHP7.3以前の環境では、以下のように文字列の形式でHTMLタグを並べて指定します。

PHPコード例

// (3)HTMLタグを取り除く
$data = strip_tags( $data, '<h1><a>');

以上、HTMLタグを取り除きながらファイルのデータを取得する方法でした。

記事一覧

HTMLタグを取り除きつつデータを1行ずつ取得する

index.html

PHPコード例

PHPコード例

関連記事