『志願のてびき』PDF がテキストを認識できない形式に?

神奈川県教育委員会が県ホームページで公開している志願のてびきの文面が、平成31年度入試用から「コピー&ペースト」できなくなりました。

おそらく、テキストを認識できない形式になっているものと思われます。

http://www.pref.kanagawa.jp/docs/dc4/nyusen/nyusen/documents/h31tebiki-zenbetsu.pdf

広告


コピペ不可を確認した環境

「コピー&ペースト」できないことを確認した環境は Windows 10 Pro です。

  1. 県ホームページから「志願のてびき」をダウンロードし、
  2. Adobe Acrobat DC で開き、
  3. 文字列をコピーし、
  4. 「メモ帳」にペーストしました。

すると、「メモ帳」ではすべての文字が四角になってしまいました。


原因?

PDFを作成するソフトウェアの多くは、フォント埋め込み機能をサポートしています。
フォント埋め込みを指定すると、文字列の並びは原則として文字コードではなく、グリフIDと呼ばれる番号で表現されます。
グリフIDは文字コードとは異なるものですこのため、グリフIDがどの文字コードに該当するものであるかを示す対応表(ToUnicode CMapなど)が必要となります。

PDFに対応表が設定されているかどうかは、Adobe Readerで文字を選択してコピーし、Windowsのメモ帳などに貼り付けることで確認できます。
PDFに対応表がない場合は、貼り付けた文字が化けて「?」などになります。

フォント埋め込み時に対応表を一緒に保存することはPDF仕様上の必須事項ではないため、PDF作成時に対応表が作られないことがあります。

アンテナハウス,「PDFで文字が検索できないけど? 何が問題? どうしたら良い?」, https://www.antenna.co.jp/pdf/reference/searchable-pdf.html , 2018年1月15日.


InDesign の設定が悪さを?

「コピー&ペースト」ができた平成30年度入試用の「志願のてびき」は、

作成者: 企画部情報システム課
アプリケーション: Adobe Illustrator CC 2017 (Windows)

となっています。

一方、「コピー&ペースト」ができなくなった平成31年度入試用の「志願のてびき」は、

作成者: dtp2018mac
アプリケーション: Adobe InDesign CC 13.1 (Macintosh)

となっています。InDesignで「対応表」を作らずにファイルを作成したため、「コピー&ペースト」ができなくなっているものと思われます。


生じうる問題

もし本当にテキストを認識できない形式になっているのだとしたら、以下の問題が生じると考えられます。

  • 検索にヒットしない
  • 音声読み上げを使えない(視覚障がいを持つ方に不利益が生じる)