JPEGからデジタルブック作成の際必見!検索テキスト情報として画像からテキスト抽出する方法

デジタルブックの作成にあたって、テキスト検索が可能なデジタルブックを作成する場合、登録用PDFにフォントが埋め込まれていれば問題ありません。しかし、PDFではなくJPEG画像を登録用ファイルとして使用する場合、別途「検索用のテキストファイル」を用意する必要があります。

テキストファイルを用意するにしても、一からキーボードで入力して文字起こしをするのはかなり面倒な作業です。そこで、もっとも手軽な方法としてOCR(光学文字認識)が利用できないか調べてみました。その結果、GoogleドライブにOCR機能があることがわかり、実際に利用してみると簡単にできたので、ご紹介したいと思います。

 

その前に、OCRとGoogleドライブについて簡単にご説明します。

OCRとは?

OCRとは、光学文字認識(Optical character recognitionの略)といわれる画像ファイル上の文字を認識してテキストに変換するソフトウェアです。

 

Googleドライブとは?

Googleドライブとは、Google社が提供しているオンラインストレージサービスです。
画像やドキュメントなど、あらゆるファイルをネット上に保存したり共有する事ができます。
また、Googleドライブに保存しているデータは複数の端末と同期ができるため、パソコンで作成中のドキュメントを外出先のノートPCやタブレットで編集したり、移動中に閲覧できるなど、何かと便利なサービスです。

 

◆Googleドライブ(https://www.google.com/intl/ja_ALL/drive/

 

1.GoogleドライブのOCR機能で画像からテキストを変換する手順

では早速、GoogleドライブのOCR機能で画像からテキストを変換する手順をご説明します。
テキストに変換したい画像ファイルをアップロードしてGoogleドキュメントで開くだけで、操作はとても簡単です。

 

1-1.Googleドライブ上に画像ファイルをドラッグ&ドロップ操作でアップロードします。

 

1-2.アップロードしたファイルを右クリックして「アプリで開く」から「Googleドキュメント」を選択します。

 

1-3.Googleドキュメントに変換され、画像とOCRの変換結果がドキュメントに表示されます。

 

2.検索用テキストに編集する

OCRの変換結果では、テキスト情報以外に文字色やフォントサイズ等の書式情報や、不要なスペースや改行が含まれた状態でした。
デジタルブックに登録する場合は、1つのテキストファイル内に全ページ分のテキスト情報を1ページ1行の改行区切りで入力する必要があるため、不要な書式情報や改行をクリアする必要があります。

 

2-1.書式のクリア

Googleドキュメント上の対象テキストをドラッグ&ドロップで選択して、「右クリック」のメニューより「書式のクリア」を選択します。

 

2-2.スペースの削除

Googleドキュメント左上の「メニューを検索」より「検索と置換」メニューを検索して表示します。

 

 

検索対象文字に”半角スペース”を入力し、「次に変更」を未入力にした状態で「すべて置換」ボタンを選択する事で、不要な半角スペースが置換され結果的に削除されます。

 

 

2-3.テキストを1行に変換

1行内のテキストを1ページ分として認識するため、検索用テキストは先に述べた通り改行の無い状態にする必要があります。
少し特殊な方法となりますが、対象文字をコピーしてアドレスバーにコピーすることで改行を削除したテキストが作成できます。

 

 

あとは、アドレスバーの内容を再度コピーして、検索テキスト情報として登録するテキストファイルにペーストします。

以上を必要ページ数の分だけ繰り返して、デジタルブックに登録してください。

 

まとめ

いかがでしたでしょうか。

テキストの編集作業が必要ですが、テキスト全文の文字起こしをするよりは簡単に検索テキスト情報を用意する事が可能です。
また、Googleドライブのサポートページに登録するファイルの仕様についての記載がありましたので、併せてご覧ください。

 

Googleドライブヘルプ「PDF や写真のファイルをテキストに変換する」

 

 

形式.JPEG、.PNG、GIF、PDF(複数ページのドキュメント)の各ファイル。
ファイル
サイズ
ファイルは 2 MB 以下にします。
解像度テキストの高さは 10 ピクセル以上にします。
向きドキュメントは正しい向きにします。画像の向きが間違っている場合は、回転させてから Google ドライブにアップロードします。
画質明るさが均一でコントラストがはっきりしたシャープな画像が最適です。
形式.JPEG、.PNG、GIF、PDF(複数ページのドキュメント)の各ファイル。

 

今回の検証では、2MB以上のファイルでもOCRに変換が可能でしたが、表組や手書きの場合は精度が劣るなどの向き不向きはあるようです。
しかし、検索可能なデジタルブックを作成する手段としては有効かと思いますので、ぜひ一度お試しください。