【tesseract】OCR:工学文字認識ソフトの導入【SW】

tesseract の導入および簡単な使用例

活字の文書の画像を文字コードの列に変換するソフトウェア tesseract のインストールと簡単な使用手順*1を記す。
今回は、半角英数字が書かれた画像データから文字列を取り出すことが目的であるため、日本語対応は不要であるが、一応日本語対応時の手順も書いてみた。ただし、日本語対応のための手順が正しいかは不明である。 
 

f:id:dnkrnka:20180831222505p:plain:right

 

Ubuntu 18.04

インストール手順

% sudo apt install tesseract-ocr
% sudo apt install libtesseract-dev
Home · tesseract-ocr/tesseract Wiki · GitHub
日本語に対応させる

下記ページより、「jpn (Japanese)」とあるので, apt install tesseract-ocr-jpn と指定する。

% sudo apt install tesseract-ocr-jpn
tesseract/tesseract.1.asc at master · tesseract-ocr/tesseract · GitHub

 

使用例

下記ページトに実行例があるので、真似て実行してみる。
Home · tesseract-ocr/tesseract Wiki · GitHub

1. 文字識別させたい画像データを用意する。

今回は以下の画像を使う。
f:id:dnkrnka:20180831214145p:plain

この画像を $HOME/Videos/4f938672.png として保存する。
 

2. tesseract に対して画像データを読み込ませて文字列の識別をさせる

以下は識別した文字を output.txt に出力する例である。 output と指定してやると拡張子 .txt が付与される模様。

% tesseract ~/Videos/4f938672.png output
% cat output.txt
4f938672-cb1c-4c5a-8233-192c4ec901df

 

その他

利用可能な言語について

インストールした tesseract が使用可能な言語については --list-langs で確認ができる。

% tesseract --list-langs
List of available languages (3):
osd
eng
jpn

 
 

Windows10

インストール手順

Home · UB-Mannheim/tesseract Wiki · GitHub より、環境に合せて以下をダウンロードしインストールする。

- tesseract-ocr-setup-3.05.02-20180621.exe
- tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe 
- tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe (new, 64 bit, experimental)
- older versions 

 

使用例

下記ページトに実行例があるので、真似て実行してみる。
Home · tesseract-ocr/tesseract Wiki · GitHub

1. 文字識別させたい画像データを用意する。

今回は以下の画像を使う。
f:id:dnkrnka:20180831214145p:plain

この画像を C:\User\Neko\Download\4f938672.png として保存する。
 

2. tesseract に対して画像データを読み込ませて文字列の識別をさせる

PowerShell を起動して、Linux と同じように実行する。
以下は識別した文字を output.txt に出力する例である。 output と指定してやると拡張子 .txt が付与される模様。

> tesseract C:\User\Neko\Download\4f938672.png output
> Get-Content output.txt
4f938672-cb1c-4c5a-8233-192c4ec901df

*1:今回の目的は本ページに記した使用例で満せてしまう