オープンソースOCRエンジン
- ソフト名 : Tesseract OCR
- OS : Linux,Mac,Windows
- 言語 : C++
- 開発者 : HOME
Tesseract OCR 詳細説明
TesseractはオープンソースのOCRまたは光学文字認識エンジンとコマンドラインプログラムです。OCRは、デジタル画像内のテキスト文字を認識できる技術です。最新バージョンのTesseractでは、ライン認識に大きな焦点が多いですが、文字パターンを認識するレガシーTesseract OCRエンジンをサポートしています。
Tesseractは、100以上の言語を箱外に認識し、他の言語を認識するように訓練することができます。プレーンテキスト、HTML、PDFなど、さまざまな出力フォーマットをサポートしています。Unicode(UTF-8)のサポートもあります。