-
「OCRを使ってテキストを抽出」アクションの設定に、TesseractエンジンとWindowsOCRエンジンがありますが、どちらを選択した方がよろしいでしょうか。
また、別のアクションで「PDFからテキストを抽出」がありますが、どちらのアクションを優先して使用したほうがよろしいでしょうか。
-
Tesseractエンジンは標準では日本語に対応していないようです。
別途、日本語の言語ファイルのインストールが必要となります。なお、「WindowsOCRエンジン」は標準で日本語が搭載されているので、こちらをお試しされると良いかと思います。
私が試した画像では、住所や会社名など読み込んでくれましたが、
画質や、文字の大きさにも左右されるので、業務フローに組み込むには工夫が必要だと思います。「PDFからテキストを抽出」のアクションについて——
「OCRを使ってテキストを抽出」のアクションは、元データが画像データ(JPGなど)である必要があり、PDFファイルは指定できません。先にPDFファイルを開いておき、OCRソース:フォアグラウンドウインドウで取得するなどの方法はあるかもしれませんが、
元データがPDFの場合は、「PDFからテキストを抽出」のアクションを使用するのが良いかと思います。
1 - 2 of 2 回答を表示