WorkFusion StudioのOCRでの日本語PDFの読み取りについて

#1

日本語Web siteの読み取りと同じ様にWorkFusion StudioのOCR機能では文字化けしていまいます。
参考: OCR_Japanese_PDF_Studio.zip (1.6 MB)
正しく読ませる為にはControl TowerにBusiness Processを作成しOCR_taskを実行すると読み取る事が出来ます。

<確認テスト用OCR_Task作成方法>

  1. Control Towerを開きサンプル Business Process “Data extraction from PDFs” をcopy
  2. copyされたBPをEditでWorkflowを開く
  3. Workflowに表示されているbotの"S3bot_v_2_1"と"Parse_bot_v_2_1"を削除、残った “OCRbot_v_2_1” をダブルクリックしてbot Confugurationを表示
  4. bot Script内の86行目のEnglish -> Japaneseに書き直し保存(Save)する
    English
    –> Japanese
  5. 更新した "OCRbot_v_2_1"の後ろにサンプル Manual Task をcopyしBPを完成する。

  6. input data用のcsvファイルを作る
  7. 実行結果(Manual task)
  8. 変換結果は"contents"と言うフィールドに格納されます。
  9. "contents"の内容をcopyしてExcelに貼り付けた結果

    テストしたBusiness Processとinput data: Data extraction from PDFs for Japanse run4 17-12-2018.zip (20.4 KB)
    public.zip (1.5 MB)
    但し、テストしたPDFは常用漢字表である為OCR読み取り実行時間がかがります、ご注意下さい。
4 Likes