スキャン→OCR→命名→保存の自動化レシピ

目次

OCRエンジンの比較ポイント(まず“ここ”だけ揃える)

  • 日本語OCR対応:検索可能PDF(Searchable PDF)を出力できること。
    • 代表的な同梱ソフト:Epson Document Capture Pro/Epson Scan 2Brother iPrint&ScanScanSnap Home(いずれも日本語OCR対応)。
  • 精度を上げる入力条件
    • 300dpi基準(小さな文字・印影が多い資料は600dpi)
    • 傾き補正・自動回転・白紙削除をON(“向きを気にせず投入”運用)
    • 縦書きは誤認識が増えやすい → 重要書類は目視確認
  • 自動名付けとの相性
    • タイトル抽出/領収書・名刺の項目抽出→ファイル名に対応するか(例:日付・取引先・金額を拾う)
  • 代表的な現行機での運用(機種名の例)
    • EPSONDS-900WN/DS-C480W(PCレス送信に対応。担当者席〜共有機まで)
    • BrotherADS-4700W/ADS-4900W(TWAIN/ISIS・分離安定)
    • ScanSnapiX2500/iX1400(プロファイル豊富・自動名付けが強い)
      ※価格・在庫は変動するため、購入時は各ショップで最新をご確認ください。
Macでも検索可能PDFにできますか?

Document Capture ProScanSnap Home等でSearchable PDF出力可。

迷った時の画質設定は?

申請書=300dpi/グレースケール印影・色票あり=300dpi/カラー

PDF/A・長期保存の設定(“後から効く”耐久性)

文書を長期保存する場合は、PDF/A形式で出力しておくのがおすすめです。
特に PDF/A-1bPDF/A-2b などの規格は、将来にわたって閲覧・利用しやすいように設計されています。
※PDF/A対応かどうかは「機種」ではなく、利用しているソフトウェア側の設定で決まります。

  • フォントは必ず埋め込み
    → 後で文字化けが起こらないようにするための必須設定です。
  • ページの向きや傾き、白紙ページ
    → PDF化の前、または直後に自動補正しておくと、保存文書としての品質が安定します。

監査対応の基本

保存した文書を「正しく残す」ためには、改ざん検知と管理の仕組みを用意しておくことが重要です。

  • ハッシュ(チェックサム)で改ざん検知
    → クラウドサービスや文書管理システム(DMS)に備わっている機能を活用しましょう。
  • 版管理(v01 → v02 など)と操作ログ
    → いつ、誰が、どのようにファイルを更新したかを記録しておくことで、監査対応がスムーズになります。

保管と耐障害対策

データは「保存先」と「耐障害性」の両面から備えておくのが安心です。

  • 外付けSSDでのバックアップ
  • 耐火・防水ケースでの物理的な保護

PDF/Aは容量が増えがち文字中心=グレー写真多め=カラーの切替で容量と可読性を両立。

命名規則テンプレ+“検索性を高めるタグ付け”

命名規則(例)

YYYYMMDD_案件名_書類種別_vNN.pdf
例)20251003_山田商事_建設業更新申請書_v01.pdf
  • YYYYMMDD:発行日 or 受領日(迷ったら受領日で統一
  • 案件名:クライアント名+案件キー
  • 書類種別:申請書/添付/見積/請求/契約/本人確認 など
  • vNN編集や差替で上げる(v01→v02)。最新版ショートカットをフォルダに固定

“検索性を高めるタグ付け”(運用オプション)

  • PDFプロパティ(タイトル/サブジェクト)に案件名・年度・種別を入れる
  • クラウド側タグ(Dropboxの星/OneDriveのラベル/Googleドライブのスター)で横断抽出
  • 先頭に接頭辞KENSETSU_(業務区分)やKR_(顧客ランク)で検索語の衝突回避
  • OCRキーワードを“わざと”本文1行に入れる(例:案件コード) → 検索ヒットの安定化

自動化ワークフローの作り方(Win/Mac共通の型)

  1. プロファイルを端末内で共通化
    • 例:申請書_両面_300dpi_グレー_OCR_PDF-A領収書_カラー_300dpi_OCR_結合
  2. OCR+自動名付けをON
    • タイトル抽出/領収書・名刺の項目抽出→ファイル名を利用
  3. 保存先の固定化
    • …/client/案件名/01_申請書/…/02_添付/領収書/ などフォルダ構造を先に決める
  4. クラウドへ直送 or 同期
    • 共有先:Dropbox/Google Drive/OneDrive共有フォルダ名は「年度」「案件」で階層化
  5. トリガー自動化(任意)
    • フォルダ監視(Power Automate/Automator)でPDF/A変換・ファイル名整形・バックアップ複製を自動実行

チェックリスト
□ プロファイル名に保存先まで書く(誤送信防止)
□ 共有フォルダの権限(編集/閲覧)を事前に固定
日次で3件サンプルを開き、OCRヒット&PDF/Aを確認

クラウド同期&バックアップ(“消える”をゼロに)

  • 二重化
    • 動→静:作業用(クラウド)→週次スナップショット(NASや外付けSSD)
    • 異拠点:クラウドに加え、オフサイトに暗号化バックアップ
  • 世代管理
    • 30/90/365日のローテーション(30日=短期、90日=四半期、365日=監査)
  • 復元訓練
    • 毎月1回、任意の案件フォルダを丸ごと復元(“開けるかどうか”まで確認)

コピー機やスキャナが止まると、仕事も止まる
「OCR→自動名付け→PDF/A→二重化」をプロファイル化してから、返却までの手戻り検索にかかる時間が劇的に減りました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

地方在住の行政書士。令和4年の開業以来、事業者・不動産関連の許可申請を中心に、年間150件以上の案件に対応。ひとり事務所ながら、スピードと信頼性を両立した実務力で、地域の信頼を獲得。
「行政書士|ツールラボ」監修

目次