ソリューション
- ソリューション
  - エージェンティック活用事例
    エージェンティックオートメーションの動画やデモをご覧ください。
    ウェビナー
    業界の専門家から、実践的なベストプラクティスを学べます。
    顧客事例
    成功事例や洞察をお届けします。
- 業界別
  金融
  ヘルスケア
  保険
  公共
  製造
  全ての業界を見る
  部門別
  経理財務
  人事
  物流
  品質管理
  コンタクトセンター
  全ての部門を見る
  テクノロジー別
  Peak.ai
  Coded agents
  Microsoft
  SAP
  エージェンティックテスト
  ソリューション概要
  エージェンティック企業向けの事前構築済みソリューション
  エージェンティックワークフローによって、ビジネス全体でAIエージェント、ロボット、チームをつなげます。
  Explore prebuilt solutions
製品
- - エージェンティックオートメーション
    エージェントが思考し、ロボットが実行し、人が導く──新たな自動化のかたちを体験してください。
  - エージェンティックテスト
    エンタープライズ向けのエージェンティックテストをご覧ください。
  - プラットフォームを見る
  - 製品一覧
  - プランと価格
  - サポート
- エージェンティックオートメーション
  エージェントが思考し、ロボットが実行し、人が導く──新たな自動化のかたちを体験してください。
  構築
  Agentic AI
  RPAとAPI
  Intelligent document processing
  オーケストレーション
  エージェンティックオーケストレーション
  プロセスインテリジェンス
  AIエコシステム
  Featured
  Studio
  Maestro
  Test Cloud
  ScreenPlay
  基盤: セキュリティ、ガバナンス、信頼性を兼ね備えた管理を実現
  最新のUiPathリリースを見つける
  UiPath 2025.10では、オーケストレーション向けのMaestro、Studioでの統合開発、データ向けのインテリジェントなデータ抽出と処理（IXP）、信頼性を高めるTest Cloudを用いて、ビジネスとITを結びつけます。
  今すぐ探検
  エージェンティックテスト
  エンタープライズ向けのエージェンティックテストをご覧ください。
  トピックス
  エンタープライズ向けの包括的なテストを実現
  企業向けアプリケーション
  統合
  パフォーマンステストNEW
  SAPテスト
  テスト自動化
  製品
  エージェンティックテストで、テストのレベルを次のステージへ
  Test Cloud
  Agent Builder for testers
  Autopilot™ for testers
  エンタープライズ向けテストソリューションを見る
  AI拡張ソフトウェアテストツールに関する、ガートナー®のマジッククアドラント™のレポート
  UiPathがリーダーに選ばれた理由をご覧いただき、チームがどのようにしてより速く、安全に、そして賢くテストを行えるかを確認してください。
  レポートを読む
リソース
- リソース
  - 顧客事例
    成功事例や洞察をお届けします。
    ブログ
    私たちのチームと製品について、ご覧ください。
- はじめに
  エージェンティックAI
  エージェンティックオートメーション
  エージェンティックテスト
  AIエージェント
  AIオートメーション
  AIオーケストレーション
  RPAとは何ですか
  すべてのトピックを見る
  詳細
  ウェビナー
  ホワイトペーパー
  アナリストレポート
  顧客事例
  デモ＆ビデオ
  ブログ
  すべてのリソースを見る
  弊社のパートナー
  パートナー
  パートナーを探す
  ビジネスパートナーになる
  ビジネスパートナーポータル
  技術パートナーポータル
  プロフェッショナルサービス
  すべてのパートナーを見る
  UiPath エージェンティック AI サミット
  3 月 25 日に開催される UiPath Agentic AI Summit にオンラインでご参加ください。この新しいクラスの業界ソリューションをいち早く体験してください。
  今すぐ登録
開発者向け
- 開発者向け
  - 開発者ホーム
    ここから始めて、エージェントを構築およびデプロイするためのさまざまな方法を探索しましょう。
    アカデミー
    無料のオンライン自動化トレーニングで未来のスキルを学べます。
    ドキュメント
    製品のドキュメントとガイドを見る。
- 学ぶ
  アカデミー
  認定資格
  デジタル認証情報
  UiPath DevCon
  UiPath.ai
  サポート
  コミュニティ
  Customer Portal
  カスタマーサポート
  ドキュメント
  フォーラム
  Marketplace
  最新
  技術ブログ
  AI研究
  コミュニティブログ
  UiPath Labsを探る
  弊社の最新の実験を探索し、研究のプレビューを見て、オートメーションの未来に影響を与えるためのフィードバックをお寄せください。
  今すぐ試す

All

uipath.com

Forum

Docs

Close

コミュニティブログ

リソース

ニュースルーム

AI（人工知能）

AIを使った優れたデータ抽出によるドキュメント処理 | UiPath

2020年5月15日

AIを使った優れたデータ抽出によるドキュメント処理

Authored by:

Tarun Singh

Summarize:

本ブログは、UiPath米国本社が発表したブログを翻訳したものです。 Tarun Singh（タラン・シン）は、UiPath米国本社のドキュメント理解AI部門機械学習製品マネージャーです。

情報は力です。ほとんどの企業において、大量の貴重なビジネス情報が膨大なドキュメントの中で眠っています。ドキュメントの種類、サイズ、フォーマットが多種多様であるため、企業にとって、ドキュメントを管理し、効率的に処理して知見を得ることが難しい課題になることがしばしばあります。

UiPathはこうした課題を理解しています。UiPathの最新のドキュメント理解フレームワークにより、お客様はドキュメントの種類、フォーマット、サイズに関わらず、データ抽出と処理を簡単に自動化できます。これにより、お客様は自社のニーズに最適なプロセスを用いて、柔軟にドキュメント処理にアプローチできます。

この記事では、次のことを取り上げます。

一般的なドキュメントのタイプと分類を確認する
ルールベースおよびモデルベースのデータ抽出方法について検討する
上記の標準的な方法のそれぞれを適用してドキュメント処理をした場合に、企業が直面する一般的な課題について確認する
両方のドキュメント処理方法を組み合わせ、マルチアプローチ型データ抽出方法とした場合に、企業が得られるメリットについて確認する。

では始めましょう。

ドキュメントとデータ抽出の種類とは？

ドキュメントは、構造とフォーマットに応じて、次の3タイプに分類できます。

納税申告用紙などの数多くのドキュメントは、フォーマットが決まっています。これらを構造化ドキュメントと呼びます。
契約書など、その他の文書は標準的な構造を持ちません（契約書など）。これらを非構造化ドキュメントと呼びます。
最後に、レイアウトやデザインが多様であるなど、質が異なる文書であるものの、同じような種類の情報が含まれている場合、半構造化ドキュメントと呼びます。

データ抽出方法には、ドキュメントの分類に基づき、一般的に2つのタイプがあります。1つは構造化ドキュメントに使用されるルールベースのデータ抽出、もう1つは半構造化ドキュメントと非構造化ドキュメントの処理に使用されるモデルベースのデータ抽出です。

ルールベースのデータ抽出法のメリットとデメリット

ルールベースのデータ抽出は、ドキュメントからデータを抽出するための一連のルールに依存します。たとえば、ドキュメントテンプレートを作成して、特定のデータポジションに基づいてルールを適用する方法があります。または、テンプレートを作成せずに、ドキュメント内でデータセットがどれくらいの頻度で使用されるか（発生パターン）または文字列の中でデータ変数が通常どのように表示されるか（正規表現）に基づいて、ルールを適用することもできます。

前者は、テンプレート化可能なフォームを扱う際に便利です。後者は、このようなルールの作成が容易に可能な場合に使用されます。ルールベースの方法は、設定や理解がしやすく、ドキュメント処理において非常に効率的に作用しますが、構造化ドキュメント限定で、半構造化ドキュメントの場合はごくシンプルなケースでのみ使用されます。

このようにルールベースのデータ抽出法はいろいろなコンテキストで使えますが、適用上明らかな限界があります。テンプレートベースの抽出は決まった文書レイアウトに緊密に関連づけられているため、レイアウトが変更されるとルール違反となるため、ルールの再設定が必要となります。

同様に、正規表現ベースの方法は、実装やトラブルシューティングが難しく、状況がより複雑になりがちなので扱いが面倒です。しかし、ルールベースの抽出法には代替の方法があります。それはモデルベースの抽出法です。

モデルベースのデータ抽出法のメリットとデメリット

モデルベースのデータ抽出法は、機械学習（ML）に基づいています。多様なドキュメントから学習できることから、これらの方法は強力です。当社は、自然言語処理（NLP）や統計学習といった高度な技術を採用してこれらの抽出法を使用しています。

UiPath 検証ステーションは、人間介入型（human-in-the-loop）機能を提供しており、モデルはデータの中の変化を即座に学習して、適応することができます。半構造化および非構造化ドキュメントからのデータ抽出には、一般的に人工知能（AI）活用型技術が用いられます。たとえば当社では、領収書や請求書の処理といったシナリオに対応するドキュメント理解フレームワークで使用するためのMLモデルを作成しました。※

※2020年5月15日時点では日本語は未対応。

参考： Using AI to Automate Invoices and Receipt Processing（英文ブログ：請求書や領収書の処理を自動化するためにAIを活用する）

モデルベースの抽出法の課題は、MLモデルを作成し、実行するために時間と専門知識が必要である点です。しかし多くのシナリオで、さまざまなドキュメント構造や内容を学習し、適応する能力があるという点で、モデルベースの抽出法の方が優れています。

データ抽出に多角的にアプローチする

あらゆるドキュメント処理のニーズに対応する特効薬はありません。ルールベースの抽出法とモデルベースの抽出法はいずれも有力な手段ですが、企業が管理する多様なドキュメントを適切に処理するには限界があります。

一部の構造化ドキュメントは、ルールまたはテンプレートでは抽出できないデータがあるため、ルールベースの抽出法以外の方法が必要になることがあります。同様に、モデルベースの抽出法だけで、すべての非構造化ドキュメントや半構造化ドキュメントに対応できるわけではありません。

1つのドキュメントから情報を抽出するためのさまざまな方法を、簡単に組み合わせていただけるように、UiPathは個々の方法の限界を克服するためのドキュメント理解フレームワークを開発しました。複雑なドキュメントを扱う際には、ぜひマルチアプローチのデータ抽出法を活用し、データ抽出プロセスで最高の精度を達成してください。

すばやく正確なマルチアプローチのデータ抽出

UiPathの柔軟なフレームワークにより、UiPath Studioのワークフロー内に複数のデータ抽出方法をドロップするだけで、ドキュメント処理方法を組み合わせることができます。

データ処理のための抽出子を簡単に構成し、抽出実行の優先順を設定し、さらに特定の抽出結果を有効として受け入れるためのしきい値を設定できます。こうして、可変文書構造であろうと複雑なデータ抽出ルールであろうと、もはや問題にはなりません。同時に、最新のAI技術とエンドツーエンドな自動化によって、より迅速で、より正確な文書処理が可能になります。