データ突合(データマッチング)完全ガイド|Excel・SQL・AIを比較
データ突合(データマッチング)の方法を徹底比較。Excelの限界、SQLのハードル、AIによる自動化まで詳しく解説。表記揺れも自動吸収する最新手法を紹介。
「この顧客リストと、あの退会リストを突き合わせて!」
月末の締め作業や、不定期なデータ調査で、こんな依頼を受けて絶望したことはありませんか?
データ突合(データマッチング)は、経理やマーケティング、営業事務の現場で頻繁に発生するタスクですが、**「ちょうどいいツール」**がこれまで存在しませんでした。
この記事では、データ突合の基本から4つの方法を徹底比較し、最適な選択肢を見つけるお手伝いをします。経理・マーケティング・営業事務の担当者の方はもちろん、業務改善を検討している管理職の方にも参考になる内容です。
データ突合(データマッチング)とは?
定義
データ突合とは、2つ以上のデータセットを比較して、対応関係や差異を見つける作業です。
データ突合:異なるソースのデータを照らし合わせ、一致・不一致を判定すること
ビジネスの現場では、日常的にデータ突合が発生しています。正確なデータ突合は、業務の正確性とスピードを担保するために欠かせません。
別名
| 呼び方 | 補足 | 使用場面 | 頻度 | 例 |
|---|---|---|---|---|
| データマッチング | IT系で使われる | システム設計 | 高 | DB設計 |
| データ照合 | 公式文書向け | 監査対応 | 中 | 決算作業 |
| データ比較 | 一般的 | 日常業務 | 高 | 月次作業 |
| 名寄せ | 顧客データの場合 | マーケティング | 中 | 顧客統合 |
| クロスチェック | 検証目的 | 品質管理 | 中 | テスト |
| 突き合わせ | 口語的 | 日常会話 | 高 | 会話 |
具体的な使用場面
| 場面 | 比較対象 | 目的 | 発生頻度 | 難易度 | 担当部門 |
|---|---|---|---|---|---|
| 請求書チェック | 請求書 ↔ 発注書 | 金額確認 | 月末 | 中 | 経理 |
| 入金消込 | 請求データ ↔ 入金データ | 売掛管理 | 毎日 | 高 | 経理 |
| 顧客名寄せ | 社内DB ↔ 外部リスト | 重複排除 | キャンペーン時 | 高 | マーケ |
| 在庫照合 | システム在庫 ↔ 実地棚卸 | 差異発見 | 四半期 | 中 | 物流 |
| リスト比較 | 今月リスト ↔ 先月リスト | 差分抽出 | 月次 | 低 | 営業事務 |
| 価格改定確認 | 旧価格表 ↔ 新価格表 | 変更確認 | 不定期 | 低 | 営業 |
データ突合に立ちはだかる3つの壁
壁1:形式の壁(PDFの呪縛)
請求書や納品書はPDFで届くことが一般的です。多くの企業で、この「PDF」が最初のボトルネックになっています。
| 問題点 | 詳細 | 解決策 | コスト | 影響 |
|---|---|---|---|---|
| 画像ベース | PDFの中身は「画像」や「文字の羅列」 | OCR | 中 | 入力工数 |
| システム取込不可 | Excelで集計したり、システムに取り込めない | 手入力 or AI | 高 | 転記ミス |
| 手入力が必要 | 転記作業が発生 | 自動化 | 低 | 時間消費 |
| フォーマット多様 | 取引先ごとにフォーマットが違う | AI | 中 | 複雑化 |
→ 「入り口」の時点で時間が奪われる
壁2:スキルの壁(SQL/プログラミング)
「大量データならデータベース(SQL)を使えばいい」というのは正論です。しかし、現実には多くのハードルがあります。
| 問題点 | 詳細 | 解決策 | ハードル | 影響 |
|---|---|---|---|---|
| スキル不足 | 一般的な業務担当者がSQLを書くのは難しい | ノーコードツール | 高 | 依頼待ち |
| 環境構築 | SQL環境を構築するのに時間がかかる | クラウドサービス | 中 | 初期投資 |
| 依頼待ち | 情シスに依頼しても数日待ち | セルフサービス化 | 低 | リードタイム |
| セキュリティ | 本番DBへの直接アクセスは制限される | 読み取り専用環境 | 中 | 権限問題 |
→ ハードルが高すぎて現実的でない
壁3:精度の壁(表記揺れ)
これが最も厄介な敵です。同じデータを表しているにも関わらず、表記が異なるためにシステムが「不一致」と判断してしまいます。
| データA | データB | 人間の判断 | システムの判断 | 頻度 | 対処工数 |
|---|---|---|---|---|---|
| 株式会社ABC | (株)ABC | 同じ | 別物 | 高 | 1件3分 |
| 山田太郎 | 山田 太郎 | 同じ | 別物 | 高 | 1件1分 |
| 090-1234-5678 | 09012345678 | 同じ | 別物 | 中 | 1件1分 |
| トヨタ自動車 | トヨタ | 同じ | 別物 | 中 | 1件2分 |
| 東京都渋谷区 | 渋谷区 | 同じ | 別物 | 中 | 1件1分 |
| A-123 | A123 | 同じ | 別物 | 高 | 1件1分 |
→ 「突合」する前の「準備」だけで日が暮れる
データ突合の4つの方法
方法1:目視比較
概要:2つのデータを並べて目で比較
| 項目 | 内容 | 効果 | 詳細 |
|---|---|---|---|
| ツール | 紙、Excel(並べて表示) | — | 特別なツール不要 |
| メリット | 特別なスキル不要 | 即日開始 | 誰でもできる |
| デメリット | 時間がかかる、見落としが多い | 精度低 | 人的ミス発生 |
| 適用規模 | 〜50件 | — | 少量向け |
| コスト | 無料 | — | 人件費のみ |
方法2:Excel関数
概要:VLOOKUPやXLOOKUPで自動照合
=VLOOKUP(A2, Sheet2!A:B, 2, FALSE)
| 項目 | 内容 | 効果 | 詳細 |
|---|---|---|---|
| ツール | Excel | — | Office必須 |
| メリット | 追加コスト不要 | コストゼロ | 既存環境で可能 |
| デメリット | 表記揺れに弱い、エラー調査が大変 | 精度中 | #N/Aエラー多発 |
| 適用規模 | 〜500件 | — | 中量向け |
| コスト | 無料(Office既存なら) | — | ライセンス費のみ |
Excelでの表記揺れ対応の限界:
=VLOOKUP(SUBSTITUTE(SUBSTITUTE(A2,"株式会社",""),"(株)",""), Sheet2!A:B, 2, FALSE)
→ それでも「カ)ABC」には対応できない
方法3:SQL
概要:データベースでJOINクエリを実行
SELECT a.*, b.*
FROM table_a a
LEFT JOIN table_b b ON a.id = b.id
WHERE b.id IS NULL;
| 項目 | 内容 | 効果 | 詳細 |
|---|---|---|---|
| ツール | データベース(MySQL、PostgreSQL等) | — | 環境構築必要 |
| メリット | 大量データも高速処理 | 高速 | 100万件も秒単位 |
| デメリット | スキルが必要、環境構築が大変 | ハードル高 | 専門人材必要 |
| 適用規模 | 〜数百万件 | — | 大量データ向け |
| コスト | 中〜高 | — | インフラ+人件費 |
方法4:AIエージェント
概要:AIが意味を理解して自動マッチング
| 項目 | 内容 | 効果 | 詳細 |
|---|---|---|---|
| ツール | Totsugo等 | — | クラウドサービス |
| メリット | 表記揺れ自動吸収、設定不要 | 精度高 | 曖昧一致対応 |
| デメリット | ランニングコスト | コスト | 月額費用 |
| 適用規模 | 〜数万件 | — | 中〜大量向け |
| コスト | 中 | — | 月額費用 |
4つの方法の詳細比較表
| 項目 | 目視 | Excel | SQL | AI |
|---|---|---|---|---|
| 初期コスト | ◎ | ◎ | △ | ○ |
| スキル要件 | ◎ | △ | × | ◎ |
| 表記揺れ対応 | ○ | × | × | ◎ |
| 処理速度 | × | ○ | ◎ | ○ |
| 大量データ | × | △ | ◎ | ○ |
| 属人化リスク | ○ | △ | × | ◎ |
| メンテナンス | ○ | × | × | ◎ |
| 精度 | △ | ○ | ◎ | ◎ |
| 導入難易度 | ◎ | ○ | × | ◎ |
AI時代のデータ突合:Totsugo
なぜAIなら表記揺れを解決できるのか?
従来のシステムは「文字列の完全一致」で判断していましたが、AIは「意味の一致」で判断できます。
| 観点 | 従来 | AI | 効果 | 例 |
|---|---|---|---|---|
| 判断基準 | 文字列の一致 | 意味の一致 | 精度向上 | — |
| 表記揺れ | 「株式会社」≠「(株)」 | 「株式会社」≒「(株)」 | エラー減 | 法人名 |
| ルール | 人間が定義 | AIが自動学習 | 工数減 | — |
| 曖昧さ | 対応不可 | 確率的に判断 | 柔軟性 | 類似名 |
Totsugoの特徴
1. カラム名が違ってもOK
システムAでは「顧客ID」、システムBでは「User_ID」。
通常なら手動で指定が必要ですが、TotsugoのAIはカラムの意味を推論し、自動でマッチングキーを提案します。
2. 表記揺れをAIが吸収
「株式会社」と「(株)」、「090-1234-5678」と「09012345678」。
これらをFuzzy Match(曖昧一致)技術で「同じ」と判定。事前のデータクレンジングは不要です。
| パターン | 例1 | 例2 | 判定 |
|---|---|---|---|
| 法人種類 | 株式会社ABC | (株)ABC | ✅ 同一 |
| スペース | 山田太郎 | 山田 太郎 | ✅ 同一 |
| ハイフン | 090-1234-5678 | 09012345678 | ✅ 同一 |
| 略称 | トヨタ自動車 | トヨタ | ✅ 同一 |
| 区切り記号 | A-123 | A123 | ✅ 同一 |
3. ドラッグ&ドロップで完了
| ステップ | 内容 | 所要時間 | 操作 | スキル |
|---|---|---|---|---|
| 1 | 比較したい2つのPDFファイルを画面にドロップ | 5秒 | D&D | 不要 |
| 2 | AIが解析 | 数秒〜数分 | 待機 | 不要 |
| 3 | 差異がある部分だけが赤くリストアップ | — | — | — |
| 4 | 確認してEnterキーで承認 | 1件数秒 | Enter | 不要 |
活用シーン
経理:請求書と納品書の突合
取引先から届いた「請求書PDF」と、手元にある「納品書PDF」の突合。明細行が何百行あっても、一瞬で「数量」や「単価」のズレを発見。
| 項目 | 導入前 | 導入後 | 削減率 |
|---|---|---|---|
| 照合時間 | 30分/件 | 3分/件 | 90% |
| ミス発見率 | 70% | 99% | +29pt |
経理:請求書と発注書の突合
「発注通りの金額で請求されているか?」のチェック。商品名の表記が多少違っても(例:「A-123」と「品番A123」)、AIが同一商品とみなして価格チェック。
マーケティング:顧客リストの名寄せ
複数のリストに同じ顧客が重複登録されていないかチェック。表記揺れがあっても同一人物を特定。
| 問題 | 詳細 | AI対応 |
|---|---|---|
| 重複登録 | 同一顧客が複数存在 | ✅ 検出 |
| 表記揺れ | 「田中」「タナカ」「TANAKA」 | ✅ 統合候補 |
| データ品質 | 住所の欠損 | ✅ 補完候補 |
営業事務:リスト比較
今月の取引先リストと先月のリストを比較。追加・削除された取引先を自動抽出。
導入効果の試算
月100件の請求書を処理する企業の場合:
| 指標 | 導入前 | 導入後 | 削減率 |
|---|---|---|---|
| 突合作業時間 | 50時間/月 | 5時間/月 | 90% |
| エラー発生件数 | 5件/月 | 0件/月 | 100% |
| 残業時間 | 15時間/月 | 0時間/月 | 100% |
年間コスト効果:
- 工数削減:約135万円(人件費換算)
- エラー防止:約30万円(過払い防止)
- 合計:約165万円の効果
よくある質問
Q. どのくらいの件数まで処理できる?
A. 主にPDFの突合に対応しており、数百〜数千件程度の明細行を想定しています。
Q. CSVファイルも突合できる?
A. 現在はPDFが主な対応形式です。CSVへの対応は今後の開発予定に含まれています。
Q. 既存のシステムとの連携は?
A. 現在はfreee会計との連携に対応しています。
Q. 導入にどのくらいかかる?
A. 即日利用可能です。freee連携も数分で完了します。
Q. セキュリティは大丈夫?
A. データは暗号化して処理され、処理後は削除されます。
まとめ:VLOOKUPと格闘するのは終わり
データ突合は、それ自体が利益を生む作業ではありません。「合っているか確認する」だけの作業に、貴重な時間を使うのはもったいないことです。
| 方法 | 推奨場面 | 件数目安 | 表記揺れ対応 |
|---|---|---|---|
| 目視 | 10件以下の臨時作業 | 〜10件 | ○ |
| Excel | 表記揺れがない定型データ | 〜500件 | × |
| SQL | 大量データ+内製スキルあり | 〜数百万件 | × |
| AI | 表記揺れあり+属人化を避けたい | 〜数万件 | ◎ |
SQLを覚える必要も、Excelのフリーズに怯える必要もありません。