データクレンジングとは、データの重複や誤記、表記揺れなどを修正・削除して、データ分析をしやすい状態に整理することです。
顧客リストをはじめとするデータを古いまま活用していると、顧客への誤ったアプローチにつながるおそれがあるため、定期的なクレンジングが求められます。
本記事では、データクレンジングの概要とメリット、エクセルを使った進め方を解説します。
データクレンジングを効率的に実施するためには、ツールの活用が効果的です。自動でデータがクレンジングされる環境を構築し、手間なく精度の高いデータ分析ができるようにしましょう。
データとアナリティクスの最新事情レポート
AI時代に最適なデータ管理と意思決定を明らかにするため、10,000名以上のアナリティクス、IT、事業部門のリーダーに調査を実施致しました。
目次
データクレンジングとは
データクレンジングとは、データ分析の障害となる重複や誤記、表記揺れなどを修正・削除し、分析しやすい状態に整理することです。
たとえば、以下のような作業が該当します。
- 未入力の項目を入力する
- 同じ項目で入力方法が異なるものを統一する
- 異なる単位を統一する
- 同じ情報の重複を削除する
- 古いデータを更新する
データクレンジングでデータの統一性が向上すると、データの正確性も上がり、正しい分析ができるようになります。
データクリーニングとの違い
データクリーニングという言葉もありますが、データクレンジングと同じ意味で用いられており、違いはありません。
データクレンジングは、データクリーニングのほかに、データスクラビングと呼ばれることもあります。
名寄せとの違い
データクレンジングと名寄せは、データを整理するという目的は同じですが、作業内容が異なります。
種別 | データクレンジング | 名寄せ |
---|---|---|
作業内容 | 各種作業を通してデータを統合し、データ品質を高める | 複数のデータベース間で重複する情報を統合する |
名寄せは、データクリーニングにおける作業のひとつです。名寄せだけを行なっても重複や誤りを完全に取り除けるわけではないため、データクレンジング全体を通してデータ品質を高める必要があります。
データクレンジングの目的
データクレンジングの目的は、データの正確性を高めることです。
たとえば、データクレンジングのひとつである名寄せをせずに重複データが積み重なると、同じ顧客に対して何度も営業をかけてしまうおそれがあります。その結果、企業の信頼を損ないかねません。
また、重複や誤記を含む雑然としたデータを活用しても、精度の低い結果しか得られず「正しく顧客ニーズをつかめない」「適切なアプローチを選択できない」といったことが起こります。
こうした事態の発生を防ぐためには、データの精度を高めるデータクレンジングが重要です。
以下の記事では、データクレンジングのほかに重要なデータ活用のポイントのを解説しているので、あわせてご覧ください。
データ分析の進め方を知りたい方は、以下の動画も参考にしてみてください。
データクレンジングのメリット
データクレンジングには、4つのメリットがあります。
- 業務効率が向上する
- データに基づく意思決定が促進される
- 企業の信頼性が高まる
- コスト削減につながる
データクレンジングのメリットから、その必要性がわかります。定期的なクレンジングで、データの精度を高めましょう。
業務効率が向上
データクレンジングを定期的に実施し、データが整理された状態であれば、データの検索や分析を手間なく行えるため、業務効率の向上を期待できます。
もし、データに不備があったままデータ分析を行うと、データの検索に時間がかかったり、不備の修正が何度も発生したりと余計な業務が発生します。
データクレンジングで本来不要な作業を削減できれば、本来の業務に集中できるようになり、企業全体の生産性向上にもつながるでしょう。
データに基づく意思決定が促進される
データクレンジングを行うとデータの正確性が高まり、分析精度の向上につながります。
たとえば、データクレンジングによって重複した顧客データが削除されると、より精緻にターゲットに合わせたマーケティングキャンペーンを展開できるようになります。
データクレンジングは、データを使って経営判断を行うデータドリブン経営の実現にも欠かせません。
以下の記事では、データクレンジング以外のデータを扱い方や課題を解説しているので、あわせてご覧ください。
企業の信頼性が高まる
データクレンジングによってデータが正しく修正されると、結果的に顧客からの企業の信頼性が高まります。
たとえば、顧客データの重複や誤りがあると、同じ顧客に何度も同じ内容のメールを送ってしまったり、対応済みの顧客に再度フォローアップの電話をかけてしまったりします。こうしたミスは、顧客に不信感を与え、企業の信頼を損ねる原因となります。逆に顧客の状態をきちんと把握して、適切なタイミングで必要なコミュニケーションが取れれば、顧客からの企業の信頼性は高まります。
データクレンジングを行うことで正確なデータが保たれ、ミスのない的確な顧客対応ができるようになり、企業の信頼性が高まります。
コストの削減につながる
データクレンジングによって、誤った情報に基づくマーケティングや営業活動が削減されるため、必要な企業活動にのみコストを割けるようになります。
たとえば、データクレンジングで精度が向上したデータを使って、顧客のニーズに応じたアプローチを行うと、手あたり次第行なっていた架電業務やメール配信を削減できます。
その結果、従来発生していた人件費や時間的なコストが削減され、ほかの部分に予算を割くことが可能です。
エクセルを使ったデータクレンジングの流れ【具体例あり】
ここでは、エクセルで作成した顧客リストにおけるデータクレンジングの流れを解説します。
- データクレンジングの準備をする
- 数値の異常値をチェックする
- 表記揺れを統一する
エクセルでデータを管理されている方は、データクレンジングを試しながら読んでいただくと理解が深まるはずです。
データクレンジングの準備をする
はじめてデータクレンジングに挑戦する場合は、念のため元データが記載されたシートをコピーしたり、別のファイルで保存したりしてバックアップをとってから作業に入りましょう。
既存の顧客リストを見ると、データの重複や誤記、表記揺れがあります。
必要であれば、最初に通し番号を入れておくとよいでしょう。
数値の異常値をチェックする
データ量によっては目視では確認しきれないため、ステータスバーを使って数値データの「異常値」をチェックします。
ステータスバーは、エクセル画面の一番下(図:赤枠)にあるバーです。
ステータスバーを右クリックして、以下の表示項目を選択してください。
- 平均
- データの個数
- 数値の個数
- 最大値
- 最小値
- 合計
顧客リストの場合は、計算する数値がないため、データの個数のみが表示されます。たとえば単価表は、次のように選択した列の入力内容がステータスバーに表示される仕組みです。
表記揺れを統一する
データの表記揺れを統一する際は、「検索と置換」と関数を使います。
「検索と置換」を使う場合
「検索と置換」を使うと、特定の文字列を見つけ出し、指定の文字列に置き換えられます。
たとえば、「(株)」という表記を「株式会社」に置き換えることも可能です。
この顧客リストでは、「(株)」という表記が1つ見つかりました。
「置換」をクリックすると「株式会社」に置き換えられます。見つかった誤表記を一括で置き換えたい場合は「すべて置換」をクリックしてください。
なお「置換後の文字列」を空白にして「置換」を実行すると、検索した文字列を削除できます。
関数を使う場合
エクセルでは、以下のような関数を使って表記揺れを修正できます。
関数 | できること |
---|---|
PHONETIC関数 | 文字列の読み仮名をカタカナ出力 |
TRIM関数 | 不要なスペースを削除 |
CLEAN関数 | 不要な改行を削除 |
ASC関数 | ・全角を半角に統一・半角を全角に統一 |
RIGHT関数 | データの一部を抽出 |
データ量が多く、一括でデータを修正したい場合は、「検索と置換」よりも効率的にデータクレンジングが可能です。
データクレンジングの課題とツール活用の必要性
データを可視化・活用するためには、データクレンジングが重要ですが、まだまだデータクレンジングができていない企業が多くあります。
中小企業庁が発表した「2022年版 中小企業白書」によると、データクレンジングできている企業ほどデータの見える化を実現できていることから、データクレンジングがデータの可視化・活用において重要なプロセスであるといえます。
ところが、データクレンジングができている企業は、セールスマーケティング・サプライチェーンの両方で20%未満と低い割合です。
先述したように、エクセルでデータ管理を行なっている場合、手作業でデータクレンジングを行わなければならないため、膨大な作業時間がかかります。そのため、データクレンジングに時間を割けず、データが煩雑なまま活用されている背景が想定されます。
作業負担を抑えたうえで定期的にデータクレンジングを行うためには、作業を効率化できるツールの活用が必要です。
企業内でデータ活用を促進したい方は、以下の動画もご覧ください。
データクレンジングを自動化できるAI搭載のツール
データクレンジングを自動化できるツールとして『Data Cloud』と『Tableau』を紹介します。
『Data Cloud』は、企業がもつデータを集約、統合するプラットフォームで、CRMやSFA、MAと連携させることが可能です。データを使用する前にクレンジングができるため、常に最新のデータを整理された状態で可視化・活用できます。
『Tableau』は、データをビジュアライズし、可視化・分析するプラットフォームです。クレンジングツールとして「Tableau Prep」が備わっており、コードを使用せずに直感的なクレンジングを行えます。
いずれもAIを活用した機能が充実しており、データドリブンな組織を目指すうえで重要なデータ基盤として、企業のデータ活用を促進します。
以下の記事では、データ活用におけるAI利用のポイントを解説しているので、あわせてご覧ください。
データクレンジングの効率化による効果がわかる事例
ここでは、データクレンジングを効率化することで得られる効果がわかる事例を2つ紹介します。
- 事例1. データクレンジングの自動化で作業時間を1/3に短縮
- 事例2. 手作業だったデータクレンジングを自動化して業務効率を大幅アップ
データクレンジングを効率化して、作業負担を抑えながら正確なデータの活用を促進しましょう。
事例1. データクレンジングの自動化で作業時間を1/3に短縮
NECソリューションイノベータ株式会社は、データの見える化を促進するため『Sales Cloud』を導入しました。そのなかで、リードのデータ化を進めるために『Sansan Data Hub』を活用しています。
『Sansan Data Hub』は、Sansan株式会社が提供する顧客情報管理サービス『Sansan』と連携できるSalesforceアプリケーションです。
NECソリューションイノベータ株式会社は、Salesforce内のデータを自動でクレンジングできる『Sansan Data Hub』を構築し、データクレンジングにかかる作業を効率化。
その結果、従来毎月35時間以上を費やしていたクレンジング作業が、約1/3に短縮され、社内でのデータ活用の促進に成功しました。
参考:SFAとMAの連携により営業/マーケティングのプロセスを統合リード案件化の確度を向上
事例2. 手作業だったデータクレンジングを自動化して業務効率を大幅アップ
KMバイオロジクス株式会社は、営業とデジタルマーケティングの強化を目指し『Tableau』を導入しました。
「Tableau Prep」を活用するなかで、従来手作業で行なっていたデータクレンジングの大幅な効率化に成功します。「Tableau Prep」とRPAツールを組み合わせたシステムの構築でほぼ自動化され、手作業だと月あたり810分ほどかかっていたデータクレンジングが35分にまで短縮。
データクレンジングの作業時間を1/20にまで圧縮できたこともあり、データを活用した議論が進めやすくなり、意思決定スピードも向上しました。
参考:スモールスタートと人材育成で利用定着化を促進|KMバイオロジクス株式会社
まとめ:データクレンジングでデータ分析の精度を向上しよう
データクレンジングで、重複や誤記、表記揺れなどを修正・削除すると、データの正確性が向上し、分析結果の精度も高められます。その結果、顧客ニーズに沿ったアプローチや意思決定を促進できます。
ただし、手作業でデータクレンジングを行うと、膨大な作業時間を消費してしまうため、ツールを活用して効率的に実施することが重要です。
Salesforceでは、データクレンジングの負担を軽減しながらデータの見える化や活用を促進できるツールを提供しています。「データクレンジングに膨大な時間がかかって活用が停滞している」「データクレンジングができていない」という企業さまは、ぜひお気軽にお問い合わせください。
ご相談・お問い合わせ
セールスフォースの製品、価格、導入などご不明な点がございましたらお気軽にお問い合わせください。専門担当者がお答えします。