住所録データでは類似業種間で重複登録されている場合があります。これは、各事業所が少しでも問い合わせ等が増えるようにと類似業種に登録している事から発生します。
今回はつぎの3つの業種を選びその重複データを削除する方法を解説します。
菓子店:30,332件のうちリストの上から50件をピックアップ
洋菓子店:12,303件のうちリストの上から50件をピックアップ
和菓子店:10,414件のうちリストの上から50件をピックアップ
EXCELの重複削除機能は、重複があった場合は上から下方向に向かったチェックがされ、仮に10行目のデータと25行目のデータが重複していた場合、下方の25行目のデータが削除されます。よって優先順位の高いデータを上部におくと良いです。
では、早速重複データを削除するEXCELシートを作成します。
今回の優先順位は「菓子店」→「洋菓子店」→「和菓子店」と件数が多い業種を優先させます。
また、後でどのデータが優先して削除されたかを確かめるため重複データ削除シートには「業種」項目と「番号」項目を追加しました。
では早速重複データ削除シートにデータをコピーしていきます。
その結果が次のシートに用になります。
準備ができましたら
EXCELシートのメニューの「データツール」から「重複削除」を選択します。
今回は「会社名」と「住所」を比較して重複チェックを実施しますので、「会社名」と「住所」にチェックを入れて「OK」をクリックします。
重複チェックの状況が表示されます。
この例では、3業種データの中で42件の重複があり、削除されたことになります。
それぞれの業種50件×3業種=150件のうち42件重複削除なので残りのデータは108件となります。
では、それぞれ何件のデータが削除されたかを見てみましょう。
メニューから「フィルター」を選択し「業種」項目から「菓子店」にチェックを入れ「OK」をクリックします。
108レコード中50個が見つかったと表示されました。
先にも述べたように「菓子店」が優先順位が上なので50件で重複削除されたデータはありません。
同様に次は「洋菓子店」をチェックすると18件となります。
つまり洋菓子店では50件中32件が重複していた事になります。
さらに「和菓子店」をチェックすると40件となりました。
よって「菓子店」と「洋菓子店」との重複データは10件で、重複していないデータが40件あったことになります。
ではどのデータが重複していたのでしょうか?
下図の「和菓子店」では
301、302、303、304、305、306、307、308、309、310、311の番号が見当たらないのでこの合計10件が重複していたことになります。
このようにして類似業種に含まれる重複データを削除する事ができます。
この重複削除は、住所録データだけではなくいろいろなEXCELシートにあるデータにおいて重複削除を実行する事が出来ます。
要は重複データを削除した結果ファイルが欲しい方に最適な方法ではないでしょうか。
※必ず重複チェックを行う項目については十分に吟味して下さい。また、重複チェックを行う前のファイルは万が一という事もあるので別途保存しておき、コピーしたファイルに対して重複チェックを実行する事をお薦めいたします。
4つのスタイルでの事業者住所録データの販売を行っています。
業種グループ別事業者住所録データリスト
業種グループ別全国事業者住所録データ・サブスク一覧
都道府県別全業種事業者リスト
個別オーダーのご案内