非構造化データの概要およびファイル管理で発生する課題とその解決策

企業のファイルサーバーには、Office系ファイルやCADデータ、動画ファイル、印刷物のグラフィック系ファイルなど様々なファイル(非構造化データ)が散在しています。

これらはインデックス化が難しく、データ分析などの活用が難しい反面、顧客のニーズに近い情報が集約されています。
非構造化データを活用することで、これまで見えなかった顧客の要望も可視化されることからデータドリブン経営の精度向上を見込むことができます。

しかし、非構造化データを活用することなく蓄積しているだけでは、コストになるという課題が生じてきますが、近年の技術レベルが発展したクラウドストレージを有効活用することで、これらの課題点を解決できます。

今回は非構造化データの概要、そしてファイル管理の課題点、課題解消によるメリットについてご紹介します。

オンライン・クラウドストレージ「DirectCloud」へ
DirectCloud AIのサービス説明書
  • ドキュメントの内容をAIが解析し、FAQ生成の自動化により問い合わせ対応の
    省力化・コスト削減・顧客満足を実現するためのポイント
  • DirectCloud AIの具体的な利用シーン
ダウンロードCTA
ctaダウンロードボタン
オンライン・クラウドストレージ「DirectCloud」へ
DirectCloud AIのサービス説明書
  • ドキュメントの内容をAIが解析し、FAQ生成の自動化により問い合わせ対応の省力化・コスト削減・顧客満足を実現するためのポイント
  • DirectCloud AIの具体的な利用シーン
ダウンロードCTA
ctaダウンロードボタン

1.  非構造化データとは

非構造化データとは、その名のとおり構造化されていないデータ全般のことを指します。
そして、企業内で生成されるデータの約8割は非構造化データと言われています。

非構造化データは、データベースに代表される構造化データのように定められた規則性がありません。
分析などに使う場合はそのままでは使用できないことから構造化データへの整形が必要となります。

非構造化データの種類

非構造化データの種類としてはOffice系ファイル、PDFファイル、CADデータ、テキストファイル、画像/動画/音声ファイルなどが挙げられます。

また、電子メールやチャットのメッセージ、SNSの投稿なども非構造化データに含まれます。
規則性はありませんが、形式が自由なため日々大量のデータが個人・法人問わず生成されています。

さらに、それらのデータ収集も高速で行うことができます。
日々大量に生成されていることから情報の鮮度が高いうえに、ユーザー自らの情報発信(SNS、動画、写真)を含めて「行動」や数値化できない「感情」などが反映されやすい特性があるため、ニーズの深堀を行う際に有効な情報を得ることができます。

構造化データ・半構造化データ・非構造化データの違い

構造化データ、非構造化データ、そしてある程度の規則性を持つ半構造化データの違いを表にまとめると以下のようになります。

構造化データ 半構造化データ 非構造化データ
形式
  • ・リレーショナルデータベース内のデータ
  • ・XML、JSON
  • ・Office系ファイル
  • ・PDF
  • ・CADデータ
  • ・画像/動画/音声ファイル
使用用途
  • ・マスター管理(価格、製品管理番号など)
  • ・分析用情報(BI)
  • ・Webサイト用情報
  • ・ソフトウェア間のデータ交換
  • ・API連携
  • ・プログラム連携
  • ・販促資料
  • ・プロモーション
  • ・購買行動調査
  • ・ログ(監視カメラ映像など)
データが蓄積される場所 データウェアハウス データレイク データレイク
規則性
分析利用への最適化
クリーニング工数
構造化データ
形式
  • ・リレーショナルデータベース内のデータ
使用用途
  • ・マスター管理(価格、製品管理番号など)
  • ・分析用情報(BI)
データが蓄積される場所 データウェアハウス
規則性
分析利用への最適化
クリーニング工数
半構造化データ
形式
  • ・XML、JSON
使用用途
  • ・Webサイト用情報
  • ・ソフトウェア間のデータ交換
  • ・API連携
  • ・プログラム連携
データが蓄積される場所 データレイク
規則性
分析利用への最適化
クリーニング工数
非構造化データ
形式
  • ・Office系ファイル
  • ・PDF
  • ・CADデータ
  • ・画像/動画/音声ファイル
使用用途
  • ・販促資料
  • ・プロモーション
  • ・購買行動調査
  • ・ログ(監視カメラ映像など)
データが蓄積される場所 データレイク
規則性
分析利用への最適化
クリーニング工数

非構造化データについては、規則性のないデータ全般を指すため生成に伴うルールもなく、生成数・生成速度ともに圧倒的となっており、冒頭でも述べたように企業内で生み出される約8割はこの非構造化データとなっています。

ただし、分析への応用は非常に難しく、データサイエンティストなどの専門のスキルを持ったものによる分類、半構造化データへの整理後に構造化データへの変換、といった事前の準備作業が必要となります。

構造化データだけでなく、非構造化データを含むビッグデータを活用することで、よりユーザーのニーズに沿った企業戦略を立てやすくなります。

非構造化データを蓄積するデータレイクとは

データレイクとは、様々なシステムから収集したデータを加工することなくそのままの状態で集約・保存できるシステムとなっており、未加工のまま保存できることから非構造化データの保存に向いています。
このデータレイクに貯められたデータを必要に応じて必要な形に変換することでデータ分析に活用することができます。

非構造化データは軽量なOffice系ファイルだけではなく画像・映像・音声といったファイルサイズが大きくなりがちなファイル形式も含まれるため、数値などの文字情報のみが保存されているデータウェアハウスと比較して、より大容量のストレージが求められます。

蓄積数が多いほど、より精度の高い分析につながることから、いかにコストをおさえながらストレージ容量を確保するかといった課題もあるため、階層化されたストレージであればより多くの非構造化データを保存することが可能となります。

2.  非構造化データ管理の課題点

先ほどまでは非構造化データの特徴、保存されるシステムなどについてご紹介してきましたが、ここからは非構造化データを取り扱う際の課題点をいくつか挙げていきます。

コストの上昇

規則性のある構造化データと違い、非構造化データは動画ファイルなどを筆頭に1ファイルあたりのサイズが大きくなりがちです。

そのため、保存先となるストレージ容量を圧迫し、オンプレミス環境であればHDD、SSDの追加、クラウドストレージであれば契約ストレージ容量の追加手続きが必要となります。

ただし、ストレージの階層化に対応したクラウドストレージであれば、コストの上昇を抑えつつフレキシブルに容量を追加させる運用が可能となります。

検索性の低下

規則性があり、SQLを使用して高速かつ精度の高い検索が可能な構造化データとは違い、規則性がなく形式もバラバラな非構造化データは、ファイルの数が増えるほど検索性は低下します。

例えば、PDFの文書であればAI-OCRなどを活用してテキスト情報を引き出す必要があり、動画や画像に対してはタグを割り当てるなどの運用をしていなければ、円滑に目的のデータへたどり着くことはできません。
全文検索などの機能があれば、Office系ファイルやPDFファイルの内部テキストも検索することができるため、非構造化データを扱ううえでは全文検索機能も重要度の高い機能となります。

サイロ化進行によるデータスワンプ

データレイクのような一元的に集約できるシステムがない場合、例えば拠点ごとにファイルサーバーが設置されており、それらにファイルが保存されている場合はデータのサイロ化が発生します。

横断検索のシステムを構築する、あるいはデータの集約をしない限り、目的のデータにたどり着くまで膨大な手間と時間を消耗します。
結果的に用途のわからないファイルで各ストレージが埋め尽くされることとなり、分類がされておらず役に立たないデータが集まった状態、いわゆるデータスワンプとなります。

データの有効活用をするうえでもタグ付けによる分類、また一定期間を経過したファイルの自動削除もしくはより低コストなストレージへの自動移動といった機能が求められます。

3. 散在した非構造化データが各部門・業務に与える影響

ここからは各ストレージに散在し、データスワンプ状態となった非構造化データが業務に与える影響を具体例を説明します。

データのサイロ化が起こる理由

そもそも非構造化データのサイロ化が起こる理由として、以下の理由が考えられます。

  • ・複数のストレージが散在している
  • ・ファイルの保存ルールが定まっていない
  • ・ストレージ保存の運用ルールが存在しない
  • ・ストレージ保存の運用ルールが部署ごとに異なっている
  • ・ファイルのメンテナンスがされずに蓄積されているのみ

会社として統一のルールが定まっていないため、各ユーザーが自分のやり方でファイルを保存します。

データのサイロ化が業務に与える影響

ストレージのサイロ化は、結果としてデータを探し出すこともできないうえに、ストレージ容量を消耗し、用途不明のファイルがストレージごとに散在する状況を生み出しています。

ストレージそのものが一元管理されていないため、横断検索のシステムを入れていない限り、探し出すための操作も各ストレージ上で行うこととなり、部署間での情報共有も厳しい状況となります。
結果として全社的な業務効率の低下に繋がります。

4. 非構造化データをクラウドストレージで一元管理するメリット

データレイクのようなストレージの一元管理をする方法の一つとして、クラウドストレージの活用があります。
各所に分散しがちなオンプレミス環境のファイルサーバーとの違い、クラウドストレージの活用にはどのようなメリットがあるかを解説します。

検索性の向上

ストレージが一元化され、すべてのファイルが集約されることで、ファイルの検索性は向上します。
クラウドストレージの検索機能はサービスにより差がありますが、例えば、以下のような機能が備わっていれば、検索時の利便性が高くなり、目的のファイルに辿り着く可能性が高くなります。

  • ・全文検索対応
  • ・タグ付け検索対応
  • ・AI-OCRへの対応
  • ・検索範囲・検索条件の指定可能

ハードウェアの老朽化対応などの業務負担を軽減

オンプレミスの環境では、オペレーティングシステムのサポート期間終了、ユーザーアカウントのライセンス更新だけではなく、ハードウェアの老朽化などへの対応があります。

サーバーの保守パーツはメーカーごとに対応期間が定められており、その期間を超過した場合は保証のないパーツに自己責任で交換するか、サーバーそのものの更改が必要となります。
前者は、故障リスクが増大する可能性が高く、後者は費用、移行前調査時間、移行作業工数、移行後動作検証など、すべてのプロセスにおいて大きな負担が長期間強いられることとなります。

場合によっては進行中プロジェクトのいくつかを停止、もしくは延期せざるを得なくなります。
クラウドストレージへの移行をすることで、これらの業務負担から解放され、本来の業務にリソースを割り当てることができます。

BCP対策

オンプレミス環境では地震などの天災への対応も必須となります。
ビルそのものの耐震性はもちろん、電源供給経路の多重化など、企業単独での対応が難しいものが多く存在します。

データセンターへのハウジングという手段をとる企業も多くなっていますが、その理由としてデータセンターでは電源の多重化はもちろん、センター内での発電設備などは標準となっており、不正な侵入者への対策、監視や災害多発地帯を回避した立地など、多くの場合において一般的なオフィスビルよりも堅牢な設計となっています。

クラウドストレージは提供サービスにも寄りますが、データセンターでの運営が基本となっているため、ビル内のテナントに設置されたファイルサーバーと比較して災害対策が取れているものが多くなっています。

もちろんセキュリティレベルの高い日本国内のデータセンターで、かつ可用性を高めるため複数拠点に分散保存されている冗長化構成が取られた環境、できれば遠隔地でのバックアップが取られている環境が事業の持続可能性がより高くなります。

企業のセキュリティポリシーに沿った運用

ストレージが分散している環境の場合、セキュリティポリシーの徹底が容易ではありません。

特に、オンプレミス環境においてはストレージが設置された拠点ごとに情報漏えい対策や災害対策などが求められるため、その金銭的、人的リソースの負担は大きなものとなります。

法人向けのクラウドストレージでファイルを集約保存し、全拠点のファイルを一元管理することで、システム管理者が定めたセキュリティポリシーに応じた運用を全社的に展開することが可能となります。

API活用による他サービスとのシームレスな連携

日々加速するビジネスにおいて、ファイルの扱いにおいても効率化が求められます。
人の手による手動での業務では速度が低下するだけでなく、ヒューマンエラーが発生する原因となります。

各クラウドサービスをAPIで連携をさせることで、業務の自動化を促進できるだけでなく、ヒューマンエラーの発生頻度を下げることに繋がります。

5. 管理が効率化された非構造化データが各部門・業務に与えるメリット

データスワンプ状態を回避し、非構造化データの効率的な管理をした場合、どのようなメリットがあるのでしょうか。

情報漏えいリスクの低減

情報がクラウドストレージ上で一元的に管理をされ、企業全体でのセキュリティポリシーに沿ったデータ管理をしている場合、情報漏えいリスクはオンプレミス環境で散在しているストレージを運用している場合と比較して、大幅な情報漏えいリスク低減が見込まれます。

特に、以下のような機能を備えているクラウドストレージを活用することで、より高度な情報漏えい対策が可能となるでしょう。

  • ・アクセス権設定
  • ・承認ワークフロー
  • ・ファイル持ち出しを制限するDLP機能

ノウハウが蓄積されたファイル再活用を促進

ファイルの保存だけでなく、再活用を促進することができます。

例えば、これまで部署・拠点ごとに作られていた営業資料があった場合、別拠点で制作されたより完成度の高い資料を活用・ブラッシュアップすることで、全拠点で資料制作レベルを底上げし、生産性を向上させることに貢献します。

コスト増の原因が利益を生み出すデータに

オンプレミス環境で散在したストレージによりサイロ化が進み、データスワンプ状態だったゴミ同然の非構造化データが、各ストレージ上のファイルを集約し、データレイク的にファイルを一元管理することで、全拠点での効率的な情報共有が可能となります。

また、非構造化データを分析用に加工しユーザー分析に活用することで、利益を生み出す武器として非構造化データを活用することが可能となります。

6. まとめ

このように、非構造化データは管理状態や運用次第で、データスワンプを生み出す負債にも、ユーザーの回帰分析用の元データとして活用し、利益を生み出す資産にもなります。

この非構造化データには、データをクラウドストレージへ保存し、AIとシームレスに統合された環境が求められます。
そこで後編のコラムでは、非構造化データをデータドリブン経営に生かすために必要となるセキュリティをはじめ、ユースケースを紹介しつつ法人向けクラウドストレージ選定のポイントについても説明します。

また、弊社が提供する「DirectCloud」には、非構造化データの一元管理を可能とする機能を多数取り揃えております。

  • ・万全のBCP対策を実現する遠隔地バックアップ
  • ・バージョン管理(ライフサイクル管理)
  • ・オンライン編集
  • ・自動ファイル削除

そして、非構造化データをデータドリブン経営に活かすために、AIとクラウドストレージの活用方法についてもまとめておりますので、ぜひこちらのコラムもご参照ください。

詳しくは下記のサービス説明書をご確認ください。

オンライン・クラウドストレージ「DirectCloud」へ
DirectCloud AIのサービス説明書
  • ドキュメントの内容をAIが解析し、FAQ生成の自動化により問い合わせ対応の
    省力化・コスト削減・顧客満足を実現するためのポイント
  • DirectCloud AIの具体的な利用シーン
ダウンロードCTA
ctaダウンロードボタン
オンライン・クラウドストレージ「DirectCloud」へ
DirectCloud AIのサービス説明書
  • ドキュメントの内容をAIが解析し、FAQ生成の自動化により問い合わせ対応の省力化・コスト削減・顧客満足を実現するためのポイント
  • DirectCloud AIの具体的な利用シーン
ダウンロードCTA
ctaダウンロードボタン

資料ダウンロード