人工知能を育成するデータセットの役割と価値
JNEWS会員配信日 2017/7/8
デジタル時代の新たな権利ビジネスとしては、人工知能(AI)の機械学習に必要なビッグデータ収集に関連した市場がある。人工知能を育成していくためのデータ素材には、過去の出版物(紙)、ネットに公開されているコンテンツ、公的機関が提供するオープンデータ、IoTデバイスなどが収集する自然観測データ、店内や屋外カメラが撮影する映像などが活用できる。しかし、AI開発者がゼロから膨大なデータを収集、加工していくのは困難なため、既に入力済みのデータセットが利用されている。
学術研究用としては、大学機関などが各種のデータセットを公開している。スタンフォード大学が2010年から立ち上げている、データセット作成プロジェクトの「ImageNet」では、画像認識エンジンを開発する研究者向けのデータセットを無料で配布している。この中には、動物、植物、人物、建物、フルーツ、車両などカテゴリー別に属性が付けられた1400万点の画像データが揃っており、このセットを人工知能に学習させることで、新たな写真を読み込んだ時に、それが何の画像なのかを自動認識できるようになる。
ImageNetが収録している画像データは、写真共有サイトの「Flickr」を中心に、ネットの各所から入手されたもので、それに「Amazon Mechanical Turk」によるクラウドソーシングで、人工知能の学習データとして使える属性を加えていったものである。そのため、データセットの完成までには膨大な手間がかかっているが、画像データの著作権をImageNet自体が保有しているわけではなく、学術研究に限られた用途のみで配布されている。
人工知能の開発を進めていく上では、大規模で優良なデータセットを利用することが不可欠になる。米国の人工知能開発が進んでいる背景にも、「ImageNet」のようなデータセット配布プロジェクトの貢献が大きいと言われている。ビッグデータの中には、様々な著作権や個人情報が含まれているため、それを有料で販売することには社会的な批判もあり、データセットの配布方法には注意が必要になる。
(この内容はJNEWS会員レポートの一部です。正式会員の登録をすることで詳細レポートにアクセスすることができます → 記事一覧 / JNEWSについて)
■この記事の完全レポート
・JNEWS LETTER 2017.7.8
※アクセスには正式登録後のID、PASSWORDが必要です。
※JNEWS会員のPASSWORD確認はこちらへ
■この記事に関連したバックナンバー
・人工知能が管理する不動産業界の動的価格ソリューション
・知的労働者の仕事を奪う人工知能(AI)の開発動向と影響
・スポーツ業界から学ぶビッグデータ分析ビジネスの着眼と方法
・売れ残りチケットを収益化するビッグデータ分析と入札システム
・コンテンツ盗作発見システムへの需要と著作権の収益化モデル
※アクセスには正式登録後のID、PASSWORDが必要です。
これは正式会員向けJNEWS LETTER(2017年7月)に掲載された記事の一部です。 JNEWSでは、電子メールを媒体としたニューズレター(JNEWS LETTER)での有料による情報提供をメインの活動としています。 JNEWSが発信する情報を深く知りたい人のために2週間の無料お試し登録を用意していますので下のフォームからお申し込みください。