<< 前のエントリ合通ロジのトップページへ次のエントリ >>
2017年06月28日

【知 識】NII Sansan の「サンプル名刺データ」を研究用データセットとして無償提供


国立情報学研究所(NII)とSansanは研究コミュニティーへの研究用データ提供で提携し、NIIがSansanの所有する名刺情報のサンプルデータを「Sansan データセット」として研究コミュニティーに無償提供する。

提供するデータは、Sansanが2016年に実施したデータサイエンティスト向け分析コンテストで使用された、サンプル名刺をスキャンした画像データ3841枚分。最大9種類の項目(会社名、名前、役職、郵便番号を含む住所、電話番号、FAX番号、携帯電話番号、電子メールアドレス、webサイトのURL)の情報を含んでいる。

このデータはSansanが自社で作成した架空の名刺であり、特定の企業や個人につながる情報や人物を特定できる個人情報は一切含まれていない。「Sansan データセット」は、NIIのデータセット共同利用研究開発センターの情報学研究データリポジトリ(IDR)を通じて提供される。

NIIは 2010年にIDRを設置し、様々な企業や機関が保有する各種のデータセットを受け入れて研究コミュニティーに提供を行ってきた。2015年 4月には、情報学研究に有用なデータセットを整備して研究者に提供するとともにデータセットの構築とその活用基盤に関する研究開発を行うデータセット共同利用研究開発センターを新設し、研究コミュニティーへのビッグデータの提供をさらに強化するとともに、大規模な実データと最先端情報技術を活用したデータサイエンス研究の加速に取り組んでいく。

Sansanは、通常のドキュメントに比べて非定型でフォントやフォントサイズ、レイアウトなどのフォーマットが決まっていない名刺を年間数億枚も正確にデータ化しなければならない。そのため、画像処理、機械学習のスペシャリストやデータサイエンティストがテクノロジーを進化させるような専門性の高い研究に取り組み、独自開発した名刺データ化システムと人力オペレーションを組み合わせたデータベースを構築している。

個人情報である名刺はデータソースが限られるため、大学や研究機関での名刺の画像解析の研究は活発化しにくいのが現状。こうした背景から、Sansanでは昨年にデータサイエンティスト向け分析コンテストを開催するなど、オープンイノベーションを積極的に進めてきた。今回、NIIを通じてサンプル名刺データを広く研究コミュニティーに提供することにより、画像処理や機械学習の研究の発展に貢献できることを期待している。NIIでは、今後もデータセットの拡充とデータセット共同利用の深化のための研究開発に取り組み、より多くの研究者が自由な発想で研究に利用できるようにするためのシステムプラットフォームの構築を進めていく。

※ 製品名および会社名は、各社の商標または登録商標です

投稿者:gotsuat 09:40| 知識