最善の決断は、最善の分析から。データ解析プラットフォーム ピーシーキッド アナライザー

ログイン

ピーシーキッド アナライザーの本サービス(製品版)と無料トライアルは、以下のボタンからログインしてください。

無料トライアル

ピーシーキッド アナライザーに興味を持たれたお客様のために、1週間の無料トライアルを用意しています。

※無料トライアルは、スマートホンでは正常に動作しない場合があります。パソコンでご利用ください。(本サービスも同様です。)
※無料トライアルでは、分析できるExcelファイルは1,000行までです。

使い方

ピーシーキッドアナライザーの使い方を、具体例を交えて説明します。

※説明文に現れる企業とデータは、すべて架空のものです。
※説明で使われるデータは小規模ですが、これは説明を分かりやすくするためです。 一般的に、ディープラーニングは大規模なデータに対して効果を発揮します。

無料トライアルの登録

ピーシーキッドアナライザーを使うには、本サービス(製品版)または無料トライアルを登録する必要があります。 ここでは、無料トライアルを登録してみましょう。

登録画面 図1: 登録画面
  1. この上にある緑のボタン「無料トライアル登録」をクリックします。
  2. ユーザー名、メールアドレス、パスワード、会社名、郵便番号、住所、電話番号を入力し、利用規約を読んで「同意する」のチェックボックスをオンにして、「次へ」をクリックします。
  3. 入力確認の画面が表示されるので、間違いがなければ「登録」をクリックします。
  4. 入力したメールアドレスにリンク付きのメールが届くので、リンクをクリックします。
  5. 登録完了の画面が表示されるので、「ログイン画面へ」をクリックします。
  6. ログイン画面が表示されます。

続いて、3種類の具体例を紹介します。 その後でログインしましょう。

具体例(1)新規店舗の売上予測
表1: 新規店舗の売上予測の学習データ
最寄り駅からの時間(分)道路の交通量(台/時間)駐車場の有無売上高(百万円/年)
75301100
146401140
68900160
10170090
09501190
8280160
75601100
9180140
72800140

レストランを複数店舗展開している企業が新規店舗を計画する場合、複数の候補の中から最も売上が期待できる店舗に決定すべきです。 そこで、既存店舗の売上のデータと、最寄り駅からの時間や交通量、駐車場の有無などのデータを学習すれば、それぞれの新規店舗の売上が予測できます。

学習データは、既存店舗(32件)とします。 Excelファイルはrestaurant_train.xlsxです。

ここで、駐車場の有無が0か1になっていることに注意してください。 このような二者択一のデータは、駐車場無し=0、駐車場有り=1、と表すとうまくいきます。 あくまでも「有無」なので、2台駐車できる場合も、100台駐車できる場合も、1です。

表2: 新規店舗の売上予測の予測用データ
最寄り駅からの時間(分)道路の交通量(台/時間)駐車場の有無
104401
83401
126700
92500

予測用データは、新規店舗候補(4件)とします。 Excelファイルはrestaurant_test.xlsxです。

ここで、予測用データには売上高の列がないことに注意してください。 売上高はこれから予測するものなので、予測用データから取り除きます。

具体例(2)機械の故障確率の予測
表3: 機械の故障確率の予測の学習データ
使用月数通算枚数(万枚)故障
992601
222100
722100
984701
55900
843701
511800
345301
524000

コピー機は、長期間使用すると故障しやすくなりますし、たくさんコピーしても故障するでしょう。 故障してから急遽サービスマンを派遣するよりは、故障する前に点検をし、予防的な部品交換をしたほうが、サービスマンを計画的に使えます。 そこで、コピー機が稼働しているか故障したかのデータと、使用期間や通算コピー枚数などのデータを学習すれば、稼働しているコピー機の故障確率が予測でき、確率の高い順に点検することができます。

学習データは、稼働しているか故障したコピー機(64件)とします。 Excelファイルはcopier_train.xlsxです。

ここで、「故障」が0か1になっていることに注意してください。 このような二者択一のデータは、稼働している=0、故障した=1、と表すとうまくいきます。

表4: 機械の故障確率の予測の予測用データ
使用月数通算枚数(万枚)
22210
72210
5590
76200
42370
27240
2860
51180
52400

予測用データは、稼働しているコピー機(28件)とします。 Excelファイルはcopier_test.xlsxです。

ここで、予測用データには故障の列がないことに注意してください。 故障はこれから予測するものなので、予測用データから取り除きます。

具体例(3)月々の来客数の予測
表5: 月々の来客数の予測の学習データ
年月来客数(千人)
2006年1月34
2006年2月38
2006年3月36
2006年4月34
2006年5月38
2006年6月48
2015年10月129
2015年11月119
2015年12月131

テーマパークで働くアルバイトを採用する場合、来客数が多い季節は採用を増やし、来客数が少ない季節は採用を減らす必要があります。 そこで、過去の月々の来客数を学習すれば、近い将来の月々の来客数が予測でき、それに応じて採用計画を立てることができます。

学習データは、過去の来客数(120か月)とします。 Excelファイルはtheme_park.xlsxです。

参考までに、このExcelファイルの年月は、日付(例えば2006/1/1)を入力してから、表示形式を年月(2006年1月)にしたものです。

予測用データは要りませんが、代わりに予測する期間を入力しますので、36(3年後まで)と決めておきます。

ログイン
ログイン画面 図2: ログイン画面

無料トライアルの登録直後であれば、ログイン画面が表示されていると思います。 そうでなければ、このページの最初にある緑のボタン「本サービス/無料トライアル ログイン」をクリックし、ログイン画面を表示します。

スタート画面 図3: スタート画面

メールアドレスとパスワードを入力し、「ログイン」をクリックするとログインできますので、「ピーシーキッド アナライザー スタート」をクリックすると、トップページが表示されます。

メニューの選択
トップページ 図4: トップページ

トップページでは、ディープラーニングと統計データ解析について、簡単に説明しています。 説明の仕方は、女性の吹き出しが基本的な内容、男性の吹き出しが詳しい内容です。 ピーシーキッドアナライザーを初めて使われる方は、一度お読みください。 そして、「次へ」をクリックしてください。

「問題の選択」画面 図5: 「問題の選択」画面

「問題の選択」画面では、以下の3種類のメニューから1つを選択します。

どれを選択したらよいか分からないなら、女性の吹き出しの質問に答えてください。

新規店舗の売上予測のように、時間以外のデータから数量を予測する場合は、「数量を予測したい」を選択します。

機械の故障確率の予測のように、確率を予測する場合は、「確率を予測したい」を選択します。

月々の来客数の予測のように、時間から数量を予測する場合は、「時系列データを分析したい」を選択します。

新規店舗の売上を予測する

ここでは、新規店舗の売上を予測します。 トップページで「次へ」をクリックし、「問題の選択」画面で「数量を予測したい」をクリックしてください。

「学習用アップロード」画面 図6: 「学習用アップロード」画面

「学習用アップロード」画面では、学習データが入力されたExcelファイルをアップロードします。 「参照」をクリックして学習ファイル(この場合はrestaurant_train.xlsx)を選択し、「アップロード」をクリックしてください。

「データ設定」画面 図7: 「データ設定」画面

「データ設定」画面では、必要に応じてデータの設定を行います。 学習データが以下のとおりであれば、設定は不要なので、「次へ」をクリックしてください。

「予測用アップロード」画面 図8: 「予測用アップロード」画面

「予測用アップロード」画面では、予測用データが入力されたExcelファイルをアップロードします。 「参照」をクリックして予測用ファイル(この場合はrestaurant_test.xlsx)を選択し、「アップロード」をクリックしてください。

「項目の選択」画面 図9: 「項目の選択」画面

「項目の選択」画面では、「何を予測しますか」(目的変数と言います)と「何から予測しますか」(説明変数と言います)を選択します。 「何を予測しますか」を変更すると、その項目は「何から予測しますか」でオフになります。 「何から予測しますか」は、「何を予測しますか」以外のすべてをオンにします。 ただし、

は、オフにしてください。 このデータの場合、「何を予測しますか」を「売上高(百万円/年)」、「何から予測しますか」をそれ以外のすべてとします。

「分析方法の選択」画面 図10: 「分析方法の選択」画面

「分析方法の選択」画面では、「ディープラーニング」と「統計データ解析」のどちらかを選択します。 「ディープラーニング」をクリックすると、ディープラーニング(具体的にはディープニューラルネットワーク回帰)が始まり、約3分後に結果が表示されます。 「統計データ解析」をクリックすると、統計データ解析(具体的には重回帰分析)が始まり、約20秒後に結果が表示されます。

新規店舗の売上予測の結果
「予測結果の表示」画面 図11: 「予測結果の表示」画面

表6: 新規店舗の売上予測の結果データ
予測値最寄り駅からの時間(分)道路の交通量(台/時間)駐車場の有無
94.321104401
66.51983401
84.050126700
108.61292500

「予測結果の表示」画面では、以下のように予測値が表示されます。 (ディープラーニングの場合、内部で乱数を利用しているため、毎回多少異なる予測値になります。) 「予測結果をダウンロード」をクリックすると、予測値がExcel形式でダウンロードされます。

また、予測精度と予測誤差も表示されます。 予測精度は決定係数で計算され、大きいほど精度が良いです。 このデータの場合、ディープラーニングの予測精度は80%前後、統計データ解析の予測精度は50%前後となり、ディープラーニングの方が精度が良いことが分かります。 一方、予測誤差はRMSE(Root Mean Squared Error)で計算され、小さいほど精度が良いです。 このデータの場合、ディープラーニングの予測誤差は16前後、統計データ解析の予測誤差は26前後となり、やはりディープラーニングの方が精度が良いことが分かります。 このデータは、「駐車場があれば、売上は交通量が多いほど増え、駐車場がなければ、売上は最寄り駅からの時間が短いほど増える。」という特徴を持っています。 統計データ解析では、このような場合分けはうまくできません。 一方、ディープラーニングなら、勝手に場合分けを行って、精度の良い売上予測を行います。

最後に、「トップページに戻る」をクリックすると、トップページに戻ります。

機械の故障確率を予測する

ここでは、機械の故障確率を予測します。 トップページで「次へ」をクリックし、「問題の選択」画面で「確率を予測したい」をクリックしてください。

「学習用アップロード」画面 図12: 「学習用アップロード」画面

「学習用アップロード」画面では、学習データが入力されたExcelファイルをアップロードします。 「参照」をクリックして学習ファイル(この場合はcopier_train.xlsx)を選択し、「アップロード」をクリックしてください。

「データ設定」画面 図13: 「データ設定」画面

「データ設定」画面では、必要に応じてデータの設定を行います。 学習データが以下のとおりであれば、設定は不要なので、「次へ」をクリックしてください。

「予測用アップロード」画面 図14: 「予測用アップロード」画面

「予測用アップロード」画面では、予測用データが入力されたExcelファイルをアップロードします。 「参照」をクリックして予測用ファイル(この場合はcopier_test.xlsx)を選択し、「アップロード」をクリックしてください。

「項目の選択」画面 図15: 「項目の選択」画面

「項目の選択」画面では、「何を予測しますか」(目的変数と言います)と「何から予測しますか」(説明変数と言います)を選択します。 「何を予測しますか」を変更すると、その項目は「何から予測しますか」でオフになります。 「何から予測しますか」は、「何を予測しますか」以外のすべてをオンにします。 ただし、

は、オフにしてください。 このデータの場合、「何を予測しますか」を「故障」、「何から予測しますか」をそれ以外のすべてとします。

「分析方法の選択」画面 図16: 「分析方法の選択」画面

「分析方法の選択」画面では、「ディープラーニング」と「統計データ解析」のどちらかを選択します。 「ディープラーニング」をクリックすると、ディープラーニング(具体的にはディープニューラルネットワーク識別)が始まり、約3分後に結果が表示されます。 「統計データ解析」をクリックすると、統計データ解析(具体的にはロジスティック回帰分析)が始まり、約20秒後に結果が表示されます。

機械の故障確率の予測結果
「予測結果の表示」画面 図17: 「予測結果の表示」画面

表7: 機械の故障確率の予測結果データ
予測確率使用月数通算枚数(万枚)
0.0%22210
44.8%72210
1.3%5590
60.8%76200
44.5%42370
0.0%27240
0.0%2860
1.4%51180
99.6%52400

「予測結果の表示」画面では、以下のように予測確率が表示されます。 (ディープラーニングの場合、内部で乱数を利用しているため、毎回多少異なる予測確率になります。) 「予測結果をダウンロード」をクリックすると、予測確率がExcel形式でダウンロードされます。

また、予測精度も表示されます。 予測精度はパーセンテージで計算され、大きいほど精度が良いです。 このデータの場合、ディープラーニングの予測精度は93%前後、統計データ解析の予測精度は90%前後となり、ディープラーニングの方が精度が良いことが分かります。 このデータは、「コピー機は、ある一定の期間使用するか、ある一定の枚数をコピーすると、故障しやすくなる。」という特徴を持っています。 統計データ解析では、このような条件の組合せがうまくできません。 一方、ディープラーニングなら、勝手に条件を組み合わせて、精度良く故障の予測を行います。

最後に、「トップページに戻る」をクリックすると、トップページに戻ります。

月々の来客数を予測する

ここでは、月々の来客数を予測します。 トップページで「次へ」をクリックし、「問題の選択」画面で「時系列データを分析したい」をクリックしてください。

「学習用アップロード」画面 図18: 「学習用アップロード」画面

「学習用アップロード」画面では、学習データが入力されたExcelファイルをアップロードします。 「参照」をクリックして学習ファイル(この場合はtheme_park.xlsx)を選択し、「アップロード」をクリックしてください。

「データ設定」画面 図19: 「データ設定」画面

「データ設定」画面では、必要に応じてデータの設定を行います。 学習データが以下のとおりであれば、設定は不要なので、「次へ」をクリックしてください。

「項目の選択」画面 図20: 「項目の選択」画面

「項目の選択」画面では、「何を予測しますか」(目的変数と言います)と「何から予測しますか」(説明変数と言います)を選択します。 このデータの場合、「何を予測しますか」を「来客数(千人)」、「何から予測しますか」を「年月」とします。

「予測期間の設定」画面 図21: 「予測期間の設定」画面

「予測期間の設定」画面では、予測する期間を入力して、「次へ」をクリックします。 学習データが月ごとで、36か月先まで予測したければ、「36」と入力します。

「分析方法の選択」画面 図22: 「分析方法の選択」画面

「分析方法の選択」画面では、「ディープラーニング」と「統計データ解析」のどちらかを選択します。 「ディープラーニング」をクリックすると、ディープラーニング(具体的にはリカレントニューラルネットワーク)が始まり、約3分後に結果が表示されます。 「統計データ解析」をクリックすると、統計データ解析(具体的にはSARIMA分析)が始まり、約20秒後に結果が表示されます。 統計データ解析の場合、例えば周期12の季節変動があれば、「季節変動」をオンにし、「季節変動の周期」に「12」と入力します。

月々の来客数の予測結果
「予測結果の表示」画面 図23: 「予測結果の表示」画面

表8: 月々の来客数の予測結果データ
年月予測値
2016年1月142.980
2016年2月149.657
2016年3月137.153
2016年4月126.024
2016年5月133.547
2016年6月169.655
2018年10月163.108
2018年11月138.749
2018年12月147.294

「予測結果の表示」画面では、以下のように予測値が表示されます。 (ディープラーニングの場合、内部で乱数を利用しているため、毎回多少異なる予測値になります。) 「予測結果をダウンロード」をクリックすると、予測値がExcel形式でダウンロードされます。

また、折れ線グラフも表示されます。 青が実測値、赤が予測値です。 このデータの場合、統計データ解析では、季節変動の有無や周期を入力した上で、

という特徴を見つけています。 一方、ディープラーニングでは、これらの特徴を勝手に見つけています。

最後に、「トップページに戻る」をクリックすると、トップページに戻ります。

データ設定の注意点

「データ設定」画面で「詳細設定を表示する」をクリックすると、データ設定のプルダウンメニューが表示されます。 最初は

となっていますが、プルダウンメニューで変更できます。

基本的に、数字は数量と見なされますが、設定するとカテゴリーと見なすことができます。 例えば、製品番号や社員番号は、数字であってもカテゴリーです。 また、

1.男性    2.女性

のようなアンケート項目の回答を、Excelに1や2と入力した場合、この数字はカテゴリーと見なすべきです。 ただし、

1.つまらない    2.ややつまらない    3.やや面白い    4.面白い

のようなアンケート項目の回答を、Excelに1~4と入力した場合、この数字は数量と見なしてもカテゴリーと見なしてもよいでしょう。 数量と見なすと、「4×つまらない=面白い」という無意味な情報がある反面、「つまらない<面白い」という意味のある情報が得られます。

基本的に、文字や記号はカテゴリーと見なされますが、設定するとゼロや「データなし」と見なすことができます。 例えば、人数の項目で、該当者なしを「-」と表した場合、文字や記号をゼロと見なすように設定します。 また、人数の項目で、不明を「-」と表した場合、文字や記号を「データなし」と見なすように設定します。

基本的に、空欄は「データなし」と見なされますが、設定するとゼロや特別なカテゴリーと見なすことができます。 例えば、人数の項目で、該当者なしを空欄で表した場合、空欄をゼロと見なすように設定します。 また、平日・休日の項目で、平日は空欄、休日は「休日」と表した場合、空欄を特別なカテゴリーと見なすように設定します。

3つ以上の識別

「問題の選択」画面で「確率を予測したい」を選択した場合、「項目の選択」画面で「何を予測しますか」(目的変数)は、基本的に0や1(真理値)の項目を選びますが、カテゴリーを選ぶこともできます。

もし、「何を予測しますか」(目的変数)として選んだカテゴリーが3種類であれば、3つの予測確率が計算されます。 例えば、何色のスマートフォンが売れるかを予測する場合、項目「色」のカテゴリーが「白」、「灰色」、「黒」の3種類ならば、「予測結果の表示」画面では「色=白」、「色=灰色」、「色=黒」の3列にそれぞれの予測確率が表示されます。

Excelファイル作成の注意点

ピーシーキッドアナライザーにExcelファイルをアップロードすると、自動的にデータ設定が行われますが、以下のような場合はエラーが発生したり、意図しないデータ設定になります。 あらかじめ列を削除したり、途中でデータ設定をしてください。

1. 空欄のみの列が最初や途中にあり、空欄を「データなし」と見なす設定の場合、すべての行が削除され、データが少なすぎるというエラーが発生します。 空欄のみの列が最初や途中にあるなら、その列を削除しておいてください。

2. すべて同じ数量またはカテゴリーの列は、学習データとして無意味なので、その列を削除しておくか、「項目の選択」画面で「何から予測しますか」(説明変数)をオフにしてください。

3. すべて異なるカテゴリーの列は、学習データとして無意味なので、その列を削除しておくか、「項目の選択」画面で「何から予測しますか」(説明変数)をオフにしてください。

4. 数字と文字や記号が混在している列については、最初に数字が見つかれば数量と見なされ、文字や記号は削除され、最初に文字や記号が見つかればカテゴリーと見なされ、数字もカテゴリーと見なされます。 数字と文字や記号が混在している列があるなら、「データ設定」画面で「詳細設定を表示する」をクリックし、設定が意図したものか確認し、必要に応じて変更してください。