見出し画像

本当に給与の高いIT系企業がどこなのかを分析してみよう

上場企業の年収を比較する記事が話題になることがありますが、私たちは以前から「ランキング上位の会社の給料が高いのはその企業の平均年齢の高さのせいなのではないか?」という疑問を抱いていました。今回は独自の切り口でIT業界の最新の話題を提供するブログ「Publickey」さんがまとめたIT系企業の年収データを、弊社のツール「dataDiver」で実際に分析し、この疑問に迫ります。
シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。

先に結論だけ知りたい人向けのまとめ

IT系の上場企業は…

・平均年齢が1歳増えるごとに平均年収は17万円ほど高い傾向
・従業員規模が10倍に増えるごとに平均年収は100万円ほど高い傾向
・業種別ではパッケージソフトウェア/サービス系が平均して109万円高い

そしてこれらの条件のわりに給与が高めな会社ベスト5は…

・野村総合研究所
・オービック
・グリー
・ジャストシステム
・クックパッド

という結果になりました。

はじめに

毎年注目を集めているPublickeyのIT企業の給与に関する記事(https://www.publickey1.jp/blog/19/it_2019_si.html)について、私たちが以前から疑問に思っていたことがあります。

「ランキング上位の会社の給料が高いのは平均年齢の高さのせいなのではないか?若くしてこれらの会社で働いた場合に本当に給料が高いといえるのだろうか?」

読者視点でこの記事に興味を引かれる一つの理由は、仮に転職を考えるとして「この会社を受けてみよう」という判断材料になるから、というものでしょう。

しかし、単に「全体的な平均年齢が高いから平均給与が高い」というだけの会社は、見た目上平均給与が高くても、実際に転職した場合あまり良い待遇は見込めないかもしれません。むしろ、見た目上の平均給与は多少低くても「平均年齢は若い割には意外と給与を支払っている」という会社の方が、若い読者の方にとっては転職したときに良い待遇が見込めそうです。

さらにいうと、大企業に転職した方がいいのかそれとも少数精鋭の若い会社に転職した方がいいのか迷っている人もいるでしょう。

あるいは転職して特別に良い待遇が見込めるような業種があるなら、そうした業種に転職するためのスキルを磨いていった方が良いキャリアアップができるかもしれません。

こうした問題に対処するために、統計学では多変量解析と呼ばれる手法を用いることがあります。具体的には、上記の記事のデータに含まれる、従業員数、平均年齢と業種、というデータを組み合わせて、平均年収を当てるような数理モデルを作るわけです。

幸いなことに弊社のデータ分析ツール「dataDiver」はこうした手法を誰でも簡単に使えるように作られていますので、実際の画面を見せながら分析してみましょう。それによってIT業界での年収アップを目論む際に、「大企業に行くべきか中小企業に行くべきか」「どこの業界に行くべきか」「従業員数・業種・平均年齢といった”諸条件のわりに”、高い収入が見込めそうな会社はどこなのか」といったことがわかるようになります。

データの準備

まずはPublickeyの記事中に出ているテーブルをガサっとエクセルにコピペしてきます。これぐらいのデータならスクレイピング用のコードを書くよりコピペしてきた方が楽ですね。またPublickey内で丁寧に業種の分類がされていますので、この情報を持つ列を追加しておきます。

生データのスクリーンショット1

あとで詳しく述べますが、社会科学ではしばしば、今回で言う「企業ごとの従業員数」のように大きいものは極端に大きく(最大値は富士通の31,827人)、一方でデータに含まれるほとんどの企業ではせいぜい数百人程度、といったいびつなデータに対して「対数をとる」という処理をすることがあります。

「従業員数が1人増えるごとに平均して平均給料はいくら上がるのか/下がるのか」といった形で分析してしまうと、あまりに富士通のデータが大きな影響力を持ってしまいます。

これを「従業員数が10倍に増えるごとに平均して平均給料はいくら上がるのか/下がるのか」と考えれば、従業員数が30人の企業と300人の企業の違いや、300人の企業と3000人の企業の違い、そして3000人の企業と約3万人いる富士通のような会社の違いを「同じようなもの」として考えることができます。

もちろん実際にはこんな処理をした方が良い分析になるかは実際やってみないとわかりませんが、少なくともdataDiverを使って分析する限り「とりあえず思いついた準備はしておく」ことで、基本的には良い結果が得られるようになっています。

今回のデータはエクセルでも難なく扱える程度のサイズですので、とりあえず列を1つ挿入して、=log10( )という関数を使ってみるぐらいの作業をしてみてもバチはあたりません。

データの確認

このエクセルファイルをとりあえずCSV形式で保存し、弊社のdataDiverにアップロードすると、すぐにデータの全体像について把握することができます。アップロードされた時点でdataDiverはデータの形式を判別し、それに適した基礎集計とグラフを自動的に示してくれるからです。

まずは平均年収の項目をクリックしてみましょう。

データ確認画面のスクリーンショット1

全データの平均値、つまりPublickeyで言及されたIT系上場企業における「平均年収の平均値」が634.6万円ということがわかります。

最大で1200万円を超える企業も、最小で341万円しかない企業もありますがこれらは極端な値と言えるかもしれません。

この画面における「25%点」とは、下から全体の1/4あたりに該当する順位の会社が何万円の年収なのか、を示しています。逆に75%点は上から全体の1/4あたりに該当する順位の会社が何万円の年収なのか、を示しています。

25%点~75%点の間に「分析に用いる全企業の約半分が含まれる」ことから、これを「IT系上場企業の平均年収としてふつうの範囲」と解釈してもいいでしょう。つまり、「平均年収が536万円(25%点)~719万円(75%点)である企業はIT系上場企業として「ふつう」です。

一方で前述の通り、従業員数については注意が必要です。3万人以上いる富士通以外にもちらほらと従業員数1万人以上の大企業が存在しているため、これらに影響されて「平均従業員数は1606人」という結果になっています。

データ確認画面のスクリーンショット2

しかし、先程と同様に「ふつうの範囲」を確認してみると、143人(25%点)~1012人(75%点)ということで、概ね「百数十人から数百人ぐらい」というのがIT系上場企業の従業員数として「ふつう」なわけです。

社会科学の慣例上、こうしたいびつなデータに対しては対数をとる、という話を前程しました。実際に対数をとってみた結果が以下になります。ちょうど平均年収のときと同じように「まあまあ左右対称」で、富士通の「3万人以上」という極端な外れ値も、対数で言えば4.5ぐらいということになり、それほど結果に大きな影響は及ぼさなくなりそうです。

データ確認画面のスクリーンショット3

なお、データはこれらのように数値ばかりとは限りません。今回で言う業種分類のようにテキストで記述された、「何らかのカテゴリーに分類するもの」もデータ分析に用いることはできます。この場合はこちらのようにdataDiverは円グラフを描いて「どのカテゴリーが多いか」を示すとともに、「それぞれのカテゴリーに何%のデータが該当するか」の集計値も示します。例えばこの中で最も多いのはSIer系で、次いでネットベンチャー系、ということが見てとれます。

データ確認画面のスクリーンショット4

データの分析

BIツールをお使いの方なら、ここから「分析する」というと、横軸に何かの値をとって、縦軸に平均年収を取って、グラフの種類を指定して、念のため業種ごとに分けて…という作業を想定されるかもしれませんが、dataDiverはそんな面倒な作業を一気にすっ飛ばしてくれます。

平均年齢が大事なのか、従業員数が大事なのか。そして従業員数はそのままの値で良いのか、対数を取った意味があるのか、業種の中でもどの業種は特別高かったり低かったりするのか…そうした検討作業を最近のAIでも用いられているスパースモデリングという技術を応用して「一気にやってくれる」というのがdataDiverのウリの1つだからです。ですからユーザーが操作するメニューもたったこれだけしかありません。

分析設定のスクリーンショット


つまり、「会社ごとの、平均年収が高いか低いか、一体何が関係してるの?」と、この4つのプルダウンメニューでdataDiverに聞いてさえ頂ければ、その答えを勝手に探索して教えてくれるわけです。実際にやってみると、およそ十数秒ほどで次のような日本語の説明付きの分析結果が表示されました。

分析結果のスクリーンショット1

一番左の列にある「順位」というのが、会社ごとの平均年収を当てる上で重要な情報かどうかという順位を示しています。すなわちIT企業の年収を考える上で、

1)まずは最初に疑った通り従業員の平均年齢は確実に考慮した方が良さそう
2)従業員数については「10倍増えるごとに」といった対数で考えた方が良さそう
3)その次に考慮すべきは業種だが全部の業種に注目する必要はなさそう

といった考え方が良いのではないか、というわけです。

それぞれを詳しく見てみましょう。

まず1)について、企業に勤める方々の平均年齢が1歳増えるごとに約17万円ずつ年収が高くなる傾向にある、という結果が示されました。その右にある「とてもクリア」というのは、統計的な信頼性についての言及で、いわゆる統計的仮説検定をした場合に専門家が見ても「偶然の誤差ではないと判断するだろう」と言える場合にはこのような表示が得られます。

2)についても同様に解釈することができます。log10( )というエクセルの関数を使って対数をとった従業員数について「1増えるごとに約100万円高い」という結果ですので、従業員数が10倍になると、従業員ごとの平均年収が約100万円高いのだと解釈でき、これも偶然の誤差ではなさそうです。

最後に3)についてですが、8つの業種の中で年収を考慮する上で精度の向上に寄与するのは、「ネットベンチャー系、パッケージソフトウェア系、オンラインメディア系だと高い傾向」「組み込み開発系、アフィリエイトやSEO系だと低い傾向」という5つのみだという結果が得られました。逆に言えばそれら以外の業種すなわち、「SIer、ゲーム系、ホスティング系はふつうぐらい」という結果だということもできます。また中でも、「偶然の誤差ではないだろう」というのは「パッケージソフトウェア系はSIerなどと比べて109万円ほど年収が高い」という結果のみだ、ということになります。

つまりまとめると、IT系の上場企業は…

・平均年齢が1歳増えるごとに平均年収は17万円ほど高い傾向
・従業員規模が10倍に増えるごとに平均年収は100万円ほど高い傾向
・業種別にみるとパッケージソフトウェア/サービス系は平均して109万円高い

ということは言えそうです。

考察と「諸条件のわりになぜか年収が高い企業」ランキング

上記の結果から、IT系の上場企業への転職を考えている人はどのようなことに気をつければよいということがわかるのでしょうか?

例えば平均年齢が高い企業については1歳あたり年間17万円ほど割り引いて考えた方が良さそうです。つまり例えば平均年齢30歳で平均年収400万円の会社と、平均年齢40歳で平均年収570万円の会社があったとすれば、同じ年齢の人は平均すると同じような待遇で迎えられる可能性があるかもしれません。

また、現時点での高収入を目指すなら大企業に行った方が良さそうですが、10分の1の企業規模なのに平均年収の差が100万円以内で、今後10倍以上に成長しそうという会社があれば「後々意外とお得」である可能性も考えられます。つまり、従業員数30人で平均年収が500万円の会社が、諸々の条件を維持したまま10倍の企業規模に成長して従業員数300人になると、今回の分析結果から推測する限り平均年収が600万円ぐらいの会社になるのではないか?という仮説も成り立ちます。

そして最後に業種についてですが、パッケージソフトウェアを作って売る企業のみが偶然の誤差と言える範囲を超えて、平均すると従業員に109万円ほど高い給与を支払うことができている模様です。これを先程の従業員規模の結果と合わせて解釈すると、例えばSIerに勤める人が従業員数が10分の1のパッケージソフトウェア会社に転職した場合に、平均すると9万円ほど待遇が良い可能性もある、と考えることができます。

ここまでの分析結果が出てきたら「ではこのような条件を全部考慮した上で、わりと年収の高い会社」というものを見つけることもできます。dataDiverではこうして求められた「複数の変数を組み合わせてできた数理モデル」を簡単に吐き出すことができますので、「条件からするとふつうはだいたいこのぐらいの年収になるはず」という予測値より高い企業を見つければ、それが「諸条件のわりになぜか年収の高い会社」ということになるでしょう。

予測式のスクリーンショット1

この結果を最初のエクセルシートにコピペして、変数名のところをセル番号に直したり、カテゴリーからの係数をエクセルのSWITCH( )関数で書き換えるといったひと手間をかけてやると、すぐに「諸条件のみから推定される年収はいくらか」が算出できます。最後に実際の年収をこの値から引いた値でソートをかけてやれば、「諸条件のわりになぜか年収の高い企業ランキング」を得ることができます。

予測結果のスクリーンショット

実際にみてみると、野村総研は明らかにこのモデルでは説明できない水準の平均年収を支払っています。彼らは確かにSIer/システム開発という業務も行っていますが、リサーチやコンサルティングといったより知識集約型のビジネスを行っているという意味で、「ふつうのSIerとはちょっと異質」ということを示しているのかもしれません。

またオービックについてはSIerとして分類されているものの、OBIC7といったパッケージ製品も販売しているものと考えると、この229万円ほどのズレのうち109万円は「実質パッケージ開発業だから」というところで説明できるかもしれません。以下、グリー、ジャストシステム、クックパッドといった企業においても「平均年齢、企業規模、業種のわりに給料が高め」という結果になりました。

なお、この「予測値と実際の値のズレ」ですが、野村総研のような例外はあるものの、全126社中の86社(約68%)について±100万円以内、112社(約89%)については±150万円という精度で当てられていました。今回の分析はあくまで平均年収を、平均年齢、従業員数(の対数)、業種というごくシンプルな変数だけで説明するとしたら、という数理モデルですが、多少企業ごとに給与に関する考え方の違いはあるにしても、ある程度平均年収を推測することもできるようですね。

ただし、今回のデータに含まれない他の条件を考慮することで結果が異なってくることももちろん考えられます。あくまでこれらは我々が空き時間に自社製品を使って思いつきでやってみた程度の分析ですので、基本的に雑談のネタ程度に受け止めて頂ければ幸いです。

最後に少しだけ私たちの会社のご紹介を

実を言うと、私たちがこれらの分析結果を見ていちばんうれしく思ったのは、

「受託開発ではなく、パッケージソフトウェアを作って売る企業のみが偶然の誤差と言える範囲を超えて、従業員に平均すると109万円ほど高い給与を支払うことができている」

というものです。

私たちは、「一度ちゃんとしたプログラムを書けばそれを使いまわしてたくさんの人に使ってもらえること」がITの素晴らしいところだと考えています。技術者たちがデスマーチなどで疲弊せず、質の高い仕事をした結果からより大きい価値を生もうとすれば、「たくさんの人に同じものを使ってもらう」というパッケージソフトウェアの利点を見逃すことはできません。

残念なことにまだ日本から生まれた、世界レベルで「たくさんの人」に使ってもらえるようなソフトウェアはごく限られていますが、こうした会社が少しでも増えていけば、と考えています。そうすれば、コンピュータサイエンスの技術を身に着けた人々が疲弊せず、サステイナブルに、経済面でもきちんと報われるのではないでしょうか。

我々は現在社員11名の小さな会社ですが、それでも名だたる大企業の皆さまから多数お引き合いを頂いているのは、今回紹介したdataDiverをはじめ、データサイエンスの仕事の「めんどうなところ」を誰でも使えるように上手くパッケージ化することに成功したからでしょう。

弊社製品自体に興味ある方、そして一緒に働いて頂ける技術者の方についても現在募集中ですので、よろしければお問い合わせ下さい。

お問い合わせはこちら
採用ページはこちら

画像10