J_Alexanderによる「HSReplayの統計の理解と解釈について」

この記事では、J_Alexander(@J_Alexander_HS)の書いた文章をまとめて訳した。

許可を取っていないので、怒られたら消すけれど、内容が素晴らしくて、日本のHSプレイヤーにもぜひ読んでほしいと思ったので、こうして訳した次第。一応注意として、もとが、20数ページあるので、かなりのボリュームがある。自分の英語の能力の問題でところどころ粗雑になっているところもあるので、暇なときに修正していく。

参考のためにGoogle翻訳をかけたものを置いておく。性能の問題でいろいろと変えているところもあるけど、全文を翻訳したわけではないので、こっちも見ると理解が深まるかもしれない。

(2020/06/20 追記)パッチにより環境の変化が予想されるので、必ずしも現環境に相応しい例ではない。貼ってある画像を基準に議論しているので、画像を見ながら読む上では差し支えないが、念の為注意。

www.dropbox.com

以下、本文。

HSReplayの統計の理解と解釈


(文章の約束)これは個人的に訳しつつ、まとめたものなので、詳しく知りたければ本人のtweetを辿って本人の文章を見てください。基本的に、トピックセンテンスと具体例を攫う形にする予定です。また、適当な章立てを付けて日本語として文章を見たときに整然となるように配慮したつもりです。()内は文脈を補ったり、内容をある程度日本語らしい文章で言い換えたり、読む上で必要な要素を付け足しています。


導入

この文章は、HSReplayのカードの情報の理解の仕方や、解釈の方法について書いたもの。 もし、ゲームプレイやデッキビルドを改善したいなら、HSReplayの統計データの持つ価値は極めて高いが、それを理解し、解釈する適切な知識や手段を持たなければ、その価値は失われてしまう。 これは、正しい結論を導く完全なガイドたりえないが、HSReplayを見て誤解を生むいくつかのバイアスを認知して、それを踏まえてデータを理解する基礎になる。

HSReplayのもつ無駄な情報について

HSReplayのプレミアムサブスクリプションに登録することは前提であるが、その中にも有用でない情報が含まれている。しかも、その有用でない情報が目立つところに表示されている。

「メタ」タブについて

f:id:sylvester5678:20200615231418p:plain

f:id:sylvester5678:20200615231431p:plain

このタブは"理論的に"どのデッキが勝っているかを表示する。これを書いた時点において、Malygos OTK Rogueや、Murloc PaladinがTIER2にいる。では、これらは優れたデッキだろうか?この問題について考える。

HSReplayのデッキタイプの推測に関する問題点

ある試合に注目してみる。Trackerをつけたプレイヤーとその対戦相手がいて、前者はデッキの内容を完全に把握できるが、相手のデッキの中身は使われたカードからしか知ることができない。 Malygos OTK Rogueであることを判別するときには、Malygosが使われたときや、凶悪なる一撃が使われたときである。しかし、祈願カードやKronxを使っただけでは、Malygos OTK Rogueではなく、Gala Rogueだと判別するだろう。(しかも、それだけではHighlander Rogueの可能性も拭い去れない。)Malygosが使われたときには、基本的にゲームに勝利できる。そこで、Malygos OTK Rogueの勝利はカウントされて、敗北はより一般的なGala Rogue等の損失として計上される。 他にも、卵-激怒ウォリの判別では、卵がプレイされると卵型と判別するが、序盤に卵をプレイできる、卵のもつ価値が最大限活きたときにそれが卵型だと判別されて、激怒ウォリの評価を下げ卵ウォリの評価を上げている。*1

「メタ」タブの勝率が加重勝率でなく、観測上の勝率であること

f:id:sylvester5678:20200615231455p:plain

Murloc Paladinは、Legend MetaタブではTier2だが、Legend1000 MetaタブではTier2から外れる。(20000games,wr 53.8%,p 0.7%→430games,wr 38.7%,p 0.08%と移り変わる。) より優れたデッキがより優れたプレイヤーによって使われることで、強い相手と対戦するときにそのランクが上がり、競争力を維持できる(訳していて意味が分からなかったので少し補足すると、優れたデッキは上位のメタでも十分に勝率を上げることができて、TIERとして相対的に浮上するということだと思う。)。 プレイするフィールド(レジェンド上位1000,ダイヤモンドとか)は、誰と対戦するかという点で平等でないので、それがデータにバイアスを与える。

「メタ」タブの「マッチアップ」タブでは、EWRという形で加重勝率(存在率×勝率の和を取ったもの)を表示している。もちろん、これも先に述べたアーキタイプの分類の問題で全幅の信頼を置けるわけではない。

f:id:sylvester5678:20200615231508p:plain

デッキトラッカーを使用するプレイヤーの技術は、使用していないプレイヤーよりも高い。これは、加重勝率ではなく観測上の勝率を使用すると、全体的に数値が上がることに現れるバイアスの一つである。

HSReplayのもつ有用な情報について

f:id:sylvester5678:20200615231706p:plain

ここでは、「デッキ」タブで特定のデッキリストのパフォーマンスを確認する。このタブでは、トラッカー側のデータだけが表示される。つまり、先に述べた対戦相手の判別の問題を含まない。(ラファームのような技術的な問題を除いて。)

これを見ると、一般的な型だけでなく、個々のカードの強さを評価できる。

ただし、このタブでは観測上の勝率を表示するので、対戦相手の分布のバイアスを受ける。

デッキタブで勝率順に並び替えて、一番上にあるデッキは理論的には最高のデッキである。そこに関するバイアスの問題が2つ存在する。

f:id:sylvester5678:20200615231730p:plain

分散による問題

TempoDHを例に見ると、126の異なるリストが並ぶ。非現実的な仮定ではあるが、すべてのリストの真の勝率が同じであるとする。つまり、各リストを無限にプレイしたとき、その勝率が55%であるとする。

このとき、各リストで500試合行うとき、すべてが同じ勝率になるだろうか?その程度の試合数では、一部のリストが幸運にも確率のそれよりも高い勝率になることが予想される。端的に言うと、記録された試合数が多いほど、データの信頼性が高まる。

最高勝率のデッキのほとんどは、記録された試合数が少ない傾向になる。試合数が少ないほど、運によって勝率が変わってしまうからだ。

ソースバイアスの問題

まず、Thijsがあるデッキリスト(これは、デッキに獣シナジーを持たないが、Snowflipper Penguinを含むとする)を作成し、ストリームでプレイしたとする。それによって、コミュニティで使う人が現れ、それがサンプルを形成する。そして、上手いGMが同じデッキで、Snowflipper PenguinをWispに変えたものを使い、それが競技的なグループで使われたとする。これらのリストは対等であることに注意する。

このとき、後者のリストの方が、前者のそれよりも勝率が高くなる。それは、使用する人のスキルの水準が高いからである。

これがソースバイアスの核となる部分である。スキルの水準が異なるそれぞれ孤立した集団が異なるリストを無作為的に使うことがある。これによって、ほぼ同一のリストで大きく勝率が異なる場合がある。

技術を要するデッキが極めて上位で使われHSReplay上で強そうに思えても、データが指し示すのはそのデッキのパワーと使う人のスキルの組み合わせで勝率が決まるのであって、デッキのもつ真の力、或いは要求されるスキルについて知ることは困難である。

HSReplayのもつ最も有用な情報について

f:id:sylvester5678:20200615231749p:plain

TempoDHの使用回数の最も高いリストの詳細を表示してみる。それを下にスクロールすると、SampleSize,Timeframeなどが表示されている。これは、デッキタブで表示されているものとは異なる場合がある。そこで、統計は常に最新ではなく、メタゲームの変化を説明するとは限らないということに注意しなければならない。Timeframeの問題は、ユーザー側で変更できないものの、デッキタブと個々のページで同じものを取っているものを見つけてその問題を回避できる。今回は、同じものを探してそれを開く。

f:id:sylvester5678:20200615231757p:plain

f:id:sylvester5678:20200615231806p:plain

  • マリガンWR:そのカードが最初の手札にあるときの勝率
  • キープ:そのカードをキープする割合
  • ドロー時WR:ある時点でそのカードを引いたときの勝率
  • プレイ時WR:ある時点でそのカードを使ったときの勝率
  • 保持ターン:そのカードが手札にあるターン数を平均したもの
  • プレイターン:そのカードがプレイされた平均ターン

f:id:sylvester5678:20200615231824p:plain

(説明が雑だけど、これは見れば分かると思うので雑に書いています。)

PlayedWRは、気にする必要はない。これは、ゲームに勝利するときに使うもの(マリゴス)、ボードが取られているときにしか使わないもの(乱闘)など、いろいろと性質が異なるので、その情報に価値がない。

Mulligan WRについて

MulliganWRで上から並べると、保持するべきカード、すべきでないカードがわかる。緑のカードはデッキの平均勝率を超えていて、黄色はほぼ平均、オレンジと赤はそれを下回っている。しかし、マリガンは平均以上でキープ、以下で交換というようなものではない。これを決めるには、対戦相手とキープ率も考慮する必要がある。

対戦相手をWarriorに変更する。このとき、そのクラスに複数のアーキタイプがあると、マリガン情報は役に立つとは限らなくなる。それぞれのアーキタイプで、別のマリガンが必要になる。

また、マリガンの決定には、条件付きであったり、最適でないマリガンが含まれていて、それは一目では分からない。(サテュロスの監督者,冷たき影の紡ぎ手などはキープされるが平均勝率より低いなど)

これは、DrawnWRに影響する。後述するが、平均的なパフォーマンスが低いにも関わらず、それが標準的にキープされているものは、よく調べてなぜかを考えたほうがよい。

一方、クラスで絞ると、サンプルサイズの問題が再び起こる。メタの10%がウォリアーなら、サンプルの90%がカットされていて信頼性が下がる。サンプルサイズが十分あることを確認してデータの詳細を比べる必要がある。

条件付きキープの例として、異端効果のカードがある。魔眼光、グルダンの髑髏、霊視力等はそれのパフォーマンスに比して、予想よりも高い確率で保持される。これは、端にあるとき、キープされているからだ。残念ながら、HSReplay上でこれが上手く行っているか判断できない。(端キープのときだけを取り出すことができないので。)

同様に、条件付きキープも適切に測定できない。暴走はそのパフォーマンスが低いものの、卵ウォリではキープされやすい。これは、マッチアップの良し悪しに依存しない。これは、暴走にあった卵(対象)や内なる怒り(暴走の発動条件を誘発する)がセットキープされたときにキープされる。暴走と内なる怒りはそのパーセンテージがかなり一致する。

このような論理は、キープ時勝率の高くないカードでも適用できる。勝率が平均より高いからといって、常にキープしなくてもよい。HSReplayは、カードの組み合わせ、キープの組み合わせができた理由を教えてくれないので、理解するかどうかは自分にかかっている。

また、MulligunWRが高いが、キープ率が低いものがある。これは、キープ率の低さに起因するサンプルサイズの問題であることが多い。

Drawn WRについて

f:id:sylvester5678:20200615231842p:plain

次に、DrawnWRについて考える。これは、カードの全体的なパフォーマンスについて詳しく知ることができる。ゲームの早期、中期、末期において持つカードのパフォーマンスを示す。例えば、アージェントの従騎士は1,2ターン目にはパフォーマンスを発揮するが、しばらくして価値が下がると、それをプレイしたときの勝率が下がる可能性がある。要するに、DrawnWRは、個々のカードの相対的なパフォーマンスと重要性について全体的な知見を与えてくれる。

f:id:sylvester5678:20200615231902p:plain

まずは、その色を見てみる。TempoDHは、ほぼすべてのカードが黄色とオレンジである。実際、引くカードが増えるほど、試合が長引いていることになるので、試合に負ける可能性が増えていく。対称的に、Galakrond Rogueはほとんどが緑である。つまり、試合が長引けば長引くほど、有利な試合展開であることを示す。(環境における平均的な試合ターンがあって、それより試合が短いデッキは、カードを引くこと自体がある意味損失だと考えられ、それより長いデッキは、カードを引くことが試合としての利得になるということ。)*2

f:id:sylvester5678:20200615231916p:plain

以上の議論から、デッキのタイプがビートダウン(アグロ)であるとき、そこに全体として現れる傾向がわかる。

個々のカードのDrawnWR

DrawnWRが低いものを抜いて、よりよいものに変えればよいというような単純な話ではない。まず、「すべてのカードが無作為に引かれているか?」を自問自答する必要がある。これが満たされていないなら、バイアスがかかっている。

f:id:sylvester5678:20200615231927p:plain

例えば、特定のカードがドローされやすい状況である。ウォリアーのイカリや、海賊の隠し武器である。これらのようないわゆるサーチカードを含むとき、DrawnWRに普通のそれとは異なった評価をしなければならない。

上の例では、財宝荒らしはDrawnWRに関してよさそうに見えるカードである。しかし、実際には、海賊の隠し武器が優れたカードであり、それから海賊として引き込まれているにすぎない。デッキの海賊はすべてDrawnWRを引き上げられている。つまり、海賊は他のカードとは別の評価軸で評価しなければならない。財宝荒らしは他の海賊と比して最悪の数値であり、外すべきカードかもしれない。外すことがよい考えかは明らかではないが、もっと評価する価値がある。

無作為にドローされないカードは、別に評価されなければならない。極端な例はクエストである。クエストは必ず引き込まれる。つまり、クエストのDrawnWRはデッキ全体の勝率と一致する。つまり、カードがひかれやすいほど、デッキの平均に近づいていく。

少し、マリガンについての議論を振り返る。ウォリアーは、海賊の隠し武器が一般的に96.6%キープされる。マリガンでキープされやすいカードは、キープされにくいカードよりもドローされやすいカードということになる。海賊の隠し武器はそのDrawnWRがデッキの平均勝率に近づいている。爆弾ウォリアーは、全体の勝率がデッキ内のカードのDrawnWRに比して相対的に低い、いわゆる試合が長引くほど強いデッキであり、カードを引けば引くほど勝利しやすいことになる。

つまり、表示上の海賊の隠し武器の勝率はデッキの真の強さを過小評価する。それは、デッキ全体の平均に近づき、典型的なDrawnWRになってしまう。とても強力に見える海賊の隠し武器は、ある程度その真の力が隠されてしまう。

これに似たことがスペルドルイドのクリスタルパワーでも考えることができる。対DHにおいて、もっともキープされるカードである。一方、対DHはもっとも悪い対戦相手であり、クリスタルパワーはその最も相性の悪い試合でキープされDrawnWRを大きく引き下げる。

カード間のシナジー

ラクロンドデッキは、ガラクロンドを活用するために、祈願カードをデッキに入れる必要があるが、祈願カードは弱くデザインされている。心血注ぐ献身者は、ローグにおいて、最悪のカードの内の一つだが、ガラクロンドは最高のカードである。残念ながら、デッキ全体で、1,2枚の祈願カードを抜いて、ガラクロンドのパフォーマンスを下げる代わりに、他のカードを入れるべきかについて型にはめた方法論は、適切なサンプルサイズと、ソースバイアスを受けていないリストの比較以外に持ち合わせない。この場合、HSReplay上ではそのような方法はないので、全体のDrawnWRと、他のカードを比較することしかできない。(この辺は訳が取りにくかったので、割と適当)

実際のマナコストと有効的マナコスト

DHの場合は、どのカードを引くのも完全に無作為であるから、これを見ていく。次の念頭におくべきソースバイアスは、カードのコストに関すること(実際のマナコストと、有効的マナコストの両方)である。

f:id:sylvester5678:20200615232023p:plain

サテュロスの監督者、悪魔変身を見てみる。両方とも、同じ56.9%のDrawn勝率である。したがって、どちらも同じく強力で重要なカードだと結論づけるかもしれない。しかし、そうではない。

これは、DHの平均試合ターン(7.5ターン)に関係する。監督者は、3マナで、2,3ターン目にプレイされ、その4,5ターン後には試合が平均的には終わっている。つまり、監督者は、4~5ターン試合を継続させる(「アップタイム」)ポテンシャルをもち、それをプレイすることが、試合に影響をもたらしている。

一方、悪魔変身は、4,5ターン目に詠唱し、カードの価値を完全に発揮するには2回ヒーローパワーを使わないといけない、遅いカードである。監督者よりも、その有効な時間が短く(詠唱ターンが試合の後半で、終了ターンに近いため)、そのカードが試合に寄与を与えるターンが平均的に少ない。しかし、これらは同じDrawnWRをもっている。実際のところ、悪魔変身はデッキに与える寄与が大きいと結論付けられる。監督者を使えるターンよりも短いのに、同様の影響を試合に与えているからだ。

マナコストの高いカードは、使えないターンが多いので、DrawnWRが低くなる傾向がある。したがって、それらが同じDrawnWRをもつなら、それは試合にもたらす寄与が、使えないターンが長く続いたとしても試合において高い重要性をもつことを意味する。また、MulliganWRが高いなら、そのカードのデッキへの寄与について知ることができる。(例えば、ガラクロンド、Dr.Boom、フックタスク船長、とかとか)

実際のマナコストだけを見るということではない。有効的マナコストというのもある。これは、実戦でプレイされる平均的なターンについて述べている。DHにおいては、アルトルイスは、4コストのミニオンだが、平均7.7ターンにプレイされる。有効的マナコストは他のカードと組み合わせるので、実際のマナよりも高くなる。これはアルトルイスのDrawnWRを他と比して高めている。これは、ドルイドの獰猛なる咆哮のようなフィニッシャーにもいえる。これはイセラよりも後にプレイされ、高いDrawnWRをもつ。もし必要なら、除去札として、早くプレイすることもできるが、大抵そのようには使われない。咆哮は、最重要なカードであることを指し示す。

このコストのバイアスは、遅いデッキでは問題にならない。試合を長引かせるGalakrond Priestは、短期決着を狙うTempo DHに比べて、コストバイアスの問題は小さい。平均ターン数13のGalakrond Priestは、5コストのカードでも7ターン有効なターンがあり、DHでは、2.5ターンしかない。

これらをすべて考慮して、カードを入れ替えることを検討できる。DHのデッキを例にとる。グレイブの達人のDrwnWRは個々のゲームでプレイ可能なターンが短いので、比較的低い。したがって、当然それを抜くことを考えるかもしれない。DHの試合は、平均7.5ターン続き、達人は、コインを保持しているか、武器はあるか、二連斬はあるか等に依存して、5,6ターン目にプレイ可能になる。そして、プレイ可能ターンはおよそ2になり、これがDrawnWRを引き下げる。*3

しかし、達人を抜いてよりコストの低い使用可能なターンの長いカードに入れ替えてもそれはデッキを改善することを意味しない。結局、それでも7.5ターンプレイすることは変わらない。そして、後半のターンで、何をプレイし、どのくらいの頻度でそれを使えるかを考えなければならない。アージェントの従騎士は早期には良さそうに見えるが、5,6ターンにプレイするには貧弱である。デッキ全体のパフォーマンスを引き上げるのにその影響が必要なら、低いDrawnWRのカードは低パフォーマンスのカードということにはならない。 そして、それを入れ替える必要はなく、その勝率であることの原因を考え、突き止める必要がある。

カードXをYに入れ替えるとき、そのデッキの必要とする寄与の大きさがどのくらいであるかを理解し、パフォーマンス、影響をそれぞれ比較する。TempoDHのゲームが中、後半に偏っていると思うなら、それらに起因するカードを入れ替えてより高速にすることができる。遅い試合が一定数あり、それに応じた候補を探すなら、達人と役割の近い役割を埋めてくれるカードと比較すれば良い。(ドローや低コストカードのような異なる役割のカードではなく。)

どんな形であっても、その明らかなパフォーマンスの低下の言い訳を考えるのではなくて、そうなった理由を考えて、その答えを探すほうがよい。場合によっては、カードが低いパフォーマンスであるようにしか見えなくても、そのデッキの重要な役割を果たしていることがある。(もちろん、単にパフォーマンスが低いこともあるが) その両者を区別する方法を理解しなければならない。

まとめ

これはHSReplayのデータの使い方を理解する完全なガイドではないものの、その基礎になってくれることを願っている。HSReplayは、プレイヤーがプレイを改善するために利用可能なたくさんのデータをもっているが、それから上手く情報を抜き出すのは必ずしも簡単ではない。

正しい答えを見つけるのは大抵簡単ではないが、一つの重要な改善点は、間違った答えに惑わされないことだ。(自分の好きなプロが言ったから云々、好きなカードなので云々、あるデッキが嫌いだから云々とか)間違った答えを信じようとすると特に惑わされてしまう。データの解釈に惑わされることは、正しい答えを得たか、正しいことをしているか等に関わらず、特にデータの解析が簡単にいったと思っているときには、危険である。

ファインマンの名言を引用して、「the first principle is that you must not fool yourself - and you are the easiest person to fool.」(第一原則は、自分自身を騙してはいけないということと、自分自身が一番騙しやすい人であるということだ。)

*1:08/19補足:デッキのタイプ予測は、実際に自分のリプレイを見たときに、対戦相手のリストを予測して表示する機能からも確認できる。

*2:08/19補足:少し極端な例で考えるとわかりやすい。仮に勝つとき平均10枚引いて、負けるとき20枚引くとする。このとき、どのカードも等確率で引くとすれば、勝率50%のとき、すべてのカードのDrawnWRは33.3%になる。このように、アグロデッキの平均DrawnWRは50%より小さくなりそうだし、コントロールはその逆になる。DrawnWRはデッキ内部の相対的な勝率を見ることが肝要。

*3:この辺の話について、補足。平均的にゲームがnターンで終わるとき、仮にマナxのカードがデッキにあるとき、軽減できないなら、n-xターンの間でしか平均的に使えない。そこで、n-xが小さいとき、ゲーム終了までの短い期間でしかゲームに影響を与えないので、引いたときの試合への寄与は、低コスト、つまりn-xが大きいカードよりも小さくなる。