なんだかんだうまくマイニングできていると後どのくらい続けられるのか気になる。そこで、増設にチャレンジして、熱と安定運用について考えてみた。
(今週の一枚)春の味(pixiv)
マイニングパワーアップ
前回、RTX2070を頑張って弄ってハッシュレートを~43MH/s程度まで上げた。それ以降もう少し条件を細かく設定して44MH/s以上まで安定的に動かすことができるようになったんだけど、それ以外のグラフィックボードではどの程度の性能を発揮できるのかちょっと気になった。
そこで家にある他のPCからグラフィックボードを引っこ抜いてマイニングPCにくっつけてみることにした。グラフィックカードは新たに2枚(GTX1660super)でメーカーはPalit(以下、p1660s)と玄人志向(以下、k1660s)のものとなる。枚数が多くなるので、今回実験ということで新たにライザーカードを購入して接続してみた。
とりあえず、くっつけてからアフターバーナーで調整してみると合計が100MH/sを超えた(やったね!)。48時間運転してもこの値は変わらず、上の図のように各ハッシュレートはp1660sが31MH/sでk1660sが~25MH/s程度となった。消費電力の効率から見ると、RTX2070が0.37MH/Jなのに対して、p1660sが0.38MH/Jでk1660sが0.32MH/Jとなった。他の方が公表しているハッシュレートよりもかなりいい成績になったと思う。興味深いのはk1660sだけが効率がとても悪く理論値の8割程度の性能しかでなかった。ちなみにライザーカードやライザーケーブルによる延長でマイニング効率の変化はなかった。
palitと玄人志向でこんなに効率が違うのはなんでかなぁと上の表を見ると、k1660sのメモリーのデータロードが極端に悪く、ここが原因だと考えられる。そこで、GPU-Zでボード内の情報をつらつらと見ると、はっきりとわかるのはVRAMのメーカーが違い、RTX2070はSamsung、p1660sはMicron、k1660sはHynixであった。その他電圧関連はほとんど同じだったので、ボードのチップセット配置が同じだとすると、このメモリーの品質が原因の可能性があると思う。
SK Hynixのメモリーに関して調べると、DRAMについての低評価が多くみられる(しっかりした検証も多い)。低評価の原因はどうも定格での動作については問題ないが、クロックアップした際の機能が他のメーカーよりも著しく劣ることが原因らしい。おそらくVRAMにも同じことが言え、オーバークロックを前提とした今のマイニング方法ではうまく機能しないと考えられる。
ゲームなどの画像関連などの性能では大きな変化がなかったので、メモリー情報伝達がとても多いマイニング特有の問題なのかもしれない。購入の際、出来るだけSK Hynix製は避けるべきだろうと思う。
…ということで、GTX1660Superには元のPCに戻ってもらう(お疲れ様)。
熱は大丈夫なのか
マイニングについて調べていると、効率が落ちる一番大きな問題は熱であるとわかる。各フォーラムやRedditを見ても、目玉焼き機とかトースターみたいなアチチな機械と言うネタから、歴史的な経緯でクラッシュについて熱の原因に踏み込んだ議論まであり、Nvidia自体多くの時間をその解決に費やしているようである。
部品から限界を知る
では、実際にこのホットプレートはどの程度でぶっ壊れて、どの程度なら安定的に運用できるのかについて考えると、ボード全体の評価ではなく、各部品の耐久限界に行きつく。
グラフィックボードの回路図を参照すると、その部品内容はGPU、メモリー、各種抵抗、ダイオード、電解コンデンサー、そして冷却機構に大別出来る。構造上問題になりそうなのが、GPU内部とボード全体に配置された電解コンデンサーである。メモリーや抵抗と違い運用時に熱でショートする可能性を常に持っているからである。そして、精密機械に使われる高分子電解コンデンサーやセラミックコンデンサーのメーカーシートを見るとだいたい出てくる値が「105℃2000時間」と言う値である。
つまり、理論上一番ボトルネックになる部品で105℃なら2000時間(約3か月)動作を保証しますよということになり、これがボードの限界を示す。
また、こういった精密部品には10℃2倍則という経験則があるようで、これを当てはめると、理論上、95℃なら6ヵ月、85℃なら12ヵ月、75℃なら24ヵ月、65℃なら48ヵ月は保証されると考えていいと思う。
同様のことがGPUサーバー(大量のGPUを一か所で運用する)についても言えるので、この値で大体あっているのではないかと思う。
そのため、2年間マイニングをしようと思うなら、ボードのホットスポットの温度を75℃以下に、4年間なら65℃以下にしないと途中で高い確率で壊れてしまったり、著しく性能が悪くなることが予想される。
RTX3080/3090クラッシュ問題から
2020年の年末にRTXの最新機種でクラッシュ問題が報告された。
内容をかみ砕いて書くと問題が出るボードと出ないボードが存在して、それはGPU内にある電解コンデンサの種類(POSCAP(導電性高分子タンタル固体電解コンデンサ)とMLCC(積層セラミックコンデンサー))の違いが原因であり、MLCCが多いほど不安定になるようである。POSCAPは高いけど耐熱性にすぐれ、MLCCは安いけど耐熱性は低いようである。部品そのものか、基盤回路の設計の問題かはまだはっきりしないが、少なくとGPU内部でもコンデンサーが問題でクラッシュすることが分かっているので、ドライバがあまり整っていないRTX3080/3090でのクロックアップ連続使用は危険であることが分かる。
いずれにしろ、マイニング安定運用するためには通常使うよりもできるだけGPUとVRAMを冷やす必要があるので、ファンの回転数を出来る限りあげる必要があるし、その他の冷却方法を追加でつける必要があるみたいである。
www.youtube.com (内部のサーマルパッドを交換する方法もある)
方法としては水冷化が一番わかりやすい方法であるが、高価で管理が大変なので、次善案として、バックプレートのあるボードなら100mm×60mm程度のヒートシンクを薄い熱伝導性両面テープで取り付けて(ないなら小型の金属をいくつも付けてもいい)熱を逃し、その上に小型のケースファンを付けて冷却する方法がある。つまり、2次的に背面にも排熱構造を作る。2000円程度の出費で、最大10℃程度の冷却ができるようなので、挑戦する価値はあると思う。
推奨設定と排熱
Nicehashでお勧めされている設定があり、特にRTX系の場合、メモリーのオーバークロックである。
前提となる状態から、電圧を落としてGPUの能力を制限して、メモリークロック数を1000~1300MHz程度をめどにオーバークロックすると場合によっては2倍近い効率を得ることができるそうだ。しかし、前述のようにRTX30系は排熱にGPU内に物理的欠点を持ち、メモリーにおいても排熱に問題があるため、メーカーとしてあまり高度のクロックアップは推奨されていない。
理論上はRTX3080一枚で96MH/s(0.43MH/J)というすごい効率でマイニングができるということであるが、あくまで理論値であり、この状態で回したら排熱問題で半年も持たずにぶっ壊れるのではないかと思う。
これは何もRTX3080/3090だけに言える問題ではなく、2016年以降に製造された補助電源を持つようなボード全般に言える要素であるらしく、効率化を優先するあまり火事になったり、故障で大損したりするケースが多いようなので、最新機種になればなるほどハッシュレートよりもボードの温度を見ないといけないようである。
終わりに
調べてみると、日本語での情報が異常に少なく、海外のフォーラムにしかない情報がたくさんあった。大金を出して個人でマイニングやっている方がたくさんいるのに、こういった機器問題の共有がほとんどされていないのは結構大変なんじゃないかと感じた。
…まぁ、焦らずにほどほどでやっていこう(^ω^)
(続き)
☆エロ同人CG販売中

