システムパフォーマンス
概要
システムパフォーマンスは、OS・ハードウェア・アプリケーションを含むシステム全体の性能を分析・改善する分野です。書籍『詳解 システム・パフォーマンス 第2版』(Brendan Gregg “Systems Performance”)は、CPU・メモリ・ディスク・ネットワークなどを横断的に扱い、推測ではなく計測に基づく 方法論を体系化しています。
計測に基づく方法論
- 当て推量でチューニングせず、観測ツールで事実を把握してから対処する
- オブザーバビリティ / OpenTelemetry と相補的
USE メソッド
リソースごとに次の3つを確認する、ボトルネック特定の代表的手法:
- Utilization(使用率) — どれだけ使われているか
- Saturation(飽和) — 待ち行列・あふれが起きていないか
- Errors(エラー) — エラーが発生していないか
その他、ワークロード分析やドリルダウン分析などの方法論がある。
対象となるリソース
| リソース | 主な観点 |
|---|---|
| CPU | 使用率、ランキュー、コンテキストスイッチ |
| メモリ | 使用量、ページング、スワップ |
| ディスク I/O | IOPS、レイテンシ、スループット |
| ネットワーク | 帯域、レイテンシ、再送 |
応用例:LLM 推論のスループット(Daily フィード)
GPU 上の 大規模言語モデル 推論サービングも、飽和・スケジューリングを扱う性能問題です。
- Threshold-Based Exclusive Batching(EB+) — GPU 推論のバッチング戦略。混合バッチと排他バッチをワークロードに応じて動的に切り替えるハイブリッドスケジューラで、帯域制約 GPU では静的混合バッチ比で最大41.9%スループット向上(ICML 2026)。「いつどの戦略が勝つか」を計測で見極める好例(ローカルLLM の推論効率)。Threshold-Based_Exclusive_Batching_for_LLM_Inference
関連トピックとの接続
- DB 層の性能 → MySQLパフォーマンス(応答時間からの逆算)
- 計測基盤 → オブザーバビリティ / OpenTelemetry
- スケール設計 → クラウドアプリケーション設計原則
- LLM 推論の効率 → ローカルLLM / 量子化
関連ページ
参考資料
- 詳解 システム・パフォーマンス 第2版(Brendan Gregg)