システムパフォーマンス

概要

システムパフォーマンスは、OS・ハードウェア・アプリケーションを含むシステム全体の性能を分析・改善する分野です。書籍『詳解システム・パフォーマンス第2版』（Brendan Gregg “Systems Performance”）は、CPU・メモリ・ディスク・ネットワークなどを横断的に扱い、推測ではなく計測に基づく 方法論を体系化しています。

計測に基づく方法論

当て推量でチューニングせず、観測ツールで事実を把握してから対処する
オブザーバビリティ / OpenTelemetry と相補的

USE メソッド

リソースごとに次の3つを確認する、ボトルネック特定の代表的手法：

Utilization（使用率） — どれだけ使われているか
Saturation（飽和） — 待ち行列・あふれが起きていないか
Errors（エラー） — エラーが発生していないか

その他、ワークロード分析やドリルダウン分析などの方法論がある。

対象となるリソース

リソース	主な観点
CPU	使用率、ランキュー、コンテキストスイッチ
メモリ	使用量、ページング、スワップ
ディスク I/O	IOPS、レイテンシ、スループット
ネットワーク	帯域、レイテンシ、再送

応用例：LLM 推論のスループット（Daily フィード）

GPU 上の大規模言語モデル推論サービングも、飽和・スケジューリングを扱う性能問題です。

Threshold-Based Exclusive Batching（EB+） — GPU 推論のバッチング戦略。混合バッチと排他バッチをワークロードに応じて動的に切り替えるハイブリッドスケジューラで、帯域制約 GPU では静的混合バッチ比で最大41.9%スループット向上（ICML 2026）。「いつどの戦略が勝つか」を計測で見極める好例（ローカルLLM の推論効率）。Threshold-Based_Exclusive_Batching_for_LLM_Inference

参考資料

詳解システム・パフォーマンス第2版（Brendan Gregg）