SREとは?サイトリライアビリティエンジニアリングを実現するためのキモはトイル対策
Googleが提唱するSERとは?
サイトリライアビリティエンジニアリング(以下SRE)とは、Googleが提唱しているシステム開発と運用の方法論であり、組織論です。
ITサービスの信頼性を高めるために「開発者と運用者の垣根を超えてより安定的な運用管理を行っていこう」「結果として信頼性向上につなげよう」というもので、従来の運用業務だけでなく、アプリケーション側のプログラム改善も含まれます。
新たなプログラムの導入やテスト、稼働状況の確認など、開発・運用における作業は多岐に亘りますが、その中には手作業や繰り返し行う必要のある作業、長期的に見て価値がないもの、戦術的ではないもの、サービスの成長に比例して増加するようなもの、といった作業が含まれます。これらの作業がトイル(労苦)と呼ばれるものになります。
参画時間が限られる開発者にとって、「トイルの軽減」、これがSREの成功に向けた課題となります。
トイルの軽減に自動化は必須
トイルの軽減に加え安定稼働を実現するには、できるだけ手作業は避け、ヒューマンエラーが生まれにくい環境にしなければなりません。そのためには自動化が必須になります。
自動化を実現するには、対象のシステムを構成するサーバーやネットワーク機器などのデバイスの構成情報の収集から設定変更、ファイルの配布などをすべてソフトウェアで行わなければなりません。
例えば、アプリケーションの実行環境を構築するためには、作業ひとつひとつに複雑な手順が必要ですが、インフラの構成手順をスクリプトにより自動化することで、ミスが撲滅でき、迅速な環境構築が可能になります。
自動化ジョブを作成するための最適なフレームワーク
運用自動化ツールのPOLESTAR Automationでは、自動化ジョブを作成するための最適なフレームワークを、ジョブ作成ウィザードという対話式の画面で実現しています。
ジョブ作成ウィザードはファイル配布や点検、差分チェックなどの業務を分析したうえで最適化した最小限の画面で表示します。ほとんどの設定はマウスによるクリックやドラッグ&ドロップで実現でき、ファイル配布ジョブの作成には1分かかりません。図1にファイル配布ジョブ作成ウィザードによるジョブ作成手順を示します。
目的毎に、9種類のジョブ作成ウィザードが用意されています。図2にジョブ作成ウィザードの種類を示します。
サーバーの構築を例に取ると、一連の作業をスクリプトジョブとファイル配布ジョブ、バッチジョブを組み合わせて行い、テストサーバーと本番サーバーの環境の違いを監査ジョブで比較し、設定状況が正しいかどうか点検ジョブで確認する、といった自動化作業を、ジョブ作成ウィザードの利用により、短時間で行うことが可能になります。
また、監視ツールと連動しトリガーに引っかかったら、POLESTAR AutomationのRest-APIと連動して既存のジョブを実行させることもでき、SREでいうところのポストモーテム(検死)として、ログの収集、設定情報の確認などにもご利用いただけます。
図3に示すように、POLESTAR Automationをトイル軽減対策のプラットフォームとして利用していただくことで、SREの実現に向けた動きが加速できるのではないでしょうか。
まずは、評価版をご利用いただき、UIや機能をご確認ください。(評価版のダウンロードはこちら)
以上
日本版SREの実現に向けた進め方や求められる要件についてホワイトペーパーで解説しています。POLESTARのホワイトペーパーは、どなたでもブラウザ上ですぐに閲覧が可能です。よろしければあわせてご参考ください。
ホワイトペーパーVol.10「GoogleのSREを日本流にアレンジする」