サイトリライアビリティエンジニアリングを実現するためのキモはトイル対策

2021年12月14日

サイトリライアビリティエンジニアリング(以下SRE)とは、Googleが提唱しているシステム開発と運用の方法論であり、組織論です。
ITサービスの信頼性を高めるために「開発者と運用者の垣根を超えてより安定的な運用管理を行っていこう」「結果として信頼性向上につなげよう」というもので、従来の運用業務だけでなく、アプリケーション側のプログラム改善も含まれます。

新たなプログラムの導入やテスト、稼働状況の確認など、開発・運用における作業は多岐に亘りますが、その中には手作業や繰り返し行う必要のある作業、長期的に見て価値がないもの、戦術的ではないもの、サービスの成長に比例して増加するようなもの、といった作業が含まれます。これらの作業がトイル(労苦)と呼ばれるものになります。
参画時間が限られる開発者にとって、「トイルの軽減」、これがSREの成功に向けた課題となります。

トイルの軽減に加え安定稼働を実現するには、できるだけ手作業は避け、ヒューマンエラーが生まれにくい環境にしなければなりません。そのためには自動化が必須になります。
自動化を実現するには、対象のシステムを構成するサーバーやネットワーク機器などのデバイスの構成情報の収集から設定変更、ファイルの配布などをすべてソフトウェアで行わなければなりません。
例えば、アプリケーションの実行環境を構築するためには、作業ひとつひとつに複雑な手順が必要ですが、インフラの構成手順をスクリプトにより自動化することで、ミスが撲滅でき、迅速な環境構築が可能になります。

運用自動化ツールのPOLESTAR Automationでは、自動化ジョブを作成するための最適なフレームワークを、ジョブ作成ウィザードという対話式の画面で実現しています。
ジョブ作成ウィザードはファイル配布や点検、差分チェックなどの業務を分析したうえで最適化した最小限の画面で表示します。ほとんどの設定はマウスによるクリックやドラッグ&ドロップで実現でき、ファイル配布ジョブの作成には1分かかりません。図1にファイル配布ジョブ作成ウィザードによるジョブ作成手順を示します。

ファイル配布ジョブ作成ウィザード>大きい画像を見る
図1:ファイル配布ジョブ作成ウィザード


目的毎に、9種類のジョブ作成ウィザードが用意されています。図2にジョブ作成ウィザードの種類を示します。

フジョブ作成ウィザードの種類
図2:ジョブ作成ウィザードの種類


サーバーの構築を例に取ると、一連の作業をスクリプトジョブとファイル配布ジョブ、バッチジョブを組み合わせて行い、テストサーバーと本番サーバーの環境の違いを監査ジョブで比較し、設定状況が正しいかどうか点検ジョブで確認する、といった自動化作業を、ジョブ作成ウィザードの利用により、短時間で行うことが可能になります。
また、監視ツールと連動しトリガーに引っかかったら、POLESTAR AutomationのRest-APIと連動して既存のジョブを実行させることもでき、SREでいうところのポストモーテム(検死)として、ログの収集、設定情報の確認などにもご利用いただけます。

図3に示すように、POLESTAR Automationをトイル軽減対策のプラットフォームとして利用していただくことで、SREの実現に向けた動きが加速できるのではないでしょうか。

トイル対策プラットフォームとしてのPOLESTAR
>大きい画像を見る

図3:トイル対策プラットフォームとしてのPOLESTAR

まずは、評価版をご利用いただき、UIや機能をご確認ください。
以上