「点検」の自動化ができるのは、POLESTAR Automation
ワイドテック プロダクト企画のYです。
半導体不足が昨今の話題ですが、半導体チップ、特にCPUやGPU、SoCといった「心臓部」とされるものの多くは、台湾からやってきています。その安定した供給を長期にわたって支えてきた陰の立役者? とも言われるのが、「乖乖(Kuai Kuai)」という台湾のコーンスナック菓子です。
おそらく10数年前頃から、まずITインフラの管理者を中心に、緑色の袋に入った「乖乖(ココナツ味)」を置いておくと、トラブルに見舞われずに済む、という一種の都市伝説が広まりました。お守りのような扱いですが、今では世界有数の半導体組立メーカーであるTSMC(台湾積体電路製造)をはじめ、多種多様な工場の生産ラインなどにも、緑の「乖乖」の袋が置かれるようになっているそうです。
この「乖乖」伝説、去る4月には、ついに英BBCを通じて世界に発信され、台湾のSNSでは「台湾の最高機密が海外にバレた!」と大いに話題になった模様です。
先日、その「乖乖」が手に入ったので、さっそく「願い事」を油性マジックで書いて、POLESTARチームのテスト用サーバー・ネットワーク機器群の上に置いてみました。
■システム障害対策の基本「モニタリング(監視)」
さて、システム障害への対策というと、弊社でもパートナーとなっている「Zabbix」をはじめとする、モニタリング(監視)ツールの導入がまず思い出されると思います。
商用や社内の基幹システムにおいては、何らかの監視手段がほぼ例外なく導入されていることでしょう。
監視の基本といえるのは、システムが停止していないかどうかを把握するための「死活監視」でしょう。監視ツールを用意するまでもなく、pingコマンドを発行するスクリプトを一定の間隔で起動させるだけで、死活監視はできます。
実際、規模の小さいシステムで、こうしたpingスクリプトだけでシンプルに死活監視を済ませているというケースも結構耳にしますが、Zabbixなどを用いると、定期的な死活監視を自動でやってくれる上に、ログも見やすい形で残りますので、個人的にはツールによる監視をおすすめしたいと思います。
Zabbix(他の商用監視ツールなども同様かと思いますが)には死活監視だけでなく、サーバーのCPUやメモリの占有率、ネットワークのトラフィックなど、システムのパフォーマンスに関わる部分の監視機能(性能監視、パフォーマンス監視などと呼ばれます)もあります。ログ取得はもちろん、リアルタイムのグラフ表示機能もありますので、何か異常があればそこから読み取ることもできます。
しかし、監視という作業の主目的は、発生した障害を発見することにあります。死活監視は、システムダウン発生に気づくのが目的です。復旧作業はその後です。
性能監視については、長期にわたるパフォーマンスのモニタリングから、システムに内在する異常を予見する手段にはなりえますが、こちらもパフォーマンス異常の発見のほうが本質といえます。
■障害を未然に防ぎ、障害発生前に対策を立てられる…「点検」の意義
自動車の定期点検、工場の生産ライン点検のように、機械・設備の分野では「点検」が一定の間隔で行われます。消耗部品なども多く、いつかは壊れる、突然予兆もなく壊れてしまうこともある、という前提のもと、壊れそうな箇所を事前に発見したり、部品を事前に交換したり、という目的で実施されるものです。
サーバーやネットワーク機器など、ITインフラを構成する機器群についても、「点検」は壊れる前にやっておいた方が良いに越したことはありません。もちろん、ソフトウェアの脆弱性点検、OSやパッチのバージョン情報収集、デバイスごとの構成情報の定期的な収集といった、ITインフラに特有のものもあります。
POLESTAR Automationが、発売以来他の運用自動化ツールとの違い、差別化ポイントとしてアピールし続けてきたのが、「点検」に特化した機能の存在です。
手作業で実施していた運用タスクを自動化するために、スクリプトやコードを書き、それを対象のサーバーやネットワーク機器に送って回す、というのが運用自動化ツールの基本的な仕組みであり、POLESTAR Automationも同様です。
POLESTAR Automationにあって、他のツールにはあまり見られないのは、点検に特化したダッシュボードと、点検のための豊富なジョブテンプレート群、そして結果収集やExcel形式ファイルへの出力、レポーティング機能などです。
毎日、毎週など、一定間隔で点検ジョブを回し、その結果を収集・分析すれば、個別のデバイスの障害予測も立てやすく、システム全体の安定運用にもつながるでしょう。
障害を未然に防ぎ、実際に障害が起きる前に対策を実施できる。それがITインフラ運用管理における「点検」であり、POLESTAR Automationは「点検」を最も容易に実施できる運用管理ツールのひとつです。
■絶対に壊れないシステムなど、ありえない!
ハードディスクドライブなどを除き、可動部品の少ないITインフラ機器は壊れにくく、停電など外部的な要因がない限り、数年間一度も電源を落とすことなく、半永久的に稼働し続けるものも少なくないでしょう。
しかし、壊れにくいとされる突発的な負荷、それに伴う発熱などによって積み重なるダメージが、思わぬ故障を呼ぶこともあります。
システム障害に備えるには、監視ツールの活用とともに、日頃からの点検が有用です。
システムの安定運用に、POLESTAR Automationをお役立てください。
<おすすめコンテンツ>
・活用事例:点検ポリシーを設定してみる!