2024.11.14
いまさらNode.jsを知ろう~環境構築も~
2019.12.30
インフラ原因不明のAWS ElastiCacheのレスポンス悪化とサポートの対応
AWSにあるアプリをNewRelicで観測してる。
ある日突然、突発的にレスポンスが悪化するように。本当に何もしていない。
犯人はRedis(ElastiCache)で、日に数度、数秒間レイテンシが10ms→5000msぐらいに悪化する。
CPU、メモリ、ネットワーク、などサーバーの数値はCloudWatchやNewRelicで異常は見られない。
該当のElastiCacheに接続しているEC2側で性能劣化などの異常は観測されず、複数のEC2及びアプリケーションが接続されているがそれら全てで同じタイミングで現象が発生している。
これはElastiCacheのネットワークに障害が発生しているに違いない。
私はビジネスサポートプランに入っているセレブなので、サポート問い合わせ。
返事に1週間。
「該当ノードでネットワークの疎通障害だったみたい。もう治ったと思うよ」
現象は続いてるので「治ってないよ」とレスした。
返事に1週間。
「だとしてもAWSとして対応が必要なレベルじゃない。フェイルオーバーしてみて」
MultiAZでもフェイルオーバーのダウンタイムは信用ならないのと、データ捨てていいキャッシュ用途だったで、別ノード作ってエンドポイント切り替えで対応。
RDBならまだしもRedisでレスポンス数秒って障害だと思うんだけど何なんだろう・・・
私はオンプレやIaaSが長く自分で全部見えてたので、クラウドのこういう不明さは未だに気持ち悪いと思っちゃう。
サポートのレスポンスも悪いので大事なサービスで原因不明の事がおきたら調査せずとりあえず逃げる対応とった方がいい。
【記事への感想募集中!】
記事への感想・ご意見がありましたら、ぜひフォームからご投稿ください!【テクノデジタルではエンジニア/デザイナーを積極採用中です!】
下記項目に1つでも当てはまる方は是非、詳細ページへ!Qangaroo(カンガルー)
【テクノデジタルのインフラサービス】
当社では、多数のサービスの開発実績を活かし、
アプリケーションのパフォーマンスを最大限に引き出すインフラ設計・構築を行います。
AWSなどへのクラウド移行、既存インフラの監視・運用保守も承りますので、ぜひご相談ください。
詳細は下記ページをご覧ください。
最近の記事
タグ検索