メニューを閉じる

テクノデジタルグループ

メニューを開く

2019.12.30

インフラ

原因不明のAWS ElastiCacheのレスポンス悪化とサポートの対応

AWSにあるアプリをNewRelicで観測してる。
ある日突然、突発的にレスポンスが悪化するように。本当に何もしていない。
犯人はRedis(ElastiCache)で、日に数度、数秒間レイテンシが10ms→5000msぐらいに悪化する。

 

CPU、メモリ、ネットワーク、などサーバーの数値はCloudWatchやNewRelicで異常は見られない。

 

該当のElastiCacheに接続しているEC2側で性能劣化などの異常は観測されず、複数のEC2及びアプリケーションが接続されているがそれら全てで同じタイミングで現象が発生している。

これはElastiCacheのネットワークに障害が発生しているに違いない。
私はビジネスサポートプランに入っているセレブなので、サポート問い合わせ。

 

返事に1週間。
「該当ノードでネットワークの疎通障害だったみたい。もう治ったと思うよ」
現象は続いてるので「治ってないよ」とレスした。

 

返事に1週間。
「だとしてもAWSとして対応が必要なレベルじゃない。フェイルオーバーしてみて」
MultiAZでもフェイルオーバーのダウンタイムは信用ならないのと、データ捨てていいキャッシュ用途だったで、別ノード作ってエンドポイント切り替えで対応。

RDBならまだしもRedisでレスポンス数秒って障害だと思うんだけど何なんだろう・・・

私はオンプレやIaaSが長く自分で全部見えてたので、クラウドのこういう不明さは未だに気持ち悪いと思っちゃう。
サポートのレスポンスも悪いので大事なサービスで原因不明の事がおきたら調査せずとりあえず逃げる対応とった方がいい。


【記事への感想募集中!】

記事への感想・ご意見がありましたら、ぜひフォームからご投稿ください!
  • こんな記事が読んでみたい、こんなことが知りたい、調べてほしい!という意見も募集中!
  • いただいた感想は今後の記事に活かしたいと思います!

感想フォームはこちら


【テクノデジタルではエンジニア/デザイナーを積極採用中です!】

下記項目に1つでも当てはまる方は是非、詳細ページへ!
  • 自分でアプリを作ってみたい
  • ITで世の中にワクワクを生み出したい
  • 使いやすさ、デザインにこだわったWebサイトを開発したい

採用情報の詳細はこちら


Qangaroo(カンガルー)

  • 徹底した見やすさと優れた操作性で、テストの「見える化」を実現。
  • テストの進捗が見える。開発がスマートに進む。
  • クラウド型テスト管理ツール『Qangaroo(カンガルー)』

【テクノデジタルのインフラサービス】

当社では、多数のサービスの開発実績を活かし、
アプリケーションのパフォーマンスを最大限に引き出すインフラ設計・構築を行います。
AWSなどへのクラウド移行、既存インフラの監視・運用保守も承りますので、ぜひご相談ください。
詳細は下記ページをご覧ください。

https://www.tcdigital.jp/infrastructure/

最近の記事