AWSの停止:漠然としていますが、私たちの悪いことはAmazonを認めています

12月7日の広範囲にわたるAWSの停止は、Amazon独自のソフトウェアが原因であり、その応答は…独自のソフトウェアによって妨げられていたことが判明しました。アマゾンの事後分析は実際に私たちに何を教えていますか?

“href =” https://www.techrepublic.com/a/hub/i / r /2021/04/02 /83a2478fe18b-47e1-8ad4-5c893f0459fc / resize /770バツ/15ebae18c277459a46e96b97dfaf0927/ aws-amazon-logo-5g-phone-lg -ベルベット-5893。jpg “target =” _ blank “>aws-amazon-logo-5g-phone-lg-velvet-5893.jpg

画像:Angela Lang / CNET

12月7日のAWSの停止により、Amazon自身の運用が妨げられ、広範囲に渡りました。オフラインのクライアントの中には、漠然とした説明があります。それは私たちのせいでした。

より具体的には、snafuを引き起こしたのはAWS独自の内部ソフトウェアでした。これは、基本的にAWSのプライマリネットワークでの自動スケーリングエラーに分解され、内部ネットワーク上の多数のクライアント。これを使用して、モニタリング、内部DNS、承認サービスなどの基本的なサービスを運用します。

見る: 採用キット:クラウドエンジニア(TechRepublic Premium)

“これらのサービスの重要性のためこの内部ネットワークでは、このネットワークを地理的に分離された複数のネットワークデバイスに接続し、このネットワークの容量を大幅に拡大して、このネットワーク接続の高可用性を確保します」とAWSは述べています。残念ながら、AWSが何年も問題なく運用していたと述べたスケーリングサービスの1つは、接続アクティビティの大規模な急増を引き起こし、7時にAWSの内部ネットワークと外部ネットワーク間の通信を管理するデバイスを圧倒しました:30はPSTです。

さらに悪いことに、トラフィックの急増により、AWSの内部監視ダッシュボードに影響を与える大規模な遅延スパイクが発生し、ソースを見つけるように設計されたシステムを使用できなくなりました。混雑。それを見つけるために、AWSエンジニアはログファイルに目を向ける必要がありました。これは、内部DNSエラーの上昇を示していました。彼らの解決策は、DNSトラフィックを混雑したネットワークパスから遠ざけることでした。これにより、DNSエラーが解決され、一部の可用性が向上しましたが、すべてではありませんでした。

ネットワークの問題のある部分をさらに分離し、新しい容量をオンラインにするなどの追加戦略もゆっくりと進んだとAWSは述べています。その監視ソフトウェアの待ち時間により、変更の追跡が困難になり、独自の内部展開システムも影響を受け、変更のプッシュが困難になりました。さらに悪いことに、すべてのAWSの顧客が停止によって停止されたわけではないため、チームは「機能するワークロードに影響を与えないように変更を加えながら、非常に慎重に」移動しました。時間がかかりましたが、2時までに:22午後PST、AWSは、すべてのネットワークデバイスが完全に回復したと述べました。

AWSは、イベントの原因となったスケーリングアクティビティを無効にし、すべての修復がデプロイされるまでオンラインに戻らないと述べました。これは、次の2年間に発生すると予想されています。数週間。

AWSから何を奪うか ‘停止に関するステートメント

現状のままForresterのシニアアナリストであるBrentEllis氏は、この種のステートメントの場合はよくあることですが、特にAWSが非常にあいまいな場合は、多くの展開を行う必要があります。 「私が見ている問題は、説明がこの特定の失敗を回避するための計画を顧客に提供するのに十分具体的ではないということです。AWSでホストされているすべての人が失敗したわけではありません。他の人がそれに続くことができるように、それらのビジネスが異なって行っていることを理解することは有用です。現在、顧客は状況を是正するためにAWSを信頼する必要があります」とEllis氏は述べています。

Ellisはまた、Amazonの声明自体が、停止がどのように発生したか以外の理由で警告の原因になると述べました。これは、AWSの外部ネットワークと内部ネットワーク間の相互作用が問題になる可能性があることを示しています。それはそのような広範囲の問題を引き起こす可能性があります。

見る: チェックリスト:バックアップの管理方法(TechRepublic Premium)

それはクラウドは悪い賭けだ、とエリス氏は語った。彼は、クラウドが「ビジネステクノロジーを動かすのに非常に良い場所」であるという楽観的な見方を維持している。とは言うものの、Ellisは、クラウドの停止が再び私たちの頭に浮かんだので、ポップアップしている同様のリフレインに再びそれを戻します:リスク。

「一般的に言えば、[cloud providers]は、ほとんどの企業の内部インフラストラクチャよりも冗長で、安全で、信頼性がありますが、リスクがないわけではありません」とEllis氏は述べています。クラウドについて心配している人への彼の個人的なアドバイスは、多様化し、軽減し、調査することです。 「サービスを拡張して、複数のクラウド、またはクラウド+オンプレミスで実行できる場合は、それを実行します。それができない場合は、共有ビジネスリスクについて交渉し、[cloud provider]プラクティスについて問い合わせ、それらを作成するために交渉します。慣行は社内のレジリエンスのニーズに沿ったものです」とエリス氏は述べています。

Ellisは、企業が継続性を確保するために災害の範囲外にセカンダリデータセンターを設計する方法と同様のクラウドの復元力の計画について説明しています。エリス氏によると、クラウドはそのすべての面倒な作業を処理しますが、その企業のインフラストラクチャのはるかに広い範囲にわたって、単一の人的エラーまたは自動化エラーが拡大されます。

クラウドの成功を維持するためには、クラウドプロバイダーは、データの移動を容易にし、ワークロードを複製しやすくし、冗長性を単純化するために、何らかの方法で標準化する必要があると述べました。目標は、海外旅行の場合と同じような状況になることだと彼は言いました。別の種類のソケットに合うアダプターが必要ですが、基本的な操作原則は共有されているため、必要なのは移動する仮想アダプターだけです。クラウドAからクラウドBへ。

参照:iCloudとOneDrive:Mac、iPad、iPhoneのユーザーに最適なのはどれですか? (無料PDF)(TechRepublic)

Gartnerのクラウドサービスおよびテクノロジー担当副社長であるSid Nagは、特にハイパースケールプロバイダーが「大きすぎて失敗しない」ようになります。

「私たちの日常生活の多くはクラウド業界に依存しています。クラウドプロバイダーは、お互いをバックアップするための取り決めを練る必要があります」とナグ氏は述べています。エリスの推奨のように、究極の目標は、現代社会への本質的な有用性を実現し、競争力を低下させ、失敗しやすくなるように取り組むクラウド市場であるように思われます。

“それがクラウドユーティリティコンピューティングになる必要があります。そうなると、1つのクラウドで問題が発生したときにワークロードを移動するサービスを構築します[provider]簡単になる」と語った。

クラウドとすべてのサービスニュースレター

これは、XaaS、AWS、Microsoft Azure、Google CloudPlatformの頼れるリソースです。 、クラウドエンジニアリングの仕事、クラウドセキュリティのニュースとヒント。月曜日に配信

今日サインアップする

も参照)

  • マルチクラウド:チートシート(TechRepublic)5893
  • Apple iCloud:チートシート(無料のPDF)( TechRepublic)
  • 調査:ビデオ会議ツールとクラウドベースのソリューションがデジタルワークスペースを支配しています。 SMBであまり人気のないVPNとVDI(TechRepublic Premium)5893
  • クラウドコンピューティング:必読のカバレッジが増えました(TechRepublic on Flipboard
  • Related Articles

    Back to top button