【東証トラブル】富士通「メモリー障害時に冗長化が機能しないようファームウエアを設定してた」

1 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:45:50.67 ID:wn4xBL570


東京証券取引所で2020年10月1日に起きたシステム障害の全容が徐々に見えてきた。障害の原因は、富士通が納入したNAS(Network Attached Storage)のファームウエアの設定不備にあった。
2台構成のNASでメモリー故障に起因する障害パターンが発⽣した際、NASの冗長化が機能しない設定になっていた。

東証で10月1日に起きたシステム障害は、全銘柄の売買を終日停止するという未曽有の事態を招いた。
東証が取引を全面的にシステム化した1999年以降、システム障害で全銘柄の売買を終日止めたのは初めて。これにより、3兆円規模の売買機会が失われた。

NASのメモリー故障が発端
システム障害の発端は、東証の株式売買システム「arrowhead(アローヘッド)」のNASに搭載したメモリーの故障にあった。
業務サーバーで使うユーザー情報などを格納するNASは2台あり、Active-Active構成で冗長化していた。
このうちの1台のメモリーが故障し、本来なら1台のみの運用に自動で切り替わるはずが、うまくいかなかった。

原因はNASのファームウエアの切り替え用設定値の不備にあった。
東証はarrowheadを2019年11月に刷新する際、事前のテストで2台のNASの死活監視を途絶えさせて、自動で切り替わることを確認していた。
だがその際、今回の設定不備は見抜けなかった。設定作業そのものは富士通が実施していたという。

この記事は有料会員限定です。次ページでログインまたはお申し込みください。

https://xtech.nikkei.com/atcl/nxt/column/18/00001/04693/
レス1番の画像サムネイル

2 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:46:36.22 ID:wy+b27o/0
はい
3 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:47:27.06 ID:BN8QwkNi0
メモリーと言っているのに、目盛と思うジジ嫌い
4 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:47:37.54 ID:XM1qxnnQ0
定期点検してないの?
テストは?
5 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:50:25.00 ID:pzZjeDp/0
ハード障害を想定したテスト項目の抽出漏れ、だよな。
テスト工数貰えなかったのかい?
6 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:51:32.37 ID:15En4WiF0
冗長化という日本語を何とかしろや
わけわからんわ(´・ω・`)
14 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:57:50.85 ID:7cD65G1L0
>>6
あえて無駄を受け入れる
って意味だしそこまで難しいこ言葉か?
7 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:51:58.19 ID:QebmQnpd0
続きが気になる
8 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:52:13.95 ID:FRMY/V4B0
なるほど、つまり要約すればコンセントに足を引っかけた、と
24 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:03:47.45 ID:PSFsoTcO0
>>8
掃除のおばちゃんの不注意か、それじゃしょうがないな
9 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:52:22.73 ID:m78/1TTs0
まともな投資家は米国株しか触らんからね
日本株なんてどうでもいい
13 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:56:46.48 ID:gbO3gQaH0
>>9
バフェット「日本株買うわメッチャ買うわ」
34 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:17:45.96 ID:Tyq1X4p30
>>9
よう中卒引きこもり
10 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:54:21.21 ID:l6k2vl540
冗長とは無駄なもの。
機能してしまっては冗長化とはいえない
11 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:55:29.46 ID:mF5Vb9b50
アクティブアクティブなら
1号2号同じ仕事してたのか
19 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:01:52.96 ID:bwftPPUc0
>>11 その単語だけではそうとは限らないかな
非同期でもAAはあり得るけど同じとは言えないし、同期AAなら同じと言える
12 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:56:26.42 ID:008Of9Wm0
麻婆NAS
15 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:58:41.59 ID:wRACuCgI0
またまたご冗談を
16 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 14:59:23.63 ID:GEtQuwkL0
富士通の責任じゃん
21 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:02:51.00 ID:oV/h7VrJ0
>>16
そうは言えない。そんなこと考慮しなくていいから早くプロジェクト進めって東証が要請していた可能性もある
27 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:05:37.75 ID:bwftPPUc0
>>21 古い契約でも1年以内の納品物だしその言い訳は通用しないだろw
瑕疵を逃げる事はできんよ
23 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:03:37.68 ID:bwftPPUc0
>>16 それは確実
つうか自社の同システム環境で納期に間に合わない試験は逐次やるべきだった
どうせかなりボッタな保守組んでるはずなのに1日はさすがに叩かれてもしょうがない
17 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:00:30.33 ID:Ya8I3WYy0
NASのメモリ異常のテストとか、出来んわな
18 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:01:11.65 ID:15En4WiF0
帰国子女には難しいの(´・ω・`)
20 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:02:04.92 ID:ozisVamz0
🍆はやめとけって言ったろ
22 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:03:33.16 ID:PkoePXYV0
よし!
26 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:05:27.27 ID:/m7Blgja0
片方死んでもええように2つ動かしてたのに片方死んだだけで止まったとかギャグやん
NASも今まで何してたんだって思うやろ
29 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:11:02.62 ID:rEdK2hZV0
>>26
普通冗長化試験だとNICのリンクダウンやプロセス断の切り替わり位しかテストせんからな
メモリは流石にECCだろうし1箇所潰れても動き続けるやろ程度だったんじゃね?
むしろ両activeという恐ろしい事態は避けたいだろうし
31 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:12:52.19 ID:bwftPPUc0
>>26 まぁ理想ではそうなんだけど物理冗長は成功例が少ないからね
仮想冗長がようやく絵になって来たけど、物理冗長は「論理的には・・・」だよ

クリティカルな運用なら実機だ! って人多いからね

28 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:09:21.19 ID:Wenh3wDC0
冗長化=バックアップシステム
30 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:11:27.65 ID:rROQG7u10
サーバを二重化させたシステムって、こういう故障はだいたい切り替わらないよね。
死活監視をnicだけでやってると、本当に切り替わらない。
41 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:26:40.75 ID:f7qMZMIo0
>>30
そりゃあ切り替わらない事例しか報道されないからな
無事に切り替わってるシステムについてはそもそも語られない
48 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:42:17.79 ID:ud/GGr8T0
>>41 いやいやw たんにエラーが起きないだけだよw
32 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:14:08.92 ID:5a1TLJEo0
鯖管「ようやく俺たちの必要性が認知される時が来たか……」

これからは肉眼で異常を監視するのが鉄板になる

33 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:16:49.55 ID:tlUCQ0440
active-active構成だったの?

話がつながらないけど

38 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:21:19.97 ID:rqtLTGO20
>>33
最初の会見の時点でうまく切り替わらなかったので故障したほうのdisk装置を手動で切り離したって言ってたじゃん
active-activeなら整合してる
36 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:20:34.58 ID:zy5O3LkI0
さすがFさん
37 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:21:09.02 ID:Dzvokpza0
茄子とか冗長化とか意味が分かりません
39 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:22:26.05 ID:1Ywo0kwy0
設定ミスではないと思う

そもそものテスト仕様の漏れ
テストの項目にメモリ障害があって切り替わるかどうかのテストをしていないだけ

47 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:37:53.00 ID:tlUCQ0440
>>39
富士通はテストがうまくいくようにテスト項目を設定する会社なので
49 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:43:27.77 ID:tlUCQ0440
>>39
テストをやらなかったからバグを見つけられませんでしたって言うSEはレベルが低い
40 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:26:09.48 ID:TiPEEFnu0
メモリ障害を想定したテストってできるのかな
42 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:27:57.50 ID:f7qMZMIo0
>>40
「メモリ障害が発生したらハードからこういうアラートが上がるからそれを擬似して試験する」が関の山だろうなあ
46 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:37:42.27 ID:9syVg0VY0
>>42
それで十分や
53 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:55:13.86 ID:TiPEEFnu0
>>42
そっかー
やっぱsnmpなりログ監視なりで気づくしかなさそうだけど今回はそれじゃ拾えなかったんかね
43 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:31:19.25 ID:rEdK2hZV0
任意のタイミングでメモリを故障させられるゴッドハンドしかそんなテスト無理や
44 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:33:07.72 ID:GmNDDvxg0
要するにバックアップシステムが働かない設定にしてたんだろ。
バカやん。売買機会失った株主に弁償しろ。
45 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:33:30.70 ID:ESlnQNfa0
俺の株に影響なかったんでどうでもいい
50 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:44:40.62 ID:1Xdcp9Ti0
正直に足引っ掛けてコンセント抜いちゃったって言っちゃいなよ
52 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:51:07.06 ID:wNLPXzhH0
時代はクラウドですよ!
55 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:55:50.33 ID:rxe3tI5y0
冗長ってのは本来無駄があるって意味だから、これは真の意味での冗長化で間違い無いよ。
56 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:56:39.68 ID:siupxMc40
アローズみたいな呪われた名前にしてるからだろ
57 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:57:59.87 ID:yXxoqEj60
ファームのデフォルト設定がコレなの?
78 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:31:59.60 ID:sM4HCD1A0
>>57
デフォルトかどうかでもだいぶ印象変わるよな
58 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 15:59:06.11 ID:dgIiyHiP0
これって富士通が悪いのか?
61 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:03:02.20 ID:zYH8USD80
原因を追求するの面倒だから設定間違えましたというオチだろ
62 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:04:06.01 ID:rEdK2hZV0
大規模導入プロジェクトはユーザーと逐一意識あわせする
基本設計や詳細設計は全部ユーザーの承認を受ける
冗長設計も冗長試験手順も全部承認されてたら富士通だけの責任ではない
とはいえ日本文化的に富士通が謝るのが美しい幕引き
68 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:09:36.54 ID:dgIiyHiP0
>>62
外資系だとその辺をガチでやり合っちゃうんだよなw
63 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:05:00.40 ID:iHVzuIu+0
本当の原因はなんなんだろな
64 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:06:37.69 ID:mvdue2xp0
じ、冗長化
65 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:07:17.64 ID:0f/lGJSP0
そうかな?意図的に日本で売買させたくなかった勢力がいたとは考えられないだろうか?
69 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:11:30.37 ID:uw7z76xp0
70 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:17:37.81 ID:SUwk9KG70
認知症の新しい呼び名かと思った
メモリー障害児

認知症は「児」じゃないだろ、と思って気付いた

71 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:21:11.01 ID:sky551m40
下請技術者の低レベル化が激しくね?
言われなくても忖度してチェックとかするだろ
72 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:22:26.26 ID:ud/GGr8T0
>>71 無理だな
メモリエラーはどのメーカーも検証もチェックもしていないと思うぞ
73 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:24:41.19 ID:siupxMc40
>>71
忖度するデメリットがメリットを大幅に上回ってるのにやるわけないだろ
相応のカネ払えよ
74 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:28:00.90 ID:kerYWRrh0
本番環境で切り替えのテストやってなかったの?
そんなマヌケな事ってあるのか
77 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:31:51.73 ID:Fk+KLWWi0
>>74
単純な切り替え程度ならやってる
79 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:33:02.58 ID:kerYWRrh0
>>77
要するにテストケース漏れじゃん
75 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:29:26.70 ID:K/hyloEM0
ソフトエラーとかで頻発してOFFにしてたとか?
76 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:30:33.92 ID:sM4HCD1A0
具体的にどういう設定なのか知りたいな
それを見ないとなんとも言えない
80 名前:押しボタン式の匿名希望者 投稿日時:2020/10/08(木) 16:33:47.28 ID:CMOsMSBu0
もしかして民生のサーバ用マザボ・メモリ以下の信頼性なの?

コメント

タイトルとURLをコピーしました