とある大規模インフラの基幹システムなんだけど、納品して以来、誰にも原因が分からない不具合が続いていたのでした。よく品質保証部を通ったなと不思議に思ってるんですがね。 現地で動かしてみないと分からない、って奴かな? 所詮は外注が格安で作ったシステムだからこんなもんなんだろう。しかし、数年もほったらかしにしておく神経がよく分からない。 で、今回、そのシステムの改修で俺が担当プログラマーになったわけだが、組み合わせ試験をしていると、出るんだわ、この現象が。現象を見ていて再現条件を想像。結果、ある条件をそろえると100%再現。復旧させるには、リブートさせるか、ある条件を1秒以内に整えれば復旧する。 なんで「誰にも分からない」のかよく分からない。見てて動作が変だったから、LANアナライザ突っ込んでハンドシェーク見てたら仕様書通りになってねーでやんの。試験したのか?これ。 そこからスタートして、2つの