Nefunkční DC, dubnové patche, zapomenutý iSCSI target

Dneska to bylo pěkné. Chcípající DC (The RPC server is unavailable.), hromada záznamů v Eventlogu s ID 4227 a 4231, postupně umírající replikace mezi AD sajtami, uživatelé stěžující si na nedostupnost DFS namespace \\domena.tld\. Prostě zpráva z kategorie těch po ránu nejméně oblíbených.

Po chvíli bádání jsem našel https://community.spiceworks.com/topic/2000153-server-2012-r2-event-id-4231-tcpip-errors-followed-by-server-dropping-off-domain a následně https://social.technet.microsoft.com/Forums/windowsserver/en-US/8d29f351-6bc4-4ad8-9fcc-02d827e05536/ephemeral-port-exhaustion-event-id-4231?forum=winserver8gen.

Zde jsem našel jasné a stručné zhodnocení: "Probably caused with the combination of April patch and one ISCSI path down.  Look like it try to reconnect the LUN until all port are exhausted.  This is clearly a bug." A vskutku, na postiženém DC se kdysi používalo zálohování přes iSCSI. iSCSI target byl zrušen, ale na DC v iSCSI initiatoru nebyl target odebrán z Favorites a tudíž se na první záložce pořád objevoval ve stavu "Reconnecting". A jak bylo popsáno, postupně se vyčerpají všechny dostupné TCP porty a následně server hodně zblbne. Sice reaguje na ping, ale již neposkytuje podstatné AD služby, čímž vnáší chaos i do topologi replikace, do DFS atd.

V mém případě byla náprava jednoduchá - musel jsem server rebootnout, aby začal reagovat, odmazal jsem nepoužívaný iSCSI target, zrušil v první záložce navazování spojení. A následně jsem ještě službu Microsoft iSCSI Initiator přepnul z Automatic na Manual. O dost horší situace by nastala v momentě, kdy by iSCSI bylo nadále aktivně využíváno, ale z rozličných důvodů docházelo opakovaně k přerušení konektivity. To pak nevím, jak bych řešil - asi bych musel server pravidelně restartovat a čekat na Microsoft, až vydá hotfix. Protože jít cestou odinstalování hromady hotfixů by zase přinášelo jiná rizika.

Starší návod, jak detekovat únik portů v různých režimech je zde - https://blogs.technet.microsoft.com/clinth/2013/08/09/detecting-ephemeral-port-exhaustion/. Je to docela hutné čtení.

Zobrazit komentáře