Kogo winić za poniedziałkowe problemy z routingiem i rozłączającymi się sesjami BGP? Okazało się, że winowajcą jest czeski operator SuproNet i jego opłakane próby balansowania ruchu.
Najprawdopodobniej SuproNet postanowił wydłużyć ścieżki AS tak, by ustawić preferencje dotyczące ruchu sieciowego na własnym routerze BGP. Nie wiadomo jednak, dlaczego tak wydłużona ścieżka liczyła ponad 255 ASów. Efektem było uaktywnienie się znanego od lat buga w routerach Cisco związanego z obsługą ścieżek dłuższych niż 126 numerów AS i nowego buga, zapewne związanego z obsługą jeszcze dłuższych ścieżek. W konsekwencji router taki odbierał pakiet jako nieprawidłowy i kończył sesję, by po chwili ustanowić ją ponownie, rozesłać mnóstwo informacji do sąsiadów, odebrać znów "uszkodzony" pakiet i... wrócić do punktu wyjścia.
Sytuacja została dość szybko naprawiona, ale jest to dobra lekcja na przyszłość dla wszystkich administratorów BGP - skutki nieprawidłowej konfiguracji mogą być fatalne nie tylko dla własnej organizacji, ale także dla innych uczestników Internetu. Więcej informacji na temat tej awarii i ciekawą dyskusję w komentarzach znaleźć można w notatce Earla Zmijewskiego na blogu Renesys.