인터넷 사용 회선이 100여대 정도 되는 네트워크에서 스위칭 허브 기기 문제로 인해 네트워크 루핑 장애가 발생했고 1주일 동안 다른 일 못하고 이것에만 매달리며 겪었던 장애 해결 내용에 관해 다뤄보겠습니다.
네트워크 루핑이란?
네트워크 루핑 장애 현상은 네트워크 통신 데이터 단위인 패킷이 네트워크 내에서 목적지에 도달하지 못하고 끊임없이 순환하는 현상을 말하는데 마치 회전문에 갇혀 계속 도는 것에 비유할 수 있고 네트워크 패킷이 동일한 경로를 계속해서 순환하면서 네트워크에 부하를 주는 현상을 말합니다.
네트워크 루핑 발생 원인
먼저 네트워크 구성에 대해 말씀드려야 할 것 같습니다.
- 인터넷 망 공급자 KT 회선(공인 IP)
- 방화벽
- L3 스위치(메인 스위치)
- 각 층별 스위치
- 기기(PC, 노트북, AP) 연결
그리 복잡할 것 없이 간단하며 VLAN 구성 없이 단일 내부망으로 구성하여 사용하고 있습니다. 할당된 공인IP가 여러 개 있으며, 외부에서 접속 가능한 웹 서비스 운영을 위해 공인IP를 추가적으로 사용하려고 했는데요.
첫 번재로 KT에 문의해보니, 자기네 KT 장비에서 방화벽으로 회선을 추가적으로 연결하면 사용 가능하다고 하여 KT 장비 -> 방화벽 장비에 회선을 연결했는데 잠시 뒤 인터넷이 먹통이 되어버렸습니다.
방화벽 관리 업체 문의 결과 설정 없이 다이렉트로 연결하게 되면 기존에 연결된 WAN 회선과 충돌이 발생한다는 말을 듣고 바로 제거하였고, 잠시 뒤부터는 정상적으로 인터넷 연결이 되었습니다.
다음날 정도부터 하나 둘 인터넷이 안된다는 직원들이 늘어나고, 불특정 다수의 PC에서 인터넷 끊김 현상이 심하게 나타나게 되었습니다.
네트워크 루핑이 미치는 증상
일반 사용자의 경우 인터넷이 느리다고 느낄 수 있으나, 게이트웨이 또는 DNS 서버로의 ping 신호가 자주 끊기게 되는 현상이 네트워크 루핑으로 인해 발생됩니다.
또한 DHCP 기능을 사용해 IP 주소를 자동으로 받아오는 환경의 경우, DHCP로부터 IP 주소 할당을 못 받는 경우가 생깁니다.
이 경우 수동으로 IP 주소를 설정해 주면 정상적으로 인터넷이 가능해집니다.
이 현상 때문에 초반에는 방화벽의 문제로 인식하고 펌웨어 업데이트 및 재부팅을 진행했지만 해결되지는 않았습니다.
사용자 PC에서 랜 드라이버 삭제 후 재부팅하여 일시적으로 해결될 수 있지만 어느 정도 시간이 지나면 재발하게 됩니다.
네트워크 루핑 문제 해결 과정
위에서도 말씀드린 것처럼 우선 개별 PC에서 랜 카드 드라이버 재설치 등으로 하였으나, 일시적일 뿐 근본적인 해결책이 되지 않았습니다.
아래는 제가 시도한 방법들이며 이로 인해 일정 시간 동안은 인터넷 및 IP 주소 받아오는 문제가 해결되었던 임시 해결책입니다.
- 개별 PC 윈도우 장치 관리자 랜 드라이버 삭제 후 재부팅
- 수동 IP 설정(정상적이나 근본적인 해결 방법은 아님)
- 포티넷 방화벽 콘솔 dhcp 기능 리셋(명령여 -> execute dhcp lease-clear all)
- 포티넷 방화벽 관리자 페이지 상위 트래픽 기기 확인(특별한 이상 트래픽 감지되지 않음.)
위 방법을 며칠동안 하면서 전혀 해결되지 않아 이제는 물리적인 방법으로 실제 장애 요인이 발생하는 장비를 찾기로 했습니다.
방화벽 바로 하단에 붙은 메인 스위치 장비에 연결된 케이블을 모두 제거한 후 노트북을 연결하여 게이트웨이로 ping을 날리고, 케이블을 하나씩 연결하여 튀는 구간이 발생하는지를 모니터링해 봅니다.
위 이미지에서 우측의 광케이블은 층별 메인 스위치가 연결되는 부분인데 여기도 하나씩 빼서 확인해 봤습니다.
1층으로 연결된 광케이블을 연결하자 ping이 간헐적으로 끊기며 튀기 시작했고, 이때부터는 1층의 메인 스위치에서 위와 같은 방식으로 모든 케이블 제거 후 하나씩 연결하여 위치를 파악했습니다.
문제는 스위칭 허브
ping이 튀기 시작하는 케이블의 위치를 가보니, 8포트 스위칭 허브를 사용하고 있었습니다. 일명 유선 공유기 장비로 아웃렉(벽에 고정되어 랜 케이블 꼽는 곳)의 회선이 부족하면 8포트 스위칭 허브 장비를 이용해 랜선을 더 확보하기 위해 사용하는데요.
원인의 스위칭 허브에는 아웃렉에서 나온 메인 회선을 두 개 모두 연결해놓은 상태였습니다.
이 경우 네트워크 루핑 현상 발생 가능성을 상당히 높여줄 수 있다고 하는데요. 바로 장비를 철수하였습니다. 혹시 몰라 PC들도 모두 포맷 작업을 진행했고요.
다음날이 되었는데 증상이 남아 아직 해결되지 않았습니다. 그래서 네트워크에 연결된 모든 8포트 스위칭 허브 장비를 제거하였습니다. 그래도 바로는 증상이 해결되지 않았고, 추가적인 조치 없이 하루가 지나갔는데요.
혹시 몰라 와이파이 네트워크를 구성하는 시스코 AP 컨트롤러 장비도 재부팅을 진행했습니다.
그러고 나서 확인해 보니 IP 주소 받아오는 것도 문제없고, 네트워크 끊김 현상 또한 거짓말처럼 사라지게 되었습니다.
네트워크 루핑 후속 조치
이렇게 네트워크 루핑 문제로 한바탕 고생하고 나니 8포트 스위칭 허브 장비를 두려워서 사용할 수가 없었는데요. 어쩔 수없이 8포트 스위칭 허브 장비를 써야 할 때가 발생합니다.
허브 장비를 사용하지 않으면, 추가적인 공사가 들어가서 비용적인 문제도 생각하게 되는데요.
그러면서 사용하게 되면 꼭 루프 방지 기능이 있는 스위칭 허브 장비를 사용하고 있습니다.
아직까지 별문제 없이 잘 사용하고 있는 루프 방지 기능이 있는 8포트 스위칭 허브 장비입니다.
“이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.”
케이블 연결 시에는 메인 선(네트워크가 연결된 회선) 꼭 1개만 연결하여 사용하는 거 잊지 마시고, 설치 위치 또한 기억하고 관리해야겠습니다.