'KimJinHwan/Project' 카테고리의 글 목록

Recent Comments

관리 메뉴 ecsimsw

목록KimJinHwan/Project (18)

ecsimsw

인프라 다이어트회사는 계속 성장해 왔다. 많은 도전을 해왔고, 그만큼 레거시가 쌓였다. 더 이상 운영하지 않는 서비스도 많고, 기대에 못 미치며 운영되고 있는 서비스도 많다. 이번 클라우드 비용 절감기에선 그런 레거시 인프라를 정리하여,운영 비용를 크게 절감할 수 있었던 경험을 소개하고자 한다. 1. 월 천만 원을 절약한 스케일 다운2. 70억 개의 무의미한 데이터, Atlas MongoDB 부수기3. AWS RI (예약형 인스턴스) 사용 AWS 자원 정리가장 먼저 사용하지 않는 AWS 자원을 정리했다. 더 이상 사용하지 않고 있던 테스트 용 리소스부터,타겟 그룹이 없는 LB 들이나 연결되지 않은 EIP 같은 자잘한 낭비들을 제거했다.사용하지 않는 CDN을 내리고, S3를 압축하여 사내 공용 드라이브에 ..

KimJinHwan/Project 2025. 4. 5. 14:42

DB 커넥션 부족을 잡았던 경험

배경회사 IoT 플랫폼 서버를 국외에서 국내 리전으로 모두 옮기고 있다. 배포 시점 이후 페어링한 기기들은 모두 신규 국내 서버에서 관리되나, IoT 기기 특성상 기기 페어링을 유지한 채로 데이터를 다른 서버로 옮기는 것이 불가능하다. 따라서 당분간 기존의 서버와 신규 서버가 동시에 운영되어야 하는 상황이다. 이런 와중에 우리 회사의 Open api를 사용하여 서비스를 운영하는 회사에서 Api 이용이 너무 느리다는 이슈를 보고해 줬고, DB 커넥션 부족을 확인하여 문제를 풀이했던 경험을 소개한다. 원인 파악당장 확인할 수 있는 로그는 다음과 같았다. Servlet filter 사용자 요청 인입 기록/// 5초 이상의 텀 /// DB 조회 결과 로그IoT 플랫폼 서버 Api 호출IoT 플랫폼 서버 A..

KimJinHwan/Project 2025. 3. 3. 03:03

팀에서 테라폼을 도입하고 얻은 것들

배경 소개 팀에서 새로 인프라 구조, 아키텍처를 구성해야 하는 일이 있었다. 우리 팀은 Container 기반으로 서버를 운영하여, AWS ECS + Fargate를 사용하여 배포하기로 결정했다. 이때 VPC, ECR, ECS의 배포 정책이나 오토 스케일링을 모두 Terraform으로 관리하여 인프라 구성을 코드로 작성할 수 있도록 작업하였다. 이 글에선 이런 구조를 선택한 근거와 함께, 테라폼을 사용해서 얻을 수 있었던 팀 시점의 이점을 소개하려고 한다. ECS + Fargate우선 컨테이너를 사용한 배포를 전제로 하였다. 배포를 위한 파일 관리보다 컨테이너 이미지 관리가 훨씬 쉽고, 컨테이너 런타임만 있는 환경이라면 쉽게 배포하고 앱을 확인해 볼 수 있으니까. AWS의 '이 글'을 참고하여 우리 팀에..

KimJinHwan/Project 2025. 1. 1. 23:42

이벤트 전달 유실 개선, SNS+SQS를 선택한 이유

이벤트 전달 구조 개선회사의 기기 이벤트 전달 구조를 SNS+SQS 조합으로 개선한 경험을 소개한다. 기존에는 아래 그림에서 Event producer가 Http로 각 서비스에 이벤트를 전달했는데, 기기가 늘어남에 따라 많아진 이벤트를 빠르게 처리할 수 있으면서도 유실에 안정적인, 그러면서도 서비스 확장에 유연한 아키텍처를 고민하게 되었다. 작은 팀이니만큼 러닝 커브가 적고, 인프라 비용에 큰 부담이 없었으면 좋겠다는 생각이었다. 이벤트 전달 구조 / SQS 도입 이유1. 직접 전달, 이벤트 유실과 의존 문제 Http 직접 전달은 위험하다. 수신하는 서버에 문제가 발생하는 경우, 그 시간 동안 직접 전달된 이벤트는 유실된다. 또 전송자는 수신하는 서버의 정보를 모두 알아야 하기 때문에, 수신 서비스가 늘..

KimJinHwan/Project 2024. 12. 29. 23:16

대기열 사이즈와 OOM 문제 해결

OOM 발생회사 기기 수가 급격하게 늘고 있다. 100만대를 축하한게 불과 6개월 전이었던거 같은데 벌써 200만대를 넘었다. 기기 수가 늘어남에 따라 기기 이벤트 수가 급증했고, 기기 이벤트를 수신하여 후처리 하는 서버에서 OOM이 발생하는 문제가 생겼다. 특정 시간대에서 스파이크성 트래픽이 발생하는 것은 아니고, 서버를 실행하고 N시간 후에 OOM과 함께 서버가 다운된다. 이 글에선 해당 문제를 모니터링했던 방법과 원인, 해결 방안을 정리한다. 원인 파악메모리 누수 파악 서버의 힙 메모리와 GC 동작 기록이다. 위 보드의 노란색이 Old Gen, 아래 보드의 파란색과 녹색이 각각 Minor GC, Major GC이다. GC 동작 이후에도 Old Gen의 최저 수위가 점점 높아지는 것을 볼 수 있다..

KimJinHwan/Project 2024. 12. 25. 20:48

S3 업로드 속도 개선, Pre-signed url과 Thumbnail Lambda

파일업로드 속도 문제현재 'FE -> BE -> S3' 으로 사진을 업로드하고 있는데, 큰 패킷 전달이 두번이다 보니 업로드 속도가 너무 느리다. S3 업로드가 아니라 애초에 사이즈가 큰 요청이 오가는 시간 자체가 느린 것을 부하 테스트로 확인했다. 1MB 파일, 100명의 동시 요청 테스트에서 단순히 서버에서 MultipartFile 로 첨부 파일을 응답 받는 것만으로 응답 평균 시간은 200ms 가 걸렸다. 클라이언트에서 직접 S3 업로드파일 전달에 필요한 비용을 낮추고 서버의 요청 처리 속도를 개선하기 위해 클라이언트에서 직접 S3에 사진을 업로드한다. 프론트엔드에서 백엔드 서버로 이미지 파일이 전송되는 비용을 아낄 수 있다. 허용된 path에, 허용된 용량만큼만 업로드 할 수 있도록 S3 Pre..

KimJinHwan/Project 2024. 5. 31. 06:31

현재 사용 불가능한 API의 응답을 자동 생성해주는 라이브러리

미리 보기 컨트롤러에 @ShutDown 어노테이션을 추가하고 임시 응답을 어떻게 전달할지를 지정해주는 것으로 ShutDown 조건에서 해당 컨트롤러 아래 모든 핸들러의 임시 응답을 자동으로 생성해 준다. 위 예시에서 DailyCountRepository 타입의 빈이 존재하지 않으면 /api/counts 를 GET 요청하는 경우 아래와 같이 응답한다. HTTP status : 503, SERVICE_UNAVAILABLEContent type : application/jsonMessage : This API is currently unavailable. 아래 사용 방법이나 버전, 기능은 현재 글을 쓰는 첫 배포 시점을 기준으로 한다.최신 변경 사항은 https://github.com/ecsimsw/api-..

KimJinHwan/Project 2024. 1. 17. 08:38

JNI 임베디드 프로그래밍

JNI-JellyBean-HBE-SM5-S4210하드웨어 드라이버를 수정하고, 안드로이드 커널에 포함/빌드하여, 보드 내 임베디드 하드웨어를 제어한다. JNI를 이용하여 시스템 콜을 호출, JVM 환경 안에서 수정된 드라이버로 하드웨어를 제어한다. Concepts 1. BootLoader PC에서 전원이 켜지면 ROM의 BIOS가 로드되고, BIOS는 미리 설정된 부팅 순서대로 저장 장치의 부트로더를 로드, 실행하게 된다. 부트로더는 하드웨어를 초기화하고, 커널을 메모리에 적재하는 것으로 운영체제가 구동된다. 저장 장치가 다수인 PC와 달리, ARM 임베디드 시스템에선 단일 플래시 메모리에 BootLoader, Kernel 이미지, 사용자 파일과 App Storage가 존재한다. 이런 임베디드 시스템의 ..

KimJinHwan/Project 2022. 6. 19. 23:29

Prev 1 2 3 Next

목록KimJinHwan/Project (18)

ecsimsw

티스토리툴바