시연영상

https://youtu.be/un9AS2SgPeo

조원 및 역할

Untitled

개발 과정

클러스터에 올라온 이미지 데이터를 파인 튜닝된 Easy OCR 모델과 파파고 API로 처리하여 Bounding Box 위치와 번역된 Text들을 JSON 파일 형식으로 바꾸어 다시 클러스터로 보내는 동작을 개발하였습니다.

실시간성을 고려하여 인프라를 구성해야 했기에 멘토님, 강사님, 그리고 다른 팀의 동료들과도 제가 구성한 인프라를 나눠보며 조언을 받았습니다. 딥러닝 모델에서 발생하는 주요 문제는 Bounding Box(텍스트 구역)의 증가로 인한 텍스트 처리 속도의 감소였습니다. Bounding Box가 10개 이상인 경우, 처리 시간이 3~5초까지 소요되어 실시간 처리가 어려웠습니다.

이 문제를 해결하기 위해 화면 공유의 특성을 깊이 분석했습니다. PDF나 PPT와 같은 자료는 대부분 정적이며, 발표자의 설명 시간 동안 화면 변화가 크지 않다는 점에 주목했습니다. 이러한 분석을 바탕으로 모든 프레임을 처리할 필요가 없다고 판단하여, 차영상 알고리즘을 도입했습니다. 그 결과, 이미지 처리 속도를 90% 향상시켜 거의 실시간에 가까운 서비스 제공에 성공했습니다.

이러한 접근 방식으로 사용자 경험을 크게 개선하면서도 시스템 리소스를 효율적으로 활용할 수 있었습니다.

My Work

아키텍쳐 개발

첫 구상

Untitled

문제점)

람다의 문제점 : 압축해제시 250MB 지원 → 파이토치와 토치비전만 설치해도 넘는 용량

해결방법

최종 아키텍쳐