본 서비스(foxuni.kr / 폭스대학)는 Google Gemini Pro 및 고성능 딥러닝 비전 모델(Deep Learning Vision Model)을 결합하여 운영됩니다. 사용자가 업로드한 이미지는 객체 탐지(Object Detection) 및 특징점 추출(Feature Extraction) 과정을 거치며, 생성된 텍스트는 대규모 언어 모델(LLM, Large Language Model)을 통해 커뮤니티 트렌드 데이터와 매칭됩니다.
입력 이미지는 먼저 전처리(Preprocessing) 단계를 거쳐 노이즈 감소 및 해상도 정규화가 수행됩니다. 이후 컨볼루션 신경망(CNN) 기반의 얼굴 랜드마크 감지 모델이 적용되어 468개 이상의 3D 좌표 포인트를 추출합니다. 이 좌표 데이터는 기하학적 특징(Geometric Features)으로 변환되며, 비율 분석(Aspect Ratio), 각도(Angle), 거리(Distance) 등의 메트릭이 계산됩니다.
추출된 특징 벡터(Feature Vector)는 사전 학습된 임베딩(Embedding) 공간에서 가장 유사한 레이블과 매칭됩니다. Gemini Pro LLM은 이 매칭 결과를 입력으로 받아 자연어 형식의 해석 문장을 생성하며, Few-shot Learning 기반의 프롬프트 엔지니어링을 통해 일관된 톤과 형식을 유지합니다.
업로드된 원본 이미지는 분석 완료 즉시 메모리에서 파기되며, 서버에 저장되지 않습니다. 특징점 추출 과정에서 생성된 중간 데이터 역시 결과 도출 후 즉시 삭제됩니다.