Skip to content

Latest commit

 

History

History
15 lines (12 loc) · 457 Bytes

File metadata and controls

15 lines (12 loc) · 457 Bytes

2024 solution challenge SmileLens AI 파트

주요 구현 할 기술

  1. 사진 촬영한 input을 받아 OCR로 글씨를 추출함
  2. 추출한 글씨를 문맥에 맞게 요약함
  3. 요약한 글을 input으로 받아 음성으로 출력

사용한 AI 기술

  1. OCR+Summarize는 google의 Gemini 기술을 이용
  2. TTS는 ~~ 기술 이용

OCR+Summarize 사용방법

gpt4모델 사용방법

  1. Get OpenAI Api Key
  2. Run gemini_fianl.ipynb