상세 컨텐츠

본문 제목

[DMQA Open Seminar] Scene Text Detection and Recognition

Coding/Image

by linguana 2021. 6. 8. 12:46

본문

What is Scene Text Detection and Recognition?
이미지 인식 연구의 응용 분야: 일상적인 풍경 이미지에서 글자가 있는 영역을 탐지하고 컴퓨터 글자로 변환하는 과제
예> 이미지 번역, 차량 번호판, 이정표, 명함 인식, 이미지 검색 등 실생활에서 다양하게 활용되고 있음


OCR vs STR

  OCR STR
배경 단순함 복잡함
글씨체 규칙적 다양함
글자 배열 수평 각도 및 구도가 다양함
단조로움 다채로움

 

Challenges
(1) Arbitrary-oriented/Multi-oriented text,
(2) Occlusion (겹쳐져 있는 문자),
(3) Curved text

format RECT (Rectangle) RBOX (Rotated Box) QUAD (Quadrilateral) POLY (Polygon)
자유도 4 (x, y, w, h) 5 (x, y, w, h, θ) 8 (x1, y1, x2, y2, x3, y3, x4, y4) 다수

Text Detection

탐지: 글자가 위치한 바운딩 박스의 좌표를 최대한 정확히 맞추는 것이 목표이기 때문에 회귀 문제로 접근; 글자 영역을 영역제안(region proposals) 또는 관심영역(ROI, regions of interest)이라고도 부름

 

Text Recognition

인식: 주로 CNN으로 이미지 특징을 추출한 뒤, 디코더를 통해 단어 Region을 생성함. 단어 Region이 될 만한 여러 후보 (Anchor box)를 만든 뒤 ROI을 추려내는 고전적인 Object Detection 방식도 사용됨. 단어 정합성을 높이기 위해 글자와 글자 사이 여백을 각각 탐지해 하나의 단어 영역으로 합치는 방식의 알고리즘도 다수 제안됨. (Shi et al. (2017), Baek et al. (2019))

 

End-to-End scene text recognition (A.K.A. text spotting)

잘 알려진 모델들

Scene Text Detection: EAST (Zhou et al. (2017));
[1] 기존 텍스트 탐지 모델들이 3~5차례 합성곱 블록을 거치게 한 것과 달리 하나의 합성곱 블록으로 줄여 연산 시간을 대폭 단축함.
[2] 이미지 분할을 위해 Fully Convolutional Network(FCN) 알고리즘을 활용해, 단어가 포함된 rotated rectangel 또는 Quadrilateral box를 예측함.
- Input: 512 x 512 RGB 이미지
- Output: Rotated rectangel bounding box의 5개 정보 (x, y, w, h, 각도)
- 최종 레이어 1x1 Conv layer + Thresholding 
- U자 모양의 FCN 구조를 사용해 더욱 정확한 Localization을 하고자 함 (Encode-Decode concatenate 형태)

Scene Text Recognition: CRNN
이전 포스팅 참고> 2021.05.26 - [Coding/Image] - CRNN

End-to-End scene text recognition: FOTS
하나의 모델로 붙였기 때문에 연산 시간을 크게 줄임 (EAST + CRNN),
[1] ROI Rotate: 연결고리 역할 글자 크기 회전 각도 다른 거를 같은 높이나 수평 맞춰주는 블록;
[2] Shared Convolution: 탐지와 인식에 쓰이는 정보를 교차로 활용할 수 있어서 따로 하는 것보다 성능이 올라감 (F-score 약 9퍼센트 향상)

 


Reference

link: [DMQA Open Seminar] Scene Text Detection and Recognition - YouTube

'Coding > Image' 카테고리의 다른 글

Affine Transformation  (0) 2021.06.08
ICDAR 2019  (0) 2021.06.08
EAST  (0) 2021.06.03
Real-Time STD with DB  (0) 2021.05.31
PP-OCR  (0) 2021.05.31

관련글 더보기