Liao at el (2020), Real-Time Scene Text Detection with Differentiable Binarization. AAAI, p. 11474-11481. 1, 5
Links
Real-time Scene Text Detection with Differentiable Binarization | Papers With Code
Official code: MhLiao/DB: A PyTorch implementation of "Real-time Scene Text Detection with Differentiable Binarization". (github.com)
Keras implementation: xuannianz/DifferentiableBinarization: DB (Real-time Scene Text Detection with Differentiable Binarization) implementation in Keras and Tensorflow (github.com)
Files
제 목: 미분가능한 이진화(DB)를 통한 실시간 풍경 텍스트 탐지 (2020)
저 자: LIao at el (2020)
초 록
최근, 픽셀분할(segmentation)에 기반한 기법들은 곡선으로 휜 모양 같은 다양한 형태의 풍경 텍스트를 더 정확하게 묘사해주기 때문에 풍경텍스트탐지(STD)에서 적지 않은 관심을 받고 있다. 그러나, 픽셀분할을 기반으로 하는 기법들은 픽셀분할의 결과로 나온 확률 맵을 텍스트의 바운딩 박스/구역으로 변환해주기 위해 이진화를 통한 후처리가 필수적이다. 본 논문에서 우리는 픽셀분할 신경망 내부에서 이진화를 진행하는 DB(Differentiable Binarization)라는 모듈을 제안한다. DB 모듈과 함께 최적화된 픽셀분할 신경망은 이진화를 위한 임계점(threshold)을 유연하게(adaptively; 반응적으로) 설정할 수 있어서 후처리 과정을 단순화할 뿐만 아니라 텍스트 탐지의 성능 또한 향상시킨다. 하나의 단순한 픽셀분할 신경망에 대해서 우리는 DB의 성능 향상을 5가지 벤치마크 데이터셋을 통해 검증하였는데 탐지 정확성과 속도 측면에서 모두 현재 최고 수준(SOTA)의 결과를 일관적으로 보여주었다. 특히, 가벼운 뼈대구조(backbone)와 함께 사용했을 때 DB에 의한 성능 향상은 유의미한 수준(significant)이어서 탐지 정확성과 효율성 간의 이상적인 균형(tradeoff)를 기대할 수 있게 되었다. 구체적으로, ResNet-18을 뼈대구조로 했을 때 우리의 탐지기는 (MSRA-TD500 데이터셋에 대해서, 62 FPS의 속도로) F-측정(measure)에서 82.8을 기록하였다. 코드는 http://github.com/MhLiao/DB 에서 구할 수 있다.
들어가며
최근 몇 년 동안, 풍경 이미지에서 텍스트를 읽는 과제는 이미지/영상 이해(understanding), 이미지 기반 검색(visual search), 자율주행, 시각장애인 보조 등의 폭넓은 실용적인 적용 사례 덕분에 활발한 연구 과제가 되었다.
풍경 텍스트 읽기의 핵심 요소로서, 각 텍스트 인스턴스를 바운딩 박스 혹은 구역으로 위치를 잡아내는 것을 목표로 하는 풍경 텍스트 탐지는 풍경 텍스트가 여러 비율(scales)과 형태로 (가령, 수평이거나, 다중방향이거나, 휘어있거나 등) 존재하기 때문에 여전히 도전적인 과제이다.
[DMQA Open Seminar] Scene Text Detection and Recognition (0) | 2021.06.08 |
---|---|
EAST (0) | 2021.06.03 |
PP-OCR (0) | 2021.05.31 |
Multimodal Information Bottleneck (Image-to-Speech) (0) | 2021.05.28 |
CRNN (0) | 2021.05.26 |