'

Обнаружение текста на изображениях

Понравилась презентация – покажи это...





Слайд 0

Обнаружение текста на изображениях Наталья Васильева nvassilieva@hp.com HP Labs Russia 8 апреля 2012, Computer Science клуб


Слайд 1


Слайд 2

Зачем? Необходимо для дальнейшего распознавания текста (OCR) Документы – page layout analysis Фотографии, чертежи, графики – text detection and localization Самостоятельные приложения Автоматическое построение коллажей Автоматическое изменение размера изображений


Слайд 3

Компоненты системы извлечения текста Fig. credit: J. Gllavata + Text Enhancement


Слайд 4

Приложения Оцифровка документов Индексирование и извлечение информации из графиков и чертежей Индексирование и поиск изображений, автоматическое построение аннотаций Переводчик в кармане пример: Word Lens (http://questvisual.com/) Помощь слабовидящим Навигация роботов в помещениях, в городских условиях


Слайд 5


Слайд 6


Слайд 7


Слайд 8

Обнаружение текста – газеты, журналы, книги обнаружение текстовых областей определение угла поворота текста (skew detection) определение порядка чтения


Слайд 9

Обнаружение текста – произвольные изображения Исходное изображение Возможные результаты работы алгоритмов обнаружения текста


Слайд 10

Обнаружение текста – чертежи и графики Обнаружение текстовых областей Определение угла поворота текстовых строк Короткие фрагменты текста Разнообразие шрифтов, текст под разными углами Однородный фон Высокая контрастность фотографии печатные документы


Слайд 11

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты связности, бинаризация, преобразование Хафа Печатные документы (document images) Фотографии (natural scenes) Чертежи, графики, обложки


Слайд 12

Представление цифровых изображений Растровое изображение


Слайд 13

Представление цифровых изображений RGB – распространенная модель цвета Каждый пиксель задается тремя значениями: red, green, blue Цветное растровое изображение:


Слайд 14

Обнаружение границ


Слайд 15

Градиент изображения Градиент направлен в сторону наибольшего изменения интенсивности Направление градиента: Величина градиента:


Слайд 16

Вычисление градиента изображения Roberts: Prewitt: Sobel: Дискретный случай:


Слайд 17

Выделение границ: примеры Sobel Canny Исходное


Слайд 18

Компоненты связности


Слайд 19

Компоненты связности


Слайд 20

Пороговая бинаризация Светлый объект на темном фоне Два светлых объекта на темном фоне Глобальная – порог единый для всех точек изображения Локальная или Динамическая – когда порог зависит от координат точки (x,y) Адаптивная – когда порог зависит от значения яркости в точке I(x,y)


Слайд 21

Бинаризация


Слайд 22

Преобразование Хафа (Hough transform) x y m b m0 b0 image space Hough space Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b


Слайд 23

Преобразование Хафа (Hough transform) x y m b image space Hough space x0 y0 Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b


Слайд 24

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты связности, бинаризация, преобразование Хафа Печатные документы (document images) Фотографии (natural scenes) Графики, диаграммы, обложки


Слайд 25

Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification) Fig. credit: Y.Y. Tang et al.


Слайд 26

Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification) Fig. credit: Y.Y. Tang et al. Методы «Сверху-вниз» (top-down) XY-cuts, whitespace segmentation «Снизу-вверх» (bottom-up) группировка ближайших соседей, диаграммы Вороного


Слайд 27

Projection profiles and XY-cuts Вертикальная проекция Горизонтальная проекция Fig. credit: Y.Y. Tang et al.


Слайд 28

Результат алгоритма Docstrum Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.


Слайд 29

Использование диаграмм Вороного Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.


Слайд 30

Основные задачи Печатные документы Определение поворота текста (page rotation, skew detection) Обнаружение текстовых строк (text line finding, baseline finding) Projection profiles (для исходного изображения или компонент связности) Использование преобразования Хафа Определение угла наклона тектовых строк


Слайд 31

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты связности, бинаризация, преобразование Хафа Печатные документы (document images) Фотографии (natural scenes) Графики, диаграммы, обложки


Слайд 32

Почему не работают традиционные методы? Фотографии Большое разнообразие шрифтов Разнообразие расположений и направлений текстовых строк Короткие текстовые строки Разнообразие условий съемки (освещение, фокусное расстояние) Сложный фон Нет определенной структуры страницы Наложение объектов (occlusions)


Слайд 33

Классификация подходов Фотографии Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.


Слайд 34

Методы, основанные на анализе текстуры Фотографии Построение пирамиды изображений Извлечение текстурных признаков (Gabor, Wevelets, DCT)


Слайд 35

Методы, основанные на анализе текстуры Фотографии Сложный фон Вычислительно сложные (обработка нескольких масштабов, операции свертки) Произвольная направленность текста (негоризонтальный текст) Произвольный размер шрифта + –


Слайд 36

Region-based methods (bottom-up) Фотографии Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе) Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)


Слайд 37

Region-based methods Фотографии Произвольный размер шрифта Произвольная направленность текста Просты в реализации Сложный фон Шум и нерезкость изображения Используют большое количество эвристик + –


Слайд 38

Stroke Width Transform (SWT) B. Epshtein et al. Исходное изображение Результат SWT После фильтрации по признаку постоянства ширины штриха Найденный текст


Слайд 39

Обнаружение текста при помощи SWT B. Epshtein et al.


Слайд 40

Вычисление SWT Фрагмент штриха p – пиксель на границе штриха, q – пиксель на противоположной стороне штриха (градиенты в p и q направлены друг на друга) Всем пикселям вдоль луча pq присваивается значение ширины штриха B. Epshtein et al.


Слайд 41

Обнаружение текста с помощью SWT Границы для нерезких изображений, низкого разрешения – ? Погрешность SWT на стыках штрихов – ? Эвристики для фильтрации компонент – ? Двойной проход и интеграция результатов – ?


Слайд 42

Комбинированные методы Y.-F. Pan et al.


Слайд 43

Шаг 1 – анализ текстуры Комбинированные методы Y.-F. Pan et al.


Слайд 44

Шаг 2 – анализ компонент связности Комбинированные методы Y.-F. Pan et al.


Слайд 45

Шаг 3 – выделение текстовых строк и слов Комбинированные методы Y.-F. Pan et al. построение минимального остовного дерева решение оптимизационной задачи


Слайд 46

Robust Reading Competitions ICDAR (2003, 2005, 2009, 2011) Распознавание символов Распознавание слов Локализация текста Распознавание текста


Слайд 47

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты связности, бинаризация, преобразование Хафа Печатные документы (document images) Фотографии (natural scenes) Графики, диаграммы, обложки


Слайд 48

Графики и диаграммы Анализ компонент связности по цвету


Слайд 49

Экспериментальная оценка LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF TextPrecisionRate = NTxt/NF TextRecognitionRate = NTxt/NG NLoc – the number of correctly localized text blocks NTxt – the number of correctly recognized text blocks NG – the total number of text blocks NF – the total number of detected text blocks Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool


Слайд 50

Screenshots (+) Быстрая бинаризация Время обработки изображения1600x1008 Tesseract OCR: ~6.56 секунд Данный алгоритм: ~0.45 seconds (–) Требует фильтрации компонент Naive Bayes Выделение границ и пороговая бинаризация Удаление длинных горизонтальных и вертикальных границ Выделение компонент связности Классификация компонент связности и адаптивная бинаризация


Слайд 51

Заключение Зачем нужны алгоритмы обнаружения текста? Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический перевод, text to speech, навигация Печатные документы (document images) Анализ структуры документа, определение поворота, выделение текстовых строк Фотографии (natural scenes) Texture-based & region-based Stroke Width Transform, Hybrid approach Графики, диаграммы, обложки


×

HTML:





Ссылка: