Предыдущая тема
::
Следующая тема
|
Автор |
Сообщение |
торрент иваниваныч
Переводы

Зарегистрирован: 29.12.2011 Сообщения: 333
|
Добавлено: Вс Мар 19, 2017 0:58 am Заголовок сообщения: Как распознать idx+sub через FineReader? |
|
|
Основная цель – китайские и японские субтитры. FineReader хорошо распознаёт иероглифы, но копировать по одному не вариант. Нужен готовый саб автоматом, как в VideoSubFinder.
Ну и субтитры на других языках не помешают. |
|
|
|
К началу |
|
ojiisan

Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
|
Добавлено: Вс Мар 19, 2017 8:08 am |
|
|
Subtitle Edit. Распознаёт PGS-сабы через Tesseract или MODI. |
|
|
|
К началу |
|
торрент иваниваныч
Переводы

Зарегистрирован: 29.12.2011 Сообщения: 333
|
Добавлено: Пн Мар 20, 2017 4:00 am |
|
|
ojiisan
Попробовал через Tesseract – намного хуже FineReader, много ошибок. Я не смогу иероглифы исправить. Орфословарей нет, только OCR.
Неужто ничего нет? Там всего-то для VideoSubFinder надо bmp в jpg с правильными именами перегнать и text_lines.info сделать. Можно попытаться закодить хард на чёрном видео в lossless, но это уж совсем обходистый обход. |
|
|
|
К началу |
|
ojiisan

Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
|
Добавлено: Пн Мар 20, 2017 8:38 am |
|
|
Был ещё способ от kitsunekko с eTypist и доработанным Subtitle Creator, но там всё очень нетривиально и ошибки тоже бывают.
За давностью лет ссылку на инструкцию утерял, пишите ему в личку на сайте. |
|
|
|
К началу |
|
Zool
Переводы

Зарегистрирован: 02.06.2013 Сообщения: 1961 Откуда: Казань
|
Добавлено: Пн Мар 20, 2017 17:17 pm |
|
|
Саб эдин не осиливает японский, к сожалению, проверено на мувике Bakemono no Ko.
В итоге получил неплохой результат только наложив хардсабом на видео внизу чёрный квадрат, поверх которого захардсабил япсаб, а дальше по наезженной. Но ошибок опознавания символов в VideoSubFinder (удаление фоновой картинки) всё равно много было - грешу на своё неумение настраивать VideoSubFinder. |
|
|
|
К началу |
|
ojiisan

Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
|
Добавлено: Пн Мар 20, 2017 20:25 pm |
|
|
Zool
Tesseract или MODI? Я когда-то сам пробовал SE и у MODI точность выше Tesseract была. |
|
|
|
К началу |
|
TFloater
Зарегистрирован: 09.11.2015 Сообщения: 87
|
Добавлено: Вт Мар 21, 2017 12:20 pm |
|
|
А разве нельзя из idx+sub выгрузить набор картинок? Я это делаю так редко, что каждый раз забываю, как именно :( |
|
|
|
К началу |
|
торрент иваниваныч
Переводы

Зарегистрирован: 29.12.2011 Сообщения: 333
|
Добавлено: Вт Мар 21, 2017 15:07 pm |
|
|
TFloater
Выгрузить можно, но распознавание по одной картинке требует очень много времени и терпения. |
|
|
|
К началу |
|
ojiisan

Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
|
|
К началу |
|
TFloater
Зарегистрирован: 09.11.2015 Сообщения: 87
|
Добавлено: Вт Мар 21, 2017 15:38 pm |
|
|
торрент иваниваныч
А зачем по одной картинке?
Вот вспомнил и воспроизвёл:
1. Запихнул idx-sub в BDSup2Sub.
2. Выгрузил в xml-png.
3. Конвертировал png->jpg пакетно с помощью XnView (негатив, серое в 4 цвета), чтобы картинки стали просто чёрными по белому фону. Иногда приходится добавлять (в том пакете) обрезку картинок, когда они на всю ширину экрана.
4. Конвертировал xml->srt простейшего вида:
Код: | 1
00:00:01,468 --> 00:00:04,338
1
2
00:00:04,405 --> 00:00:06,774
2
… |
И всё это уже в Файнридер для пакетного распознавания. |
|
|
|
К началу |
|
Sue

Зарегистрирован: 20.04.2011 Сообщения: 2408
|
Добавлено: Вт Мар 21, 2017 16:09 pm |
|
|
Zool: | В итоге получил неплохой результат только наложив хардсабом на видео внизу чёрный квадрат, поверх которого захардсабил япсаб, а дальше по наезженной | Я может быть чего-то не понимаю, но в чём система? Если есть япсаб, который можно захардсабить поверх, то зачем возиться? Или это спортивный интерес? |
|
|
|
К началу |
|
ojiisan

Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
|
Добавлено: Вт Мар 21, 2017 16:14 pm |
|
|
Sue
У него там pgs/sup был (япсаб в картинках) и он его так мудрёно распознавал. |
|
|
|
К началу |
|
торрент иваниваныч
Переводы

Зарегистрирован: 29.12.2011 Сообщения: 333
|
Добавлено: Вт Мар 21, 2017 20:00 pm |
|
|
TFloater
Поподробнее, пожалуйста. Как получить готовый саб, как в VideoSubFinder? |
|
|
|
К началу |
|
TFloater
Зарегистрирован: 09.11.2015 Сообщения: 87
|
Добавлено: Вт Мар 21, 2017 21:25 pm |
|
|
торрент иваниваныч
Даже трудно поподробнее :-)
1. Есть программа BDSup2Sub. Предназначена для мультиформатного выдёргивания субтитров для BD. Один из вариантов использования именно таков: загрузить пару idx/sub и экспортировать в формат xml/png: во многих png хранятся сами картинки, а в xml — их расположение, размер, тайминги.
На это обычно уходит полминуты.
2. Полученные картинки субтитров не совсем удобны для распознавания: светло-серые на прозрачном, с контурами и тенями. Открываем папку с набором в просмотрщике графики XnView (или пакетном конвертаторе XnConvert) и делаем пакетную обработку: Негатив и Преобразовать в серое (4 тона). Сохраняем в jpg (или в тот формат, который любит файнридер). Можно при этом их переименовать попроще "00001.jpg" Получаем гораздо более читабельный набор. На картинках исходный субтитр и сконвертированный.
На это уйдёт минуты две-три (для полнометражного фильма с тысячей субтитров).
3. Самое интересное: из полученного xml делаем srt-пустышку, где в качестве текста строки просто её номер. Готового конвертора я не нашёл, поэтому просто сел и написал его для 1С:7.7 :-) Точно так же написал себе округлятель и усреднятель субтитров, полученных с помощью Mocha.
Это ещё полминуты.
4. Всё? Дальше файнридер :-) |
|
|
|
К началу |
|
ojiisan

Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
|
Добавлено: Вт Мар 21, 2017 22:29 pm |
|
|
Муторно. MODI рулит при всех его косяках (особенно с фуриганой).
 |
|
|
|
К началу |
|
|