Список форумов Kage Project Kage Project
 
  РегистрацияРегистрация  ВходВход
  Архив субтитровАрхив субтитров  ПоискПоиск  ЧаВоЧаВо  ПользователиПользователи
 Войти и проверить личные сообщенияВойти и проверить личные сообщения

Как распознать idx+sub через FineReader?
На страницу 1, 2  След.
 
Начать новую тему   Ответить на тему    Список форумов Kage Project -> Техническая поддержка
Предыдущая тема :: Следующая тема 
Автор Сообщение
торрент иваниваныч

Переводы



Зарегистрирован: 29.12.2011
Сообщения: 256
СообщениеДобавлено: Вс Мар 19, 2017 0:58 am   Заголовок сообщения: Как распознать idx+sub через FineReader? Ответить с цитатой

Основная цель – китайские и японские субтитры. FineReader хорошо распознаёт иероглифы, но копировать по одному не вариант. Нужен готовый саб автоматом, как в VideoSubFinder.

Ну и субтитры на других языках не помешают.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
ojiisan



Зарегистрирован: 13.04.2015
Сообщения: 1478
Откуда: UCCUSS
СообщениеДобавлено: Вс Мар 19, 2017 8:08 am   Ответить с цитатой

Subtitle Edit. Распознаёт PGS-сабы через Tesseract или MODI.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
торрент иваниваныч

Переводы



Зарегистрирован: 29.12.2011
Сообщения: 256
СообщениеДобавлено: Пн Мар 20, 2017 4:00 am   Ответить с цитатой

ojiisan
Попробовал через Tesseract – намного хуже FineReader, много ошибок. Я не смогу иероглифы исправить. Орфословарей нет, только OCR.

Неужто ничего нет? Там всего-то для VideoSubFinder надо bmp в jpg с правильными именами перегнать и text_lines.info сделать. Можно попытаться закодить хард на чёрном видео в lossless, но это уж совсем обходистый обход.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
ojiisan



Зарегистрирован: 13.04.2015
Сообщения: 1478
Откуда: UCCUSS
СообщениеДобавлено: Пн Мар 20, 2017 8:38 am   Ответить с цитатой

Был ещё способ от kitsunekko с eTypist и доработанным Subtitle Creator, но там всё очень нетривиально и ошибки тоже бывают.
За давностью лет ссылку на инструкцию утерял, пишите ему в личку на сайте.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
Zool

Переводы



Зарегистрирован: 02.06.2013
Сообщения: 1960
Откуда: Казань
СообщениеДобавлено: Пн Мар 20, 2017 17:17 pm   Ответить с цитатой

Саб эдин не осиливает японский, к сожалению, проверено на мувике Bakemono no Ko.
В итоге получил неплохой результат только наложив хардсабом на видео внизу чёрный квадрат, поверх которого захардсабил япсаб, а дальше по наезженной. Но ошибок опознавания символов в VideoSubFinder (удаление фоновой картинки) всё равно много было - грешу на своё неумение настраивать VideoSubFinder.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
ojiisan



Зарегистрирован: 13.04.2015
Сообщения: 1478
Откуда: UCCUSS
СообщениеДобавлено: Пн Мар 20, 2017 20:25 pm   Ответить с цитатой

Zool
Tesseract или MODI? Я когда-то сам пробовал SE и у MODI точность выше Tesseract была.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
TFloater



Зарегистрирован: 09.11.2015
Сообщения: 82
СообщениеДобавлено: Вт Мар 21, 2017 12:20 pm   Ответить с цитатой

А разве нельзя из idx+sub выгрузить набор картинок? Я это делаю так редко, что каждый раз забываю, как именно :(

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
торрент иваниваныч

Переводы



Зарегистрирован: 29.12.2011
Сообщения: 256
СообщениеДобавлено: Вт Мар 21, 2017 15:07 pm   Ответить с цитатой

TFloater
Выгрузить можно, но распознавание по одной картинке требует очень много времени и терпения.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
ojiisan



Зарегистрирован: 13.04.2015
Сообщения: 1478
Откуда: UCCUSS
СообщениеДобавлено: Вт Мар 21, 2017 15:32 pm   Ответить с цитатой

Нашел.
http://project-modelino.com/forum/viewtopic.php?p=445&sid=370a77cbce7f2e69b2f5df3f019c33d4#p445

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
TFloater



Зарегистрирован: 09.11.2015
Сообщения: 82
СообщениеДобавлено: Вт Мар 21, 2017 15:38 pm   Ответить с цитатой

торрент иваниваныч
А зачем по одной картинке?
Вот вспомнил и воспроизвёл:
1. Запихнул idx-sub в BDSup2Sub.
2. Выгрузил в xml-png.
3. Конвертировал png->jpg пакетно с помощью XnView (негатив, серое в 4 цвета), чтобы картинки стали просто чёрными по белому фону. Иногда приходится добавлять (в том пакете) обрезку картинок, когда они на всю ширину экрана.
4. Конвертировал xml->srt простейшего вида:
Код:
1
00:00:01,468 --> 00:00:04,338
1

2
00:00:04,405 --> 00:00:06,774
2



И всё это уже в Файнридер для пакетного распознавания.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
Sue



Зарегистрирован: 20.04.2011
Сообщения: 2385
СообщениеДобавлено: Вт Мар 21, 2017 16:09 pm   Ответить с цитатой

Zool:
В итоге получил неплохой результат только наложив хардсабом на видео внизу чёрный квадрат, поверх которого захардсабил япсаб, а дальше по наезженной
Я может быть чего-то не понимаю, но в чём система? Если есть япсаб, который можно захардсабить поверх, то зачем возиться? Или это спортивный интерес?

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
ojiisan



Зарегистрирован: 13.04.2015
Сообщения: 1478
Откуда: UCCUSS
СообщениеДобавлено: Вт Мар 21, 2017 16:14 pm   Ответить с цитатой

Sue
У него там pgs/sup был (япсаб в картинках) и он его так мудрёно распознавал.

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
торрент иваниваныч

Переводы



Зарегистрирован: 29.12.2011
Сообщения: 256
СообщениеДобавлено: Вт Мар 21, 2017 20:00 pm   Ответить с цитатой

TFloater
Поподробнее, пожалуйста. Как получить готовый саб, как в VideoSubFinder?

К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
TFloater



Зарегистрирован: 09.11.2015
Сообщения: 82
СообщениеДобавлено: Вт Мар 21, 2017 21:25 pm   Ответить с цитатой

торрент иваниваныч
Даже трудно поподробнее :-)
1. Есть программа BDSup2Sub. Предназначена для мультиформатного выдёргивания субтитров для BD. Один из вариантов использования именно таков: загрузить пару idx/sub и экспортировать в формат xml/png: во многих png хранятся сами картинки, а в xml — их расположение, размер, тайминги.
На это обычно уходит полминуты.
2. Полученные картинки субтитров не совсем удобны для распознавания: светло-серые на прозрачном, с контурами и тенями. Открываем папку с набором в просмотрщике графики XnView (или пакетном конвертаторе XnConvert) и делаем пакетную обработку: Негатив и Преобразовать в серое (4 тона). Сохраняем в jpg (или в тот формат, который любит файнридер). Можно при этом их переименовать попроще "00001.jpg" Получаем гораздо более читабельный набор. На картинках исходный субтитр и сконвертированный.
На это уйдёт минуты две-три (для полнометражного фильма с тысячей субтитров).
3. Самое интересное: из полученного xml делаем srt-пустышку, где в качестве текста строки просто её номер. Готового конвертора я не нашёл, поэтому просто сел и написал его для 1С:7.7 :-) Точно так же написал себе округлятель и усреднятель субтитров, полученных с помощью Mocha.
Это ещё полминуты.
4. Всё? Дальше файнридер :-)


[8.88 KB / Просмотров: 4076] Конвертированный субтитр [20.54 KB / Просмотров: 4076] Исходный субтитр

Конвертор XML.7z  [3.31 KB] [Загрузок: 81] Конвертор
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
ojiisan



Зарегистрирован: 13.04.2015
Сообщения: 1478
Откуда: UCCUSS
СообщениеДобавлено: Вт Мар 21, 2017 22:29 pm   Ответить с цитатой

Муторно. MODI рулит при всех его косяках (особенно с фуриганой).


К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов Kage Project -> Техническая поддержка Часовой пояс: GMT + 3
На страницу 1, 2  След.
Страница 1 из 2
 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы можете скачивать файлы, прикрепленные к сообщениям