| 
Предыдущая тема
::
Следующая тема 
 | 
	
	
	
	
		| Автор | 
		Сообщение | 
	
	
		 торрент иваниваныч
  Переводы
 
  
  Зарегистрирован: 29.12.2011 Сообщения: 333
 
  | 
		
			
				 Добавлено: Вс Мар 19, 2017 0:58 am   Заголовок сообщения: Как распознать idx+sub через FineReader? | 
				       | 
			 
			
				
  | 
			 
			
				Основная цель – китайские и японские субтитры. FineReader хорошо распознаёт иероглифы, но копировать по одному не вариант. Нужен готовый саб автоматом, как в VideoSubFinder.
 
 
Ну и субтитры на других языках не помешают. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 ojiisan
 
  
  Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
  | 
		
			
				 Добавлено: Вс Мар 19, 2017 8:08 am    | 
				       | 
			 
			
				
  | 
			 
			
				| Subtitle Edit. Распознаёт PGS-сабы через Tesseract или MODI. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 торрент иваниваныч
  Переводы
 
  
  Зарегистрирован: 29.12.2011 Сообщения: 333
 
  | 
		
			
				 Добавлено: Пн Мар 20, 2017 4:00 am    | 
				       | 
			 
			
				
  | 
			 
			
				ojiisan
 
Попробовал через Tesseract – намного хуже FineReader, много ошибок. Я не смогу иероглифы исправить. Орфословарей нет, только OCR.
 
 
Неужто ничего нет? Там всего-то для VideoSubFinder надо bmp в jpg с правильными именами перегнать и text_lines.info сделать. Можно попытаться закодить хард на чёрном видео в lossless, но это уж совсем обходистый обход. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 ojiisan
 
  
  Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
  | 
		
			
				 Добавлено: Пн Мар 20, 2017 8:38 am    | 
				       | 
			 
			
				
  | 
			 
			
				Был ещё способ от kitsunekko с eTypist и доработанным Subtitle Creator, но там всё очень нетривиально и ошибки тоже бывают.
 
За давностью лет ссылку на инструкцию утерял, пишите ему в личку на сайте. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 Zool
  Переводы
 
  
  Зарегистрирован: 02.06.2013 Сообщения: 1960 Откуда: Казань
  | 
		
			
				 Добавлено: Пн Мар 20, 2017 17:17 pm    | 
				       | 
			 
			
				
  | 
			 
			
				Саб эдин не осиливает японский, к сожалению, проверено на мувике Bakemono no Ko.
 
В итоге получил неплохой результат только наложив хардсабом на видео внизу чёрный квадрат, поверх которого захардсабил япсаб, а дальше по наезженной. Но ошибок опознавания символов в VideoSubFinder (удаление фоновой картинки) всё равно много было - грешу на своё неумение настраивать VideoSubFinder. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 ojiisan
 
  
  Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
  | 
		
			
				 Добавлено: Пн Мар 20, 2017 20:25 pm    | 
				       | 
			 
			
				
  | 
			 
			
				Zool
 
Tesseract или MODI? Я когда-то сам пробовал SE и у MODI точность выше Tesseract была. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 TFloater
 
 
  Зарегистрирован: 09.11.2015 Сообщения: 87
 
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 12:20 pm    | 
				       | 
			 
			
				
  | 
			 
			
				| А разве нельзя из idx+sub выгрузить набор картинок? Я это делаю так редко, что каждый раз забываю, как именно :( | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 торрент иваниваныч
  Переводы
 
  
  Зарегистрирован: 29.12.2011 Сообщения: 333
 
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 15:07 pm    | 
				       | 
			 
			
				
  | 
			 
			
				TFloater
 
Выгрузить можно, но распознавание по одной картинке требует очень много времени и терпения. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 ojiisan
 
  
  Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
  | 
		 | 
	
	
		| К началу | 
		 | 
	
	
		 TFloater
 
 
  Зарегистрирован: 09.11.2015 Сообщения: 87
 
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 15:38 pm    | 
				       | 
			 
			
				
  | 
			 
			
				торрент иваниваныч
 
А зачем по одной картинке?
 
Вот вспомнил и воспроизвёл:
 
1. Запихнул idx-sub в BDSup2Sub.
 
2. Выгрузил в xml-png.
 
3. Конвертировал png->jpg пакетно с помощью XnView (негатив, серое в 4 цвета), чтобы картинки стали просто чёрными по белому фону. Иногда приходится добавлять (в том пакете) обрезку картинок, когда они на всю ширину экрана.
 
4. Конвертировал xml->srt простейшего вида:
 
 	  | Код: | 	 		  1
 
00:00:01,468 --> 00:00:04,338
 
1
 
 
2
 
00:00:04,405 --> 00:00:06,774
 
2
 
 
… | 	  
 
 
И всё это уже в Файнридер для пакетного распознавания. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 Sue
 
  
  Зарегистрирован: 20.04.2011 Сообщения: 2408
 
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 16:09 pm    | 
				       | 
			 
			
				
  | 
			 
			
				 	  | Zool: | 	 		  | В итоге получил неплохой результат только наложив хардсабом на видео внизу чёрный квадрат, поверх которого захардсабил япсаб, а дальше по наезженной | 	  Я может быть чего-то не понимаю, но в чём система? Если есть япсаб, который можно захардсабить поверх, то зачем возиться? Или это спортивный интерес? | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 ojiisan
 
  
  Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 16:14 pm    | 
				       | 
			 
			
				
  | 
			 
			
				Sue
 
У него там pgs/sup был (япсаб в картинках) и он его так мудрёно распознавал. | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 торрент иваниваныч
  Переводы
 
  
  Зарегистрирован: 29.12.2011 Сообщения: 333
 
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 20:00 pm    | 
				       | 
			 
			
				
  | 
			 
			
				TFloater
 
Поподробнее, пожалуйста. Как получить готовый саб, как в VideoSubFinder? | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 TFloater
 
 
  Зарегистрирован: 09.11.2015 Сообщения: 87
 
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 21:25 pm    | 
				       | 
			 
			
				
  | 
			 
			
				торрент иваниваныч
 
Даже трудно поподробнее :-)
 
1. Есть программа BDSup2Sub. Предназначена для мультиформатного выдёргивания субтитров для BD. Один из вариантов использования именно таков: загрузить пару idx/sub и экспортировать в формат xml/png: во многих png хранятся сами картинки, а в xml — их расположение, размер, тайминги.
 
На это обычно уходит полминуты.
 
2. Полученные картинки субтитров не совсем удобны для распознавания: светло-серые на прозрачном, с контурами и тенями. Открываем папку с набором в просмотрщике графики XnView (или пакетном конвертаторе XnConvert) и делаем пакетную обработку: Негатив и Преобразовать в серое (4 тона). Сохраняем в jpg (или в тот формат, который любит файнридер). Можно при этом их переименовать попроще "00001.jpg" Получаем гораздо более читабельный набор. На картинках исходный субтитр и сконвертированный.
 
На это уйдёт минуты две-три (для полнометражного фильма с тысячей субтитров).
 
3. Самое интересное: из полученного xml делаем srt-пустышку, где в качестве текста строки просто её номер.  Готового конвертора я не нашёл, поэтому просто сел и написал его для 1С:7.7 :-) Точно так же написал себе округлятель и усреднятель субтитров, полученных с помощью Mocha.
 
Это ещё полминуты.
 
4. Всё? Дальше файнридер :-) | 
			 
			
				 | 
			 
			
				
 
 
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 ojiisan
 
  
  Зарегистрирован: 13.04.2015 Сообщения: 4329 Откуда: Ктуда
  | 
		
			
				 Добавлено: Вт Мар 21, 2017 22:29 pm    | 
				       | 
			 
			
				
  | 
			 
			
				Муторно. MODI рулит при всех его косяках (особенно с фуриганой).
 
 
  | 
			 
			
				 | 
			 
			
				
 
 | 
			 
		  | 
	
	
		| К началу | 
		 | 
	
	
		 |