Список форумов Kage Project Kage Project
 
  РегистрацияРегистрация  ВходВход
  Архив субтитровАрхив субтитров  ПоискПоиск  ЧаВоЧаВо  ПользователиПользователи
 Войти и проверить личные сообщенияВойти и проверить личные сообщения

Проверка субтитров в программе «Локализатор исходного кода»
На страницу 1, 2, 3  След.
 
Начать новую тему   Ответить на тему    Список форумов Kage Project -> Техническая поддержка
Предыдущая тема :: Следующая тема 
Автор Сообщение
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Ср Июл 20, 2016 15:06 pm   Заголовок сообщения: Проверка субтитров в программе «Локализатор исходного кода» Ответить с цитатой

Локализатор исходного кода – предназначен для локализации разрабатываемого программного обеспечения, но также позволяет производить проверку правописания и оформления текста в файлах, в том числе в субтитрах.



Сайт программы: http://sourcelocalizer.com/ru

Программа позволяет проверять орфографию, оформление текста, ёфикацию и пр.

Проверка субтитров возможна как «броском» файлов на ярлык программы, так и через буфер обмена (только орфография).

Видео проверки файлов программой

Поддерживаются субтитры в форматах: SRT, ASS, SSA.

Перечисленные форматы используют по умолчанию кодировку UTF8.
Если требуется проверить файлы в другой кодировке (например, 1251), то укажите в файле "C:\Program Files (x86)\SourceLocalizer\user.params" параметр -CODEPAGEFORCE=1251 (заменяет используемые кодовые страницы на указанную в параметре).

Примеры работы с субтитрами

Статья «Необходимость проверки оформления субтитров на примере "железного" медиаплеера»

Программа представлена рядом версий. Для работы с субтитрами следует установить версию «Корректор».
При установке программы рекомендую выбрать языки проверки «Русский + игнорировать английский».

Без регистрации программа работает в демонстрационном режиме и имеет ограничение на количество проверяемых строк текста (до 1000).
Для проверки субтитров по одному файлу этого достаточно, т.к. субтитры обычно содержат 400-500 строк.

Для активных переводчиков этого форума, занимающимся некоммерческими переводами субтитров, готов предоставить ключи полной версии ЛИК «Корректор».

Бета-тестирование нового функционала программы
Периодически проводится бета-тестирование нового функционала программы, который включает не только версии программы проверяющие орфографию, но и различные другие версии.
Ваше участие в тестировании новых функций позволит улучшить программу и учесть предложения по ее улучшению.
Принять участие в бета-тестировании можно по ссылке:


Пример проверок ряда субтитров на этом форуме:
Berserk (2016) [Feslav] [3+]
Berserk (2016) [Anku & mutagenb] 3+
Naruto Shippuuden [Firegorn Team] [145\402, 414\426, 439]

Скачать программу: http://sourcelocalizer.com/ru

Сайт программы: http://sourcelocalizer.com/ru
Блог разработки: http://sourcelocalizer.blogspot.ru
Видеоканал: http://youtube.com/user/sourcelocalizer
Справка: http://www.sourcelocalizer.com/ru/help

Скриншоты:


Примеры фрагментов отчета по оформлению и орфографии:

Код:

000023     text:   –Произволный  текст c ашипками ...
            chk:   двойной пробел между словами, лишний пробел перед многоточием, дефис расположен вплотную к слову начинающемуся с заглавной буквы

000027     text:   - Произвольный    текст , c АшиПками !
            chk:   пробел перед запятой, пробел перед знаком восклицания

000031     text:   -Тире слитно с началом строки , отдельная запятая,
            chk:   пробел перед запятой, дефис расположен вплотную к слову начинающемуся с заглавной буквы

...

000023        chk:   Произволный, ашипками     text:   –Произволный  текст c ашипками ...
000027        chk:   АшиПками     text:   - Произвольный    текст , c АшиПками !


Статьи с примерами работы программы:
Проверка субтитров
Юмор в комментариях FAR и немного об орфографических ошибках
Результаты проверки локализации игры Don't Starve
Результаты проверки орфографии файлов локализации WordPress 3.7.1 Lecactus Edition
Результаты проверки орфографии исходного кода Ubuntu 13.04
и еще много других примеров в блоге разработки...


Последний раз редактировалось: Пт Сен 16, 2016 13:11 pm
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
cyril51rus



Зарегистрирован: 12.04.2014
Сообщения: 341
СообщениеДобавлено: Ср Июл 20, 2016 20:05 pm   Ответить с цитатой

Прикольно. Вроде даже работает.
Только хонорифики не любит:
Код:

000123     text:   Не так ли, Агата-чян?
            chk:   «Ча/Ща»


Номера строк, кстати, показывает абсолютные, от начала файла.
Т.е. с номером реплики в ASS-файле, открытом в Aegis они, естественно, не совпадают.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
Nyam Maro

Переводы



Зарегистрирован: 13.10.2014
Сообщения: 528
Откуда: TSE–MSQ
СообщениеДобавлено: Ср Июл 20, 2016 20:33 pm   Ответить с цитатой

cyril51rus, кажется, он не любит «я» после ч/щ, а не хонорифики ¯\_(ツ)_/¯
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Отправить e-mail Посетить сайт автора
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Ср Июл 20, 2016 21:36 pm   Ответить с цитатой

cyril51rus:
Прикольно. Вроде даже работает.
Только хонорифики не любит:
Код:

000123     text:   Не так ли, Агата-чян?
            chk:   «Ча/Ща»


Уберу «ча/ща» из проверки оформления, т.к. она итак проверяется как орфография.

В программе поддерживаются словари исключений FireFox/Chrome и пр. «Агата-чян» можно прямо в отчете правой кнопкой (внизу есть текстовое поле со всеми ошибками или вверху в списке ошибок) внести слово как исключение в браузере.
cyril51rus:

Номера строк, кстати, показывает абсолютные, от начала файла.
Т.е. с номером реплики в ASS-файле, открытом в Aegis они, естественно, не совпадают.

Могу добавить для субтитров указание, в качестве дополнительной информации, других номеров – надо номер фразы по порядку или лучше время, или и номер и время? Есть ли отличия указания удобных номеров и пр. в ASS/SSA и SRT?
Nyam Maro:
cyril51rus, кажется, он не любит «я» после ч/щ, а не хонорифики ¯\_(ツ)_/¯

Вы правы. Уберу это правило из проверки оформления.



Все исправления появятся в ближайшей версии.

Спасибо.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
Sue



Зарегистрирован: 20.04.2011
Сообщения: 2399
СообщениеДобавлено: Ср Июл 20, 2016 22:51 pm   Ответить с цитатой

SourceLocalizer:
Вы правы. Уберу это правило из проверки оформления.
Зачем?
Оформлять хонорифик как "чян" - это вообще что-то странное.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Ср Июл 20, 2016 23:18 pm   Ответить с цитатой

Sue:
SourceLocalizer:
Вы правы. Уберу это правило из проверки оформления.
Зачем?
Оформлять хонорифик как "чян" - это вообще что-то странное.

Ранее решил через проверку оформления проверять и явные ошибки орфографии, такие как: жы, шы, чю, щю, чя, ньщ, чьк.

При этом возможно в переводе появятся такие слова как «женьщина» и пр. произносимые персонажем... такие слова можно внести в словарь исключений, но проверка оформления их опять покажет.
Поэтому лучше уберу эти правила из оформления и проверка орфографии будет показывать эти ошибки, пока пользователь сам не внесет их в словарь исключений.

В текущей версии эти проверки убрать очень просто – удалить строки в файле defaultcontfig.cfg – 424-437 строки.

По файлу defaultcontfig.cfg видно, что можно самостоятельно перенастроить правила, статистику, синтаксис разбора файлов и пр. В дальнейшем сделаю к нему описание, для возможности самостоятельного добавления проверок и пр.

Если есть общепризнанные правила оформления хонорифик и др. – напишите, я их внесу в проверку.

Спасибо.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
cyril51rus



Зарегистрирован: 12.04.2014
Сообщения: 341
СообщениеДобавлено: Чт Июл 21, 2016 0:42 am   Ответить с цитатой

Sue:
SourceLocalizer:
Вы правы. Уберу это правило из проверки оформления.
Зачем?
Оформлять хонорифик как "чян" - это вообще что-то странное.

Именно поэтому должно было предложить исправить по Поливанову или не предлагать вообще ничего. :)

А если серьёзно, то по-моему прога нормально работает.
Вполне уже можно пользоваться и без настроек и допиливания.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Чт Июл 21, 2016 23:44 pm   Ответить с цитатой

cyril51rus:

Номера строк, кстати, показывает абсолютные, от начала файла.
Т.е. с номером реплики в ASS-файле, открытом в Aegis они, естественно, не совпадают.

Если использовать в файле user.params параметр -ENABLETEXTCONTEXT, то он позволит указывать время для текстовых фрагментов, например:

Код:

000261        chk:   Гат     context:   21:49     text:   ...живёт Гат?..
000269        chk:   зан     context:   24:11     text:   Я — зан, второй после командующего в ордене\n рыцарей святой железной цепи

Этот параметр в следующей версии программы будет использоваться по умолчанию для ярлыка.

В файлах ASS/SSA есть указание на персонажа говорящего фразу. Решил ее тоже использовать при формировании отчета.
В следующей версии отчеты будут выглядеть:
Код:

000150        chk:   Гат     context:   10:07,Guts     text:   Гат.
000151        chk:   Адоль     context:   10:09,Monk     text:   А меня — Адоль.
000152        chk:   Колет     context:   10:10,Monk     text:   Её — Колет.
000177        chk:   Грифф     context:   13:01,Guts     text:   Грифф!

P.S. Специально для примера поломал перевод. В оригинале все ок :)
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
cyril51rus



Зарегистрирован: 12.04.2014
Сообщения: 341
СообщениеДобавлено: Пт Июл 22, 2016 0:26 am   Ответить с цитатой

SourceLocalizer:

В файлах ASS/SSA есть указание на персонажа говорящего фразу. Решил ее тоже использовать при формировании отчета.


А вот это поле (Actor, если я правильно понял), по-моему, очень редко кто заполняет.
Думаю, простого указания времени реплики было бы вполне достаточно.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Пт Июл 22, 2016 1:43 am   Ответить с цитатой

cyril51rus:
SourceLocalizer:

В файлах ASS/SSA есть указание на персонажа говорящего фразу. Решил ее тоже использовать при формировании отчета.


А вот это поле (Actor, если я правильно понял), по-моему, очень редко кто заполняет.
Думаю, простого указания времени реплики было бы вполне достаточно.


Если поле пустое – будет «0:10,» вместо «0:10,Актер».

В перспективе разделю время и актеров на два используемых при локализации понятия, упрощенно - «контекст» и «информация из исходников» (extracted-comments). Это будет удобней для анализа и оформления отчета.
Такое оформление позволит в дальнейшем выгружать анализируемые файлы в формате файлов для программ перевода вместе с доп.информацией.

Интересует вопрос по порядку переменных в ass/ssa:
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Пока встречался с файлами именно с такой последовательностью полей. Бывает, на практике, другая последовательность?

Еще вопрос по кодировкам. Пока встречался с srt/ass/ssa только в кодировке utf-8.
1251 актуальна для современных субтитров?

Спасибо.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
cyril51rus



Зарегистрирован: 12.04.2014
Сообщения: 341
СообщениеДобавлено: Пт Июл 22, 2016 23:04 pm   Ответить с цитатой

SourceLocalizer:

Интересует вопрос по порядку переменных в ass/ssa:
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Пока встречался с файлами именно с такой последовательностью полей. Бывает, на практике, другая последовательность?
Еще вопрос по кодировкам. Пока встречался с srt/ass/ssa только в кодировке utf-8.
1251 актуальна для современных субтитров?

Теоретически, стандарт допускает задание своего порядка параметров, но вручную сабы уже давно никто не пишет, так что, по-моему, это маловероятно.
Про кодировку то же самое - стандарт допускает всё, но Аегис работает с UTF-8, поэтому 1251 можно найти только в самых старых сабах.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Пт Июл 22, 2016 23:18 pm   Ответить с цитатой

cyril51rus:
SourceLocalizer:

Интересует вопрос по порядку переменных в ass/ssa:
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Пока встречался с файлами именно с такой последовательностью полей. Бывает, на практике, другая последовательность?
Еще вопрос по кодировкам. Пока встречался с srt/ass/ssa только в кодировке utf-8.
1251 актуальна для современных субтитров?

Теоретически, стандарт допускает задание своего порядка параметров, но вручную сабы уже давно никто не пишет, так что, по-моему, это маловероятно.
Про кодировку то же самое - стандарт допускает всё, но Аегис работает с UTF-8, поэтому 1251 можно найти только в самых старых сабах.

Ок. Значит настройки по умолчанию выбрал правильные. Спасибо
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Сб Июл 23, 2016 16:33 pm   Ответить с цитатой

В программу добавил проверку оформления тире и кавычек.

Пример тире:
Код:

000061  context:   3:18,P
           text:   Попробуй их поймать... Ведь они сказочные—
            chk:   тире (alt+151) слитно с буквой

000168  context:   8:21,Godo
           text:   Ты - сломанный меч, с огромной трещиной посередине...
            chk:   символ минуса вместо тире


Пример кавычек:
Код:

000038  context:   0:31,Azan
           text:   "Когда солнце умрёт пять раз,
            chk:   кавычки "" вместо «»

000086  context:   4:00,Serpico
           text:   Рыцари Святых Железных Цепей или же "Сыновья Рыцарей"
            chk:   кавычки "" вместо «»


По кавычкам вопрос:
Ряд авторов принципиально используют кавычки «дюймы» вместо «елочек». Решил оставить такие ошибки в отдельном разделе, чтобы авторы могли легко игнорировать такие ошибки. Насколько это удобно?

Пример обновленной проверки оформления: http://www.fansubs.ru/forum/viewtopic.php?p=717980#717980

Спасибо.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
Nyam Maro

Переводы



Зарегистрирован: 13.10.2014
Сообщения: 528
Откуда: TSE–MSQ
СообщениеДобавлено: Сб Июл 23, 2016 17:16 pm   Ответить с цитатой

SourceLocalizer:

chk: символ минуса вместо тире

Идеально! Просто идеально Very Happy

SourceLocalizer:

По кавычкам вопрос:
Ряд авторов принципиально используют кавычки «дюймы» вместо «елочек». Решил оставить такие ошибки в отдельном разделе, чтобы авторы могли легко игнорировать такие ошибки. Насколько это удобно?

Как любитель «ёлочек», от себя скажу, что это идеальная функция с:
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Отправить e-mail Посетить сайт автора
SourceLocalizer



Зарегистрирован: 05.06.2016
Сообщения: 31
СообщениеДобавлено: Сб Июл 23, 2016 20:30 pm   Ответить с цитатой

Код:

000414  context:   19:38,
           text:   Счёт 9-1.
            chk:   символ минуса вместо короткого тире между цифрами

000415  context:   19:39,
           text:   Верно, 9-1! Я куда лучше тебя!
            chk:   символ минуса вместо короткого тире между цифрами


Разделителем между цифрами должно быть короткое тире (alt-150). Это правило мало кто соблюдает... может его убрать?

Примечание:
«Короткое (среднее) тире используется для обозначения числовых диапазонов (1941–1945).»
https://www.artlebedev.ru/kovodstvo/sections/97/

Уточнение по тире в тексте:

В качестве тире в тексте («пример — это...») программой разрешается и обычное (alt+151) и короткое тире (alt-150), т.к. разные издания/редакции указывают его по разному.
К началу
Посмотреть профиль Отправить личное сообщение Добавить в игнор-лист Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов Kage Project -> Техническая поддержка Часовой пояс: GMT + 3
На страницу 1, 2, 3  След.
Страница 1 из 3
 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы можете скачивать файлы, прикрепленные к сообщениям