Предыдущая тема
::
Следующая тема
|
Автор |
Сообщение |
SourceLocalizer Гость
|
Добавлено: Ср Июл 20, 2016 15:06 pm Заголовок сообщения: Проверка субтитров в программе «Локализатор исходного кода» |
|
|
Локализатор исходного кода – предназначен для локализации разрабатываемого программного обеспечения, но также позволяет производить проверку правописания и оформления текста в файлах, в том числе в субтитрах.
Сайт программы: http://sourcelocalizer.com/ru
Программа позволяет проверять орфографию, оформление текста, ёфикацию и пр.
Проверка субтитров возможна как «броском» файлов на ярлык программы, так и через буфер обмена (только орфография).
Видео проверки файлов программой
Поддерживаются субтитры в форматах: SRT, ASS, SSA.
Перечисленные форматы используют по умолчанию кодировку UTF8.
Если требуется проверить файлы в другой кодировке (например, 1251), то укажите в файле "C:\Program Files (x86)\SourceLocalizer\user.params" параметр -CODEPAGEFORCE=1251 (заменяет используемые кодовые страницы на указанную в параметре).
Примеры работы с субтитрами
Статья «Необходимость проверки оформления субтитров на примере "железного" медиаплеера»
Программа представлена рядом версий. Для работы с субтитрами следует установить версию «Корректор».
При установке программы рекомендую выбрать языки проверки «Русский + игнорировать английский».
Без регистрации программа работает в демонстрационном режиме и имеет ограничение на количество проверяемых строк текста (до 1000).
Для проверки субтитров по одному файлу этого достаточно, т.к. субтитры обычно содержат 400-500 строк.
Для активных переводчиков этого форума, занимающимся некоммерческими переводами субтитров, готов предоставить ключи полной версии ЛИК «Корректор».
Бета-тестирование нового функционала программы
Периодически проводится бета-тестирование нового функционала программы, который включает не только версии программы проверяющие орфографию, но и различные другие версии.
Ваше участие в тестировании новых функций позволит улучшить программу и учесть предложения по ее улучшению.
Принять участие в бета-тестировании можно по ссылке:
Пример проверок ряда субтитров на этом форуме:
Berserk (2016) [Feslav] [3+]
Berserk (2016) [Anku & mutagenb] 3+
Naruto Shippuuden [Firegorn Team] [145\402, 414\426, 439]
Скачать программу: http://sourcelocalizer.com/ru
Сайт программы: http://sourcelocalizer.com/ru
Блог разработки: http://sourcelocalizer.blogspot.ru
Видеоканал: http://youtube.com/user/sourcelocalizer
Справка: http://www.sourcelocalizer.com/ru/help
Скриншоты:

Примеры фрагментов отчета по оформлению и орфографии:
Код: |
000023 text: –Произволный текст c ашипками ...
chk: двойной пробел между словами, лишний пробел перед многоточием, дефис расположен вплотную к слову начинающемуся с заглавной буквы
000027 text: - Произвольный текст , c АшиПками !
chk: пробел перед запятой, пробел перед знаком восклицания
000031 text: -Тире слитно с началом строки , отдельная запятая,
chk: пробел перед запятой, дефис расположен вплотную к слову начинающемуся с заглавной буквы
...
000023 chk: Произволный, ашипками text: –Произволный текст c ашипками ...
000027 chk: АшиПками text: - Произвольный текст , c АшиПками !
|
Статьи с примерами работы программы:
Проверка субтитров
Юмор в комментариях FAR и немного об орфографических ошибках
Результаты проверки локализации игры Don't Starve
Результаты проверки орфографии файлов локализации WordPress 3.7.1 Lecactus Edition
Результаты проверки орфографии исходного кода Ubuntu 13.04
и еще много других примеров в блоге разработки...
Последний раз редактировалось: Пт Сен 16, 2016 13:11 pm |
|
|
|
К началу |
|
cyril51rus

Зарегистрирован: 12.04.2014 Сообщения: 368
|
Добавлено: Ср Июл 20, 2016 20:05 pm |
|
|
Прикольно. Вроде даже работает.
Только хонорифики не любит:
Код: |
000123 text: Не так ли, Агата-чян?
chk: «Ча/Ща»
|
Номера строк, кстати, показывает абсолютные, от начала файла.
Т.е. с номером реплики в ASS-файле, открытом в Aegis они, естественно, не совпадают. |
|
|
|
К началу |
|
Nyam Maro
Переводы

Зарегистрирован: 13.10.2014 Сообщения: 544
|
Добавлено: Ср Июл 20, 2016 20:33 pm |
|
|
cyril51rus, кажется, он не любит «я» после ч/щ, а не хонорифики ¯\_(ツ)_/¯ |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Ср Июл 20, 2016 21:36 pm |
|
|
cyril51rus: | Прикольно. Вроде даже работает.
Только хонорифики не любит:
Код: |
000123 text: Не так ли, Агата-чян?
chk: «Ча/Ща»
|
|
Уберу «ча/ща» из проверки оформления, т.к. она итак проверяется как орфография.
В программе поддерживаются словари исключений FireFox/Chrome и пр. «Агата-чян» можно прямо в отчете правой кнопкой (внизу есть текстовое поле со всеми ошибками или вверху в списке ошибок) внести слово как исключение в браузере.
cyril51rus: |
Номера строк, кстати, показывает абсолютные, от начала файла.
Т.е. с номером реплики в ASS-файле, открытом в Aegis они, естественно, не совпадают. |
Могу добавить для субтитров указание, в качестве дополнительной информации, других номеров – надо номер фразы по порядку или лучше время, или и номер и время? Есть ли отличия указания удобных номеров и пр. в ASS/SSA и SRT?
Nyam Maro: | cyril51rus, кажется, он не любит «я» после ч/щ, а не хонорифики ¯\_(ツ)_/¯ |
Вы правы. Уберу это правило из проверки оформления.
Все исправления появятся в ближайшей версии.
Спасибо. |
|
|
|
К началу |
|
Sue

Зарегистрирован: 20.04.2011 Сообщения: 2408
|
Добавлено: Ср Июл 20, 2016 22:51 pm |
|
|
SourceLocalizer: | Вы правы. Уберу это правило из проверки оформления. | Зачем?
Оформлять хонорифик как "чян" - это вообще что-то странное. |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Ср Июл 20, 2016 23:18 pm |
|
|
Sue: | SourceLocalizer: | Вы правы. Уберу это правило из проверки оформления. | Зачем?
Оформлять хонорифик как "чян" - это вообще что-то странное. |
Ранее решил через проверку оформления проверять и явные ошибки орфографии, такие как: жы, шы, чю, щю, чя, ньщ, чьк.
При этом возможно в переводе появятся такие слова как «женьщина» и пр. произносимые персонажем... такие слова можно внести в словарь исключений, но проверка оформления их опять покажет.
Поэтому лучше уберу эти правила из оформления и проверка орфографии будет показывать эти ошибки, пока пользователь сам не внесет их в словарь исключений.
В текущей версии эти проверки убрать очень просто – удалить строки в файле defaultcontfig.cfg – 424-437 строки.
По файлу defaultcontfig.cfg видно, что можно самостоятельно перенастроить правила, статистику, синтаксис разбора файлов и пр. В дальнейшем сделаю к нему описание, для возможности самостоятельного добавления проверок и пр.
Если есть общепризнанные правила оформления хонорифик и др. – напишите, я их внесу в проверку.
Спасибо. |
|
|
|
К началу |
|
cyril51rus

Зарегистрирован: 12.04.2014 Сообщения: 368
|
Добавлено: Чт Июл 21, 2016 0:42 am |
|
|
Sue: | SourceLocalizer: | Вы правы. Уберу это правило из проверки оформления. | Зачем?
Оформлять хонорифик как "чян" - это вообще что-то странное. |
Именно поэтому должно было предложить исправить по Поливанову или не предлагать вообще ничего. :)
А если серьёзно, то по-моему прога нормально работает.
Вполне уже можно пользоваться и без настроек и допиливания. |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Чт Июл 21, 2016 23:44 pm |
|
|
cyril51rus: |
Номера строк, кстати, показывает абсолютные, от начала файла.
Т.е. с номером реплики в ASS-файле, открытом в Aegis они, естественно, не совпадают. |
Если использовать в файле user.params параметр -ENABLETEXTCONTEXT, то он позволит указывать время для текстовых фрагментов, например:
Код: |
000261 chk: Гат context: 21:49 text: ...живёт Гат?..
000269 chk: зан context: 24:11 text: Я — зан, второй после командующего в ордене\n рыцарей святой железной цепи |
Этот параметр в следующей версии программы будет использоваться по умолчанию для ярлыка.
В файлах ASS/SSA есть указание на персонажа говорящего фразу. Решил ее тоже использовать при формировании отчета.
В следующей версии отчеты будут выглядеть:
Код: |
000150 chk: Гат context: 10:07,Guts text: Гат.
000151 chk: Адоль context: 10:09,Monk text: А меня — Адоль.
000152 chk: Колет context: 10:10,Monk text: Её — Колет.
000177 chk: Грифф context: 13:01,Guts text: Грифф!
|
P.S. Специально для примера поломал перевод. В оригинале все ок :) |
|
|
|
К началу |
|
cyril51rus

Зарегистрирован: 12.04.2014 Сообщения: 368
|
Добавлено: Пт Июл 22, 2016 0:26 am |
|
|
SourceLocalizer: |
В файлах ASS/SSA есть указание на персонажа говорящего фразу. Решил ее тоже использовать при формировании отчета.
|
А вот это поле (Actor, если я правильно понял), по-моему, очень редко кто заполняет.
Думаю, простого указания времени реплики было бы вполне достаточно. |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Пт Июл 22, 2016 1:43 am |
|
|
cyril51rus: | SourceLocalizer: |
В файлах ASS/SSA есть указание на персонажа говорящего фразу. Решил ее тоже использовать при формировании отчета.
|
А вот это поле (Actor, если я правильно понял), по-моему, очень редко кто заполняет.
Думаю, простого указания времени реплики было бы вполне достаточно. |
Если поле пустое – будет «0:10,» вместо «0:10,Актер».
В перспективе разделю время и актеров на два используемых при локализации понятия, упрощенно - «контекст» и «информация из исходников» (extracted-comments). Это будет удобней для анализа и оформления отчета.
Такое оформление позволит в дальнейшем выгружать анализируемые файлы в формате файлов для программ перевода вместе с доп.информацией.
Интересует вопрос по порядку переменных в ass/ssa:
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Пока встречался с файлами именно с такой последовательностью полей. Бывает, на практике, другая последовательность?
Еще вопрос по кодировкам. Пока встречался с srt/ass/ssa только в кодировке utf-8.
1251 актуальна для современных субтитров?
Спасибо. |
|
|
|
К началу |
|
cyril51rus

Зарегистрирован: 12.04.2014 Сообщения: 368
|
Добавлено: Пт Июл 22, 2016 23:04 pm |
|
|
SourceLocalizer: |
Интересует вопрос по порядку переменных в ass/ssa:
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Пока встречался с файлами именно с такой последовательностью полей. Бывает, на практике, другая последовательность?
Еще вопрос по кодировкам. Пока встречался с srt/ass/ssa только в кодировке utf-8.
1251 актуальна для современных субтитров?
|
Теоретически, стандарт допускает задание своего порядка параметров, но вручную сабы уже давно никто не пишет, так что, по-моему, это маловероятно.
Про кодировку то же самое - стандарт допускает всё, но Аегис работает с UTF-8, поэтому 1251 можно найти только в самых старых сабах. |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Пт Июл 22, 2016 23:18 pm |
|
|
cyril51rus: | SourceLocalizer: |
Интересует вопрос по порядку переменных в ass/ssa:
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Пока встречался с файлами именно с такой последовательностью полей. Бывает, на практике, другая последовательность?
Еще вопрос по кодировкам. Пока встречался с srt/ass/ssa только в кодировке utf-8.
1251 актуальна для современных субтитров?
|
Теоретически, стандарт допускает задание своего порядка параметров, но вручную сабы уже давно никто не пишет, так что, по-моему, это маловероятно.
Про кодировку то же самое - стандарт допускает всё, но Аегис работает с UTF-8, поэтому 1251 можно найти только в самых старых сабах. |
Ок. Значит настройки по умолчанию выбрал правильные. Спасибо |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Сб Июл 23, 2016 16:33 pm |
|
|
В программу добавил проверку оформления тире и кавычек.
Пример тире:
Код: |
000061 context: 3:18,P
text: Попробуй их поймать... Ведь они сказочные—
chk: тире (alt+151) слитно с буквой
000168 context: 8:21,Godo
text: Ты - сломанный меч, с огромной трещиной посередине...
chk: символ минуса вместо тире
|
Пример кавычек:
Код: |
000038 context: 0:31,Azan
text: "Когда солнце умрёт пять раз,
chk: кавычки "" вместо «»
000086 context: 4:00,Serpico
text: Рыцари Святых Железных Цепей или же "Сыновья Рыцарей"
chk: кавычки "" вместо «»
|
По кавычкам вопрос:
Ряд авторов принципиально используют кавычки «дюймы» вместо «елочек». Решил оставить такие ошибки в отдельном разделе, чтобы авторы могли легко игнорировать такие ошибки. Насколько это удобно?
Пример обновленной проверки оформления: http://www.fansubs.ru/forum/viewtopic.php?p=717980#717980
Спасибо. |
|
|
|
К началу |
|
Nyam Maro
Переводы

Зарегистрирован: 13.10.2014 Сообщения: 544
|
Добавлено: Сб Июл 23, 2016 17:16 pm |
|
|
SourceLocalizer: |
chk: символ минуса вместо тире
|
Идеально! Просто идеально
SourceLocalizer: |
По кавычкам вопрос:
Ряд авторов принципиально используют кавычки «дюймы» вместо «елочек». Решил оставить такие ошибки в отдельном разделе, чтобы авторы могли легко игнорировать такие ошибки. Насколько это удобно?
|
Как любитель «ёлочек», от себя скажу, что это идеальная функция с: |
|
|
|
К началу |
|
SourceLocalizer Гость
|
Добавлено: Сб Июл 23, 2016 20:30 pm |
|
|
Код: |
000414 context: 19:38,
text: Счёт 9-1.
chk: символ минуса вместо короткого тире между цифрами
000415 context: 19:39,
text: Верно, 9-1! Я куда лучше тебя!
chk: символ минуса вместо короткого тире между цифрами
|
Разделителем между цифрами должно быть короткое тире (alt-150). Это правило мало кто соблюдает... может его убрать?
Примечание:
«Короткое (среднее) тире используется для обозначения числовых диапазонов (1941–1945).»
https://www.artlebedev.ru/kovodstvo/sections/97/
Уточнение по тире в тексте:
В качестве тире в тексте («пример — это...») программой разрешается и обычное (alt+151) и короткое тире (alt-150), т.к. разные издания/редакции указывают его по разному. |
|
|
|
К началу |
|
|
|
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете прикреплять файлы к сообщениям Вы можете скачивать файлы, прикрепленные к сообщениям
|
Powered by : phpBB © | Время : 0.1585с | SQL-запросов : 12 | Gzip : Вкл.
|