Просто для информации юзеров, или кому интересно помодить Для личного использования можно сменить битность WAV с 24 на 16 перегнав конвертором, звук не потеряет в качестве, но будет намного меньше
Кстати кому интересно можно прогнать голоса через фильтр с небольшой ревербацией и расширения стереобазы (напр. в Adobe Audition) будет более естественно звучать, как в пространстве
Насчёт сжатия - звук уже был сжат с 32 бит, так-как игровой движок не воспроизводил. Если хочется уменьшить вес, то можно сменить дискретизацию с 48000 до 44100 и уменьшить битность с 24 до 16 - Звук потеряет в качестве, но на слух это будет не заметно (На большинстве устройств воспроизведения). После сжатия будут следующие различия: 1) При смене дискретизации с 48000 до 44100 - уменьшится частотный диапазон звука с 24000 до 22000. (На большинстве звуковых карт разницу не услышать - тем более оригинальные файлы имеют частотный диапазон около 12000) 2) При смене битности с 24 до 16 - Появиться дополнительный шум и заполниться пустота. На слух повлияет при использовании хороших наушников и повлияет на лицевую анимацию при генерации новых "LIP" файлов. (Из-за шума, движения губ станут менее точными, так-как в некоторых местах движок определит новый шум как "Нужный" звук и сделает для него не нужные движения).
Касаемо "Реверберации" - я бы не стал добавлять, так-как игровая "Реверберация" смешается с самодельной и появится странное чувство нахождения в пещере (Даже когда персонажи будут стоять по среди поля).
Если хочется более естественного и мягкого звучания - советую использовать мои звуковые модели для "SVC" и у голоса выбирать приставку "_HD" и не перепутайте с "_HD_EQ" (У "_HD" приставки нет "Компрессии" и яркой "Эквализации")
О! Шикарно! Вы делаете отличную работу! Я смотрю и модели SVC вы выложили. Отлично! А в чём вы генерировали недостающие фразы (я имею ввиду TTS), или сами озвучили через микрофон и клонировали голос в SVC? Вы модели сами обучаете? Много времени уходит на обучение одной модели? Я знаю xVA, но вот с SVC мало знаком, но тоже мне он интересен. Буду рад обменяться опытом по голосовым ИИ.
1) Генерирую обычным TTS (я использую "Balabolka" и голоса "Microsoft Azure") а потом сверху применяю модель голоса обученную для SVC. 2) Обучаю сам, по времени занимает от 12 часов до 10 дней. Это зависит от голоса и количества данных для обучения (чем больше данных, тем дольше обучение - но лучше результат). 3) Я пробовал обучать на "xVA", но он плохо дружит с русским языком. 4) Я тоже буду рад обмену опытом.
Благодарю за развернутый ответ. 1. Интересное решение через Балаболку и Azure. 2. Вот оно что... я пробовал обучать в SVC, но тоже там что-то 5 дней ушло на 1000(или 10000 сколько там эпох по умолчанию)? 3. xVA я пытаюсь прокачивать. Словарь это головная боль. Да, у него есть свои нюансы. В моих видео тут на нексусе можно увидеть как в Мантелле (в SkyrimSE и VR) он звучит. Также есть фикс, чтобы русские слова не пропускал. 4. Написал вам личным сообщением свой дискорд. Надеюсь, вы им пользуетесь. Там легче сразу примеры или что угодно отправить. Очень интересен ваш опыт с SVC
1) Балаболку использую, так-как есть полноценный пакетный режим обработки и потому-что не знаю альтернатив. 2) Касаемо обучения SVC: Обучаю модели до 100 эпох (если данных много); 120 и более минут данных Обучаю модели до 500 эпох (если данных не мало и не много); = 40-60 минут данных Обучаю модели до 1000 эпох (если данных мало); = 10-20 минут данных Обучаю модели до 2000 эпох (если данных очень мало). = 2-5 минут данных 3) Касаемо словарей у xVA эту проблему я знаю. Пытался озвучит мод в котором очень много редко используемых слов и при озвучки в xVA, был просто шум (приходилось искать эти слова и добавлять в словари, предварительно сделав расшифровку слова по алфавиту "ARPAbet"). Но даже после добавления этих слов звучание было очень далёким от нужного. 4) Discord у меня есть, но я им почти не пользуюсь.
Я не совсем понял о чём идёт речь, но заменять файлы озвучки можно без каких либо проблем. Замену удобнее проводить через инструмент "Lazy Voice Finder".
8 comments
Для личного использования можно сменить битность WAV с 24 на 16 перегнав конвертором, звук не потеряет в качестве, но будет намного меньше
Кстати кому интересно можно прогнать голоса через фильтр с небольшой ревербацией и расширения стереобазы (напр. в Adobe Audition) будет более естественно звучать, как в пространстве
После сжатия будут следующие различия:
1) При смене дискретизации с 48000 до 44100 - уменьшится частотный диапазон звука с 24000 до 22000. (На большинстве звуковых карт разницу не услышать - тем более оригинальные файлы имеют частотный диапазон около 12000)
2) При смене битности с 24 до 16 - Появиться дополнительный шум и заполниться пустота.
На слух повлияет при использовании хороших наушников и повлияет на лицевую анимацию при генерации новых "LIP" файлов. (Из-за шума, движения губ станут менее точными, так-как в некоторых местах движок определит новый шум как "Нужный" звук и сделает для него не нужные движения).
Касаемо "Реверберации" - я бы не стал добавлять, так-как игровая "Реверберация" смешается с самодельной и появится странное чувство нахождения в пещере (Даже когда персонажи будут стоять по среди поля).
Если хочется более естественного и мягкого звучания - советую использовать мои звуковые модели для "SVC" и у голоса выбирать приставку "_HD" и не перепутайте с "_HD_EQ" (У "_HD" приставки нет "Компрессии" и яркой "Эквализации")
Я смотрю и модели SVC вы выложили. Отлично!
А в чём вы генерировали недостающие фразы (я имею ввиду TTS), или сами озвучили через микрофон и клонировали голос в SVC?
Вы модели сами обучаете? Много времени уходит на обучение одной модели?
Я знаю xVA, но вот с SVC мало знаком, но тоже мне он интересен.
Буду рад обменяться опытом по голосовым ИИ.
2) Обучаю сам, по времени занимает от 12 часов до 10 дней. Это зависит от голоса и количества данных для обучения (чем больше данных, тем дольше обучение - но лучше результат).
3) Я пробовал обучать на "xVA", но он плохо дружит с русским языком.
4) Я тоже буду рад обмену опытом.
1. Интересное решение через Балаболку и Azure.
2. Вот оно что... я пробовал обучать в SVC, но тоже там что-то 5 дней ушло на 1000(или 10000 сколько там эпох по умолчанию)?
3. xVA я пытаюсь прокачивать. Словарь это головная боль. Да, у него есть свои нюансы. В моих видео тут на нексусе можно увидеть как в Мантелле (в SkyrimSE и VR) он звучит. Также есть фикс, чтобы русские слова не пропускал.
4. Написал вам личным сообщением свой дискорд. Надеюсь, вы им пользуетесь. Там легче сразу примеры или что угодно отправить. Очень интересен ваш опыт с SVC
2) Касаемо обучения SVC:
Обучаю модели до 100 эпох (если данных много); 120 и более минут данных
Обучаю модели до 500 эпох (если данных не мало и не много); = 40-60 минут данных
Обучаю модели до 1000 эпох (если данных мало); = 10-20 минут данных
Обучаю модели до 2000 эпох (если данных очень мало). = 2-5 минут данных
3) Касаемо словарей у xVA эту проблему я знаю. Пытался озвучит мод в котором очень много редко используемых слов и при озвучки в xVA, был просто шум (приходилось искать эти слова и добавлять в словари, предварительно сделав расшифровку слова по алфавиту "ARPAbet"). Но даже после добавления этих слов звучание было очень далёким от нужного.
4) Discord у меня есть, но я им почти не пользуюсь.
Замену удобнее проводить через инструмент "Lazy Voice Finder".