Искусственный голос мастерски понимает нюансы и паузы человеческой речи.
Компания DeepMind, принадлежащая Google, продолжает развивать инновационные технологии для генерации речи, делая цифровые ассистенты и ИИ-инструменты более естественными и интуитивными для пользователей по всему миру. Эти достижения направлены на создание реалистичного звука, что помогает людям общаться, обмениваться информацией и выражать эмоции.
Недавно компания представила две функции для генерации диалогов: NotebookLM Audio Overviews и Illuminate. Первая позволяет превратить загруженные документы в диалог между двумя ИИ-хостами, которые обобщают материал и создают ассоциативные связи. Вторая — помогает превратить научные статьи в понятные обсуждения, делая информацию доступнее.
На основе исследований в области аудиогенерации, Google DeepMind создала модели, способные воспроизводить диалоги между несколькими говорящими, используя инновации, такие как SoundStream и AudioLM. SoundStream сжимает аудио без потери качества, превращая его в токены, сохраняющие важные свойства, как тембр и интонации. AudioLM же моделирует процесс генерации речи как задачу обработки языка, что позволяет ему гибко работать с различными звуками.
В рамках масштабирования моделей для многоголосой генерации DeepMind разработала более эффективный аудиокодек, сжимающий звук до 600 бит в секунду. При этом модель способна генерировать 2-минутные диалоги за 3 секунды — более чем в 40 раз быстрее реального времени.
Для обучения модели использовались сотни тысяч часов аудиоданных, после чего её дообучили на основе разговоров с актёрами и естественными паузами и интонациями. Это позволило модели создавать реалистичные диалоги, точно переключаясь между говорящими и поддерживая студийное качество звука.
Соблюдая принципы ответственного развития ИИ, DeepMind добавила в модели технологию SynthID для водяных знаков на аудиофайлах, генерируемых ИИ. Это поможет предотвратить потенциальное неправомерное использование технологий.
Будущее этой технологии обещает улучшение качества звука и более точные настройки, включая работу с видео. Сочетание этих нововведений с моделями семейства Gemini открывает большие перспективы для создания доступного и инклюзивного контента, что особенно актуально для образовательных проектов и мультимодальных решений.
Спойлер: она начинается с подписки на наш канал