Голосовой помощник слушает, понимает и отвечает.
Компания OpenAI начала внедрение нового продвинутого голосового режима для ChatGPT, основанного на модели GPT-4o. Запуск стартовал во вторник, но на данном этапе функция доступна только ограниченной группе пользователей ChatGPT Plus. Полномасштабное внедрение планируется осенью 2024 года, когда все подписчики премиум-версии получат доступ к новой возможности.
Новая технология отличается от предыдущих версий голосового режима ChatGPT. В отличие от предыдущих версий, где для работы с голосом требовалось три разные системы (одна для распознавания речи, вторая для обработки текста и третья для озвучивания ответов), новая модель GPT-4o объединяет все эти функции в одну. Теперь она сама умеет слушать, понимать и отвечать голосом, не прибегая к помощи дополнительных программ. Такой подход значительно снижает задержку в общении и делает диалог более естественным. Система также способна распознавать эмоциональные интонации, включая грусть, возбуждение и пение.
OpenAI уделяет особое внимание безопасности новой технологии. Компания провела тестирование с участием более 100 экспертов, владеющих 45 языками, для выявления потенциальных рисков и уязвимостей. Отчет о результатах этой работы планируется опубликовать в начале августа.
Для предотвращения проблем с deepfake и нарушением авторских прав OpenAI ввела ряд ограничений. Система не может имитировать голоса реальных людей или публичных фигур. Кроме того, блокируются запросы на генерацию музыки и другого защищенного авторским правом аудиоконтента. Эти меры призваны предотвратить возможные юридические проблемы, с которыми уже столкнулись некоторые AI-компании.
На данный момент пользователям доступны четыре предустановленных голоса: Juniper, Breeze, Cove и Ember. Эти голоса были созданы в сотрудничестве с профессиональными актерами озвучки. OpenAI планирует внимательно следить за использованием новой функции и постепенно расширять доступ к ней.
Стоит отметить, что первая демонстрация возможностей GPT-4o в мае вызвала некоторые разногласия. Голос ассистента, названный Sky, был настолько реалистичен, что напомнил многим голос актрисы Скарлетт Йоханссон из фильма «Она». После демонстрации Йоханссон заявила, что не давала разрешения на использование её голоса и даже наняла юристов для защиты своих прав. OpenAI опровергла использование голоса Йоханссон, но впоследствии убрала демонстрационную версию Sky из публичного доступа.
Внедрение продвинутого голосового режима ChatGPT является важным шагом в развитии искусственного интеллекта. Технология может значительно изменить способы взаимодействия людей с AI-системами, делая общение более естественным и интуитивно понятным. Однако вместе с этим возникают новые этические вопросы, связанные с защитой личности и авторских прав.
OpenAI также сообщила, что функции видео и демонстрации экрана, показанные во время весенней презентации, не будут включены в текущую альфа-версию. Их запуск планируется на более поздний срок.
Компания подчеркивает, что постепенное внедрение новой функции позволит тщательно контролировать ее использование. Пользователи, получившие доступ к альфа-версии, будут уведомлены через приложение ChatGPT и получат инструкции по электронной почте.
От классики до авангарда — наука во всех жанрах