OpenAI представила языковую модель GPT-4o — она умеет петь, менять интонацию голоса и считывать эмоции

На презентации OpenAI в Сан-Франциско представили новую версию языковой модели с генеративным ИИ GPT-4o, которая ляжет в основу чат-бота ChatGPT. Буква О означает сокращение от слова omni (всесторонний).

Во время презентации разработчики отдельно сделали акцент на возможностях GPT-4o в качестве голосового помощника. Нейросеть реагирует на речь за 320 миллисекунд. Это сравнимо с реакцией человека в разговоре. Также GPT-4o умеет смеяться, выражать эмоции, менять интонации голоса (например, делать его более драматичным или, наоборот, говорить как робот) и даже петь. Например, на демонстрации нейросеть радуется за мужчину по имени Роки, идущего на собеседование в OpenAI, и мягко критикует его внешний вид (на видео).

Во время демонстрации голосовой версии GPT-4o нейросеть не просто решила простое уравнение, написанное на листе бумаги, но и дала полезные рекомендации о том, как именно его решить, передает «Би-би-си». Также она переводила с итальянского на английский и обратно и интерпретировала эмоции человека. При этом не обошлось без накладок: в какой-то момент GPT-4o приняла улыбающегося мужчину за деревянную поверхность.

После презентации глава OpenAI Сэм Альтман опубликовал в соцсети X лаконичное сообщение с названием фильма «Она», тем самым сравнив GPT-4o с голосовым помощником Самантой из картины 2013 года с Хоакином Фениксом и Скарлетт Йоханссон.

Рубрика: Новости

Дата: 15-05-2024

Теги: ChatGPT Нейросети