OpenAI представила в этот понедельник новую версию своего успешного чат-бота с искусственным интеллектом ChatGPT, который может получать запросы и отвечать на них, комбинируя звук, изображение и текст.
Называется ГПТ-4о («или» от «омни») и будет доступен бесплатно всем пользователям, хотя подписчики могут задавать дополнительные вопросы.
GPT-4o интегрируется в один инструмент функциональные возможности чат-ботов (например, ChatGPT 3.5), голосовых помощников (например, Siri или Alexa) и моделей обработки изображений.
По словам технологического репортера New York Times, «в то время как Apple и Google превращают своих голосовых помощников (Siri и Hey Google) в чат-ботов, OpenAI превращает своего чат-бота (ChatGPT) в голосового помощника».
Новая версия Быстрее чем предыдущие, и был запрограммирован на тон более разговорчивый и теплый, а иногда и кокетливыйв своих ответах на требования пользователей.
Во время прямой трансляции в понедельник ИИ сказал ведущей: «Ты заставляешь меня краснеть», когда он сделал ей комплимент.
Сэм Альтманоснователь OpenAI, написал в сообщении в социальной сети X после анонса слова «ее» по отношению к фильму 2013 года. Ее (Она), в которой главный герой влюбляется в операционную систему своего компьютера.
По данным MIT Technology Review, GPT-4o имеет те же возможности, что и его предшественник GPT-4, но объединяет несколько моделей, которые работали отдельно, в одну модель, «что приводит к более быстрому реагированию и более плавным переходам между задачами».
Вот новые возможности ИИ:
1. Плавные и эмоциональные разговоры
По данным OpenAI, ее новая технология способна реагировать на аудиозапросы (то есть вопросы или команды вслух пользователей) в среднем за 320 миллисекунд, время, подобное времени, которое требуется человеку, чтобы ответить в разговоре на английском языке. И пользователи могут прервать работу ИИ в любой момент.
Кроме того, «модель способна генерировать голос в различных эмоциональных стилях», таких как «драматичный» или «саркастический».
2. «Будь моими глазами»
В одном из демонстрационных видеороликов новой технологии виден ИИ описание в реальном времени для пользователя поведение уток на небольшом озере или предупреждение его о приближении такси.
GPT-4o способен считывать и интерпретировать изображения по мере их появления на камере. Вы даже можете определить эмоции по выражению лица.
Это функция, созданная в сотрудничестве с датским приложением Be My Eyes и предназначенная для Окажите помощь людям с ограниченными возможностями по зрению.
3. Перевод в реальном времени
GPT4-o может выступать переводчиком в разговоре между двумя людьми, говорящими на разных языках, хотя и с ошибками.
Также, используя свою модель обработки изображений, ИИ может сообщать пользователю, как называются те или иные объекты, которые он показывает на камере на другом языке.
3. Присутствие на собраниях
«На сегодняшней встрече Лилиан и Кристина выразили свою любовь к собакам, подчеркнув их преданность, дружелюбие и то, насколько хорошо они ладят с детьми. С другой стороны, Ола предпочитает кошек за их независимость, спокойствие и долголетие», — резюмировал он (в видео OpenAI) с американским акцентом GPT-4o после присутствия на виртуальной встрече из 4 человек.
Новая версия модели умеет расшифровывать встречи, делать заметки и подводить итоги того, что произошло.
4. Помощь с математикой
GPT-4o способен помочь пользователю с математическими задачами, например, с решением уравнения, не сообщая ему ответа.
Согласно демо компании, студент может, например, показать GPT-4o задачу по тригонометрии из своего учебника, а ИИ может помочь вам решить проблему, задать вопросы и исправить ее. если вы допустите ошибки в процессе.
6. Генерируйте изображения
Новая версия ChatGPT включает в себя функциональные возможности таких инструментов создания изображений, как Dall-E (также от OpenAI).
Вы можете, например, создать изображение из текстовой команды, можете превратить фотографию в мультфильм или составить постер фильма. интерпретация изображений и идей в тексте предоставленный пользователем.
Неудачи
Демонстрация прошла не совсем гладко: в какой-то момент ИИ принял улыбающегося ведущего за деревянную поверхность. В другом он начал решать уравнение, которое ему еще не показывали.
Джеймс О’Доннелл, репортер MIT Technology Review, написал о демонстрации, что «голос GPT-4o мог неловко вмешиваться во время разговора и, казалось, комментировал одежду одного из докладчиков без подсказки».
Это непреднамеренно показало, что еще предстоит пройти долгий путь, прежде чем ошибки и галлюцинации, из-за которых возникают чат-боты, будут устранены. ненадежен и потенциально небезопасен.
Но что действительно показывает недавний запуск, так это направление, в котором собирается пойти OpenAI: сделать ChatGPT виртуальным помощником, таким как Siri или Hey Google, но улучшенным, который запоминает то, что ему говорили в прошлом, и может взаимодействовать помимо голоса или текста.
По словам технологического редактора BBC, Зои Кляйнманспособ GPT-4o объединяет текст, аудио и изображения с мгновенным откликом похоже, ставит OpenAI впереди конкурентов.
Конечно, пока известны только видеоролики и демонстрация, подготовленная и организованная компанией. Еще неизвестно, как эта новая технология отреагирует на взаимодействие с миллионами пользователей.