OpenAI ادعا می کند که مدل رایگان GPT-4o آن می تواند مانند یک انسان صحبت کند، بخندد، آواز بخواند و ببیند

OpenAI روز دوشنبه GPT-4o را معرفی کرد، یک مدل کاملاً جدید هوش مصنوعی که به گفته این شرکت یک گام به “تعامل بسیار طبیعی تر انسان و کامپیوتر” نزدیک تر است. مدل جدید هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی می پذیرد و می تواند خروجی در هر سه فرمت تولید کند. همچنین می‌تواند احساسات را تشخیص دهد، به شما امکان می‌دهد آن را در اواسط گفتار قطع کنید، و تقریباً به سرعت یک انسان در طول مکالمه پاسخ می‌دهد.

میرا موراتی، مدیر ارشد فناوری OpenAI، طی یک ارائه پخش زنده گفت: «نکته ویژه در مورد GPT-4o این است که هوش سطح GPT-4 برای همه، از جمله کاربران رایگان ما، وجود دارد. این اولین باری است که ما در مورد سهولت استفاده گام بزرگی به جلو برمی داریم.

در طول ارائه، OpenAI GPT-4o را به نمایش گذاشت که به صورت زنده بین انگلیسی و ایتالیایی ترجمه می‌کند، به یک محقق کمک می‌کند تا معادله خطی را در زمان واقعی بر روی کاغذ حل کند، و تنها با گوش دادن به نفس‌های او، راهنمای تنفس عمیق را به یکی دیگر از مدیران OpenAI ارائه می‌دهد.

“o” در GPT-4o مخفف “omni” است که اشاره ای به قابلیت های چندوجهی مدل است. OpenAI گفت که GPT-4o در متن، دید و صدا آموزش داده شده است، به این معنی که تمام ورودی ها و خروجی ها توسط یک شبکه عصبی پردازش می شوند. این با مدل‌های قبلی این شرکت، GPT-3.5 و GPT-4 متفاوت است، که به کاربران اجازه می‌داد به سادگی با صحبت کردن سؤال بپرسند، اما سپس گفتار را به متن تبدیل می‌کردند. این لحن و احساسات را از بین برد و تعاملات را کندتر کرد.

OpenAI مدل جدید را در چند هفته آینده در دسترس همه از جمله کاربران ChatGPT رایگان قرار می دهد و همچنین نسخه دسکتاپ ChatGPT را در ابتدا برای Mac منتشر می کند که کاربران پولی از امروز به آن دسترسی خواهند داشت.

اعلام OpenAI یک روز قبل از Google I/O، کنفرانس سالانه توسعه دهندگان این شرکت، منتشر شد. مدت کوتاهی پس از اینکه OpenAI GPT-4o را فاش کرد، گوگل نسخه‌ای از Gemini، ربات چت هوش مصنوعی خود را با قابلیت‌های مشابه به نمایش گذاشت.

منبع

Pranav Dixit