![OpenAI ادعا می کند که مدل رایگان GPT-4o آن می تواند مانند یک انسان صحبت کند، بخندد، آواز بخواند و ببیند](https://videocardz.ir/wp-content/uploads/OpenAI-ادعا-می-کند-که-مدل-رایگان-GPT-4o-آن-می.jpeg)
OpenAI روز دوشنبه GPT-4o را معرفی کرد، یک مدل کاملاً جدید هوش مصنوعی که به گفته این شرکت یک گام به “تعامل بسیار طبیعی تر انسان و کامپیوتر” نزدیک تر است. مدل جدید هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی می پذیرد و می تواند خروجی در هر سه فرمت تولید کند. همچنین میتواند احساسات را تشخیص دهد، به شما امکان میدهد آن را در اواسط گفتار قطع کنید، و تقریباً به سرعت یک انسان در طول مکالمه پاسخ میدهد.
میرا موراتی، مدیر ارشد فناوری OpenAI، طی یک ارائه پخش زنده گفت: «نکته ویژه در مورد GPT-4o این است که هوش سطح GPT-4 برای همه، از جمله کاربران رایگان ما، وجود دارد. این اولین باری است که ما در مورد سهولت استفاده گام بزرگی به جلو برمی داریم.
در طول ارائه، OpenAI GPT-4o را به نمایش گذاشت که به صورت زنده بین انگلیسی و ایتالیایی ترجمه میکند، به یک محقق کمک میکند تا معادله خطی را در زمان واقعی بر روی کاغذ حل کند، و تنها با گوش دادن به نفسهای او، راهنمای تنفس عمیق را به یکی دیگر از مدیران OpenAI ارائه میدهد.
“o” در GPT-4o مخفف “omni” است که اشاره ای به قابلیت های چندوجهی مدل است. OpenAI گفت که GPT-4o در متن، دید و صدا آموزش داده شده است، به این معنی که تمام ورودی ها و خروجی ها توسط یک شبکه عصبی پردازش می شوند. این با مدلهای قبلی این شرکت، GPT-3.5 و GPT-4 متفاوت است، که به کاربران اجازه میداد به سادگی با صحبت کردن سؤال بپرسند، اما سپس گفتار را به متن تبدیل میکردند. این لحن و احساسات را از بین برد و تعاملات را کندتر کرد.
OpenAI مدل جدید را در چند هفته آینده در دسترس همه از جمله کاربران ChatGPT رایگان قرار می دهد و همچنین نسخه دسکتاپ ChatGPT را در ابتدا برای Mac منتشر می کند که کاربران پولی از امروز به آن دسترسی خواهند داشت.
اعلام OpenAI یک روز قبل از Google I/O، کنفرانس سالانه توسعه دهندگان این شرکت، منتشر شد. مدت کوتاهی پس از اینکه OpenAI GPT-4o را فاش کرد، گوگل نسخهای از Gemini، ربات چت هوش مصنوعی خود را با قابلیتهای مشابه به نمایش گذاشت.