ابزار هوش مصنوعی مایکروسافت می‌تواند عکس‌ها را به ویدیوهای واقعی از صحبت کردن و آواز خواندن افراد تبدیل کند

Microsoft Research Asia از یک ابزار آزمایشی هوش مصنوعی جدید به نام VASA-1 پرده برداری کرده است که می تواند تصویر ثابتی از یک شخص – یا نقاشی یک نفر – و یک فایل صوتی موجود برای ایجاد یک چهره واقعی صحبت کردن از آنها در زمان واقعی بگیرد. این توانایی ایجاد حالات چهره و حرکات سر برای یک تصویر ثابت موجود و حرکات مناسب لب برای مطابقت با یک سخنرانی یا یک آهنگ را دارد. محققان نمونه های زیادی را در صفحه پروژه آپلود کردند و نتایج به قدری خوب به نظر می رسند که می توانند مردم را فریب دهند تا فکر کنند واقعی هستند.

در حالی که حرکات لب و سر در نمونه‌ها همچنان می‌تواند با بررسی دقیق‌تر کمی روباتیک و ناهماهنگ به نظر برسد، هنوز واضح است که این فناوری می‌تواند برای ایجاد آسان و سریع ویدیوهای عمیق از افراد واقعی مورد سوء استفاده قرار گیرد. محققین خود از این پتانسیل آگاه هستند و تصمیم گرفته‌اند تا زمانی که مطمئن نشوند که از فناوری آنها «مسئولانه و مطابق با استانداردهای لازم استفاده می‌شود» «دمو، API، محصول، جزئیات پیاده‌سازی اضافی یا هر پیشنهاد مرتبط» را منتشر نکنند. آئین نامه.” با این حال، آنها نگفتند که آیا قصد دارند تدابیر امنیتی خاصی را برای جلوگیری از استفاده بازیگران بد از آنها برای اهداف پلید، مانند ایجاد کمپین‌های پورنو یا اطلاعات نادرست، اجرا کنند.

محققان بر این باورند که فناوری آنها علیرغم استفاده نادرست از مزایای زیادی دارد. آنها گفتند که می توان از آن برای افزایش برابری آموزشی، و همچنین برای بهبود دسترسی برای کسانی که دارای چالش های ارتباطی هستند، استفاده کرد، شاید با دادن دسترسی به آواتاری که می تواند برای آنها ارتباط برقرار کند. همچنین می‌تواند برای کسانی که به آن نیاز دارند، همراهی و پشتیبانی درمانی ارائه کند، به گفته آنها، تلقین VASA-1 می‌تواند در برنامه‌هایی استفاده شود که امکان دسترسی به شخصیت‌های هوش مصنوعی را فراهم می‌کند که افراد می‌توانند با آنها صحبت کنند.

بر اساس مقاله منتشر شده همراه با این اطلاعیه، VASA-1 بر روی مجموعه داده VoxCeleb2 آموزش دیده است که حاوی “بیش از 1 میلیون گفته برای 6112 چهره مشهور” است که از ویدیوهای YouTube استخراج شده است. اگرچه این ابزار بر روی چهره‌های واقعی آموزش داده شده است، اما روی عکس‌های هنری مانند مونالیزا نیز کار می‌کند، که محققان به طرز جالبی آن‌ها را با یک فایل صوتی از اجرای ویروسی آن هاتاوی از لیل وین ترکیب کردند. پاپاراتزی. این بسیار لذت بخش است، ارزش تماشای آن را دارد، حتی اگر شک دارید که چنین فناوری چه فایده ای دارد.

این محتوای جاسازی شده در منطقه شما در دسترس نیست.

این مقاله حاوی پیوندهای وابسته است. اگر روی چنین پیوندی کلیک کنید و خریدی انجام دهید، ممکن است کمیسیون دریافت کنیم.

منبع

Mariella Moon