
Photo by Ben Collins on Unsplash
تقدم ByteDance OmniHuman-1، واحدة من أكثر أدوات DeepFake واقعية في السوق
قدم الباحثون من ByteDance، الشركة الأم لـ Tiktok، هذا الأسبوع أداة الذكاء الاصطناعي الجديدة المسماة OmniHuman لإنشاء مقاطع فيديو بشرية بناءً على الصور ووسائل الإعلام الأخرى.
في عجلة من أمرك؟ ها هي الحقائق السريعة!
- قدمت ByteDance أحدث أدوات الذكاء الاصطناعي لديها، OmniHuman-1، الذي يمكن أن يولد مقاطع فيديو بحركة وأسلوب وسلوك واقعيين من صورة واحدة.
- شارك فريق البحث ورقة مع المزيد من التفاصيل حول المنهجية والاستراتيجيات المستخدمة لتحقيق الواقعية في تصنيع الوجوه الزائفة.
- OmniHuman ليس متاحًا للجمهور بعد.
الإصدار الأول من أداة الذكاء الاصطناعي، OmniHuman-1، قادر على إنتاج مقاطع فيديو تدعم أنماط صور متعددة – تتراوح من التصوير الفوتوغرافي الواقعي إلى الرسوم المتحركة والكرتون – بالإضافة إلى تقديم تقلبات في الصوت والموسيقى، ونسب عرض إلى ارتفاع مختلفة، وصور حركة واقعية. في عدة عروض توضيحية، عرضت الشركة الصينية قدرات نموذج الذكاء الاصطناعي.
“تتفوق OmniHuman بشكل كبير على الطرق الحالية، حيث تنتج مقاطع فيديو بشرية واقعية للغاية بناءً على إشارات ضعيفة، خاصة الصوت،” كما يذكر الورقة البحثية المنشورة يوم الاثنين من قبل فريق Bytedance. “إنه يدعم مدخلات الصور بأي نسبة عرض إلى ارتفاع، سواء كانت صور بورتريه، أو نصف جسم، أو صور للجسم بالكامل، مما يوفر نتائج أكثر واقعية وجودة عالية في مختلف السيناريوهات.”
وأوضح فريق البحث أنهم استخدموا “استراتيجية التدريب المختلطة لتكييف الحركة متعددة الوسائط” وقدموا عدة أمثلة على قدرات الأداة، بما في ذلك إعادة إنشاء فصل دراسي مع ألبرت أينشتاين، ومحاكاة الخطابات باستخدام الصور من مواقع خالية من الحقوق، وتوليد عروض موسيقية من وسائل الصوت أو الفيديو.
حذر فريق البحث في ByteDance من مخاطر الاحتيال – لم يتم بعد إطلاق أداة الذكاء الصناعي على الجمهور، ولم يشاركوا بتاريخ – والقضايا الأخلاقية الأخرى. أكدت الشركة أن الصور والفيديوهات المستخدمة للتوضيح أداء النموذج تم أخذها من المصادر العامة.
وفقًا لما ذكرته فوربس، استخدمت الشركة الصينية 18700 ساعة من بيانات الفيديو البشرية لتدريب الوضع الجديد. وقد شارك العديد من الخبراء بالفعل آراءهم حول أداة الذكاء الصناعي الجديدة.
قالت سامانثا جي. وولف، الأستاذة المساعدة في كلية ستاينهارت في جامعة نيويورك للثقافة والتعليم وتطوير الإنسان ومؤسسة PitchFWD في مقابلة مع فوربس: “إن خلق شيء من مجرد صورة وجعله يبدو كأنه يتحدث ويتحرك بالفعل هو أمر مذهل من الناحية التكنولوجية، لكنه قد يكون له الكثير من العواقب السلبية أيضًا.” وأضافت “النسخ التظاهرية لقادة الأعمال أو القادة السياسيين وهم يقولون شيئًا غير دقيق يمكن أن يكون له تأثير كبير على الأعمال، أو تأثير كبير على البلاد.”
تتشارك مخاوف وولف مع العديد من الخبراء في الصناعة. حذر خبراء الأمن السيبراني مؤخراً من موجة جديدة من الاحتيال تستخدم وسائل متطورة لتوليد الصور الوهمية بواسطة الذكاء الاصطناعي.
اترك تعليقًا
إلغاء