هوش مصنوعی Segment Anything 2 ؛ ساخت ویدیو با متن
یه خبر بد برای طرفداران و فنهای ویژن متا! مارک زاکربرگ به همراه بزرگان شرکت انویدیا و جنسن هوانگ (مدیر عامل شرکت انویدیا) آخرین هوش مصنوعی ویژن متا را به نمایش گذاشتند. قبلا نوعی مدل یادگیری ماشینی برای شناسایی عکسها کار میکرد روز دوشنبه در SIGGRAPH (سازمان توسعه گرافیک) دیده شد آقای زاکربرگ میخواد این هوشمصنوعی رو تو زمینه ویدیویی هم بست بده و نشون بده حوزه هوشمصنوعی با چه سرعتی داره تغییر و پیشرفت میکنه.
آقای زاکربرگ در گفتوگویی با جنسن هوانگ در SIGGRAPH گفت:
“اینکه بتوانید همه این کارها را به جای عکسها با ویدیوها بکنید و بههوش مصنوعی Segment Anything 2 که قابلیت درک و فهم مجازی دارد بگویید چه میخواهید فرای فهم است.”
برای مثال فکر کنید به هوش مصنوعی Segment Anything 2 دستور بدهید و این هوشمصنوعی طبق گفته های شما قطعات مورد نیاز برای در آوردن چیزی که شما میخواهید را پیدا و کار را برایتان در بیاورد.
به متن پایین که از گزینه های برگرفته شده از هوش مصنوعی Segment Anything 2 هست دقت کنید:
- سگی که در پشت درخت ایستاده و حرکت نمیکند.
- سگی که از درخت در حال بالارفتن است.
تمام این متنها با هوش مصنوعی Segment Anything 2 برای شما ساخته میشوند. باور این موضوع شاید برای شما هم سخت باشد ولی غیرقابل باور نیست.
این فقط قسمت کوچکی از قابلیتهای هوش مصنوعی Segment Anything 2 بود و در آپدیت جدید تمام این قابلیتها برای اعمال دستورات داده شده روی ویدیو هم اعمال میشوند که میشه روی هر فریم ویدیو به صورت جدا اجرا بشه.
محققان از این تکنولوژی برای مطالعه، آموزش و تحقیق استفاده میکنند، البته پردازش ویدیو بسیار سخت هست که مدل SA2 میتواند اون رو به راحتی انجام دهد؛ ولی یک مدل قوی تر هم هست که اگر میخواید اون رو برای کار آماده کنید نیازمند سخت افزاری بسیار قوی هست ولی تقسیم بندی و انعطاف پذیر بودن مدلها تا 1 سال پیش غیرممکن بود.
هوش مصنوعی Segment Anything 2 مثل مدل قبلی رایگان برای استفاده خواهد بود معمولا شرکت های توسعه دهنده هوشمصنوعی بخشی از پروژههای خود را به صورت یک نسخه بتا به صورت رایگان عرضه میکنند.
طبیعی هست که این مدل ها برای آموزش به میزان زیادی از دیتا و اطلاعات نیاز دارند همونطور که متا هم پایگاه داده بزرگی به اندازه 50.000 ویدیو رو برای این منظور آماده کرده است. در یک متنی که از SA2 توضیح میدهند گفتند که یک پایگاه داده حدود 100.000 ویدیو برای آموزش این مدل استفاده کردند که این پایگاه داده در دسترس عموم قرار نخواهد گرفت.
هوش مصنوعی Segment Anything
شرکت متا که شرکت مادر فیسبوک هست در بخش هوشمصنوعی پیشرو بوده و هست و اعلام کرد که برای مدت طولانی داشت از ابزار PyTorch استفاده میکرد ولی به تازگی دارند از هوش مصنوعی Segment Anything 2 و LLaMa استفاده میکنند که یک نوع نوار قابل دسترس و باز هست.
زاکربرگ گفت که واضح بودن این ها از خوبی قلب در متا نیست ولی این ناپاک بودن قلب اون ها رو ثابت نمیکنه
“این فقط نرم افزار نیست که اون رو اجرا کنید بلکه شما باید یک اکوسیتستم داشته باشید که منبع باز باشد و اگر منبع باز نباشد نمیتواند به خوبی کار کند و ما هم قرار نیست که اون رو منبع باز کنیم چون ما انسان ها ذات خوبی نداریم و شاید ازش سوء استفاده کنیم”