هوش مصنوعی Segment Anything 2 ؛ ساخت ویدیو با متن

وحید دلشاد

2 سال پیش

یه خبر بد برای طرفداران و فن‌های ویژن متا! مارک زاکربرگ به همراه بزرگان شرکت انویدیا و جنسن هوانگ (مدیر عامل شرکت انویدیا) آخرین هوش مصنوعی ویژن متا را به نمایش گذاشتند. قبلا نوعی مدل یادگیری ماشینی برای شناسایی عکس‌ها کار می‌کرد روز دوشنبه در ‌SIGGRAPH (سازمان توسعه گرافیک) دیده شد آقای زاکربرگ می‌خواد این هوش‌مصنوعی رو تو زمینه ویدیویی هم بست بده و نشون بده حوزه هوش‌مصنوعی با چه سرعتی داره تغییر و پیشرفت می‌کنه.

آقای زاکربرگ در گفت‌وگویی با جنسن هوانگ در ‌SIGGRAPH گفت:

“اینکه بتوانید همه این کارها را به جای عکس‌ها با ویدیوها بکنید و بههوش مصنوعی Segment Anything 2 که قابلیت درک و فهم مجازی دارد بگویید چه می‌خواهید فرای فهم است.”

برای مثال فکر کنید به هوش مصنوعی Segment Anything 2 دستور بدهید و این هوش‌مصنوعی طبق گفته های شما قطعات مورد نیاز برای در آوردن چیزی که شما میخواهید را پیدا و کار را برایتان در بیاورد.

به متن پایین که از گزینه های برگرفته شده از هوش مصنوعی Segment Anything 2 هست دقت کنید:

سگی که در پشت درخت ایستاده و حرکت نمی‌کند.
سگی که از درخت در حال بالارفتن است.

تمام این متن‌ها با هوش مصنوعی Segment Anything 2 برای شما ساخته می‌شوند. باور این موضوع شاید برای شما هم سخت باشد ولی غیرقابل باور نیست.

این فقط قسمت کوچکی از قابلیت‌های هوش مصنوعی Segment Anything 2 بود و در آپدیت جدید تمام این قابلیت‌ها برای اعمال دستورات داده شده روی ویدیو هم اعمال می‌شوند که میشه روی هر فریم ویدیو به صورت جدا اجرا بشه.

محققان از این تکنولوژی برای مطالعه، آموزش و تحقیق استفاده می‌کنند، البته پردازش ویدیو بسیار سخت هست که مدل SA2 می‌تواند اون رو به راحتی انجام دهد؛ ولی یک مدل قوی تر هم هست که اگر میخواید اون رو برای کار آماده کنید نیازمند سخت افزاری بسیار قوی هست ولی تقسیم بندی و انعطاف پذیر بودن مدل‌ها تا 1 سال پیش غیرممکن بود.

هوش مصنوعی Segment Anything 2 مثل مدل قبلی رایگان برای استفاده خواهد بود معمولا شرکت های توسعه دهنده هوش‌مصنوعی بخشی از پروژه‌های خود را به صورت یک نسخه بتا به صورت رایگان عرضه می‌کنند.

طبیعی هست که این مدل ها برای آموزش به میزان زیادی از دیتا و اطلاعات نیاز دارند همونطور که متا هم پایگاه داده بزرگی به اندازه 50.000 ویدیو رو برای این منظور آماده کرده است. در یک متنی که از SA2 توضیح می‌دهند گفتند که یک پایگاه داده حدود 100.000 ویدیو برای آموزش این مدل استفاده کردند که این پایگاه داده در دسترس عموم قرار نخواهد گرفت.

هوش مصنوعی Segment Anything

شرکت متا که شرکت مادر فیسبوک هست در بخش هوش‌مصنوعی پیشرو بوده و هست و اعلام کرد که برای مدت طولانی داشت از ابزار PyTorch استفاده می‌کرد ولی به تازگی دارند از هوش مصنوعی Segment Anything 2 و LLaMa استفاده می‌کنند که یک نوع نوار قابل دسترس و باز هست.

زاکربرگ گفت که واضح بودن این ها از خوبی قلب در متا نیست ولی این ناپاک بودن قلب اون ها رو ثابت نمی‌کنه

“این فقط نرم افزار نیست که اون رو اجرا کنید بلکه شما باید یک اکوسیتستم داشته باشید که منبع باز باشد و اگر منبع باز نباشد نمی‌تواند به خوبی کار کند و ما هم قرار نیست که اون رو منبع باز کنیم چون ما انسان ها ذات خوبی نداریم و شاید ازش سوء استفاده کنیم”