টেক দুনিয়ায় হুলস্থুল ফেলেছে গুগল-এর নতুন ভিডিও এআই মডেল ভিও ৩.১, যা অনেকের মতে OpenAI-এর Sora 2-এর থেকেও এক ধাপ এগিয়ে।
বুধবার (১৬ অক্টোবর) আনুষ্ঠানিকভাবে ভিও ৩.১ উন্মোচন করেছে Google, যা আগের ভার্সনের তুলনায় আরও উন্নত এবং বাস্তবধর্মী ভিডিও তৈরিতে সক্ষম।
গুগল আনুষ্ঠানিকভাবে তার এআই ভিডিও জেনারেশন মডেল, ভিও ৩.১ এর একটি নতুন সংস্করণ ঘোষণা করেছে, যা ছবির মান, অডিও এবং গল্প নিয়ন্ত্রণে উল্লেখযোগ্য উন্নতি এনেছে। এর পাশাপাশি, ফ্লো ফিল্মমেকিং টুলটিও একটি আপডেট পাচ্ছে, যা এখন মডেলের সমস্ত নতুন ক্ষমতার সুবিধা গ্রহণ করে।
গুগল আই/ও ২০২৫ ডেভেলপার কনফারেন্সে প্রবর্তিত ভিও ৩ সংস্করণের তুলনায় ভিও ৩.১ সমৃদ্ধ শব্দ এবং উন্নত বাস্তববাদ যা বিশ্বস্তভাবে টেক্সচার এবং আলোকে ধারণ করে"। নতুন মডেলটিতে চলচ্চিত্রের গল্প বলার ধরণ, শৈলী এবং চরিত্রের মিথস্ক্রিয়া সম্পর্কে আরও গভীর ধারণা রয়েছে, যা ব্যবহারকারীদের ভিডিওর উপর আরও নিয়ন্ত্রণ দেয়।
ফাংশন ছবি থেকে ভিডিও od গুগল এখন টেক্সট ইনপুটে ভালো সাড়া দেয় এবং ভিজ্যুয়াল এবং অডিও উপাদানের মধ্যে একটি মসৃণ সংযোগ প্রদান করে। মডেল ভিও ৩.১ এবং ভিও ৩.১ ফাস্ট অ্যাপ্লিকেশনটিতে উপলব্ধ Gemini, জিই ইন্টারফেসেmini ভার্টেক্স এআই প্ল্যাটফর্মের এপিআই। তারা অনুভূমিক (১৬:৯) এবং উল্লম্ব (৯:১৬) উভয় ফর্ম্যাটেই ভিডিও তৈরি করতে সহায়তা করে, যা তাদের ব্যবহারের অনুমতি দেয় চলচ্চিত্র প্রকল্প থেকে শুরু করে সামাজিক নেটওয়ার্ক পর্যন্ত।
গুগল তার টুলের সক্ষমতাও প্রসারিত করছে ফ্লো, যা ভিডিও তৈরি এবং সম্পাদনা করার জন্য ব্যবহৃত হয়। এর সাথে একীভূত করার জন্য ধন্যবাদ ভিও 3.1 নিম্নলিখিত মোডে শব্দ উৎপাদন বৃদ্ধি পায়-
ভিডিওর উপকরণ - একাধিক অক্ষর, বস্তু এবং শৈলীর ছবি একত্রিত করতে দেয়।
দৃশ্য সম্প্রসারণ - ভিডিওর শেষ সেকেন্ডের উপর ভিত্তি করে বর্তমান শটটি প্রসারিত করতে পারে।
ফ্রেম টু ভিডিও - শুরু এবং শেষের ফ্রেমগুলিকে একটি অবিচ্ছিন্ন ভিডিও ক্রমের সাথে সংযুক্ত করে।
ফ্লো এখন সন্নিবেশ করার অনুমতি দেয় দৃশ্যে সরাসরি নতুন বস্তু বা চরিত্রের প্রবেশ, যখন সিস্টেম স্বয়ংক্রিয়ভাবে গণনা করে ছায়া, আলোর প্রভাব এবং প্রাকৃতিক ফলাফলের জন্য অন্যান্য বিবরণ। অদূর ভবিষ্যতে, ফ্লো ভিডিও থেকে বস্তু এবং চরিত্রগুলি সরানোর ক্ষমতা অর্জন করবে, গুগল নিশ্চিত করবে যে সম্পাদনাটি বাস্তবসম্মত দেখানোর জন্য পটভূমিটি নির্বিঘ্নে যুক্ত করা হয়েছে।