در این بخش می خوانید:
- معرفی جمینی
- تفاوت بین برنامه های Gemini و مدل های Gemini چیست؟
- نسخه های پولی Gemini
- آیا Gemini بهتر از GPT-4 OpenAI است؟
معرفی جمینی
گوگل در تلاش است انقلابی در مجموعه ای شاخص از مدل ها، برنامه ها و سرویس های هوش مصنوعی مولد با Gemini ایجاد کند. Bard اولین بار در 6 فوریه در بیانیه ای از ساندار پیچای، مدیرعامل گوگل و آلفابت معرفی شد. Google Bard کمی بیش از یک ماه بعد، در 21 مارس 2023 منتشر شد. سپس، تقریبا یک سال بعد، Bard به Gemini تغییر نام داد.
Gemini، نسل بعدی مدل GenAI است که مدت ها وعده داده شده بود و توسط آزمایشگاه های تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است. در سه شکل موجود است:
- جمینی اولترا، مدل پرچمدار جمینی
- جمینی پرو، یک مدل جمینی "لایت"
- Gemini Nano، یک مدل کوچک تر که روی دستگاه های تلفن همراه مانند Pixel 8 Pro اجرا می شود.
همه مدل های جمینی طوری آموزش داده شده اند که «بهطور نیتیو چندوجهی» باشند - به عبارت دیگر، قادر به کار و استفاده بیشتر از کلمات هستند. آنها بر روی انواع صدا، تصاویر و ویدئوها، مجموعه بزرگی از پایگاه های کد و متن به زبان های مختلف از قبل آموزش دیده و به خوبی تنظیم شده بودند. این امر Gemini را از مدل هایی مانند LaMDA خود گوگل که منحصراً بر روی داده های متنی آموزش داده شده است، متمایز می کند. LaMDA نمی تواند چیزی غیر از متن را بفهمد یا تولید کند (مثلاً مقاله ها، پیش نویس های ایمیل)، اما در مدل های Gemini اینطور نیست.
تفاوت بین برنامه های Gemini و مدل های Gemini چیست؟
گوگل، بار دیگر ثابت کرد که فاقد مهارت در برندسازی است، از همان ابتدا مشخص نکرد که Gemini از برنامه های Gemini در وب و موبایل (بارد سابق) جدا و متمایز است. برنامه های Gemini صرفاً رابطی هستند که از طریق آن می توان به برخی از مدل های Gemini دسترسی داشت - آن را به عنوان یک مشتری برای GenAI Google در نظر بگیرید.
اتفاقاً، برنامه ها و مدل های Gemini نیز کاملاً مستقل از Imagen 2 هستند، مدل متن به تصویر Google که در برخی از ابزارها و محیط های توسعهدهنده این شرکت در دسترس است. نگران نباشید شما تنها کسی نیستید که در این مورد گیج شده اید.
از آنجایی که مدل های Gemini چندوجهی هستند، در تئوری می توانند طیف وسیعی از وظایف چندوجهی را از رونویسی گفتار گرفته تا زیرنویس کردن تصاویر و ویدیوها تا تولید آثار هنری انجام دهند. تعداد کمی از این قابلیت ها هنوز به مرحله محصول رسیده اند اما گوگل همه آنها را در مقطعی در آینده ای نه چندان دور وعده می دهد تا آنها نیز عرضه کند. البته گوگل در عرضه اولیه Bard نیز به خوبی عمل نکرد.
نسخه های پولی Gemini
گوگل می گوید که Gemini Ultra – به لطف چند وجهی بودن آن – می تواند برای کمک به مواردی مانند تکالیف فیزیک، حل گام به گام مسائل در یک ورک شیت و اشاره به اشتباهات احتمالی در پاسخ های از قبل پر شده استفاده شود. گوگل افزود Gemini Ultra همچنین می تواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص - استخراج اطلاعات از آن مقالات و "بروزرسانی" نمودار از یک با ایجاد فرمول های لازم برای ایجاد مجدد نمودار با داده های جدیدتر استفاده شود. همانطور که قبلاً اشاره شد، Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما این قابلیت هنوز به نسخه تولید شده این مدل راه پیدا نکرده است - شاید به این دلیل که مکانیسم پیچیده تر از نحوه تولید تصاویر برنامه هایی مانند ChatGPT است. جمینی به جای ارسال درخواست به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، از تصاویر به صورت «نیتیو» و بدون مرحله ای میانجی خروجی می گیرد.
Gemini Ultra بهعنوان یک API از طریق Vertex AI، پلتفرم توسعهدهنده هوش مصنوعی کاملاً مدیریت شده Google، و AI Studio، ابزار هوش مصنوعی مبتنی بر وب Google برای توسعه دهندگان برنامه ها و پلتفرم ها در دسترس است. همچنین برنامه های Gemini را تقویت می کند - اما نه رایگان. دسترسی به Gemini Ultra از طریق چیزی که Google آن را Gemini Advanced می نامد، مستلزم اشتراک در Google One AI Premium Plan با قیمت 20 دلار در ماه است.
طرح AI Premium همچنین Gemini را به حساب Google Workspace شما متصل می کند - به ایمیل ها در Gmail، اسناد در Docs، ارائه ها در Sheets و ضبط های Google Meet فکر کنید. مثلاً برای خلاصه کردن ایمیل ها یا گرفتن یادداشت های Gemini در طول تماس ویدیویی مفید است.
گوگل می گوید که Gemini Pro نسبت به LaMDA در توانایی های استدلال، برنامه ریزی و درک آن پیشرفت کرده است. یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که Gemini Pro در مدیریت زنجیره های استدلال طولانی تر و پیچیده تر از GPT-3.5 OpenAI در واقع بهتر است. اما این مطالعه همچنین نشان داد که مانند تمام مدل های زبان بزرگ، Gemini Pro به ویژه با مشکلات ریاضی شامل چندین رقم دست و پنجه نرم می کند و کاربران نمونه های زیادی از استدلال و اشتباهات بد پیدا کرده اند.
Gemini Nano نسخه بسیار کوچک تری از مدل های Gemini Pro و Ultra است و به اندازه ای کارآمد است که به جای ارسال کار به سرور، مستقیماً روی (برخی) تلفن ها اجرا شود. تاکنون دو ویژگی در پیکسل 8 پرو دارد: خلاصه در ضبط و پاسخ هوشمند در Gboard.
برنامه Recorder که به کاربران اجازه می دهد دکمه ای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصه ای از مکالمات، مصاحبه ها، ارائه ها و سایر قطعه های ضبط شده شما توسط Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصه ها را دریافت می کنند و در حین حفظ حریم خصوصی، هیچ داده ای از تلفن آن ها خارج نمی شود. Gemini Nano همچنین در Gboard، برنامه صفحه کلید Google است. در آنجا، قابلیتی به نام «پاسخ هوشمند» را تقویت می کند، که به شما کمک می کند تا چیز بعدی را که می خواهید هنگام مکالمه در یک برنامه پیام رسانی بگویید، پیشنهاد کنید. گوگل می گوید این ویژگی در ابتدا فقط با واتس اپ کار می کند، اما به اپلیکیشن های بیشتری خواهد آمد.
آیا Gemini بهتر از GPT-4 OpenAI است؟
گوگل چندین بار برتری Gemini را در معیارها تبلیغ کرده است و ادعا کرده است که Gemini Ultra در «30 معیار از 32 معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ، از نتایج پیشرفته فعلی فراتر رفته است». این شرکت می گوید که Gemini Pro، در عین حال، در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن از GPT-3.5 توانایی بیشتری دارد.
اما با کنار گذاشتن این سوال که آیا معیارها واقعاً مدل بهتری را نشان می دهند، امتیازاتی که گوگل به آن اشاره می کند به نظر می رسد تا حدی بهتر از مدل های متناظر OpenAI است. و - همانطور که قبلاً ذکر شد - برخی برداشت های اولیه عالی نبودند، زیرا کاربران و دانشگاهیان اشاره می کنند که Gemini Pro تمایل دارد حقایق اساسی را اشتباه بگیرد، ترجمه های درستی ارائه نمی کند و پیشنهادهای کدنویسی ضعیفی ارائه می دهد.
Gemini یک چت ربات هوش مصنوعی مکالمه گوگل است که قرار است عملکردی مشابه ChatGPT داشته باشد، با بزرگترین تفاوت این است که سرویس گوگل اطلاعات خود را از وب بیرون می کشد. (داده های ChatGPT تا سال 2021 محدود است) مانند بسیاری از ربات های چت هوش مصنوعی، Gemini می تواند کدنویسی کند، به مسائل ریاضی پاسخ دهد و به نیازهای نوشتاری شما کمک کند.