ابزارهای هوش مصنوعی

برای تولید کنندگان محتوا
سال: ۱۴۰۳
دسته بندی ارائه
مخاطب جمعی از فعالین رسانه ای

ابزارهای هوش مصنوعی برای تولید کنندگان محتوا

به واسطه خدماتی که در زمینه هوش مصنوعی به مجموعه های همکار ارائه می دهیم همواره محل مراجعه دوستان بودیم. تلاش بیشتر ایان افراد استفاده فراتر از ChatGPT در فعالیت های روزمره شون بود که جسته و گریخته به هر فرد یا مجموعه ای با توجه به نیازی که دارن پیشنهاداتی ارائه می دادیم. با افزایش دفعات مراجعه به این نتیجه رسیدم که بهتره به صورت نظام مندتر این کار رو انجام بدم. جلسه ای در محل یکی از مجموعه های همکار برگزار شد که در خدمت جمعی از تولید کنندگان محتوای فرهنگی بودم و سعی کردم گلچینی از ابزارهایی که برای اونها بیشترین بهره وری رو داره رو بهشون معرفی کنم.

همه ابزارهایی که توی این جلسه معرفی کردم رو قبل از اینکه بنا رو بر تهیه این پرزنتیشن گذاشتم نمی شناختم. سعادتی شد که در راستای این فعالیت جعبه ابزار هوش مصنوعی خودم هم توسعه قابل توجهی پیدا کرد. سرعت رشد توسعه ابزارهای هوش مصنوعی به قدری بالاست که اگر یک نفر بخواد از این پیشرفت عقب نمونه هر روز باید کلی ابزار جدید رو امتحان کنه تا ببینه کدوم ها می تونن در ادامه به کارش بیان. من هم نه ادعای این رو دارم که این کار رو کردم و نه در توانایی یک فرد می بینم که بتونه هزاران ابزار موجود در بازار رو تست کنه. ولی چند تا از گزینه هایی که بهشون رسیدم برای خودم کلی هیجان انگیز بودن و امیدوارم به درد شما هم بخوره.

تاریخچه مختصری از هوش مصنوعی

من ادعای تاریخ نویسی هوش مصنوعی رو ندارم، ولی بررسی هایی که داشتم یک تایم لاینی از اتفاقاتی که منجر به وضعیت فعلی شده رو توی ذهنم دارم که قطعا نمی تونه به صورت تحقیقی درست باشه، ولی به صورت تلویحی می شه فرض کرد این روند طی شده. پدر علوم کامپیوتر یکی از اولین افرادی بود که به صورت عملی به درک انسانی برای کامپیوترها فکر کرد. یک تست تورینگ مشهور هم وجود داره که هدفش تشخیص انسان بودن یا ماشین بودن فقط از روی جواب هاست. سوال هایی که احتمالا الان بشه هوش مصنوعی ای تربیت کرد که از پس پاس کردن تستش بر بیاد!

ولی این تصورات بیشتر داستان علمی تخیلی بودن تا واقعیت. اولین جای علمی ای که هوش مصنوعی توش کلید خورد یک کنفرانس در سال ۱۹۵۶ بود. اسم هوش مصنوعی هم از این کنفرانس دارتموث به جا مونده. رویکرد استفاده از نتایج تحقیقات چندین رشته علمی برای رسیدن به هدف نهایی هم از این کنفرانس نشات گرفته. 

ولی دو رویکرد برای توسعه هوش مصنوعی وجود داشت. یکیش برخورد با کامپیوتر به عنوان یک موجود بالغ عاقل بود و یکیش برخورد مثل یک نوزاد نادان! در رویکرد موجود بالغ فرض می شه باید آنچه که انسان های متخصص بلدن رو برای همه شرایط مختلف به کامپیوتر توضیح داد تا اینکه بتونه مثل یک متخصص انسانی تصمیم بگیره. در رویکرد نوزاد نادان هم همه چیز رو از ب بسم الله بهش یاد می دن. حالا کدومش به نتیجه فعلی رسیده؟

اون رویکرد موجود بالغ محدودیت های زیادی داشت. بزرگترین محدودیتش اینه که نمیشه همه شرایط خاص رو از قبل پیش بینی کرد و بر اساس فرضیات بهش مسیر درست رو یاد داد. مگر در شرایط بسیار چهارچوب دار. مثل بازی شطرنج که در سال ۱۹۹۷ کامپیوتر دیپ بلوی IBM تونست گری کاسپاروف رو شکست بده. این سیستم ها کافی بود یک ذره از چارچوب های پیش بینی شده فاصله بگیرن تا دیگه نتیجه ندن. دنیای واقعی هم پر از شرایط خاص و عدم قطعیته.

رویکرد نوزاد نادان هم تا سالهای سال به جای به درد بخوری نمی رسید. در واقع چیزهایی که می شد از ابتدا یاد یک نوزاد داد هیچ وقت اون رو به اندازه ای بالغ نمی کرد که یک انسان واقعی ازش کمک بگیره. آره می تونست روی داده های برچسب دار چیزهایی رو بتونه پیش بینی کنه، ولی این کاربردها در حدی نبودن که تبدیل به محصول مصرف کننده بشه. در اوج خودش به عنوان بخشی از محصولات بزرگتر کمک هایی به انسان های عادی می کرد، مثل سیستم های ریکامندر که به شما محصول برای اضافه کردن به سبد خریدتون پیشنهاد بده یا چون فلان فیلم رو دوست داشتید بگه از این فیلم هم ممکنه خوشت بیاد.

در نهایت می شه گفت چیزی که الان جواب داده ادامه روند اون نوزاد نادان هست. با این تفاوت که اون نوزاد رو بهش صحبت کردن و خوندن و نوشتن یاد دادیم و چند کلاس هم فرستادیمش مدرسه! سه تا فاکتور بسیار در تحقق این رویای دیرینه تاثیرگذار بودن:

  • توان پردازشی: در بیشتر فناوری های دیگه عموما سرمایه گذاری بعد از حصول پیشرفت انجام می شد. تو این مورد خاص چیزی که پیشرفت رو ممکن کرد سرمایه گذاری بزرگ بود. تخصیص حجم چندین و چند برابری برای توان پردازشی. تمرین مدل های هوش مصنوعی فعلی و پاسخگویی به درخواست های میلیون ها کاربر، میلیاردها دلار سرمایه گذاری روی زیرساخت های سخت افزاری پشتوانه ش رو لازم داشت. دیتاسنترهایی که کارت های گرافیکی رو در اختیار این مدل ها قرار میدن تا سوالات شما رو با تولید حرارت بالا جواب بدن و در ادامه هم کلی برق صرف خنک کردن این پردازشگرها بشه.

     

  • داده ها: گسترش جهانی اینترنت در فضای وب و شبکه های اجتماعی منجر به وفور داده ای شد. چیزی که هوش های مصنوعی برای یادگیری دنیا بهش نیاز داشتن. رشد نمایی تولید و دسترسی به داده ها در دو دهه اخیر تنها این تاثیر مستقیم رو نداشت، یک تاثیر غیرمستقیمش هم کاربرد داده ها برای کسب و کارها در طول این سالها بود. مهندسین زیادی به عنوان دیتا ساینتیست در شرکت های مختلف مشغول به کار شدن، توجه به تحقیقات در این زمینه افزایش پیدا کرد و این جامعه افراد فعال در این علم بودن که یک آرزوی دیرینه رو به تحقق رسوندن.
  • معماری های جدید: پیشرفت های بسیار زیادی در زمینه الگوریتم های یادگیر و معماری های هوش مصنوعی صورت گرفت. از استفاده از GPU ها به جای CPU ها که توان پردازشی را چندین برابر کرد. شبکه های GAN که پایه گذار هوش مصنوعی مولد بود (به جای هوش مصنوعی پیش بین)، تا معماری های بردارسازی رابطه کلمات با همدیگه و در نهایت معماری ترنسفورمر که پایه گذار مدل های زبانی بزرگی شد که الان جوابگوی سوالات ما هستن. این پیشرفت ها هم بیشترشون توسط نسل جدید دانشمندان جوان این حوزه صورت گرفت.

هوش مصنوعی مولد توسط ChatGPT به یک محصول عمومی تبدیل شد. بیشتر افراد عادی هم بیشتر از هر چیزی از ویژگی های متنی هوش مصنوعی استفاده می کنن که توسط مدل های زبانی بزرگ (LLMها) به دست مصرف کننده ها می رسه. ولی این مدل ها تنها بنیان گذار یک تحول بزرگ فناورانه بودن. در سالهای بعد این قابلیت های پایه هوش مصنوعی به محصولات مصرف کننده متنوعی تبدیل شده که هدف از این ارائه معرفی چند دسته از این محصولاته.

از مدل های پایه تا ابزار تخصصی

مدل های پایه

بیشتر جو رسانه ای پیرامون هوش مصنوعی به مدل های پایه اختصاص داده می شه. مدل های پایه مدل محرک صنعت و فناوری هوش مصنوعی هستند. در واقع ارزش اصلی ای که هوش مصنوعی را متفاوت از ابزارهای پیشین می کنه به خاطر توانایی های درک دنیای آموزش داده شده در این مدل ها فراهم می شه. ولی این مدل ها تنها ابزارهای هوش مصنوعی کاربردی نیستند.

می تونم با یک استعاره مناسب جایگاه مدل های پایه و ابزارهای لایه های بعدی رو توضیح بدم. مدل های پایه مثل یک دامداری می مونن که شیر تولید می کنن. این شیر رو به صورت مستقیم با برند خودشون به مصرف کننده نهایی هم می فروشن. ولی شیر عنصر اصلی یک صنعت لبنی بسیار گسترده هست. این دامداری ها شیرهاشون رو به صورت فله به بقیه تولید کنندگان محصولات لبنی می فروشن که با استفاده از اون انواع مختلف ماست و دوغ و پنیر رو درست کنن.

یک لایه بعد از این هم وجود داره که صنایع غذایی متنوع این محصولات لایه دوم رو توی محصولات غذایی خودشون استفاده می کنن. از خامه روی کیک گرفته تا پنیر روی پیتزا. پس دونستن اسم چند تا دامداری مشهور و مزه کردن شیرهاشون ما رو به تمام فواید زنجیره ارزش صنعت لبنیات نمی رسونه.

ولی حالا که می دونیم این دامداری ها دارن اصل جنس رو تولید می کنن لازمه چند تا مدل پایه خوب که می تونیم ازشون استفاده کنیم رو بشناسیم.

  • ChatGPT:
    چیزی که به صورت عمومی به عنوان ChatGPT شناخته می شه و از طریق اپ اختصاصی و وبسایت Chat.com در دسترس عموم قرار می گیره، واسط کاربری ایه که شرکت OpenAI برای دسترسی عموم به یکی از مدل های زبانی بزرگش (GPT 3.0) ساخته بود. ولی بعد از محبوبیت بالای این واسط کاربری دیگه مهاجرت کردن از این فضا براشون توجیه پذیر نبود و همه مدل های بعدی دیگه شون رو هم از همین واسطه دسترسی عمومی می دن. جایگاه ChatGPT بین مدل های زبانی بزرگ مثل جایگاه Google در بین موتورهای جست و جو می مونه. شاید محصولات رقیب کیفیت قابل قبولی رو ارائه بدن و در برخی موارد خاص بهتر از اون هم کار کنن، ولی واقعا شما دلیل زیادی ندارید که محصولات جایگزین رو انتخاب کنید.
  • Blackbox:
    یک مدل زبانی نه چندان مشهور که یک مزیت خاص برای ما ایرانی ها داره، نه فیلتره و نه ثبت نام می خواد. بیشتر ابزارهای هوش مصنوعی یا از سمت ایران فیلترن یا از سمت خارج به آی پی های ایران خدمت رسانی نمی شه. این مدل شرکت متا با بیشتر اینترنت های ایران که من امتحان کردم بدون مشکل کار کرده.
  • Gemini:
    هوش مصنوعی شرکت گوگل که برای کارکردن در محیط های مختلفی که کاربران گوگل با اون فعالیت می کنن استفاده داره. استفاده عمومی هم داره که من از جواب هاش خیلی راضی نیستم، ولی سرعتش بیشتر از بقیه مدل هاست.
  • Copilot:
    هوش مصنوعی مایکروسافت که در محیط های نرم افزارهای این شرکت بیشترین سازگاری رو داره. برای کد زدن تجربه خوبی به کاربرها داده، ولی بقیه موارد مزیت خاصی نداره.

ابزارهای لایه دوم و سوم هوش مصنوعی

هوش مصنوعی و مساله هزینه

اگه به استعاره دامداری و صنعت لبنیات برگردیم، بجز مدل های پایه که فقط هزینه های دامداریشون رو می دن، بقیه ابزارهای هوش مصنوعی شیر رو از دامداری می خرن و بعد بستنیش رو به ما میفروشن. پس نمی تونن مثل بقیه ابزارهای Saas که فقط یک هزینه سرور نسبتا کم داشتن و هزینه توسعه شون هم یک بار انجام می شد به ما خدمات رایگان بدن. هزینه های استفاده از این ابزارها اونهمه بالا نیست، ولی باز هم برای جیب گشاد غربی ها قیمت گذاری شده، یک اشتراک ۲۰ دلار در ماه برای اونها پول یکی دو وعده غذاست، ولی تا به ما برسه می شه ماهی یک و نیم میلیون که با دردسر فراوان باید به ارائه دهنده خدمات پرداخت بشه. پس کلا کمتر ابزار جالب هوش مصنوعی ای پیدا می کنید که رایگان بدون محدودیت بتونید ازش استفاده کنید، و اگه همچین چیزی پیدا کردید یا محصول یک شرکت خیلی بزرگه یا اینکه واقعا هوش مصنوعی نیست و داره ادای هوش مصنوعی بودن رو در میاره.

ابزارهای به درد بخور هوش مصنوعی

لیستی که اینجا می بینید گلچینی از چندین و چند ابزار هوش مصنوعی هست که من امتحانشون کردم و تا حدودی ازشون استفاده کردم. ممکنه ابزارهای بهتر جایگزینی وجود داشته باشه که من ازشون بی خبر باشم، ممکن هم هست که این ابزارها از زمانی که من تستشون کردم تا زمانی که شما این متن رو می خونید تغییر کاربری داده باشن (اتفاقی که در دنیای ابزارهای هوش مصنوعی اصلا بعید نیست). به هر حال این لیست رو به عنوان یک لیست بهترین های دنیا نبینید و صرفا چند پیشنهاد بدونید که از طرف یک دوست به شما معرفی می شه.

  • ابزار تولید تصویر Midjourney:
    بهترین تولید کننده تصویر هوش مصنوعی از روی تجربیات من. متنی که تصور می کنید رو می تونید به این هوش مصنوعی بدید تا از روی اون چهار تا تصویر براتون بکشه، بعد یکیش رو انتخاب می کنید تا روش بیشتر کار کنه تا در نهایت به تصویر نهایی برسید. قیمت نسبتا بالایی داره، ولی اگه دنبال یک گزینه دم دستی هستید بیشتر مدل های پایه الان دیگه امکان ساخت تصویر رو دارن. اگه اونها هم کارتون رو راه ننداخت می تونید از Flux استفاده کنید.
  • ابزار کار با صوت ElevenLabs:
    همون جایگاهی که میدجرنی در تولید تصویر داره، الون لبز در کار با صدا داره. هر دو تای این ابزارها هم در واقع خودشون مدل های پایه هستن و صرفا LLM نیستن. تقریبا هر کاری که با صدا خواستید انجام می ده، شاید جالب ترینش دوبله کردن به زبون های مختلف یا گرفتن نویز یک صدای ضبط شده شما باشه.
  • مرورگر هوش مصنوعی ARC:
    بعد از فراگیر شدن هوش مصنوعی بیشتر مروگرهای وب ویژگی های هوش مصنوعی اضافه کردن و مخصوصا مایکروسافت سعی زیادی کرد که مرورگر Edge رو به عنوان هوشمندترین مرورگر جا بندازه. ولی کاربرها از یکپارچه سازی هوش مصنوعی در مرورگر ARC بیشترین رضایت رو داشتن و نوآوری هایی که این مرورگر در واسط کاربریش داشت هم محبوبیت زیادی براش به ارمغان آورد. متاسفانه البته محیط پیچیده ش روند توسعه ش رو کمی مختل کرده.
  • موتور پاسخ Perplexity:
    یک پله وسط بین موتور جست و جو و چت با هوش مصنوعی. کسی که ازش می تونید سوالاتتون رو بپرسید و هم جواب تولید شده با هوش مصنوعی بگیرید و هم لینک هایی به منابعی که ازش این جواب رو درست کرده. وقتی دنبال چیزی هستید که جواب واضح داره، مثل یک سوال علمی یا راهنمای برطرف کردن مشکل یا دستورالعمل انجام یک کاری جواب های خیلی خوبی بهتون می ده.
  • ابزار ویرایش ویدئوی Descript:
    اگه ویدئوی تبلیغاتی درست نمی کنید، در بیشتر وقت ها محتوای شما بر پایه صحبت هایی که روی ویدئو انجام می شه منتقل می شه. این ابزار حرف های داخل ویدئو رو درک می کنه و اونها رو لینک می کنه به فریم های مختلف ویدئو (یا حتی صوت). پس شما می تونید داخل این نرم افزار که روی دسکتاپ شما نصب می شه با انتخاب و ویرایش متن، نتیجه خروجی متناظر رو توی ویدئوتون هم ببینید. ویدئویی که کمی بالاتر گذاشتم رو ببینید تا بدونید چقد باحاله. فارسی هم می فهمه، ولی فقط کلام فارسی رو تشخص می ده و باید از روی ترجمه انگلیسیش ویرایش خودتون رو انجام بدید.
  • ابزار تولید ویدئوی Pictory:
    درست کردن ویدئو در سبک گزارش های خبری تلویزیونی به راحتی دادن متن به هوش مصنوعی. این ابزار متن شما رو بررسی می کنه، اون رو به صحنه های مختلف تقسیم می کنه و برای هر صحنه از بانک ۱۵ میلیون ویدئوی استوکی که داره چند ثانیه متناظر انتخاب می کنه و به هم می چسبونه. می تونه روی ویدئوی شما صوت متن رو هم بذاره و زیرنویس هم بکنه.
  • ابزار کار با عکس ClipDrop:
    یک ابزار فوق العاده برای کار با عکس ها که همون امکاناتی که هوش مصنوعی فتوشاپ ارائه می ده رو توی محیط وب در دسترس شما می ذاره. کارهایی مثل افزایش کیفیت عکس، پاک کردن عناصر اضافه تصویر، برش عناصر، عوض کردن پس زمینه یا حتی تولید المان اضافه یا تولید تصویری شبیه به تصویر فعلی شما.
  • ابزار اتوماسیون کارهای Bardeen:
    تقریبا هر کار روتینی که بشه با پروسه ای اون رو به صورت خودکار انجام داد رو می تونید داخل باردین تعریف کنید. این کار رو هم با توضیح کاری که می خواهید انجام بشه به زبان خودتون می کنید. یعنی بهش می گید می خوام این لیستی که توی این صفحه وب می بینم رو توی یک فایل اکسل ذخیره کنم. خودش می گرده اطلاعات مهم لیست رو پیدا می کنه، صفحات بعدی رو مرور می کنه و خروجی رو به شما تحویل می ده.
  • ابزار تولید مقاله Jenni:
    تمامی فعالیت های تحقیقاتی آکادمیک با استفاده از جنی به سرعت بالا انجام می شه. از تحقیق در ادبیات موضوع گرفته تا تولید سرفصل های مقاله یا پایان نامه و هزاران پروسه جانبی تولید محتوای آکادمیک.
  • ابزار ساخت ارائه Gamma:
    با این ابزار می تونید با سرعت خیلی بالا فایل های ارائه پاورپوینت یا بقیه فرمت های ارائه رو درست کنید. موضوع رو باهاش در میون می ذارید یا متن خودتون رو بهش می دید و یک خروجی تر و تمیز رو خیلی سریع تحویل می گیرید.
  • دستیار شخصی Rewind:
    این ابزار روی سیستم عامل شما نصب می شه و در ادامه حواسش به همه کارهایی که شما می کنید هست تا بتونه سوالات آتی شما رو جواب بده. این مطلب رو قبلا کجا خونده بودم؟ تو جلسه فلانم کیا حاضر بودن؟ کیا با این موضوع موافق بودن؟ اون پاراگرافی که پاک کردم چی نوشته بودم توش؟ یا هزاران سوال دیگه ای که ممکن حافظه تون یاری نده به جوابشون برسید.
  • شمار تلفن خارجی Numberland:
    برای ثبت نام بعضی از ابزارها ممکنه نیاز به شماره تلفن خارجی داشته باشید که می تونید از این وبسایت اجاره کرده یا بخرید و هزینه ش رو با درگاه بانکی پرداخت کنید.
  • ابزار پرداخت خارجی IraniCard:
    همون طور که گفتم بیشتر ابزارهای هوش مصنوعی پولی هستن و نیاز به پرداخت دارن. برای پرداخت خارجی هر سرویسی می تونید از امکانات ایرانیکارت استفاده کنید.

راهنمای ویدئویی مهندسی پرامپت مقدماتی