لیست تمام مدل های هوش مصنوعی قابل استفاده در سایت

راهنمای کاربر: مفهوم "Context" یا "پنجره زمینه" چیست؟

در دنیای مدل‌های زبان (LLM)، "Context" به حافظه کوتاه‌مدت مدل گفته می‌شود. عددی که در ستون "Context" می‌بینید، نشان‌دهنده تعداد "توکن"هایی است که مدل می‌تواند در یک لحظه به خاطر بسپارد. توکن تقریباً معادل یک کلمه یا بخشی از یک کلمه است.

مثال ساده: فرض کنید Context یک مدل ۱۶,۰۰۰ توکن است. این یعنی مدل می‌تواند حدود ۱۶,۰۰۰ کلمه از مکالمه شما (شامل سوالات شما و پاسخ‌های خودش) را به خاطر بسپارد. اگر مکالمه شما طولانی‌تر شود، مدل شروع به فراموش کردن بخش‌های ابتدایی مکالمه می‌کند.

Context بزرگتر = حافظه بیشتر: مدل می‌تواند مکالمات طولانی‌تر، اسناد بزرگتر و دستورالعمل‌های پیچیده‌تری را درک و پردازش کند.
Context کوچکتر = حافظه کمتر: برای کارهای سریع و مکالمات کوتاه‌تر مناسب است.

مدل‌های متنی (Text Models - LLM)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها مغز متفکر دنیای هوش مصنوعی هستند. شما می‌توانید آن‌ها را به عنوان دستیاران نویسنده یا چت‌بات‌های فوق هوشمند در نظر بگیرید. کار اصلی آن‌ها درک و تولید متن است.

کاربردها: نوشتن ایمیل، خلاصه‌سازی متون طولانی، ترجمه زبان‌ها، ساختن داستان، پاسخ به سوالات پیچیده و حتی کدنویسی.
تفاوت اصلی: این مدل‌ها با کلمات و مفاهیم کار می‌کنند. خروجی آن‌ها متن است, برخلاف مدل‌های تصویری که خروجی‌شان عکس است.

Model ID	Developer	Context	Model Card
gpt-3.5-turbo	Open AI	16,000	Chat GPT 3.5 Turbo
gpt-3.5-turbo-0125	Open AI	16,000	Chat GPT-3.5 Turbo 0125
gpt-3.5-turbo-1106	Open AI	16,000	Chat GPT-3.5 Turbo 1106
gpt-4o	Open AI	128,000	Chat GPT-4o
gpt-4o-2024-08-06	Open AI	128,000	GPT-4o-2024-08-06
gpt-4o-2024-05-13	Open AI	128,000	GPT-4o-2024-05-13
gpt-4o-mini	Open AI	128,000	Chat GPT 4o mini
gpt-4o-mini-2024-07-18	Open AI	128,000	-
chatgpt-4o-latest	Open AI	128,000	-
gpt-4o-audio-preview	Open AI	128,000	GPT-4o Audio Preview
gpt-4o-mini-audio-preview	Open AI	128,000	GPT-4o mini Audio
gpt-4o-search-preview	Open AI	128,000	GPT-4o Search Preview
gpt-4o-mini-search-preview	Open AI	128,000	GPT-4o Mini Search Preview
gpt-4-turbo	Open AI	128,000	Chat GPT 4 Turbo
gpt-4-turbo-2024-04-09	Open AI	128,000	-
gpt-4	Open AI	8,000	Chat GPT 4
gpt-4-0125-preview	Open AI	8,000	-
gpt-4-1106-preview	Open AI	8,000	-
o1-mini	Open AI	128,000	OpenAI o1-mini
o1-mini-2024-09-12	Open AI	128,000	-
o1	Open AI	200,000	OpenAI o1
openai/o3-2025-04-16	Open AI	200,000	o3
o3-mini	Open AI	200,000	OpenAI o3 mini
openai/o3-pro	Open AI	200,000	o3-pro
openai/gpt-4.1-2025-04-14	Open AI	1,000,000	GPT-4.1
openai/gpt-4.1-mini-2025-04-14	Open AI	1,000,000	GPT-4.1 Mini
openai/gpt-4.1-nano-2025-04-14	Open AI	1,000,000	GPT-4.1 Nano
openai/o4-mini-2025-04-16	Open AI	200,000	GPT-o4-mini-2025-04-16
openai/gpt-oss-20b	Open AI	128,000	GPT OSS 20B
openai/gpt-oss-120b	Open AI	128,000	GPT OSS 120B
openai/gpt-5-2025-08-07	Open AI	400,000	GPT-5
openai/gpt-5-mini-2025-08-07	Open AI	400,000	GPT-5 Mini
openai/gpt-5-nano-2025-08-07	Open AI	400,000	GPT-5 Nano
openai/gpt-5-chat-latest	Open AI	400,000	GPT-5 Chat
deepseek-chat or deepseek/deepseek-chat or deepseek/deepseek-chat-v3-0324	DeepSeek	128,000	DeepSeek V3
deepseek/deepseek-r1 or deepseek-reasoner	DeepSeek	128,000	DeepSeek R1
deepseek/deepseek-prover-v2	DeepSeek	164,000	DeepSeek Prover V2
meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo	Meta	131,000	Llama 3.2 90B Vision Instruct Turbo
meta-llama/Llama-Vision-Free	Meta	128,000	-
Qwen/Qwen2-72B-Instruct	Alibaba Cloud	32,000	Qwen 2 Instruct (72B)
mistralai/Mixtral-8x7B-Instruct-v0.1	Mistral AI	64,000	Mixtral-8x7B Instruct v0.1
nvidia/Llama-3.1-Nemotron-70B-Instruct-HF	Nvidia	128,000	Llama 3.1 Nemotron 70B Instruct
NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO	NousResearch	32,000	-
meta-llama/Llama-3.3-70B-Instruct-Turbo	Meta	128,000	Meta Llama 3.3 70B Instruct Turbo
meta-llama/Llama-3.2-3B-Instruct-Turbo	Meta	131,000	Llama 3.2 3B Instruct Turbo
meta-llama/Llama-3.2-11B-Vision-Instruct-Turbo	Meta	131,000	Llama 3.2 11B Vision Instruct Turbo
Qwen/Qwen2.5-7B-Instruct-Turbo	Alibaba Cloud	32,000	Qwen 2.5 7B Instruct Turbo
Qwen/Qwen2.5-Coder-32B-Instruct	Alibaba Cloud	131,000	-
meta-llama/Meta-Llama-3-8B-Instruct-Lite	Meta	9,000	Llama 3 8B Instruct Lite
meta-llama/Llama-3-8b-chat-hf	Meta	8,000	Llama 3 8B Instruct Reference
meta-llama/Llama-3-70b-chat-hf	Meta	8,000	Llama 3 70B Instruct Reference
meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo	Meta	4,000	Llama 3.1 (405B) Instruct Turbo
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo	Meta	128,000	Llama 3.1 8B Instruct Turbo
meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo	Meta	128,000	Llama 3.1 70B Instruct Turbo
meta-llama/llama-4-scout	Meta	256,000	Llama 4 Scout
meta-llama/llama-4-maverick	Meta	256,000	Llama 4 Maverick
mistralai/Mistral-7B-Instruct-v0.2	Mistral AI	32,000	Mistral (7B) Instruct v0.2
mistralai/Mistral-7B-Instruct-v0.1	Mistral AI	8,000	Mistral (7B) Instruct v0.1
mistralai/Mistral-7B-Instruct-v0.3	Mistral AI	32,000	Mistral (7B) Instruct v0.3
claude-3-opus-20240229	Anthropic	200,000	Claude 3 Opus
claude-3-haiku-20240307	Anthropic	200,000	-
claude-3-5-sonnet-20240620	Anthropic	200,000	-
claude-3-5-sonnet-20241022	Anthropic	200,000	Claude 3.5 Sonnet 20241022
claude-3-5-haiku-20241022	Anthropic	200,000	-
claude-3-7-sonnet-20250219	Anthropic	200,000	Claude 3.7 Sonnet
anthropic/claude-opus-4	Anthropic	200,000	Claude 4 Opus
anthropic/claude-sonnet-4	Anthropic	200,000	Claude 4 Sonnet
anthropic/claude-opus-4.1 claude-opus-4-1 claude-opus-4-1-20250805	Anthropic	200,000	Claude Opus 4.1
gemini-2.0-flash-exp	Google	1,000,000	Gemini 2.0 Flash Experimental
gemini-2.0-flash	Google	1,000,000	Gemini 2.0 Flash
google/gemini-2.5-flash-lite-preview	Google	1,000,000	–
google/gemini-2.5-flash	Google	1,000,000	Gemini 2.5 Flash
google/gemini-2.5-pro	Google	1,000,000	Gemini 2.5 Pro
google/gemma-2-27b-it	Google	8,000	Gemma 2 (27b)
google/gemma-3-4b-it	Google	128,000	Gemma 3 (4B)
google/gemma-3-12b-it	Google	128,000	Gemma 3 (12B)
google/gemma-3-27b-it	Google	128,000	Gemma 3 (27B)
google/gemma-3n-e4b-it	Google	8,192	Gemma 3n 4B
qwen-max	Alibaba Cloud	32,000	Qwen Max
qwen-plus	Alibaba Cloud	131,000	Qwen Plus
qwen-turbo	Alibaba Cloud	1,000,000	Qwen Turbo
qwen-max-2025-01-25	Alibaba Cloud	32,000	Qwen Max 2025-01-25
Qwen/Qwen2.5-72B-Instruct-Turbo	Alibaba Cloud	32,000	Qwen 2.5 72B Instruct Turbo
Qwen/QwQ-32B	Alibaba Cloud	131,000	QwQ-32B
Qwen/Qwen3-235B-A22B-fp8-tput	Alibaba Cloud	32,000	Qwen 3 235B A22B
alibaba/qwen3-32b	Alibaba Cloud	131,000	Qwen3-32B
alibaba/qwen3-coder-480b-a35b-instruct	Alibaba Cloud	262,000	Qwen3 Coder
alibaba/qwen3-235b-a22b-thinking-2507	Alibaba Cloud	262,000	Qwen3 235B A22B Thinking
mistralai/mistral-tiny	Mistral AI	32,000	Mistral Tiny
x-ai/grok-3-beta	xAI	131,000	Grok 3 Beta
x-ai/grok-3-mini-beta	xAI	131,000	Grok 3 Beta Mini
x-ai/grok-4-07-09	xAI	256,000	Grok 4
mistralai/mistral-nemo	Mistral AI	128,000	Mistral Nemo
anthracite-org/magnum-v4-72b	Anthracite	32,000	Magnum v4 72B
nvidia/llama-3.1-nemotron-70b-instruct	Nvidia	128,000	Llama 3.1 Nemotron 70B Instruct
cohere/command-r-plus	Cohere	128,000	Command R+
cohere/command-a	Cohere	256,000	Command A
mistralai/codestral-2501	Mistral AI	256,000	Mistral Codestral-2501
MiniMax-Text-01	MiniMax	1,000,000	MiniMax-Text-01
minimax/m1	MiniMax	1,000,000	MiniMax M1
moonshot/kimi-k2-preview	Moonshot	131,000	Kimi-K2
perplexity/sonar	Perplexity	128,000	Sonar
perplexity/sonar-pro	Perplexity	200,000	Sonar Pro
zhipu/glm-4.5-air	Zhipu	128,000	GLM-4.5 Air
zhipu/glm-4.5	Zhipu	128,000	GLM-4.5

مدل‌های تصویری (Image Models)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها هنرمندان دیجیتال هستند. آن‌ها می‌توانند توضیحات متنی شما را به تصاویر منحصر به فرد و خلاقانه تبدیل کنند.

کاربردها: ساختن لوگو، طراحی پوستر، خلق آثار هنری دیجیتال، تولید عکس برای محتوای وبلاگ یا شبکه‌های اجتماعی.
تفاوت اصلی: ورودی آن‌ها متن (توضیحات شما) و خروجی آن‌ها یک فایل تصویری (عکس) است. آن‌ها مفاهیم بصری مانند رنگ، شکل و سبک را درک می‌کنند.

Model ID	Developer	Model Card
alibaba/qwen-image	Alibaba Cloud	Qwen Image
bytedance/seedream-3.0	ByteDance	Seedream 3.0
bytedance/seededit-3.0-i2i	ByteDance	Seedream 3.0
flux-pro	Flux	FLUX.1 [pro]
flux-pro/v1.1	Flux	FLUX 1.1 [pro]
flux-pro/v1.1-ultra	Flux	FLUX 1.1 [pro ultra]
flux-realism	Flux	FLUX Realism LoRA
flux/dev	Flux	FLUX.1 [dev]
flux/dev/image-to-image	Flux	-
flux/schnell	Flux	FLUX.1 [schnell]
flux/kontext-max/text-to-image	Flux	FLUX.1 Kontext [max]
flux/kontext-max/image-to-image	Flux	FLUX.1 Kontext [max]
flux/kontext-pro/text-to-image	Flux	Flux.1 Kontext [pro]
flux/kontext-pro/image-to-image	Flux	Flux.1 Kontext [pro]
imagen-3.0-generate-002	Google	Imagen 3
google/imagen4/preview	Google	Imagen 4 Preview
imagen-4.0-ultra-generate-preview-06-06	Google	Imagen 4 Ultra
dall-e-2	OpenAI	OpenAI DALL·E 2
dall-e-3	OpenAI	OpenAI DALL·E 3
openai/gpt-image-1	OpenAI	gpt-image-1
recraft-v3	Recraft AI	Recraft v3
stable-diffusion-v3-medium	Stability AI	Stable Diffusion 3
stable-diffusion-v35-large	Stability AI	Stable Diffusion 3.5 Large

مدل‌های ویدیویی (Video Models)

این مدل‌ها چه کاری انجام می‌دهند؟

این دسته، یکی از جدیدترین و هیجان‌انگیزترین حوزه‌های هوش مصنوعی است. این مدل‌ها می‌توانند از یک متن یا یک تصویر، کلیپ‌های ویدیویی کوتاه بسازند.

کاربردها: ساخت تیزرهای تبلیغاتی کوتاه، تولید محتوای ویدیویی برای شبکه‌های اجتماعی، تبدیل سناریوهای کوتاه به انیمیشن.
تفاوت اصلی: این مدل‌ها علاوه بر مفاهیم بصری، حرکت و زمان را نیز درک می‌کنند تا بتوانند یک توالی از تصاویر (یعنی ویدیو) را خلق کنند.

Model ID	Developer	Model Card
bytedance/seedance-1-0-lite-t2v	ByteDance	Seedance 1.0 lite Text to Video
bytedance/seedance-1-0-lite-i2v	ByteDance	Seedance 1.0 lite Image to Video
bytedance/seedance-1-0-pro-t2v	ByteDance	Seedance 1.0 Pro
bytedance/seedance-1-0-pro-i2v	ByteDance	Seedance 1.0 Pro
kling-video/v1/standard/image-to-video	Kling AI	Kling AI (image-to-video)
kling-video/v1/standard/text-to-video	Kling AI	Kling AI (text-to-video)
kling-video/v1/pro/image-to-video	Kling AI	Kling AI (image-to-video)
kling-video/v1/pro/text-to-video	Kling AI	Kling AI (text-to-video)
kling-video/v1.6/standard/text-to-video	Kling AI	Kling 1.6 Standard
kling-video/v1.6/standard/image-to-video	Kling AI	Kling 1.6 Standard
kling-video/v1.6/pro/image-to-video	Kling AI	Kling 1.6 Pro
kling-video/v1.6/pro/text-to-video	Kling AI	Kling 1.6 Pro
klingai/kling-video-v1.6-pro-effects	Kling AI	Kling 1.6 Pro Effects
klingai/kling-video-v1.6-standard-effects	Kling AI	Kling 1.6 Standard Effects
klingai/v2-master-image-to-video	Kling AI	Kling 2.0 Master
klingai/v2-master-text-to-video	Kling AI	Kling 2.0 Master
klingai/v2.1-master-image-to-video	Kling AI	ling 2.1 Master
klingai/v2.1-master-text-to-video	Kling AI	Kling 2.1 Master
video-01	Minimax	MiniMax Video-01
video-01-live2d	Minimax	-
minimax/hailuo-02	Minimax	Hailuo 02
gen3a_turbo	Runway	Runway Gen-3 turbo
runway/gen4_turbo	Runway	Runway Gen-4 Turbo
runway/gen4_aleph	Runway	Aleph
runway/act_two	Runway	Runway Act Two
alibaba/wan2.1-t2v-plus	Alibaba Cloud	Wan2.1 Plus
alibaba/wan2.1-t2v-turbo	Alibaba Cloud	Wan2.1 Turbo
alibaba/wan2.2-t2v-plus	Alibaba Cloud	Wan 2.2 T2V
veo2	Google	Veo2 Text-to-Video
veo2/image-to-video	Google	Veo2 Image-to-Video
google/veo3	Google	Veo 3
google/veo-3.0-i2v	Google	Veo 3 I2V
google/veo-3.0-fast	Google	Veo 3 Fast
google/veo-3.0-i2v-fast	Google	Veo 3 I2V Fast

مدل‌های Embedding

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها "مترجمان مفهومی" هستند که در پشت صحنه کار می‌کنند. آن‌ها متن را نمی‌نویسند یا عکس نمی‌سازند، بلکه معنا و مفهوم یک متن را به یک کد عددی خاص تبدیل می‌کنند.

کاربردها: موتورهای جستجوی هوشمند (پیدا کردن متون مشابه از نظر معنایی)، سیستم‌های پیشنهاددهنده (مانند پیشنهاد مقالات مشابه) و دسته‌بندی اسناد.
تفاوت اصلی: خروجی آن‌ها برای انسان قابل خواندن نیست، بلکه یک سری اعداد است که کامپیوتر برای مقایسه معنایی از آن استفاده می‌کند.

Model ID	Developer	Context	Model Card
text-embedding-3-small	Open AI	8,000	-
text-embedding-3-large	Open AI	8,000	Text-embedding-3-large
text-embedding-ada-002	Open AI	8,000	Text-embedding-ada-002
togethercomputer/m2-bert-80M-32k-retrieval	Together AI	32,000	M2-BERT-Retrieval-32k
BAAI/bge-base-en-v1.5	BAAI	N/A	BAAI-Bge-Base-1p5
BAAI/bge-large-en-v1.5	BAAI	N/A	bge-large-en
voyage-large-2-instruct	Anthropic	16,000	Voyage Large 2 Instruct
voyage-finance-2	Anthropic	32,000	-
voyage-multilingual-2	Anthropic	32,000	-
voyage-law-2	Anthropic	16,000	-
voyage-code-2	Anthropic	16,000	-
voyage-large-2	Anthropic	16,000	-
voyage-2	Anthropic	4,000	-
textembedding-gecko@003	Google	2,000	Textembedding-gecko@003
textembedding-gecko-multilingual@001	Google	2,000	Textembedding-gecko-multilingual@001
text-multilingual-embedding-002	Google	2,000	-

مدل‌های صوتی و گفتاری (Voice/Speech)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها با دنیای صدا و گفتار سروکار دارند و به دو دسته اصلی تقسیم می‌شوند:

گفتار به متن (Speech-to-Text): صدای انسان را می‌شنوند و آن را به متن نوشتاری تبدیل می‌کنند. (مثال: تبدیل یک فایل صوتی مصاحبه به متن)
متن به گفتار (Text-to-Speech): یک متن نوشتاری را می‌گیرند و آن را با صدای طبیعی انسان می‌خوانند. (مثال: ساخت کتاب صوتی یا صدای دستیار صوتی)

تفاوت اصلی: این مدل‌ها با داده‌های صوتی کار می‌کنند و پلی بین دنیای متن و صدای انسان هستند.

گفتار به متن (Speech-to-Text)

Model ID	Developer	Model Card
aai/slam-1	Assembly AI	Coming Soon
aai/universal	Assembly AI	Coming Soon
#g1_nova-2-automotive	Deepgram	Deepgram Nova-2
#g1_nova-2-conversationalai	Deepgram	Deepgram Nova-2
#g1_nova-2-drivethru	Deepgram	Deepgram Nova-2
#g1_nova-2-finance	Deepgram	Deepgram Nova-2
#g1_nova-2-general	Deepgram	Deepgram Nova-2
#g1_nova-2-medical	Deepgram	Deepgram Nova-2
#g1_nova-2-meeting	Deepgram	Deepgram Nova-2
#g1_nova-2-phonecall	Deepgram	Deepgram Nova-2
#g1_nova-2-video	Deepgram	Deepgram Nova-2
#g1_nova-2-voicemail	Deepgram	Deepgram Nova-2
#g1_whisper-tiny	OpenAI	-
#g1_whisper-small	OpenAI	-
#g1_whisper-base	OpenAI	-
#g1_whisper-medium	OpenAI	-
#g1_whisper-large	OpenAI	Whisper

متن به گفتار (Text-to-Speech)

Model ID	Developer	Model Card
#g1_nova-2-automotive	Deepgram	Deepgram Nova-2
#g1_nova-2-conversationalai	Deepgram	Deepgram Nova-2
#g1_nova-2-drivethru	Deepgram	Deepgram Nova-2
#g1_nova-2-finance	Deepgram	Deepgram Nova-2
#g1_nova-2-general	Deepgram	Deepgram Nova-2
#g1_nova-2-medical	Deepgram	Deepgram Nova-2
#g1_nova-2-meeting	Deepgram	Deepgram Nova-2
#g1_nova-2-phonecall	Deepgram	Deepgram Nova-2
#g1_nova-2-video	Deepgram	Deepgram Nova-2
#g1_nova-2-voicemail	Deepgram	Deepgram Nova-2
#g1_whisper-tiny	OpenAI	-
#g1_whisper-small	OpenAI	-
#g1_whisper-base	OpenAI	-
#g1_whisper-medium	OpenAI	-
#g1_whisper-large	OpenAI	Whisper

مدل‌های موسیقی (Music Models)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها آهنگسازان هوش مصنوعی هستند. شما می‌توانید با ارائه توضیحات متنی (مثلاً "یک قطعه پیانوی آرام و غمگین برای یک صحنه بارانی")، از آن‌ها بخواهید تا یک قطعه موسیقی کاملاً جدید و منحصر به فرد برای شما بسازند.

کاربردها: ساخت موسیقی پس‌زمینه برای ویدیوها و پادکست‌ها، تولید ملودی برای آهنگ‌ها، یا خلق افکت‌های صوتی.
تفاوت اصلی: خروجی این مدل‌ها یک فایل صوتی (مانند MP3 یا WAV) است. آن‌ها مفاهیم موسیقی مانند ریتم، هارمونی و سبک‌های مختلف را درک می‌کنند.

Model ID	Developer	Model Card
stable-audio	Stability AI	Stable Audio
minimax-music	Minimax AI	Stable Audio
music-01	Minimax AI	MiniMax Music

مدل‌های تعدیل محتوا (Content Moderation)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها مانند "نگهبانان امنیتی" برای محتوای متنی هستند. وظیفه اصلی آن‌ها خواندن یک متن و تشخیص اینکه آیا حاوی محتوای مضر، نامناسب یا خطرناک (مانند سخنان نفرت‌پراکن، خشونت، یا محتوای بزرگسالان) است یا خیر.

کاربردها: فیلتر کردن کامنت‌های توهین‌آمیز در وب‌سایت‌ها، جلوگیری از انتشار محتوای ناامن در چت‌بات‌ها و پلتفرم‌های آنلاین.
تفاوت اصلی: این مدل‌ها محتوای جدید خلق نمی‌کنند، بلکه محتوای موجود را برای اطمینان از ایمنی و سلامت آن تجزیه و تحلیل می‌کنند.

Model ID	Developer	Context	Model Card
meta-llama/Llama-Guard-3-11B-Vision-Turbo	Meta	128,000	-
meta-llama/LlamaGuard-2-8b	Meta	8,000	LlamaGuard 2 (8b)
meta-llama/Meta-Llama-Guard-3-8B	Meta	8,000	Llama Guard 3 (8B)

مدل‌های بینایی (Vision Models)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها "چشم‌های" هوش مصنوعی هستند. آن‌ها می‌توانند تصاویر را ببینند و اطلاعات متنی را از آن‌ها استخراج کنند. این دسته شامل انواع مختلفی است که یکی از مهم‌ترین آن‌ها OCR است.

کاربرد Optical Character Recognition (OCR): این فناوری به مدل اجازه می‌دهد تا متن‌های نوشته شده در یک تصویر را بخواند و آن‌ها را به متن قابل ویرایش تبدیل کند. (مثال: خواندن متن از روی یک عکس کتاب یا یک کارت ویزیت)
تفاوت اصلی: ورودی این مدل‌ها تصویر است و خروجی آن‌ها متن یا داده‌های ساختاریافته است.

تشخیص نوری کاراکتر (Optical Character Recognition - OCR)

Model ID	Developer	Model Card
The service has no Model ID	Google	-
mistral/mistral-ocr-latest	Mistral AI	-

مدل‌های تولید سه‌بعدی (3D-Generating Models)

این مدل‌ها چه کاری انجام می‌دهند؟

این مدل‌ها مجسمه‌سازان دنیای دیجیتال هستند. آن‌ها می‌توانند از یک متن یا یک تصویر دو بعدی، یک شیء سه‌بعدی کامل بسازند که در نرم‌افزارهای سه‌بعدی، بازی‌ها یا واقعیت مجازی قابل استفاده است.

کاربردها: ساخت سریع مدل‌های اولیه برای بازی‌سازی، طراحی محصول، و ایجاد اشیاء برای پرینت سه‌بعدی.
تفاوت اصلی: این مدل‌ها پیچیده‌ترین نوع مدل‌های تولیدی هستند، زیرا علاوه بر شکل و رنگ، باید عمق و حجم را نیز درک و خلق کنند.

Model ID	Developer	Model Card
triposr	Tripo AI	Stable TripoSR 3D