TL;DR
- بازگشت اخبار 29 اکتبر 2025•4 دقیقه خواندن ما مشتاقیم با Datalab،.
- خالقان Marker و Surya همکاری کنیم تا توسعه دهندگان و تیمها بتوانند بهترین مدلهای هوشمند اسناد.
- را سریعتر از همیشه بکار ببرند.
چه اتفاقی افتاد
بازگشت اخبار 29 اکتبر 2025•4 دقیقه خواندن ما مشتاقیم با Datalab،. خالقان Marker و Surya همکاری کنیم تا توسعه دهندگان و تیمها بتوانند بهترین مدلهای هوشمند اسناد.
را سریعتر از همیشه بکار ببرند. نشانگر یک مدل هدفمند و زیر میلیارد پارامتری است که بهطور خاص برای ساختار سند آموزش داده شده.
است. تجزیه قطعی و با وفاداری بالا را بدون توهم یا بی ثباتی LLMهای بزرگتر ارائه میدهد.
و این کار را با کسری از هزینه انجام میدهد. مارکر،.
همراه با دیگر ابزارهای منبعباز Datalab،. بیش از 48 هزار ستاره در GitHub کسب کرده است و محققان،.
استارت آپها و تیمهای ی بهطور یکسان به آن اعتماد دارند. Modal قبلاً به پلتفرم میزبان Datalab قدرت میدهد و آنها را قادر میسازد خدمات مدل قابل اعتماد و.
مقیاسپذیر را ارائه دهند و نسخههای جدید را به سرعت عرضه کنند:. «استفاده از Modal برای استنتاج مانند داشتن یک تیم زیرساخت اضافی است - قابل اعتماد،.
مقیاسپذیر و سریع است - به این معنی که من میتوانم به تمرین بازگردم. مدلها.
” — Vik Paruchuri،. موسس @ Datalab اکنون،.
هر سازنده یا تیمیمیتواند از Modal برای استقرار فوری خط لوله نشانگر پیشرفته Datalab و جعبه. ابزار Surya OCR استفاده کند.
ابزارهای Datalab برای تحقیقات،. استفاده شخصی و استارتآپها با بودجه/درآمد 2 میلیون دلاری،.
با گزینههای مجوز برای مشتریان تجاری رایگان باقی میمانند. Quickstart Marker به راحتی شبیهسازی شده و به صورت محلی اجرا میشود،.
اما میتوانید آن را در Modal برای به حداکثر رساندن مقیاس پذیری و توان استفاده کنید. مخزن Marker را کلون کنید و مثال Modal را در اینجا مستقر کنید،.
که یک ظرف GPU را در Modal فراهم میکند،. نشانگر را نصب میکند و عملکرد آن را در پشت نقطه پایانی FastAPI نشان میدهد.
همین! برای مثال کاملتر و دقیقتر،.
این مثال Modal از ساختن یک برنامه وب OCR سند سریع را بررسی کنید. Modal با 30 دلار در ماه اعتبار محاسباتی رایگان ارائه میشود که برای شروع کارهای OCR شما.
بسیار مناسب است. نحوه کار Modal به شما امکان میدهد تا نشانگر را روی GPUها در آن مستقر کنید.
ثانیه Modal همچنین GPUها را برای استقرار شما به صورت خودکار مقیاس میکند تا حداکثر توان. عملیاتی را در کارهای دستهای بدون هیچ تلاش اضافی دریافت کنید.
آنچه در پشت صحنه اتفاق میافتد این است:. اول،.
وزنهای مدل نشانگر در یک حجم مدال ذخیره میشوند،. که زمان شروع سرد را کاهش میدهد.
نیازی به بارگیری مجدد مدلها در هر بار نیست،. و Volume بدون توجه به اینکه عملکرد استنتاج شما در کجا اجرا میشود،.
خواندن سریع را تضمین میکند. سپس،.
هنگامیکه تابع استنتاج فراخوانی میشود،. Modal یک ظرف را با استفاده از محیط و الزامات سخت افزاری مشخص شده در دکوراتور تابع می.
چرخاند. شما نیازی به استفاده از فایلهای پیکربندی ندارید،.
زیرا همه چیز در راستای کد برنامه تعریف شده است. آیا نیاز به پردازش هزاران فایل PDF در یک زمان دارید؟
بر اساس حجم درخواست، فوراً مقیاس خودکار معین (تا هزاران GPU) انجام میشود. استخرهای ظرفیت جهانی ما تضمین میکنند که هرگز منتظر سهمیه نخواهید بود.
چرا مارکر؟ نشانگر بیش از 90 زبان را پشتیبانی میکند، جداول بسیار پیچیده و متراکم را مدیریت میکند.
و در استخراج ریاضی از فایلهای PDF پیشرفته است. نشانگر را میتوان برای طیف گستردهای از کارها استفاده کرد:.
نمایهسازی پایگاههای دانش PDF برای RAG تجزیه محتوای PDF چند زبانه برای آموزش استخراج اطلاعات کلیدی از اسناد. بدون ساختار برای معیارهای دقیق اینجا را ببینید معیارهای نشانگر برای دقت و توان عملیاتی در مقایسه با.
سرویسهای ابری مانند Llamaparse و Mathpix و همچنین سایر ابزارهای منبعباز،. مطلوب هستند.
معیارهای دقت بالا در صفحات PDF منفرد از Common Crawl انجام شد و با استفاده از LLM-as-a-a-judge امتیاز. گرفتند.
گذردهی نشانگر 10 برابر در دقت مدال به تنهایی کافی نیست. سیستمهای دنیای واقعی برای پردازش سریع،.
پیوسته و مقرونبهصرفه میلیونها سند نیازمند توان عملیاتی و قابلیت اطمینان بالایی هستند. نشانگر با در نظر گرفتن آن طراحی شده است،.
و Modal سریعترین راه برای دستیابی به مقیاس برای خود استقرار است. در M4 Mac با استفاده از Apple MPS (بدون GPU)، میتوانید پردازش کنید حدود 0.
22 صفحه در ثانیه در Modal، میتوانید این میزان را به حدود 2. 2 صفحه در ثانیه در هر ظرف افزایش دهید.
این افزایش 10 برابری ناشی از استفاده از سختافزار قدرتمندتر (مانند GPU H100)،. بهینهسازیهای Flash Attention،.
و تنظیم محیط (برای تنظیماتی مانند OMP_NUM_THREADS) است. توجه داشته باشید که در عمل،.
باید با پیکربندیهای مختلف آزمایش کنید تا تعادل ایدهآل خود را بین دقت،. هزینه و توان انجام دهید.
به یک راهحل مدیریت شده برای یک مورد استفاده تجاری نیاز دارید؟ پلتفرم API Datalab از بهینهسازیهای استنتاج اضافی استفاده میکند تا سرعت پردازش صفحه را در حدود 3-4 صفحه.
در ثانیه فعال کند. این در پشت صحنه Modal مستقر شده است!
به کارگیری بهترین هوشمندی اسناد در کلاس ما از تعمیق همکاری خود با Datalab هیجان زده هستیم. بسیاری از کاربران ما قبلاً روی آورده اند به Modal برای بهترین شیوهها در مورد استقرار Marker و.
Surya،. و این همکاری اکنون این کار را یکپارچه میکند.
همین امروز با این مثال شروع کنید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
