TL;DR
- شما اعداد دقیق مورد نیاز خود را در نمودار میلهای صفحه 42 یک PDF 200 صفحهای.
- پیدا کرده اید.
- بیرون آوردن آنها مشکل دیگری است.
چه اتفاقی افتاد
شما اعداد دقیق مورد نیاز خود را در نمودار میلهای صفحه 42 یک PDF 200 صفحهای. پیدا کرده اید.
بیرون آوردن آنها مشکل دیگری است. برای سالها، پاسخ این بود که به خطوط محور نگاه کنید و در صفحهگسترده تایپ کنید.
هوش مصنوعی آنچه را که ممکن است تغییر داده است،. اما رویکرد صحیح همچنان به آنچه که با آن کار میکنید،.
حجمیکه در حال پردازش هستید و میزان دقتی که نیاز دارید بستگی دارد. استخراج دادههای نمودار فرآیند تبدیل دادههای بصری رمزگذاریشده در نمودارها،.
نمودارها و نمودارها به اعداد ساختاریافته و قابل استفاده،. معمولاً ردیفها و ستونها در یک صفحه گسترده یا فرمت JSON است.
در ظاهر، ساده به نظر میرسد، اما روش استخراج مهم است. این راهنما به هر روشی میپردازد،.
چرا استخراج نمودارها از آنچه به نظر میرسد سختتر است،. و OCR عاملی در کجا قرار میگیرد.
چرا نمودارها یک دام داده هستند نمودارها ساده به نظر میرسند. یک میله به ارتفاع معینی میرسد، یک خط از یک شبکه عبور میکند.
دادهها واضح به نظر میرسند. مشکل این است که نمودارها دادههای عددی را بهعنوان روابط بصری رمزگذاری میکنند،.
نه بهعنوان متن یا مقادیر ساختار یافته. نمودار میلهای عدد 47 را ذخیره نمیکند.
مستطیلی که ارتفاع آن مطابق با 47 است را در مقیاسی که با محور y تعریف میشود. ذخیره میکند.
OCR سنتی (تشخیص کاراکتر نوری) پیکسلها را میخواند و متن را تشخیص میدهد. میتواند بدون هیچ مشکلی برچسب "درآمد Q3" را از محور نمودار خارج کند،.
اما نمیتواند آن برچسب را به ارتفاع میله مجاور متصل کند،. مقیاس را بخواند و نتیجه بگیرد که درآمد Q3 142 میلیون دلار بوده است.
این تفسیر مستلزم درک سیستم مختصات تعبیه شده در تصویر نمودار است. استخراج دستی در بهترین حالت برای یک یا چند نمودار خوب کار میکند.
در هر حجم واقعی،. مثلاً 50 نمودار در یک بسته گزارش درآمد سه ماهه،.
ریاضیات سریع زشت میشوند. دیجیتالسازی دستی نمودار معمولاً بین 15 تا 30 دقیقه در هر نمودار اجرا میشود،.
با نرخ خطا که هنگام فشردهسازی محورها ترکیب میشود. همپوشانی دارند، یا وضوح ضعیف است.
نمودار میلهای سهبعدی اعوجاج پرسپکتیو را معرفی میکند که تخمین ارتفاع بصری را غیرقابل اعتماد. میکند.
یک نمودار دایرهای با دوازده برش،. چند زیر 5 درصد کل،.
تقریباً غیرممکن است که بدون دسترسی به دادههای اساسی،. دقیق خوانده شود.
این موارد رایج در گزارشهای صنعت اسکن شده و PDFهای صادر شده هستند. چالش اصلی این است که استخراج دادهها از نمودارها یک مسئله هندسی است که در یک مسئله.
تفسیر بصری پیچیده شده است و ابزارهای سنتی خواندن متن هیچ کدام را حل نمیکنند. درک این فرآیند مهم است که آیا آن را به صورت دستی انجام میدهید،.
یک ابزار را ارزیابی میکنید،. یا اشکال زدایی که چرا استخراج اشتباه انجام شده است.
در اینجا چیزی است که استخراج دادههای نمودار دقیق واقعاً نیاز دارد: نوع نمودار را شناسایی کنید. فرقی نمیکند با نمودار میلهای،.
خطی،. پای،.
پراکندگی،. میلهای انباشته یا نمودار منطقه سروکار داشته باشید،.
هر کدام منطق استخراج متفاوتی دارند. نمودار دایرهای به خواندن زوایای قوس و تبدیل آنها به درصد یک نمودار پراکنده نیاز به نقشه.
برداری از نقاط جداگانه برای هماهنگ کردن جفتها دارد. دانستن نوع نمودار هر مرحلهای را که در ادامه میآید مشخص میکند.
محورها را تجزیه کنید. ی محور x، مقیاس و واحدهای محور y و هر محور فرعی را بخوانید.
به خطی یا لگاریتمیبودن مقیاس توجه کنید و دقت کنید که کجای صفر است. افسانه را بخوانید.
هر سری، رنگ یا الگو را به برچسب آن نقشه بردارید. نمودار میلهای انباشته با پنج سری و کدگذاری رنگ مبهم یکی از موارد استخراج سختتری است.
که با آن مواجه خواهید شد. هر نقطه داده را بیابید و ثبت کنید.
هر علامت بصری (ارتفاع میله، موقعیت نقطه، راس خط) را به مقدار مختصات آن روی محورها ترسیم کنید. اینجا جایی است که بیشتر کارها اتفاق میافتد و بیشتر خطاها در آنجا رخ میدهد.
صادرات به یک فرمت ساخت یافته. CSV، JSON، یا یک جدول.
هدف، نقاط داده در ردیفها و ستونها است، نه اسکرین شات با حاشیهنویسی. این همان فرآیند سیستمهای هوش مصنوعی است replicate،.
به همین دلیل است که درک آن هنگام ارزیابی عملکرد واقعی یک ابزار معین کمک میکند. همه نمودارها برابر نیستند.
یک نمودار میلهای دوبعدی تمیز با محورهای برچسبگذاری شده،. منبع با وضوح بالا و یک سری داده واحد تقریباً به همین سادگی است.
موارد سخت،. جایی است که بیشتر دادههای دنیای واقعی زندگی میکنند:.
اسکنهای با وضوح پایین یا فایلهای PDF فشرده با هم تداخل دارند سری دادهها با رنگهای مشابه جلوههای. سهبعدی که ارتفاع میلهها و زوایای دایره را تغییر میدهند.
نمودارهای خطی با سریهای متعدد نیاز به ردیابی هر سری بهطور مستقل در سراسر محور x دارند. نمودارهای پراکنده ممکن است صدها نقطه جداگانه داشته باشند.
نمودارهای میلهای انباشته برای بازیابی دادههای هر سری نیاز به تفریق مقادیر دارند. بررسی نقطهای دادههای استخراج شده اختیاری نیست،.
به خصوص اگر تصمیمات پایین دستی به آن بستگی داشته باشد. چند مرحله راستیآزمایی که رایجترین خطاها را دریافت میکند: آیا مجموعها جمع میشوند؟
بخشهای نمودار میلهای انباشته باید به ارتفاع کل میله جمع شوند. آیا مقادیر استخراج شده با اعداد ذکر شده در متن اطراف مطابقت دارند؟
آیا روند نسبت به نمودارهای مجاور در همان گزارش معنا دارد؟ برای هر مقدار استخراج شده یک مرجع به تصویر گراف منبع نگه دارید تا بتوان مغایرتها را.
ردیابی کرد. در مقیاس، این مرحله اعتبارسنجی جایی است که روشهای دستی شکست میخورند.
بررسی 500 نقطه داده در برابر 50 نمودار منبع، کار تمام وقت خودش است. دستی،.
OCR،. و هوش مصنوعی:.
انتخاب رویکرد مناسب سه روش وجود دارد،. هر کدام با معاوضه واقعی:.
روش دقت سرعت مقیاس خروجی فرمت اعتبار سنجی دستی بالا (تک نمودار) 15-30 دقیقه/نمودار در حجم ناموفق است. متن نمیتواند مقادیر از دست رفته را تأیید کند AI/VLM (بهعنوان مثال،.
LlamaParse) بالا در انواع نمودار مقیاسهای سریع CSV،. JSON،.
امتیازات اطمینان Markdown،. نقلقولها استخراج دستی زمانی منطقی است که شما یک نمودار دارید،.
باید چیزی را به سرعت تأیید کنید،. یا نمودار به اندازهای غیرعادی است که اتوماسیون به کار سفارشی قابل توجهی نیاز دارد.
مقیاس نمیشود. OCR سنتی میتواند ی محور، عناوین و هر متنی را که در نمودار جاسازی شده است بخواند.
میتواند به شما بگوید که نمودار "درآمد ($M)" را نشان میدهد و ی محور x می. گوید "Q1،.
Q2،. Q3،.
Q4. " نمیتواند بهطور خودکار مقادیر زیربنایی را استخراج کند،.
زیرا این مقادیر بهعنوان هندسه بصری کدگذاری میشوند،. نه متن.
این یک محدودیت اساسی از ابزارهای تشخیص کاراکتر است که برای دادههای مبتنی بر تصویر اعمال می. شود.
رویکردهای هوش مصنوعی و مدل زبان بینایی (VLM) کل تصویر نمودار را بهطور کلی میخوانند. آنها رمزگذاری فضایی را درک میکنند:.
رابطه بین ارتفاع میله و مقیاس محور،. معنی از کدگذاری رنگ در یک افسانه،.
مقدار تقریبی هر نقطه در نمودار پراکندگی. اینجاست که اتوماسیون واقعی در حجم امکان پذیر میشود.
هزینه هم مهمه استخراج دستی زمان تحلیلگر را میخورد و بد مقیاس میشود. OCR سنتی به ازای هر سند ارزان است،.
اما استخراج دادههای واقعی را به انسان واگذار میکند،. که پس انداز را پاک میکند.
هزینه ابزارهای مبتنی بر VLM برای هر سند بیشتر از تشخیص ساده کاراکتر است،. اما از کار پایین دستی تصحیح دستی و خطر از دست رفتن دادهها کاملاً جلوگیری میکند.
انتخاب درست بستگی به این دارد که واقعاً با چه چیزی سر و کار دارید. یک نمودار: کتابچه راهنمای کاربر خوب است.
نمودارهای ساده و پرمتن به صورت انبوه:. OCR لایه متن را کنترل میکند،.
اما همچنان برای مقادیر به یک انسان نیاز دارید. نمودارهای پیچیده در هر حجمی: هوش مصنوعی.
جایی که OCR سنتی به حد خود در نمودارها میرسد OCR سنتی برای تشخیص شخصیتها طراحی. شده است.
ابزارهایی مانند Tesseract و AWS Textract این کار را به خوبی انجام میدهند. مشکل این است که الف دادههای نمودار میلهای بهعنوان کاراکتر ذخیره نمیشوند.
عدد 142 در هیچ جای فایل تصویری دیده نمیشود. فقط بهعنوان ارتفاع یک مستطیل نسبت به مقیاسی که با محور y تعریف میشود وجود دارد.
تشخیص بهتر کاراکترها این شکاف را برطرف نمیکند،. زیرا تشخیص متن و تفسیر دادههای بصری مشکلات مختلفی را حل میکند.
رویکرد نمایندگی LlamaParse با این موضوع متفاوت رفتار میکند. به جای تلقی یک سند بهعنوان یک مشکل استخراج متن،.
متن،. جداول،.
تصاویر و نمودارها را از طریق همان خط لوله چند وجهی پردازش میکند. برای نمودارها، این به معنای بازسازی مقادیر داده واقعی از استدلال بصری است، نه فقط کشیدن ی محور.
نتیجه این است که وقتی یک گزارش مالی را از طریق LlamaParse اجرا میکنید،. دادههای نمودار را بهعنوان مقادیر ساختاریافته در کنار متن اطراف،.
در Markdown،. JSON یا HTML دریافت میکنید،.
بدون اینکه نیازی به ابزار استخراج نمودار جداگانهای که بر روی خط لولهتان نصب شده باشد. LlamaParse سند را بهعنوان یک کل مدیریت میکند.
همچنین حلقههای خود تصحیح را بهعنوان بخشی از خط لوله عامل خود اعمال میکند،. مقادیر استخراجشده را برای سازگاری داخلی بررسی میکند و خروجیهایی را که خارج از محدوده تعریفشده توسط محور.
قرار میگیرند پرچمگذاری میکند. این مرحله تأیید همان چیزی است که نتایج را قابل ممیزی و سریع میکند.
جایی که OCR سنتی در ی محور متوقف میشود،. LlamaParse مقادیر واقعی دادهها را از طریق استدلال بصری بازسازی میکند و اعداد پشت میلهها و خطوط را.
بهعنوان دادههای ساختاریافته تولید میکند. این تفاوت برای هر گردش کاری که در آن نمودارها منبع معناداری از اطلاعات هستند، اهمیت دارد.
وقتی مقیاس همه چیز را تغییر میدهد پردازش یک نمودار به صورت دستی خوب است. پردازش 50 نمودار در یک بسته گزارش سود سه ماهه،.
یا استخراج داده از صد پرونده رقیب که هر کدام شامل پانزده نمودار یا بیشتر است،. به اتوماسیونی نیاز دارد که اکثر خطوط لوله سند در حال حاضر از آن برخوردار نیستند.
سناریوهایی که در آن مقیاس این مسئله را تحمیل میکند:. تحلیلگران مالی مدلهای بازار را از گزارشهای صنعت میسازند،.
دادههای درآمد،. حاشیه و حجم را در دهها پرونده شرکتی که اعداد اساسی در نمودارها وجود دارد،.
استخراج میکنند،. نه جداول ارزیابان بیمه در حال پردازش اسناد ادعایی هستند که در آن نمودارهای تعبیهشده،.
تاریخ ضرر یا پیشبینیهای اکچوئری را مستند میکنند. هر مقدار استخراج شده باید به یک صفحه خاص و تصویر منبع قابل ردیابی باشد در این مقیاس،.
الزامات تغییر میکند. شما به پردازش انبوه در کل مجموعه اسناد،.
خروجی ساختاریافته در هر نمودار بدون در نظر گرفتن نوع،. توانایی استخراج دادهها از هر نمودار بدون شناسایی دستی هر یک،.
و یک دنباله حسابرسی که مقادیر استخراج شده را به صفحات منبع پیوند میدهد،. نیاز دارید.
دستی روشها در مورد یک شکست میخورند. OCR سنتی در موارد دو و سه با شکست مواجه میشود.
حجم دادههای قفلشده در نمودارها در فایلهای پیدیاف،. گزارشهای اسکنشده،.
و دکهای ارائه،. زیاد است و همچنان در حال رشد است،.
و اکثر خطوط لوله اسناد پاسخ خوبی برای آن ندارند. بازآفرینی نمودارها را با دست متوقف کنید گزارشهای بیشتر،.
پیدیافهای بیشتر،. داشبوردهای بیشتری که از صفحهنمایش گرفته شده و در دکها جاسازی شدهاند:.
حجم دادههای قفلشده در تصاویر نمودار در حال افزایش است،. نه کوچکتر.
سؤالی که برای هر تیمیکه اسناد را در مقیاس پردازش میکند این است که آیا خط. لوله آنها نمودارها را بهعنوان بخشی از پردازش اسناد عادی مدیریت میکند یا آنها را به یک.
مرحله دستی هدایت میکند که همه چیز را در پایین دست تنگنا میکند. LlamaParse نمودارها را بهعنوان بخشی از تجزیه کامل سند مدیریت میکند.
چند وجهی از ابتدا، نه یک افزونه خاص نمودار. وقتی یک PDF با جداول،.
متن و نمودارهای میلهای وارد میشود،. همه آنها از همان خط لوله عبور میکنند و به صورت دادههای ساختاریافته و آماده برای هوش مصنوعی.
در Markdown،. JSON،.
یا HTML،. با مقادیر استخراج شده هر نمودار به صفحه منبع آنها نگاشت شده است.
بدون گردش کار جداگانه برای دادههای بصری،. بدون دوخت سه ابزار به یکدیگر برای یک نوع سند،.
و بدون پاکسازی دستی قبل از اینکه دادهها در پایین دست قابل استفاده باشند. اگر در حال پردازش اسنادی هستید که شامل نمودارها هستند و در حال حاضر دادههای بصری را.
به صورت دستی مدیریت میکنید یا بهطور کامل از آن صرف نظر میکنید،. LlamaParse نمودارها را بهعنوان بخشی از تجزیه کامل سند مدیریت میکند.
LlamaCloud با 10000 اعتبار در هنگام ثبت نام رایگان است.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
