در مراسم رونمایی از فناوری OCR با پیادهسازی استاندارد ALTO مطرح شد:
صندوق نوآوری و شکوفایی از توسعه فناوریهای خدمات کتابخانهای و اسنادی حمایت میکند
تهران (پانا) - همزمان با هفته کتاب، سامانه جستجوی تماممتن در اسناد آرشیوی با پیادهسازی استاندارد ALTO رونمایی شد
به گزارش روابط عمومی سازمان اسناد و کتابخانه ملی ایران، در ایام سیویکمین دوره هفته کتاب جمهوری اسلامی ایران و در راستای ارتقاء خدمات کتابخانه دیجیتال این سازمان، سامانه جستجوی تماممتن در اسناد آرشیوی به همراه پیادهسازی استاندارد «ALTO»با حضور علیرضا مختارپور رئیس سازمان، محمدصادق خیاطیان مدیرعامل صندوق نوآوری و شکوفایی، فاطمه صدر معاون پژوهش و منابع دیجیتال سازمان، عصمت مومنی معاون کتابخانه ،علیرضا انتهایی مدیرکل پردازش منابع و فناوری های دیجیتال سازمان و جمعی از روسا و نمایندگان مؤسسات پژوهشی، مراکز اسنادی و کتابخانهای کشور، اساتید و اعضای هیئت علمی دانشگاهها در علم اطلاعات و دانششناسی، علم آرشیو و دانش سندشناسی و تاریخ رونمایی شد.
سازمان اسناد و کتابخانه ملی ایران میتواند مرجع ارتقاء هویت ایرانی اسلامی باشد
در این مراسم، دکتر محمدصادق خیاطیان ضمن ابراز خرسندی از حضور فناوری در بخشهای مختلف سازمان اسناد و کتابخانه ملی ایران، همگام با توسعه فناوریهای جهانی، گفت: سازمان اسناد و کتابخانه ملی ایران، حافظه ملی ایرانیان است و نقش پررنگی در مدیریت و تولید دانش دارد. حضور فناوری در زیست مردم، برای ایجاد رفاه است و فناوری OCR اسناد متنی قدیمی علاوه بر ارائه خدمات بهتر به کاربران، دسترسی آسان به محتوای متنی برای پژوهشگران را فراهم میکند که این اقدام قابل تقدیر است.
مدیرعامل صندوق نوآوری و شکوفایی گفت: فناوریها، ظرفیتهای بسیاری در حوزه خدمات کتابخانهای و پژوهشی سازمان اسناد و کتابخانه ملی ایران ایجاد کردهاند. به عنوان نمونه در یک کشور آسیایی کوچک که دارای اقتصاد بزرگی است، با یک برنامه Smart Nation یا ملت هوشمند سعی شده اجزای فناوری وارد زندگی مردم شود. به گونهای که با ایجاد اپ ها و سامانه هایی در بستر موبایل و تلویزیون، دسترسی مردم به کتابخانه ملی کشورشان و اسناد مورد نیازشان فراهم شده است. و یا با بهکارگیری فناوری AR یا واقعیت افزوده در کتابخانه، کاربردان به اطلاعات بسیاری که مورد نیازشان است، دسترسی پیدا میکنند.
عضو هیئت علمی پژوهشکده مطالعات بنیادین علم و فناوری دانشگاه شهید بهشتی با بیان اینکه درصورتیکه از ظرفیت شرکتهای دانش بنیان به خوبی استفاده کنیم و دسترسی به اطلاعات لازم را برای آنها فراهم کنیم، فاصله زیادی با کتابخانه های ملی دنیا که دارای فناوریهای بهروز هستند، نخواهیم داشت، گفت: فناوریهای انقلاب صنعتی چهارم هنوز در ایران و حتی در جهان نفوذ زیادی نداشتهاند. اگر این ظرفیت ها فعال شوند در زمینه خدمات کتابخانه ای و اسنادی انقلاب بزرگی رخ خواهد داد و ما با ظرفیت هایی که در این حوزه داریم، پیشرو خواهیم بود.
خیاطیان استفاده از فناوری در کتابخوان کردن مردم را موثر دانست و گفت: برخی فناوری ها مانند واقعیت افزوده، باعث زنده شدن کتاب میشود. امروز بسیاری از نوجوانان و جوانان و کودکان و حتی بزرگسالان که به روشهای رایج و قدیمی تمایلی به کتابخوانی ندارند و این نوع فناوریها کمک میکند که فرهنگ و تمایل به کتابخوانی ارتقاء پیدا کرده و سرانه مطالعه افزایش یابد.
وی استفاده از فناوری را باعث ارتقاء فرهنگ ایرانی اسلامی و هویت فرهنگی دانست و گفت: سازمان اسناد و کتابخانه ملی ایران میتواند محمل و مرجعی باشد تا با استفاده از فناوریهای روز، تاریخ و فرهنگ و هویت کشور را با زبان فناوری و نوآوریهای ذاتی آن، ارتقاء دهد.
این مدرس دانشگاه در زمینه علم و فناوری با اعلام اینکه در حوزه کتابخانه و اسناد نزدیک به ۲۰۰ شرکت دانش بنیان در زمینه بلاکچین، اینترنت اشیاء، هوش مصنوعی، داده های ابری و ... فعالیت میکنند، از آمادگی صندوق نوآوری و شکوفایی برای حمایت از توسعه فناوری در سازمان اسناد و کتابخانه ملی ایران خبر داد.
OCR در شناسایی دستنوشتهها و نسخه های خطی راهگشا خواهد بود
در ادامه این مراسم علیرضا انتهایی، مدیرکل پردازش منابع و فناوری های دیجیتال سازمان اسناد و کتابخانه ملی ایران با بیان اینکه OCR یک سامانه جدید نیست؛ اما OCR اسناد قدیمی که با ماشین تایپ تولید شدهاند، با OCRهایی که روی فونت انجام میشود، متفاوت است، گفت: تا کنون بازیابی اطلاعات اسناد، منوط و محدود به فهرستنویسی بود. گاهی در لابهلای متن اسناد، کلماتی است که ممکن است برای فهرستنویس، مهم نباشد ولی برای پژوهشگر دارای اهمیت باشد. در واقع سامانه جستجوی تماممتن در اسناد قدیمی آرشیوی، این مشکل را برطرف کرده است.
انتهایی یکی دیگر از اهداف این پروژه را استفاده از متون آماده شده برای بهره برداری در هوش مصنوعی دانست و گفت: با استفاده از این سامانه، متن اسناد قدیمی آماده میشود تا اگر در آینده از هوش مصنوعی برای تنظیم و توصیف هوشمند یا استخراج موجودیتهای اطلاعاتی هوشمند قصد استفاده داشتیم، متن آماده داشته باشیم. علاوه بر این دادهکاوی یکی از تکنیکهای امروزی برای کشف دانش و اطلاعات از متون است.
وی دو مولفه جامعیت و دقت در متناسب سازی سامانه OCR با متون قدیمی را، از ویژگیهای این سامانه دانست و گفت: آنچه باعث تمایز این OCR با OCRهای متداول میشود این است که استاندارد ALTO که توسط کتابخانه کنگره آمریکا توسعه داده شده و در واقع استانداردی برای برچسب زنی ساختار و عناصر متن صفحه است، در سامانه کتابخانه دیجیتال سازمان پیادهسازی شده است؛ به گونه ای که پژوهشگر از طریق این فناوری، تنها به استخراج متن محدود نمیشود، بلکه جایگاه عبارت در متن نیز توسط جستجوکننده قابل انتخاب است.
انتهایی بالا بردن دقت موتور جستجو را یکی از اقدامات برای بهینه سازی این سامانه اعلام کرد و گفت: معمولا جستجوی متنی، دقت مناسبی ندارد و مجاورت کلمات در جستجو لحاظ نمی شوند. با افزایش دقت موتور جستجو و حساس شدن آن به مجاورت کلمات، پژوهشگر نیازی ندارد عبارتهای چندکلمهای در جستجو استفاده کند؛ بلکه با این گزینه، کلمات دور و نزدیک در جستجو لحاظ میشود.
وی در پایان گفت: اگر این استاندارد برای برخی منابع خطی پیاده سازی شود، ساختار نسخه، بیشتر از متن مورد توجه قرار خواهد گرفت و در شناسایی نسخهها راهگشا خواهد بود.
ارسال دیدگاه