פרשת_דרכים כתב:חשוב לדעת: כתב רש"י הוא דווקא כתב קל יותר לזיהוי כיון שרמת האותיות הזהות בו נמוכה יחסית, לעומת אותיות מרובעות בהן קיימים זוגות רבים, לדוגמא: ב-כ, ג-נ, ה-ח, ס-ם ועוד.
אני עוסק בתחום הOCR הרבה, והתוכנות השונות, כולל ABBYY (ש"ירשה" את התמיכה המעולה שלה בעברית, לרבות רש"י, מתוכנת 'ליגטורה' הישראלית, זצ"ל) דווקא מתקשות להתמודד עם רש"י - כי שם יש, לא זוגות, אלא שלשות! של זהות, למשל ס-ם-פ (כן...), או ס-ם-ת, תלוי בסגנון הרש"י ובאיכות הסריקה וכו'.
לא משנה כמה 'נאמן' את התוכנה על אותו כתב, צריך לעבוד הרבה כדי לקבל משהו סביר.
דבר אחד שמפריע לי בABBYY, גם כשמאמנים אותה על כתב מסויים, יש לה מגבלה אחת מוסברת ואחת לא: אחת היא מסוגלת לקבל 100 גליפים שונים בלבד לכל סגנון מסמך, וזה מובן כי היא לא יכולה להכיל את זה שיאמנו אותה על גליפים רבים מאוד, אחרת זיהוי של כל חלק-תמונה ייקח שעות.
מגבלה שניה, ולא מוסברת, היא שאפילו אם נעבור על 200-300 דף ונאמן אותה עליהם, היא תברור אולי 5-20 תמונות אבטיפוס לכל גליף, שזה דל מאוד ובקושי מאפשר גמישות וזיהוי נכון. בעוד תוכנות OCR אחרות כמו של גוגל וכדו' (שלא מאפשרות OCR של ספרים שלמים למשתמשים, גם לא בתשלום, למיטב ידיעתי) - מתבססות על מאגר של מיליוני תמונות לכל גליף, שזה מאפשר יכולת זיהוי מדהימה להפליא. אבל כאן, לפחות לפי מה שאני רואה (ואולי אני עובד לא נכון) אין כמעט מבחר שכזה.
בסדר כתב:אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי
המלצה אישית שלי, עדיף לקחת מישהו שיודע טוב לעבוד עם OCR, ויידע לאלף את התוכנה כראוי, להוציא ממנה את המקסימום כמה שאפשר,
בלי הגהה.
ואת ההגהה אחר כך, עדיף לעשות בינך לבין עצמך - שאתה מכיר את הספר וכו', ואתה תזהה לבד את המאסות של האותיות/מילים שיש בהן טעויות קבועות, ותתקן אותן בסקירה אחת (לא בחיפוש והחלפה אחד! אלא בחיפוש רצוף של טעויות דומות וכו').