הודעהעל ידי רוני » ג' יוני 01, 2010 12:15 am
כמובן שזה לשימוש פרטי בלבד.
כפי שכתבתי,
מתעניין מאוד בכל התחום של OCR, קורא ולומד מה שאפשר,
בין היתר יש אולי גם כמה רעיונות לשיפור בתחום זה,
אבל ארצה להבין כיצד המערכת פועלת בשלב הסריקה וההמרה,
לדוגמא, האם בשלב ההמרה כשהמערכת נתקלת במילה לא ברורה היא פונה לעזרת מאגר מילים או מילון כלשהוא ?
האם מוגדר למערכת שאות סופית היא רק בסוף מילה?
למשל, המילה סוסים יכולה להיות מזוהה בסריקה כסוםים,
ואם היתה הגדרה בתוכנת הפענוח שכשמופיעה אות סופית באמצע מילה אז זו שגיאה וצריך לבדוק במילון ולפענח [או להציע] בצורה אחרת - זה יכל מן הסתם לשפר דיוק הפענוח. [אף שאין לדבר סוף ואם אדם החליט להוציא ספר בדיחות או חידות ובדווקא כתב מילים עם אותיות סופיות באמצע אז ההגדרה הנ"ל תשבש הפענוח, אך אין לדבר סוף ועוד חזון למועד].
אני מאמין שאם ישנו טקסט שבהפרש של מילים בודדות מכיל את המילים "יין" "יוון" "כיון" - יש חגיגות רבות בפענוח בגלל אותיות י ו ן.
מבין השורות ניכר כי התחום הזה עדיין לא מחודד מספיק
ברור שגם בגלל איכויות הספרים והפונטים העתיקים והשבורים וכולי
לכן גם קיימת באוצר החכמה האופציה של חיפוש באותיות מתחלפות
זו רק דוגמא אחת מני רבות, ויש הרבה הרבה,
אשמח מאוד לקבל מידע על פעולת האוצר [ובעז"ה בהמשך להמשיך להגיב בהמלצות לשיפור] וכן בנוסף לקבל הפניה לקריאה בנושא זה.
תודה מראש.
נ.ב.
אוסיף כי במשך תקופה ארוכה בעבודתי עם האוצר במכון מסוים נחשפתי להמון באגים\הצעות לשיפור\ייעול\תיקונים\השלמות ועוד ועוד, שלחתי כמה וכמה מיילים ולא נעניתי מעולם,
מי יתן שפורום זה אכן יתן את הבמה לתועלתכם ולתועלת התכנה וציבור המשתמשים.