יאיר כתב:יוסף, יוצא, רבי...
בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?
צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.
רחמים כתב:צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.
נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.
אוצר החכמה כתב:מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.
מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.
רחמים כתב:נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.
רוני כתב:כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.
חזור אל “אוצר החכמה - הצעות ליעול ושיפור השימוש בתוכנה”
משתמשים הגולשים בפורום זה: אין משתמשים רשומים ו־ 11 אורחים