שימוש בתכנת ocr

ארזי הלבנון

בס"ד

שלום וברכה,
רציתי לשאול בדבר תכנות שונות הקיימות בשוק, המשמשות לצורך העתקת טקסט הנמצא בספר pdf אל word.

התכנה שהציעו לי היא ocr, אך רמת הדיוק בספר עם כתב רש"י צפוף מעט - היא נמוכה.

האם תוכלו להמליץ לי על תכנה שידועה כטובה ומוצלחת, ורמת הדיוק גבוהה?

שוב: מדובר בטקסט של ספר קדום, השמור בpdf, אותיות רש"י, צפוף במעט.

תודה רבה,
בברכה

יין המשמח · הודעהעל ידי **יין המשמח** » ו' דצמבר 09, 2016 5:23 pm

כמדומני שהתכנה הטובה ביותר היא aabby

ארזי הלבנון

תודה רבה!

אביר יעקב · הודעהעל ידי **אביר יעקב** » א' דצמבר 11, 2016 8:37 pm

תפנה למייל [email protected]

פרשת_דרכים

ארז סבג כתב:בס"ד

שלום וברכה,
רציתי לשאול בדבר תכנות שונות הקיימות בשוק, המשמשות לצורך העתקת טקסט הנמצא בספר pdf אל word.

התכנה שהציעו לי היא ocr, אך רמת הדיוק בספר עם כתב רש"י צפוף מעט - היא נמוכה.

האם תוכלו להמליץ לי על תכנה שידועה כטובה ומוצלחת, ורמת הדיוק גבוהה?

שוב: מדובר בטקסט של ספר קדום, השמור בpdf, אותיות רש"י, צפוף במעט.

תודה רבה,
בברכה

כמה הבהרות:

OCR אינה תוכנה אלא טכנולוגיה. אחת התוכנות הנפוצות והידידותיות בתחום, כפי שכבר צוין:
Abbyy Finereader
(פיינרידר).

חשוב לדעת: כתב רש"י הוא דווקא כתב קל יותר לזיהוי כיון שרמת האותיות הזהות בו נמוכה יחסית, לעומת אותיות מרובעות בהן קיימים זוגות רבים, לדוגמא: ב-כ, ג-נ, ה-ח, ס-ם ועוד.

בסדר · הודעהעל ידי **בסדר** » ו' דצמבר 24, 2021 4:45 pm

אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי

תא חזי · הודעהעל ידי **תא חזי** » א' דצמבר 26, 2021 9:10 am

פרשת_דרכים כתב:חשוב לדעת: כתב רש"י הוא דווקא כתב קל יותר לזיהוי כיון שרמת האותיות הזהות בו נמוכה יחסית, לעומת אותיות מרובעות בהן קיימים זוגות רבים, לדוגמא: ב-כ, ג-נ, ה-ח, ס-ם ועוד.

אני עוסק בתחום הOCR הרבה, והתוכנות השונות, כולל ABBYY (ש"ירשה" את התמיכה המעולה שלה בעברית, לרבות רש"י, מתוכנת 'ליגטורה' הישראלית, זצ"ל) דווקא מתקשות להתמודד עם רש"י - כי שם יש, לא זוגות, אלא שלשות! של זהות, למשל ס-ם-פ (כן...), או ס-ם-ת, תלוי בסגנון הרש"י ובאיכות הסריקה וכו'.
לא משנה כמה 'נאמן' את התוכנה על אותו כתב, צריך לעבוד הרבה כדי לקבל משהו סביר.
דבר אחד שמפריע לי בABBYY, גם כשמאמנים אותה על כתב מסויים, יש לה מגבלה אחת מוסברת ואחת לא: אחת היא מסוגלת לקבל 100 גליפים שונים בלבד לכל סגנון מסמך, וזה מובן כי היא לא יכולה להכיל את זה שיאמנו אותה על גליפים רבים מאוד, אחרת זיהוי של כל חלק-תמונה ייקח שעות.
מגבלה שניה, ולא מוסברת, היא שאפילו אם נעבור על 200-300 דף ונאמן אותה עליהם, היא תברור אולי 5-20 תמונות אבטיפוס לכל גליף, שזה דל מאוד ובקושי מאפשר גמישות וזיהוי נכון. בעוד תוכנות OCR אחרות כמו של גוגל וכדו' (שלא מאפשרות OCR של ספרים שלמים למשתמשים, גם לא בתשלום, למיטב ידיעתי) - מתבססות על מאגר של מיליוני תמונות לכל גליף, שזה מאפשר יכולת זיהוי מדהימה להפליא. אבל כאן, לפחות לפי מה שאני רואה (ואולי אני עובד לא נכון) אין כמעט מבחר שכזה.

בסדר כתב:אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי

המלצה אישית שלי, עדיף לקחת מישהו שיודע טוב לעבוד עם OCR, ויידע לאלף את התוכנה כראוי, להוציא ממנה את המקסימום כמה שאפשר, בלי הגהה.
ואת ההגהה אחר כך, עדיף לעשות בינך לבין עצמך - שאתה מכיר את הספר וכו', ואתה תזהה לבד את המאסות של האותיות/מילים שיש בהן טעויות קבועות, ותתקן אותן בסקירה אחת (לא בחיפוש והחלפה אחד! אלא בחיפוש רצוף של טעויות דומות וכו').

גבאי האוצר · הודעהעל ידי **גבאי האוצר** » ג' דצמבר 28, 2021 7:22 am

בסדר כתב:אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי

"המרת הטקסט המדוייקת"
053-31-92294

ידען הספרים

אני מחפש מישהו שיכול לסרוק ספר גדול עם התוכנית של OCR וכדו', ולעבור עליו לתקן כל הטעיות שהתוכנה לא קרא כראוי.

נא לפנות אלי באישי.

פורום אוצר החכמה

שימוש בתכנת ocr

שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

Re: שימוש בתכנת ocr

מי מחובר