האקדמיה ללשון העברית ורשות התקשוב הממשלתי מקימות קורפוס של עברית בת זמננו בתיוג מורפולוגי ידני, לטובת שיפור המחקר והפיתוח של עיבוד שפה טבעית בעברית.

הטקסטים בקורפוס לקוחים מן השירות הממשלתי והציבורי והוא יהיה פתוח לציבור.

הקורפוס המתויג יפורסם באתר Data.Gov.il במהלך שנת תשפ"ג (2023-2022).

תקן לתיוג מורפולוגי עבור עיבוד שפה טבעית

האקדמיה ללשון העברית מובילה את ההתאמה לעברית של החלק המורפולוגי בתקן הבין־לאומי UD (Universal Dependencies), ולשם כך הוקמה באקדמיה ועדה מיוחדת.

חברי הוועדה:

  • איילת הראל (יו"ר), האקדמיה ללשון העברית
  • יראל אושרת, רשות התקשוב הממשלתי, יחידת ממשל זמין
  • ד"ר אורלי אלבק, האקדמיה ללשון העברית
  • אבנר אלגום, האיגוד הישראלי לטכנולוגיות שפת אנוש
  • רועי אלמוג, "אינפונטו"
  • יפעת בן־משה, האיגוד הישראלי לטכנולוגיות שפת אנוש
  • ענת בר סימן טוב, המרכז הארצי לבחינות ולהערכה
  • נתנאל דהן, האיגוד הישראלי לטכנולוגיות שפת אנוש
  • עופר ישי, רשות התקשוב הממשלתי, יחידת ממשל זמין
  • ד"ר יעל נצר, אוניברסיטת בן־גוריון
  • פרופ' רעות צרפתי, אוניברסיטת בר־אילן
  • נריה רבלין, האקדמיה ללשון העברית
  • פרופ' אבי שמידמן, חבר האקדמיה ללשון העברית; אוניברסיטת בר־אילן; "דיקטה"

חברים משקיפים:

  • ד"ר נועם אורדן, האיגוד הישראלי לטכנולוגיות שפת אנוש
  • יעקב גוטקין, רשות התקשוב הממשלתי, יחידת ממשל זמין
  • ד"ר יובל פינטר, אוניברסיטת בן־גוריון
  • דורון רובינשטיין, האקדמיה ללשון העברית

לקובץ טיוטת התקן

תאריך עדכון אחרון של הקובץ: כ"א בסיוון תשפ"ב, 20 ביוני 2022

הערות לטיוטת התקן אפשר לשלוח בדוא"ל לאיילת הראל עד לתאריך ט"ז בתמוז (15 ביולי 2022).