Skip to main content
16.11.2022 | כב חשון התשפג

הכירו את אבי קצ'ולרו

חוקר הבנה של טקסטים בעזרת בינה מלאכותית במחלקה למדעי המחשב

תמונה
אבי

הבנה של תוכן הכולל מספר טקסטים הקשורים זה בזה היא משימה שיש לה יישומים רבים בתחומי בינה מלאכותית והבנת שפה. לדוגמה, סיכום אוטומטי של מסמכים, סיווגם ושליפה מהירה של נתונים מתוך מאגר טקסטים גדול הם משימות בעלות חשיבות רבה באקדמיה ובתעשייה, בין היתר עבור ענקיות נתונים כמו גוגל, מיקרוסופט ופייסבוק. 

אלה תחומי המחקר המעסיקים את אבי קצ'ולרו, דוקטורנט במחלקה למדעי המחשב (2022). דוגמה להבנת תוכן כוללת, היא מתן מענה לשאלות על ידי מנועי חיפוש: מנוע החיפוש מבצע פעולות מסובכות רבות ומגוונות - לאתר מסמכים רלוונטיים ברשת האינטרנט ולשלוף אותם במהירות, ולאחר מכן לאתר את פיסות המידע המתאימות במסמכים כדי לענות נכון על השאלה. לעיתים קרובות זו משימה מאתגרת במיוחד, מאחר שהמידע הרלוונטי מפוזר על פני טקסטים שונים, בעוד שחלקים גדולים מתוכן המסמכים אינם רלוונטיים לתשובה.

בשנים האחרונות פותחו מודלים חישוביים מורכבים, מבוססי למידה עמוקה, לעיבוד של טקסטים. הדרך שבה פותחו המודלים מתבססת בעיקר על עיבוד והבנה של מסמך בודד. המחקר של אבי מציג רעיונות חדשים לפיתוח תשתית כללית המיועדת להבנה של מסמכים מרובים במקביל. המודל קורא ולומד מתוך מסמכים הקשורים זה לזה בתוכנם, כגון מספר כתבות מאתרים שונים שמתארות את אותו אירוע חדשותי. מתוך קריאה מקבילית שכזו, המודל לומד באופן עצמאי קשרי מידע חשובים בין המסמכים, כמו קשרים סמנטיים או תבניות מידע שחוזרות על עצמן. 

לכל המידע על התוכנית לתואר ראשון במדעי המחשב>>>

בניסויים שערך, הראה אבי שמודל זה השיג ביצועים טובים יותר  בהתמודדות עם מספר משימות הבנה שונות המשלבות מספר מסמכים.

בהמשך המחקר הוא מתכנן לשפר היבטים אלגוריתמיים שונים של המודל, להרחיב את סוגי המשימות איתן הוא מתמודד, ולשפר את מגוון הנתונים שמהם הוא לומד ומשתפר. להערכתו, משפחת המודלים הכלליים שיפתח תספק תשתית משופרת ומתאימה יותר להתמודדות עם משימות שונות הדורשות הבנה משולבת של טקסטים מרובים.

כחלק מעבודת המחקר, בהנחייתם של פרופ' עדו דגן מהמחלקה למדעי המחשב ופרופ' יעקב גולדברגר מהפקולטה להנדסה, אבי גם מנחה מספר סטודנטים לתואר שני ומייעץ למגוון פרויקטים.

רוצים לדעת עוד על הלימודים במחלקה למדעי המחשב? היכנסו