כיצד מאמנים את ה-Chat GPT?

אם אתם מכירים את ChatGPT, כבר שמעתם שהוא מאומן במאגר גדול של מידע. אבל מה בדיוק זה אומר? במאמר הזה נגע בפרטי האימון של ChatGPT ונסביר את מגדלי הפרטים”

צ'אטגפט הוא מודל שפה מקדים שתואם על ידי שילוב של טכניקות למידה בהדרכה ולמידה חיובית. תהליך האימון של צ'אטגפט כלל התקנת כמות גדולה של מידע טקסטואלי למודל והתאמת פרמטריו כדי שיוכל ליצור טקסט דומה לטקסט במאגר האימון.

בשביל התהליך הזה, נעשה שימוש בגישת למידה לא מנוטרת, הנובעת מכך שהמודל לא מקבל משוב פעיל בנוגע לתקינות הטקסט שהוא מייצר. במקום זה, המודל מתאים את הפרמטרים שלו על סמך ההסתברות לכך שהטקסט המיוצר יהיה דומה לטקסט שבקורפוס ההדרכה.

GPT-3, המודל האב של ChatGPT-3, הוא אחד המודלים שפה הגדולים שיוצרו אי פעם, עם 175 מיליארד פרמטרים והיסטוריית קונטקסט ארוכה של 2048 מילים. הוא מתאמן על מאות מיליארדי מילים, באנגלית, מתוך Common Crawl, WebText2, Books1/2, וויקיפדיה וגם קטעי קוד מתחומי CSS, JSX, Python ושפות תכנות אחרות.

השיטה לאימון שמשתמשת GPT-3 היא רשתת ההכשרה המגדירה, במשמעות היא מאמנת את המערכת לחזק לבחור את המחרוזת הבאה או המילה במשפט הקלט.

האלטרנטיבה הטובה ביותר ל-Chat GPT

למידה בהנחייה

הדגם ChatGPT עבר תהליך של למידה מבוסס הדרכה על ידי מאמנים אנושיים. המאמנים אלו התעסקו בשיחות, לוקחים על עצמם את התפקיד הכולל גם את תפקיד המשתמש וגם את תפקיד עוזר המחשב.

הם קיבלו הצעות מהדגם כדי להדריך אותם במילוי התגובות שלהם, שנמזגו עם סט הנתונים InstructGPT שהומר לתבנית של שיחה.

למידה משולבת-חיזויים

המודל השתפר נוסף דרך למידת ref>reinforcement באמצעות קיפול מדיניות פרוקסימלי (PPO). מאמני אנוש מעריכים תגובות שהמודל הפיק בשיחה קודמת ומשתמשים בהערכות אלו כדי לפתח דפוסי פרס. המודל עודד מחדש בהתבסס על מודלי פרס אלו.

תהליך הסינון היה נעשה מספר פעמים כדי להשיג ביצועים טובים יותר. אלגוריתמים PPO הם יעילי עלות בהשוואה לאלגוריתמים אחרים, וכמו כן יש להם ביצועים מהירים, הופכים אותם לאידיאליים לתהליך זה.

OpenAI ממשיכה לאסוף מידע מהמשתמשים שמגיבים עם ChatGPT, וכך ניתן להשתמש בו על מנת לשפר ולזקף את המודל עוד יותר.

המשתמשים יכולים להצביע על תגובות של ChatGPT על ידי הצבעות חיוביות או שליליות, וכמו כן ניתן להם גם לתת משוב נוסף. הנתונים הללו משמשים לשיפור וטיפול בביצועים של המודל, ולהפעלתו באופן טוב יותר והפקת טקסט דומה לאנושי.

הנתונים המשמשים לאימון המודל

צ'אטGPT-3 הוא מודל שפה כבוי מסדרת GPT-3.5, שהוכשר באמצעות תשתיות מעולות של AI Azure. הוא הוכשר על כמות עצומה של טקסט שגויס מהאינטרנט, אשר כוללת ספרים, פורומים דיבור, מאמרים, אתרי אינטרנט, ניירות מדעיים, קוד ומקורות אחרים.

גודל מאגר הנתונים המשמש לאימון של ChatGPT-3 היה יותר מ-45 טרהבייט, כך שהוא עצום ותורם ליכולת המודל ליצור טקסטים דומים למה שכתוב על ידי עיתונאי או סופר.

איך Chat GPT מאומן?

למידה בהנחייה

למידה משולבת-חיזויים

הנתונים המשמשים לאימון המודל

כתבות קשורות