קבצים ונתונים סוציולינגוויסטיים

סימני הטקסטים

סימון הטקסטים שהוקלטו בשלב ההכנה בנוי על פי האות הראשונה של שם (בדוי של) המתנדב(ת), ואחריו סימון מזהה נוסף. סימון הטקסטים שהוקלטו במחקר החלוץ בנוי על פי האות הראשונה של שם המכון שגייס את המתנדבים 7(P ,D ,C), ואחרי האות באים מספר הקלטת ומספר התקליטור שמתוכו נדגמה ההקלטה (אם נדגמו קטעים אחדים מתוך אותו התקליטור – יופיעו מספרים סידוריים תואמים לאחר קו תחתי).

 

טקסטים של מעמ"ד הזמינים להורדה

מבחר הטקסטים של מעמ"ד המוגשים בשלב זה לקהיליית החוקרים כולל טקסטים מאת שלושים ושבעה מתנדבים, מהם שלושה משלב ההכנה ושלושים ושישה משלב מחקר החלוץ. מספר הדוברים הכללי בטקסטים אלה הוא כמאה וארבעים. משך הזמן הכללי של ההקלטות המוגשות בקול ובתמליל בקובצי ELAN המוצעות לקהיליית החוקרים בשלב הראשון הוא כחמש ורבע שעות ועוד טקסט קצר של כחמש וחצי דקות מתומלל ומוגש בקובץ PDF. נוספים על אלה טקסטים מתוך מעמ"ד אשר שימשו חלק מקורפוס המחקר של נורית דקל לעבודת הדוקטור שלה (Dekel 2010). תמלילי טקסטים אלה מוגשים לקהיליית המחקר בקובצי PDF.8 משך הזמן הכללי של טקסטים אלה הוא קצת למעלה מחמש שעות.9 עוד אנו מציעים לקהיליית המחקר דוגמאות מתוך הקלטות שעדיין לא הועלו על הכתב, ומזמינים את עמיתינו לשלוח אלינו תמלילים או תעתיקים של ההקלטות הללו ולהעשיר כך את מעמ"ד.10 משך הזמן הכללי של טקסטים אלה הוא כשעתיים ושלושת רבעי השעה. סך הכול מוגשות כעת לקהיליית המחקר כשלוש עשרה שעות וחצי של טקסטים מוקלטים. אנו מקווים שנוכל להעשיר את ההיצע בעתיד – הן בהקלטות, הן בתמלילים ובתעתיקים להקלטות המוצעות.

 

נתונים סוציולינגויסטיים

הנתונים המרכזיים על כל אחד ואחד מן המתנדבים כפי שנמסרו לסוקרי מעמ"ד סוכמו בטבלה 2. לחיצה על הקישוריות בטור "שאלון" יעלה את השאלון הסוציולינגויסטי אשר מולא בהתאם לתשובות המתנדב/ת לנציג מעמ"ד.

 

הורדת הקבצים

בטבלה 3 כמה פרטים על בני השיח של המקליטים ועל ההקלטות, ולצידם קישוריות להורדת קובצי קול בפורמט WAV ובפורמט MP3, קובצי EAF של תוכנת ELAN, וקובצי PDF של התמלילים.

 

שימוש בתוצרי מעמ"ד

השימוש בהקלטות, בתמלילים ובתעתיקים של מעמ"ד מוגבל לצרכים שאינם מסחריים. בכל שימוש בחומרי מעמ"ד יש לציין את מקורותיהם ואת זכויות היוצרים שלהם כדלקמן:

דרכי ההפניה

  • בעברית: מאגר העברית המדוברת בישראל (מעמ"ד) <https://humanities.tau.ac.il/cosih>.
  • בשפה אחרת: The Corpus of Spoken Israeli Hebrew (CoSIH) <https://humanities.tau.ac.il/cosih.
  • הפניה לטקסטים על פי שורת ההפניות בקובצי ELAN התואמים, למשל: C714_sp1_014.
  • הפניות להקלטות שאין להן תמלילים או תעתיקים בקובצי ELAN ייעשו על פי שם הקובץ בתוספת הזמן בשניות ובמאיות או אלפיות השנייה, למשל: C211_1:17.50”-45.64”.
  • הפניות לתמלילי נורית דקל ייעשו על פי שם הקובץ בתוספת מספר השורה המצוטטת, למשל: C211_1ND:14-37.

 

זכויות יוצרים

  • זכויות היוצרים של מעמ"ד על כל הקלטותיו, התמלילים והתעתיקים, שייכות לאוניברסיטת תל-אביב.
  • זכויות היוצרים של התמלילים המסומנים בראשי התיבות ND שייכות לנורית דקל. זכויות היוצרים לתעתיק הפוניטי של ההקלטה OCh שייכות לאילאיל יציב-מליבר ולמיזם CorpAfroAs – A Corpus for Afroasiatic Languages. זכויות היוצרים לתעתיק הפוניטי של ההקלטה C714 שייכות לאליסה גוטרמן. זכויות היוצרים לתעתיק הפוניטי של ההקלטות P931_1 ,C1624 ו-Y32 שייכות לנעם פאוסט.
  • זכויות היוצרים לסמליל (לוגו) ולכותרת הדף שייכות ללי-מור יזרעאל-אבישר. זכויות היוצרים לתצלומים שייכות לאורן יזרעאל.

 


7 C = מכון ב. י. ולוסיל כהן למחקרי דעת קהל באוניברסיטת תל-אביב, אשר גייס 16 מתנדבים; D = מכון דחף, אשר גייס 10 מתנדבים; P = מכון פורי, אשר גייס 16 מתנדבים.

8 תודה לנורית דקל על הסכמתה לאפשר לנו להעלות את הטקסטים האלה לאתר מעמ"ד לשימוש הקהילייה המדעית. התעתיקים נעשו על ידי נורית בשנים 2007-2005. לסימונים נוספים על סימוני התמלילים של מעמ"ד ר' יזרעאל תשס"ב(א): 291-290.

9 טקסטים מן הקורפוס של נורית החופפים במלואם לטקסטים של מעמ"ד שתומללו ומוגשים כאן בפורמט ELAN לא הועלו לאתר. לחפיפות חלקיות ר' טבלה 3 בתאים המתאימים.

10 כמובן שבכל תרומה שכזאת יצויינו שם המתמלל/ת או המתעתק/ת וזכותו/ה על העבודה, כפי ששמחנו לעשות עם תרומותיהם של נורית דקל, אילאיל יציב-מליבר, אליסה גוטרמן ונעם פאוסט.

אוניברסיטת תל אביב עושה כל מאמץ לכבד זכויות יוצרים. אם בבעלותך זכויות יוצרים בתכנים שנמצאים פה ו/או השימוש
שנעשה בתכנים אלה לדעתך מפר זכויות, נא לפנות בהקדם לכתובת שכאן >>