Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ספרי ויקיטקסט ואוצר הספרים היהודי השיתופי #4

Open
zevisvei opened this issue Apr 27, 2024 · 11 comments

Comments

@zevisvei
Copy link
Collaborator

zevisvei commented Apr 27, 2024

ניתן להוריד ספר מויקיטקסט על ידי הכלי הזה:
https://ws-export.wmcloud.org/
קוד המקור של הכלי:
https://github.com/wikimedia/ws-export
צריך יהיה לכתוב סקריפט שיתאים את הספרים המיוצאים דרך הכלי בבחירת האפשרויות הבאות: html ,ללא תמונות וללא קרדיט לפורמט שיתאים לאוצריא.
צריך גם להתאים את הכלי כך שיוריד את כל ויקיטקסט בב"א.
יתכן שיש לספריא כלי טוב יותר, חיפשתי במאגר של ספריא ולא מצאתי.
יתכן שיש לספריא את כל הספרים מויקיטקסט, צריך לבדוק.
ניתן על ידי כלי זה להוריד ספר שלם, ולא רק עמוד בודד, לדוג': כסף_משנה
יתכן שניתן יהיה להתאים את הכלי גם לאוצר הספרים היהודי השיתופי על ידי שינוי ה url וה api
אגב יש את תוכנת סטנדר שמורידה מאוצר הספרים היהודי השיתופי, אולי ניתן להיעזר בה.

@Y-PLONI
Copy link
Collaborator

Y-PLONI commented May 5, 2024

שלום @Sivan22 אנו זקוקים לעזרתך.
הכלי הנ"ל מסובך להתקנה ולהפעלה והוא מיצה את רמת הידע הטכני שיש לי...
אצטרך את עזרתך בהורדת המאגרים [כוונתי לוויקיטקסט וכן לאוצר הספרים היהודי השיתופי], אנו יכולים לבנות אינדקס בצורה ידנית, אך את ההורדה עצמה אנו לא יכולים לעשות!
יש לציין, כי בוויקי טקסט ספציפית, לאחר בניית האינדקס אנחנו בעצם לא זקוקים לקינפוג הכלי, כיון שניתן לשלוח בקשות HTTP עם הURL, לדוג': כסף משנה html ללא קרדיטים, ללא היסטוריית עריכת טקסט וללא תמונות, הURL נראה כך:
https://ws-export.wmcloud.org/?lang=he&page=%D7%9B%D7%A1%D7%A3_%D7%9E%D7%A9%D7%A0%D7%94&format=htmlz&fonts=&credits=false&images=false
אך כיון שמסתבר שהספרים כולם נמצאים באוצר הספרים השיתופי [גם בהנחה שאינם בספריא], א"כ אנו רוצים לעבוד על מאגר זה [לשימוש אישי, ולפי הכללים]. אך לצורך זה אנו זקוקים לעזרתך.
תודה רבה!

@Danthig
Copy link
Collaborator

Danthig commented May 6, 2024

עד כמה שידוע לי אוצר הספרים היהודי השיתופי שומר לעצמו זכויות על הטקטסים, כך שצריך לבקש מהם!
"התוכן זמין לשימוש אישי (לא ציבורי ולא מסחרי) אלא אם נאמר אחרת." (עיין למטה בדף הבית).

@Y-PLONI
Copy link
Collaborator

Y-PLONI commented May 6, 2024

נכון. אני רוצה הדרכה להורדה לשימוש אישי. מותר לבקש, נכון?

@Danthig
Copy link
Collaborator

Danthig commented May 6, 2024

לדעתי כדאי ליצור איתם קשר, יש סיכוי שהם יתנו את כל מסד הנתונים, כמו שהם נתנו בשעתו לסטנדר ז"ל.

@NHLOCAL
Copy link

NHLOCAL commented May 6, 2024

בזמנו סטנדר קיבלו את זה עם הגבלות בלתי נסבלות שכבר לא שוות את זה

@Y-PLONI
Copy link
Collaborator

Y-PLONI commented May 6, 2024

לא נכון.
הסיבה שהתוכנה שלהם רעה, היא בגלל סיבה אחרת, אשתף אותך במייל שלהם.
הם מוכנים לתת בתנאי ש @Sivan22 יאפשר בתוכנה לערוך. לדעתי זה יעזור לנו [גם אם זה ניצול מחפיר שלהם] לספרי דיקטה, אך סיון לא עונה בצורה ברורה, וחבל.

@Danthig
Copy link
Collaborator

Danthig commented May 6, 2024

יאפשר בתוכנה לערוך

גם כעת ניתן לערוך, פשוט לפתוח את הקובץ בפנקס רשימות או כל קורא טקסט אחר...
אם הוא רוצה שבתוך התוכנה תהיה אפשרות עריכה, לדעתי זה כבר סיפור אחר. שלכאורה דורש גם הרבה עבודה בקוד.
אני לא חושב שזה יצדיק את עצמו, למה לא לפנות ישירות לאוצר הספרים?

@Y-PLONI
Copy link
Collaborator

Y-PLONI commented May 6, 2024

יש מאגרי גיט שעושים חלק נכבד מהעבודה, למשל:
https://github.com/Yiddishe-Kop/jewishbooks-wiki
https://github.com/fastily/jwiki
לא חפרתי, וזה מה שעלה... בטח יש הרבה, אך אני לא יודע אם זה מתאים לקוד של סיון.

@Sivan22
Copy link
Owner

Sivan22 commented May 6, 2024 via email

@Y-PLONI
Copy link
Collaborator

Y-PLONI commented May 6, 2024 via email

@Sivan22
Copy link
Owner

Sivan22 commented May 6, 2024 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants