Jump to content

ויקינתונים: הורדת מסד הנתונים

From Wikidata
This page is a translated version of the page Wikidata:Database download and the translation is 100% complete.

ויקינתונים (Wikidata) מציעה עותקים של התוכן הזמין להורדה לכל אחד.

שימו לב שישנן גם כמה שיטות אחרות לגישת תוכן מובנה מויקינתונים, שאולי לא ידרשו גיבוי (dump) מלא של מסד נתונים.

גיבויי מסד נתונים

ישנם מספר סוגים שונים של גיבויי נתונים זמינים. שימו לב שבעוד שגיבויי JSON ו-RDF נחשבים ממשקים יציבים, גיבויי XML לא. שינויים בפורמטי הנתונים המשמשים ממשקים יציבים כפופים למדיניות ממשק יציב.

גיבויי JSON (מומלץ)

ניתן למצוא גיבויי JSON המכילות את כל הישויות של ויקינתונים במערך JSON יחיד תחת https://dumps.wikimedia.org/wikidatawiki/entities/. הישויות במערך אינן בהכרח בסדר מסוים, למשל, Q2 לא בהכרח עוקב אחר Q1. גיבויים נוצרים על בסיס שבועי.

זהו פורמט ההשלכה המומלץ. אנא עיינו בתיעוד מבנה JSON למידע על האופן שבו ישויות ויקינתונים מיוצגות.

רמז: כל אובייקט ישות (פריט נתונים או מאפיין) ממוקם בשורה נפרדת בקובץ JSON, כך שאפשר לקרוא את הקובץ שורה אחר שורה, ולפענח כל שורה בנפרד כאובייקט JSON בודד.

שימו לב שהקבצים משתמשים בדחיסה מקבילה, מה שאומר שכמה מדחסים לא יכולים לפרוק את הקבצים באופן מהימן. אם אתם משתמשים בווינדוס Windows (מערכת הפעלה של מיקרוסופט) תוכלו להשתמש למשל ב- Bzip2. במערכות ניקס *nix (מערכת הפעלה של לינוקס), השתמשו ב-lbzip2 שיכול לבטל את הדחיסה של Bzip2 במקביל. pbzip2 אינו בחירה טובה מכיוון שהוא לא מסוגל לפרק קבצים במקביל שלא דחוסים עם pbzip2.

כרגע אתם יכולים להוריד גיבוי עדכני למדי באמצעות טורנט. wikidata-20240101-all.json.gz (130.53 GiB) ב-academictorrents.com ( magnet)

  • JsonDumpReader היא ספריית PHP לקריאת גיבויים.
  • gitlab.com/tozd/go/mediawiki היא ספריית Go לעיבוד גיבויים של ויקיפדיה וויקינתונים.
  • WDSub היא ספריית Scala שמעבדת גיבוי של ויקיבייס JSON ויכולה ליצור תת-ערכות באמצעות סכימות ישויות כקלט
  • simple-wikidata-db הוא מנתח גיבוי JSON שנכתב ב-Python
  • qwikidata תומך בגיבוי JSON ונכתב ב-Python

גיבויי RDF

ראשית, השתמשו בגיבוי RDF קנוני באמצעות הפורמטים Turtle ו-NTtriples שניתן למצוא תחת https://dumps.wikimedia.org/wikidatawiki/entities/. המיפוי מתואר כאן. גיבויי הקביעות המלאות הללו מצויינות כהכל (all).

שנית, מסופקים מה שנקרא גיבויי אמת (truthy dumps). הם משתמשים בפורמט NTriples. הם באותו הפורמט של הגיבויים המלאים (full dumps), אך מכילים רק ערכים ישירים ("truthy", wdt: ו- wdtn:) של קביעות בדירוג הטוב ביותר. זה גם אומר שהם לא מכילים מטא נתונים כגון מגדירים (qualifiers) והפניות (references).

גיבויי הכל (-all) מכילות יחד את כל פרטי הישויות בויקינתונים, למעט סדר (של כינויים, קביעות וכו'), שאינו מיוצג באופן טבעי ב-RDF. קבצי הגיבויים הישירים (-truthy dump files) מקודדים את הקביעות הטובות ביותר (כלומר, אלה עם הדרגה הגבוהה ביותר ללא ביטול של כל זוג נתון (נושא, מאפיין)) כשלשות RDF בודדות (המגדירים והפניות כבר הושמטו).

גיבויים של מרחב השמות של יחידה מילונית בויקינתונים (Wikidata Lexeme) בפורמטים NTriples ו-NTriples ניתנים למצוא באותו מקום עם סיומת יחידות מילוניות (lexemes).

לפרטים על פורמט גיבוי RDF, עיינו בעמוד פורמט השלכת RDF. שימו לב גם לסעיף הבדלים בנתונים WDQS שמסביר את ההבדלים בפורמטים של ה-RDF של גיבויים אלה ושל WDQS.

גיבויי RDF חלקיות

WDumper הוא כלי של צד שלישי ליצירת גיבויי RDF מותאמות אישית של ויקינתונים. ניתן לסנן ישויות וקביעות.

גיבויי XML

ניתן למצוא גיבויי XML מלאים של ויקינתונים כאן: https://dumps.wikimedia.org/wikidatawiki/.

אזהרה: הפורמט של נתוני ה-JSON המוטמעים בגיבויי XML נתון לשינוי ללא הודעה מוקדמת, ועלול להיות לא עקבי בין גרסאות. יש להתייחס אליו כאל נתונים בינאריים אטומים. מומלץ מאוד להשתמש במקומם ב-JSON או RDF, המשתמשים בייצוגים קנוניים של הנתונים!

גם גיבויים תוספתיים (או "גיבויי תוספות ושינויי") של ויקינתונים זמינים להורדה. הגיבויים האלה מכילים דברים שנוספו ב־24 השעות האחרונות, ומפחיתים את הצורך להוריד גיבוי מלא של מסד הנתונים. הגיבויים האלה קטנים בהרבה מאלה של הגיבויים המלאים.

הגיבויים האלה זמינים כאן: https://dumps.wikimedia.org/other/incr/wikidatawiki/.

גיבויי JSON ו-RDF ישנים

ניתן למצוא גיבויים ישנים של RDF ו-JSON ב-Internet Archive (Q461):

מודל נתונים

ניתן לחפש את מודל הנתונים כאן. מודל הנתונים מתאר את אבני היסוד הבסיסיות של הנתונים של ויקינתונים.

סכימת מסד נתונים

ניתן למצוא סקירה כללית על הסכימה של מסד הנתונים בדף זה. (זו לא הסכימה של הנתונים בויקינתונים).

רישוי

אפשר להשתמש במסדי הנתונים האלה לצרכים אישיים ומסחריים, לגיבויים וגם בלי חיבור לרשת. כל הנתונים המובנים מהמרחב הראשי (main) וממרחב המאפיינים (Property), מילון היחידות (Lexeme), וסכימת הישויות (EntitySchema) זמינים לפי תנאי רישיון הקדשה לנחלת הכלל של קריאייטיב קומונז (CC0 גרסה 1.0). טקסט במרחבי שמות אחרים זמין לפי תנאי ייחוס-שיתוף זהה 3.0 לא מותאם של קראייטיב קומונז (CC BY-SA גרסה 3.0); ייתכן שיחולו תנאים נוספים. פרטי מדיה ותוכן אחר זמינים ברישיונות אחרים, כפי שמפורט בדפי התיאור שלהם.

ר' גם