Jump to content

ויקינתונים:גישה לנתונים

From Wikidata
This page is a translated version of the page Wikidata:Data access and the translation is 89% complete.
Outdated translations are marked like this.

ויקינתונים עבור מפתחים: גישה לנתונים




ויקינתונים מכילה כיום למעלה מ-110 מיליון פריטים ויותר מ-1.3 מיליון יחידות מילוניות (לקסימות), והמספרים הללו ימשיכו לגדול. ישנן שיטות רבות זמינות לגשת לכל הנתונים הללו - מסמך זה מציג אותן ומסייע למשתמשים פוטנציאליים לבחור את השיטה הטובה ביותר שתתאים לצרכים שלהם.

חשוב לבחור בשיטת גישה שתספק לכם את הנתונים הדרושים שתצתרכו בצורה המהירה והיעילה ביותר, מבלי להעמיס עומס מיותר על ויקינתונים; הדף הזה כאן כדי לעזור לכם לעשות בדיוק את זה.

לפני שנתחיל

שימוש בנתוני ויקינתונים

הלוגו שלנו

ויקינתונים מציעה מגוון רחב של נתונים כלליים על כל דבר מתחת לשמש. כל הנתונים האלה מורשים תחת CC0, "ללא זכויות שמורות", לרשות הציבור.

שינויים בממשקי API ושיטות אחרות לגישת ויקינתונים כפופים למדיניות הממשק היציב. מקורות הנתונים בדף זה הם לא מובטחים שהם ממשקים יציבים.

מיזמי ויקימדיה

מסמך זה עוסק בגישה לנתונים ממיזמים חיצוניים של ויקימדיה. אם אתם צריכים להציג נתונים מויקינתונים במיזם אחר של ויקימדיה, שבו אתם יכולים להשתמש בפונקציות מנתח, Lua ו/או שיטות אחרות פנימיות בלבד, עיינו בכיצד להשתמש בנתונים במיזמים של ויקימדיה.

שיטות עבודה מומלצות לנתונים

מתנדבים כמו האנשים האלה - ואתם - יוצרים ויקינתונים

אנו מציעים את הנתונים בויקינתונים באופן חופשי וללא דרישה לייחוס תחת ל-CC-0. בתמורה, נודה מאוד אם במיזם שלכם תציינו את ויקינתונים כמקור הנתונים שלך. בכך אתם מסייעים להבטיח שויקינתונים תישאר בסביבה במשך זמן רב כדי לספק נתונים עדכניים ואיכותיים. אנו גם מקדמים את המיזמים הטובים ביותר המשתמשים בנתונים של ויקינתונים.

כמה דוגמאות לייחוס ויקינתונים: "מופעל על ידי ויקינתונים", "מופעל על ידי נתוני ויקינתונים", "מופעל על ידי הקסם של ויקינתונים", "שימוש בנתוני ויקינתונים", "עם נתונים מויקינתונים", "נתונים מויקינתונים", "מקור: ויקינתונים", "כולל נתונים מויקינתונים" וכן הלאה. אתם יכולים גם להשתמש באחד מהקבצים המוכנים שלנו.

אתם רשאים להשתמש בלוגו של ויקינתונים המוצג לעיל, אך בכך אין לרמוז בשום צורה על אישור של ויקינתונים או על ידי קרן ויקימדיה.

אנא הציעו למשתמשים שלכם דרך לדווח על בעיות בנתונים, ומצאו דרך להחזיר זאת לקהילת העורכים של ויקינתונים, למשל באמצעות איי התאמה. אנא שתפו ​​את המיקום שבו אתם אוספים את הבעיות האלה בשיחת המיזם.

גישה לשיטות עבודה מומלצות

בעת גישה לנתוני ויקינתונים, שימו לב לשיטות העבודה המומלצות הבאות:

  • פעלו בהתאם למדיניות User-Agent (סוכן-משתמש) – שלחו כותרת סוכן-משתמש טובה.
  • פעלו לפי מדיניות הרובוט (robot policy): שלחו Accept-Encoding: gzip,deflate ואל תבקשו יותר מדי בקשות בבת אחת.
  • אם אתם מקבלים תגובה של 429 Too Many Requests, הפסיקו לשלוח בקשות נוספות לזמן מה (ראו את כותרת התגובה Retry-After)
  • כאשר זמין (כגון עם שירות השאילתות של ויקינתונים), הגדירו את הזמן הקצוב הנמוך ביותר שהגיוני עבור הנתונים שלכם.
  • בעת שימוש בממשק ה-API של מדיה-ויקי (MediaWiki), עשו שימוש ליברלי בפרמטר maxlag ועיינו בשאר ההנחיות המפורטות ב-API:נימוס.


חיפוש

מה זה?

ויקינתונים מציעה אינדקס Elasticsearch לחיפושים מסורתיים באמצעות הנתונים שלה: Special:Search

מתי להשתמש בו?

השתמשו בחיפוש כאשר אתם צריכים לחפש שם מחרוזת טקסט (text string), או כאשר אתם יודעים את שמות הישויות שאתם מחפשים אך לא את הישויות המדויקות עצמן. זה מתאים גם למקרים שבהם אתם יכולים לציין את החיפוש שלכם על סמך כמה יחסים פשוטים מאוד בנתונים.

אל תשתמשו בחיפוש כאשר היחסים בנתונים שלכם מתוארים טוב יותר כמורכבים (complex).

פרטים

אתם יכולים להפוך את החיפוש שלכם לעוצמתי יותר עם מילות המפתח הנוספות האלה הספציפיות לויקינתונים: haswbstatement, inlabel, wbstatementquantity, hasdescription, haslabel. פונקציונליות החיפוש הזו מתועדת בעמוד התוסף של CirrusSearch. יש לו גם API action משלו.

ממשק נתונים מקושר (URI)

מה זה?

ממשק הנתונים המקושרים (Linked Data Interface) מספק גישה לישויות בודדות באמצעות URI: http://www.wikidata.org/entity/Q???. URIs כאלה נקראים קונספט URIs. שימו לב לקונספט URIs המשתמשים ב-HTTP, לא ב-HTTPS.

מתי להשתמש בו?

השתמשו בממשק הנתונים המקושרים כאשר אתם צריך להשיג ישויות בודדות ושלמות שכבר ידועות לכם.

אל תשתמשו בו כאשר לא ברור לכם אילו ישויות אתם צריכים – נסו תחילה לחפש או לבצע שאילתות. זה גם לא מתאים לבקשת כמויות גדולות של נתונים.

פרטים

הכירו את Q42

לכל פריט או מאפיין יש URI מתמשך המורכב ממרחב השמות של מושג הויקינתונים ומזהה את הפריט או המאפיין (לדוגמה, Q42, P31) וגם נתונים קונקרטיים שניתן לגשת אליהם על ידי פריט זה. או הנתונים של המאפיין URL.

מרחב השמות לנתונים של ויקינתונים על ישויות הוא https://wikidata.org/wiki/Special:EntityData.

הוספת מזהה של ישות לקידומת זו (אתם יכולים להשתמש בקיצור /entity/) יוצר את הצורה המופשטת (ניטרלי בפורמט) של כתובת האתר של הנתונים של הישות. בעת גישה למשאב במרחב השמות Special:EntityData, הדף המיוחד מחיל (משא ומתן על תכנים) content negotiation כדי לקבוע את פורמט הפלט. אם פתחתם את המשאב בדפדפן, תראו דף HTML המכיל נתונים על הישות, מכיוון שדפדפני אינטרנט מעדיפים HTML. עם זאת, לקוח נתונים מקושרים יקבל את נתוני הישות בפורמט כמו JSON או RDF – מה שהלקוח יציין בכותרת HTTP Accept: שלו.

לדוגמה, קחו את המושג URI הזה עבור דאגלס אדמס – שהוא התייחסות לאדם בעולם האמיתי, לא לתיאור הקונקרטי של ויקינתונים:
http://www.wikidata.org/entity/Q42
כאדם עם עיניים ודפדפן, סביר להניח שתרצו לגשת לנתונים על דאגלס אדמס על ידי שימוש במושג URI בתור URL. פעולה זו מפעילה הפניה מחדש של HTTP ומעבירה את הלקוח לכתובת ה-URL של הנתונים המכילה את הנתונים של ויקינתונים אודות Douglas Adams: https://www.wikidata.org/wiki/Special:EntityData/Q42.

כאשר אתם צריכים לעקוף משא ומתן על תוכן, למשל, כדי להציג תוכן שאינו HTML בדפדפן אינטרנט, אתם יכולים לציין את הפורמט של נתוני הישות על ידי הוספת ההרחבה המתאימה לכתובת ה-URL של הנתונים; דוגמאות כוללות .json, .rdf, .ttl, .nt או .jsonld. לדוגמה, https://www.wikidata.org/wiki/Special:EntityData/Q42.json נותן לך פריט Q42 בפורמט JSON.

פלט RDF פחות מילולי

כברירת מחדל, נתוני ה-RDF שממשק הנתונים המקושרים מחזיר אמורים להיות שלמים בפני עצמם, ולכן הם כוללים תיאורים של ישויות אחרות שאליהם הוא מתייחס. אם ברצונכם לא לכלול מידע זה, תוכלו להוסיף את פרמטר השאילתה ?flavor=dump לכתובת/ות ה-URL שאתם מבקשים.

על ידי הוספת &flavor= לכתובת האתר, אתם יכולים לשלוט בדיוק איזה סוג של נתונים יוחזר.

  • ?flavor=dump: לא כולל תיאורים של ישויות הנזכרות בנתונים.
  • ?flavor=simple: מספק רק הצהרות נכונות (הצהרות בדירוג הטוב ביותר ללא הסמכות או הפניות), יחד עם קישורי אתר (sitelink) ומידע על גרסאות.
  • ?flavor=full (default): טענה (ארגומנט) של "מלא" ("full") מחזירה את כל הנתונים. (אינכם צריכים לציין זאת מכיוון שזו ברירת המחדל.)

אם אתם רוצים תובנה מעמיקה יותר לגבי מה בדיוק כוללת כל אפשרות, אתם יכולים להציץ אל קוד המקור.

תיקונים ושמירה במטמון

אתם יכולים לבקש גרסאות ספציפיות של ישות עם פרמטר השאילתה revision: https://www.wikidata.org/wiki/Special:EntityData/Q42.json?revision=112.

הפורמטים הבאים של כתובת האתר משמשים את ממשק המשתמש ומעדכן שירות השאילתות, בהתאמה, כך שאם אתם משתמשים באחד מאותם פורמטים של כתובת אתר, יש סיכוי טוב שתקבלו תגובות מהירות יותר (במטמון):

שירות תשאול ויקינתונים

מה זה?

שירות השאילתות של ויקינתונים (WDQS, Wikidata Query Service) היא נקודת הקצה ב-SPARQL של ​​ויקינתונים. היא מחזירה את התוצאות של שאילתות שנעשו בשפת השאילתה SPARQL: https://query.wikidata.org

מתי להשתמש בו?

השתמשו ב-WDQS כאשר אתם יודעים רק את המאפיינים של הנתונים הרצויים.

אל תשתמשו ב-WDQS לביצוע טקסט או חיפוש מעורפל – FILTER(REGEX(...)) הוא אנטי-תבנית. (השתמשו ב-Search במקרים כאלה.)

WDQS גם לא מתאים כאשר הנתונים הרצויים שלכם צפויים להיות גדולים, אחוז ניכר מכל הנתונים של ויקינתונים. (שקלו להשתמש בגיבוי (dump) במקרים כאלה.)

פרטים

אתם יכול לשאול את הנתונים בויקינתונים דרך נקודת הקצה ב-SPARQL שלנו, שירות השאילתות של ויקינתונים (Wikidata Query Service). השירות יכול לשמש הן כממשק אינטרנט אינטראקטיבי, או באופן תכנותי על ידי הגשת בקשות של GET או POST ל-https://query.wikidata.org/sparql.

שירות השאילתות משמש בצורה הטובה ביותר כאשר ערכת התוצאות המיועדת שלכם היא בהיקף מצומצם, כלומר, כאשר יש לכם שאילתה שאתם די בטוחים שכבר מציינים את מערך הנתונים המתקבל במדויק. אם הרעיון שלכם לגבי ערכת התוצאות מוגדר פחות טוב, אז סוג העבודה שתעשו נגד שירות השאילתות יהיה יותר דומה לחיפוש; לעתים קרובות תצטרכו קודם כל לבצע עבודה מסוג זה הקשורה לחיפוש כדי לחדד את השאילתה שלכם. עיינו בסעיף Search.

שירות השאילתות ב-query.wikidata.org מכיל רק את הגרף הראשי של ויקינתונים. הפריטים הקשורים למאמרים אקדמיים נמצאים בשירות שאילתות נפרד ב-query-scholarly.wikidata.org. לפרטים נוספים ראו Wikidata:SPARQL query service/WDQS graph split.

נקודת סוף של קטעי נתונים מקושרים

מה זה?

נקודת הקצה של Linked Data Fragments Endpoint (LDF) היא שיטה ניסיונית יותר לגישה לנתונים של ויקינתונים על ידי ציון דפוסים בשלשות: https://query.wikidata.org/bigdata/ldf. החישוב מתרחש בעיקר בצד הלקוח.

מתי להשתמש בו?

השתמשו בנקודת הקצה של LDF כאשר אתם יכולים להגדיר את הנתונים שאתם מחפשים באמצעות תבניות משולשות, וכאשר מערך התוצאות שלכם צפוי להיות גדול למדי. נקודת הקצה טובה לשימוש כאשר יש לכם כוח חישוב משמעותי לרשותכם.

מכיוון שזה ניסיוני, אל תשתמשו בנקודת הקצה של LDF אם אתם צריכים נקודת קצה יציבה לחלוטין או ערכת תוצאות מלאה בקפדנות. וכאמור קודם, השתמשו בו רק אם יש לכם כוח חישוב מספיק, כמו שנקודת הקצה של LDF מורידה את החישובים לצד הלקוח.

פרטים

אם יש לכם מידע חלקי על מה שאתם מחפשים, כגון כאשר יש לכם שניים מתוך שלושה רכיבים של הטריפל/ים שלכם, ייתכן שתמצאו את מבוקשכם על ידי שימוש בממשק Linked Data Fragments בכתובת https://query.wikidata.org/bigdata/ldf. עיינו במדריך למשתמש ובדפי קהילה למידע נוסף.

ה-REST API של ויקיבייס (Wikibase)

מה זה?

ה-Wikibase REST API הוא ממשק מבוסס OpenAPI המאפשר למשתמשים ליצור אינטראקציה עם, לאחזר ולערוך פריטים והצהרות במופעי (ויקיבייס)Wikibase –  הכולל כמובן את ויקינתונים: Wikidata REST API

מתי להשתמש בו?

ה-Wikibase REST API עדיין בפיתוח, אך עבור ויקינתונים הוא נועד להחליף באופן פונקציונלי את Action API שכן זהו ממשק ייעודי המיועד רק עבור Wikibase/Wikidata.

מקרי השימוש עבור Action API חלים גם על Wikibase REST API. השתמשו בו כאשר העבודה שלכם כוללת:

  • עריכת ויקינתונים
  • קבלת נתונים ישירים על הישויות עצמן

אל תשתמשו ב-Wikibase REST API כאשר מערך התוצאות שלכם צפוי להיות גדול. (שקול להשתמש בגיבוי נתונים (dump) במקרים כאלה.)

עדיף לא להשתמש ב-Wikibase REST API כאשר תצטרכו לצמצם עוד יותר את התוצאה של בקשת ה-API שלכם. במקרים כאלה עדיף למסגר את העבודה שלכם כחיפוש (עבור Elasticsearch) או שאילתה (עבור WDQS).

פרטים

ל-Wikibase REST API יש תיעוד OpenAPI באמצעות Swagger. אתם יכולים גם לעיין ב-תיעוד המפתחים (developer documentation).

ה-Action API של מדיה-ויקי (MediaWiki)

מה זה?

ממשק ה-API של ויקינתונים הוא ממשק ה-API לפעולה של מדיה-ויקי (MediaWiki), מורחב כך שיכלול כמה פעולות ספציפיות לויקיבייס (Wikibase): https://wikidata.org/w/api.php

מתי להשתמש בו?

השתמשו ב-API כאשר העבודה שלכם כוללת:

  • עריכת ויקינתונים
  • קבלת נתונים על ישויות עצמן, כגון היסטוריית הגרסאות שלהן
  • קבלת כל הנתונים של ישות בפורמט JSON, בקבוצות קטנות של ישויות (עד 50 ישויות לכל בקשה).

אל תשתמשו ב-API כאשר מערך התוצאות שלכם צפוי להיות גדול. (שקלו להשתמש בגיבוי במקרים כאלה.)

ה-API גם לא מתאים למצבים שבהם אתם רוצים לבקש את המצב הנוכחי של ישויות ב-JSON. (במקרים כאלה שקלו להשתמש ב-ממשק נתונים מקושרים, שסביר שיספק תגובות מהירות יותר).

לבסוף, כנראה שזה רעיון רע להשתמש ב-API כאשר תצטרכו לצמצם עוד יותר את התוצאה של בקשת ה-API שלכם. במקרים כאלה עדיף למסגר את העבודה שלכם כSearch (עבור Elasticsearch) או שאילתה (עבור WDQS).

פרטים

MediaWiki Action API המשמש עבור ויקינתונים מתועד בקפידה בדף ה-API של ויקינתונים. אתם יכולים לחקור ולהתנסות בו באמצעות ארגז חול של ממשק API.

ישנן מספר נקודות קצה ספציפיות של ויקיבייס (Wikibase). הנה בקשה לדוגמה:

בוטים

אנו מקדמים בברכה בוטים המתנהגים היטב

אתם יכולים גם לגשת ל-API באמצעות בוט. למידע נוסף על בוטים, ראו Wikidata:Bots.

זרם שינויים אחרונים

מה זה?

זרם השינויים האחרונים מספק זרם רציף של שינויים של כל ויקי ויקימדיות (Wikimedia wikis), כולל ויקינתונים: https://stream.wikimedia.org

מתי להשתמש בו?

השתמשו בזרם השינויים האחרונים כאשר המיזם שלכם דורש ממכם להגיב לשינויים בזמן אמת או כאשר אתם צריכים את כל השינויים האחרונים המגיעים מויקינתונים – לדוגמה, בעת הפעלת שירות שאילתות משלכם.

פרטים

זרם השינויים האחרונים מכיל את כל העדכונים מכל דפי ויקי באמצעות פרוטוקול Server-sent events. תצטרכו לסנן את העדכונים של ויקינתונים בצד הלקוח.

אתם יכולים למצוא את ממשק האינטרנט ב-stream.wikimedia.org ולקרוא עליו הכל בדף EventStreams.

Wikidata Vector Database

What it is?

The Wikidata Vector Database stores high-dimensional vector representations of Wikidata entities. It enables semantic search based on meaning and context rather than keyword matching, and supports natural-language queries against entities.

When to use it?

Use vector search for exploration purposes, for example, when you want to uncover entities without explicitly knowing their labels, or when you need to narrow a search down to a smaller, more relevant subgraph of Wikidata as a starting point for further research before moving on to more structured tools.

The vector database can also be used in AI/ML pipelines, such as enabling semantic search in RAG workflows or applying vector distances to tasks like classification and other types of analysis.

Details

You can find more information on the Wikidata Vector Database page. The Wikidata Vector Database is available at wd-vectordb.wmcloud.org, and the API documentation can be found at wd-vectordb.wmcloud.org/docs.


Wikidata MCP

Main page: Wikidata:MCP

What it is?

The Wikidata MCP (Model Context Protocol) provides a set of standardized tools that allow large language models (LLMs) to explore and query Wikidata programmatically. It is designed for agentic AI or AI workflows that need to search, inspect, and query Wikidata, without relying on hardcoded assumptions about its structure or content.

When to use it?

Use the Wikidata MCP when you want to integrate Wikidata directly into a GenAI model or into AI/ML workflows. The MCP provides a set of tools for exploring and accessing Wikidata, but it is limited to read-only use and does not include editing functionality.

Details

The Wikidata MCP is implemented as an HTTP service available at wd-mcp.wmcloud.org. To use it, add https://wd-mcp.wmcloud.org/mcp/ as a connector in your AI client.

גיבויי נתונים (Dumps)

מה הם?

גיבויי נתונים (Dumps) של ויקינתונים הן ייצוא מלא של כל הישויות בויקינתונים: https://dumps.wikimedia.org

מתי להשתמש בהם?

השתמשו בגיבוי נתונים כאשר מערך התוצאות שלכם צפוי להיות גדול מאוד. תמצאו גם השלכת נתונים חשובה בעת הגדרת שירות שאילתות משלכם.

אל תשתמשו בגיבוי נתונים אם אתם זקוקים לנתונים עדכניים: ייצוא גיבויי הנתונים לוקח הרבה מאוד זמן ואפילו יותר זמן לסנכרן עם שירות השאילתות שלכם. גיבויים אינם מתאימים גם כאשר יש לכם מגבלות משמעותיות על רוחב הפס (bandwidth) הזמין שלכם, שטח האחסון (storage space ) ו/או כוח המחשוב (computing power) שלכם.

פרטים

אם הרשומות שאתם צריכים לעבור הן רבות, או אם מערך התוצאות שלכם צפוי להיות גדול מאוד, הגיע הזמן לשקול עבודה עם גיבוי נתונים של מסד נתונים: (קישור לגיבוי הנתונים המלא האחרון).

תמצאו תיעוד מפורט על כל הגיבויים של ויקימדיה בדף על "גיבויי הנתונים" במטא ועל גיבויי הנתונים של ויקינתונים בפרט בדף הורדת מסד נתונים.

כלים

  • JsonDumpReader היא ספריית PHP לקריאת גיבויי נתונים.
  • ב-https://gitlab.com/tozd/go/mediawiki תמצאו ספריית Go לעיבוד גיבויי נתונים של ויקיפדיה וויקינתונים.
  • אתם יכולים להשתמש ב-wdumper כדי לקבל גיבויי נתונים חלקיות של RDF מותאמות אישית.

שירות שאילתות מקומי

זו משימה לא קטנה לרכוש גיבוי נתונים של ויקינתונים וליישם את הכלים שלעיל לעבודה איתם, אבל אתם יכולים לעשות צעד נוסף. אם יש לכם את היכולת והמשאבים לעשות זאת, אתם יכולים לארח מופע (instance) משלכם של שירות השאילתות של ויקינתונים ולשאול אותו ככל שתרצו, ללא מחלוקת עם אחרים.

כדי להגדיר שירות שאילתות משלכם, עקבו אחר הוראות אלה מצוות שירות השאילתות, הכוללות רכישת עותק מקומי משלכם של הנתונים. תוכלו גם למצוא מידע שימושי בפוסט בבלוג של אדם שורלנד בנושא.