OPATCH

The linguistic corpus portal of OPATCH combines several existing visualizations for textual data with the purpose of supporting linguistic corpus analyses. The portal allows for searches in // Das linguistische Korpusportal von OPATCH bringt unterschiedliche Visualisierungen für Textdaten zusammen, um linguistische Korpusanalysen zu unterstützen. Das Portal bietet Suchmöglichkeiten in three corpora // drei Korpora of South Tyrolean German texts: // von Texten des Südtiroler Deutschen an:

  • Core part of the South Tyrolean Korpus (STK) // Kernkorpus des Korpus Südtirol
  • Corpus of a contemporary local newspaper (Dolomiten) // Korpus einer aktuellen Lokalzeitung (Dolomiten)
  • Corpus of historical newspapers from the Tyrolean region // Korpus historischer Zeitungen aus der Region Tirol
The search menu allows to distinguish searches for words and lemmas, to include or exclude punctuation marks, and to specify different statistical measures for the collocation network and co-occurrence matrix. In addition, for part of the visualizations searches for two words or a word and its part-of-speech (e.g. NE Bozen) are possible (see details below). Search results can be displayed and analyzed using the following five visualizations: // Das Suchinterface erlaubt zwischen Wort- und Lemmasuche zu unterscheiden, Satzzeichen zu berücksichtigen oder zu vernachlässigen, und zwischen unterschiedlichen statistischen Maßen für die Berechnung von Kollokationsnetzen und Kookkurrenzmatrixen zu unterscheiden. Darüber hinaus sind Zweiwortsuchen und Suchen nach einem Wort in Kombination mit seiner Wortklasse (z.B. NE Bozen) in einigen Visualisierungen möglich (Details siehe unten).
  • Classic concordance // Standardkonkordanz
  • Concordance tree // Konkordanzbaum
  • Temporal graph // Zeitverlaufsdiagramm
  • Collocation network // Kollokationsnetz
  • Co-occurrence matrix // Kookkurrenzmatrix
The linguistic corpus portal has been optimized for use with the Chrome browser! // Das linguistische Korpusportal wurde für den Browser Chrome optimiert!

Corpora // Korpora

The core part of the South Tyrolean Korpus (STK) consists of balanced texts of four genres: fiction, informative, functional (e.g. user manuals) and journalistic texts. It has a size of 1.8 Mio tokens and spans the entire 20th century. The corpus of a contemporary local newspaper (Dolomiten) consists of more than 17,000 issues of the South Tyrolean newspaper “Dolomiten” (publisher Athesia), with an overall total of more than 66 Mio tokens of text. The corpus covers data from the years 1991, 1996, 2001, 2005 and 2006. The corpus of historical newspapers contains 100,000 pages of German newspapers from (South) Tyrol for the years 1910 to 1920. They are part of the historical newspaper archive from the Alpine region held at the Dr. Friedrich Teßmann library and comprise full issues of ‘Bozner Nachrichten’ (BZN), ‘Der Tiroler’ (TIR), ‘Meraner Zeitung‘ (MEZ), ‘Bote für Tirol’ (BTV), ‘Volksblatt‘ (SVB), ‘Lienzer Zeitung’ (LZ), ‘Tiroler Volksbote’ (TVB), ‘Bozner Zeitung’ (BZZ) and ‘Pustertaler Bote’ (PUB). // Das Kernkorpus des Korpus Südtirol (STK) besteht zu ausgewogenen Anteilen aus vier Textsorten: Belletristik, Sachtexte, Gebrauchstexte (z.B. Benutzerhandbücher) und journalistische Prosa. Es hat einen Umfang von 1.8 Millionen Token und deckt das gesamte 20. Jahrhundert ab. Das Korpus aus aktuellen Lokalzeitungen (Dolomiten) beeinhaltet mehr als 17.000 Ausgaben der Südtiroler Tageszeitung "Dolomiten" (Athesia-Verlag) mit insgesamt über 66 Millionen Textwörtern. Das Korpus setzt sich aus Daten aus den Jahren 1991, 1996, 2001, 2005 und 2006 zusammen. Das Korpus historischer Zeitungen umfasst 100.000 Seiten deutschsprachiger Zeitungen aus (Süd)Tirol der Jahre 1910 bis 1920. Die Zeitungen sind Teil des Archivs historischer Zeitungen aus dem Alpenraum der Landesbibliothek Dr. Friedrich Teßmann. Für das OPATCH Korpus wurden die Gesamtausgaben folgender Zeitungen ausgewählt: ‘Bozner Nachrichten’ (BZN), ‘Der Tiroler’ (TIR), ‘Meraner Zeitung‘ (MEZ), ‘Bote für Tirol’ (BTV), ‘Volksblatt‘ (SVB), ‘Lienzer Zeitung’ (LZ), ‘Tiroler Volksbote’ (TVB), ‘Bozner Zeitung’ (BZZ) und ‘Pustertaler Bote’ (PUB).

Classic concordance // Standardkonkordanz

The classic concordance view shows results centered on the search term with three words of context to the left and right. The search term can be a single word, a sequence of two consecutive words or a word of a specified part-of-speech (entered as POS followed by the word, e.g. “NE Bozen”). The search results are laid out in a table with one column per word position. Results are clustered into three groups according to three words of context on both sides of the search term (using the k-means algorithm and the cosine similarity measure). Results can be filtered by cluster by clicking on a cluster number. The arrows on top and bottom of the table allow for paging through all search results. The classic concordance view builds on the KWICis visualization (see http://linguistics.chrisculy.net/lx/software/KWICis/). // Die Standardkonkordanz zeigt die Suchergebnisse so an, dass sie auf den Suchbegriff zentriert sind und drei Kontextwörter zur rechten und linken Seite mitangezeigt werden. Der Suchbegriff kann ein einzelnes Wort, eine Sequenz zwei aufeinanderfolgender Wörter oder ein Wort zusammen mit seiner Wortklasse (part-of-speech) sein (z.B. "NE Bozen"). Suchergebnisse werden in einer Tabelle angezeigt, in der jede Spalte eine Wortposition wiedergibt. Die Ergebnisse sind bezüglich ihres textuellen Kontexts in drei Gruppen geclustert (basierend auf k-means Algorithmus und cosine similarity Maß). Durch Klicken auf eine Clusternummer können Ergebnisse auf das entsprechende Cluster reduziert werden. Durch Klicken auf die Pfeile über und unter der Konkordanzanzeige kann der Benutzer durch alle Suchergebnisse blättern. Die Standardkonkordanzanzeige basiert auf der KWICIS-Visualisierung (siehe http://linguistics.chrisculy.net/lx/software/KWICis/)

Concordance tree // Konkordanzbaum

The concordance tree view shows search results as a two-sided tree with the search term as tree root and the left and right contextual continuations as parallel branches. The left and right contexts can be expanded by clicking on any of the branching words which will result in the display of all continuations for that word and, at the same time, will highlight the valid continuations on the opposite side of the tree in red color. The search term can be a single word, a sequence of two consecutive words or a word of a specified part-of-speech (entered as POS followed by the word, e.g. “NE Bozen”). The set of results is limited to 100 hits. The size of a word indicates the frequency of its occurrence in this particular context. Also, for each text word the word class (POS) is indicated. For example “fahren VVFIN” indicates that “fahren” (“to drive”) is of the word class “finite verb” (an explanation of all abbreviations can be found here: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html). On mouseover the exact frequency, POS, lemma and the number of continuations are given for each word. The concordance tree visualization builds on the Double Tree JS application (see http://linguistics.chrisculy.net/lx/software/DoubleTreeJS/index.html). // Die Konkordanzbaum-Ansicht zeigt Suchergebnisse als zweiseitigen Baum an, bei dem der Suchbegriff als Wurzel und die rechten und linken Kontexte als verzeigende Äste angezeigt werden. Rechter und linker Kontext können dynamisch expandiert werden. Indem der Nutzer auf eines der verzweigten Kontextwörter klickt, werden alle Folgewörter angezeigt und alle gültigen Kontexte auf der anderen Seite des Baumes in roter Schrift hervorgehoben. Der Suchbegriff kann ein einzelnes Wort, eine Sequenz zwei aufeinanderfolgender Wörter oder ein Wort zusammen mit seiner Wortklasse (part-of-speech) sein (z.B. "NE Bozen"). Die Anzeige der Ergebnisse ist auf 100 Treffer begrenzt. Die Schriftgröße der Wörter gibt ihre Vorkommenshäufigkeit in dem spezifischen Kontext wieder. Für jedes Wort ist zudem seine Wortklasse (POS) angegeben. Zum Beispiel gibt "fahren VVFIN" an, dass "fahren" in dem Kontext in der Wortklasse "finites Verb" auftritt (eine Erklärung aller Abkürzungen kann hier: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html eingesehen werden. Fährt man mit der Maus über ein Wort, erscheint ein Pop-up-Fenster, welches die exakte Häufigkeitsangabe, POS, Lemma und die Anzahl der folgenden Verzweigungen angibt. Der Konkordanzbaum basiert auf der DoubleTreeJS-Visualisierung (siehe http://linguistics.chrisculy.net/lx/software/DoubleTreeJS/index.html)

Temporal graph // Zeitverlaufsdiagramm

The temporal graph view shows the occurrence frequency of the search term over time and over different historical newspapers (TIR-Der Tiroler, BZN-Bozner Nachrichten, SVB-Volksblatt, MEZ-Meraner Zeitung, all four). The y axis displays the ratio between term frequency and total number of tokens for the newspaper issue of that day. The x axis shows the publication dates by year. The occurrence frequencies of the search term are indicated by connected data points. Big solid circles indicate significantly higher or lower frequencies within one newspaper compared to the rest of the corpus (on that specific day). Hovering over a circle gives the exact frequency ratio and the date of the newspaper issue for that data point. Single newspapers can be hidden by clicking on their label at the right end of the diagram. Also, data points can be hidden for all newspapers by clicking on the indication on top of the diagram. The temporal graph builds on the Slash/A visualization (see http://linguistics.chrisculy.net/lx/vistola/tools/slasha.html) // Das Zeitverlaufsdiagramm zeigt die Vorkommenshäufigkeiten eines Suchbegriffes über die Zeit und über verschiedene historische Zeitungen an (TIR-Der Tiroler, BZN-Bozner Nachrichten, SVB-Volksblatt, MEZ-Meraner Zeitung, alle vier). Die y-Achse gibt das Verhältnis zwischen Frequenz des Suchbegriffs und der Gesamtzahl an Token in der Zeitungsausgabe des entsprechenden Tages an. Die x-Achse zeigt die Veröffentlichungsdaten der Zeitungsausgaben nach Jahren. The Vorkommenshäufigkeiten des Suchbegriffs werden durch miteinander verbundene Datenpunkte angezeigt. Größere flächig eingefärbte Kreise weisen auf Vorkommen hin, deren Häufigkeiten in einer Zeitung signifikant über oder unter Frequenzen des restlichen Korpus liegen (für den betreffenden Tag). Fährt man mit der Maus über einen der Datenpunkte erhält man die exakte Frequenzangabe sowie das Veröffentlichungsdatum der Zeitung in einem Pop-up-Fenster. Einzelne Zeitungen können ausgeblendet werden, indem man auf ihre Beschriftung rechts vom Diagramm klickt. Ebenso können die Datenpunkte für alle Zeitungen durch einen Klick auf die Angabe "hide data points" versteckt werden, welche sich oberhalb vom Diagramm befinden. Das Zeitverlaufsdiagramm basiert auf der Slash/A-Visualisierung (siehe http://linguistics.chrisculy.net/lx/vistola/tools/slasha.html)

Collocation network // Kollokationsnetzwerk

The collocation network view shows the top five collocates of the indicated search term. It allows to specify whether to show left or right collocates, the distance between the search term and the collocates (one, two or three words) and the statistical measure to calculate the collocates (absolute frequency, Mutual Information or t-score). Clicking on a word in the collocation network makes this word become the search term and updates the collocation network accordingly. The scores next to the collocates indicate their collocation strengths, with higher scores corresponding to stronger collocations. The collocation network visualization builds on examples from the JavaScript library d3 (https://d3js.org/). // Ein Kollokationsnetzwerk zeigt die fünf stärksten Kollokate zu einem Suchbegriff. Der Nutzer kann hierfür spezifizieren, ob rechte oder linke Kollokationen berechnet werden sollen, in welchem Abstand (eins, zwei oder drei Wörter) die Kollokate zum Suchbegriff stehen sollen und mittels welcher Maße die Kollokationen berechnet werden (absolute Frequenz, Mutual Information oder t-score). Indem man auf ein Wort im Kollokationsnetzwerk klickt, wird ein neues Netzwerk für dieses Wort als Suchbegriff berechnet und angezeigt. The Zahlenwerte neben den Kollokaten geben ihre Kollokationsstärke an. Höhere Werte korrespondieren mit höherer Kollokationsstärke. Die Visualisierung der Kollokationsnetzwerke baut auf Beispielen der JavaScript library d3 auf (https://d3js.org/).

Co-occurrence matrix // Kookkurrenzmatrix

The co-occurrence matrix view shows the co-occurrence strengths between any combination of words out of the search term and its top four collocates (based on MI calculation). The data is displayed as a grid of colored rectangles with the search word and collocates placed on both the x and y axes. The intensity of the color of the rectangle indicates the co-occurrence strength (deeper blue corresponds to stronger co-occurrence). The co-occurrence matrix builds on collocates, and in the same way as for the collocation network it is possible to specify the parameters left/right context and the distance between the search term and the collocates. The co-occurrences can be ordered by frequency (words that appear in most word pairs) or put into alphabetical order (case-sensitive). Clicking on any of the rectangles starts a classic concordance search for the word combination. In addition to the dynamically calculated co-occurrence matrixes for user specified search terms, two static co-occurrence matrixes can be displayed for location and person names in the corpus of historical newspapers. The co-occurrence matrix visualization builds on examples from the JavaScript library d3 (https://d3js.org/). // Die Kookkurrenzmatrix zeigt die Kookkurrenzstärke zwischen allen Wortkombinationen folgender fünf Wörter an: einem Suchbegriff und seinen vier stärksten Kollokaten (gemäß ihrer MI-Werte). Die Daten werden als Matrix aus farbigen Quadraten angezeigt, wobei auf x- und y-Achse jeweils die fünf Wörter (Suchbegriff und Kollokate) aufgetragen sind. Die Farbstärke der Quadrate gibt deren Kookkurrenzstärke an (je tiefer der Blauton dest stärker die Kookkurrenz). Die Kookkurrenzmatrix baut auf Kollokationen des Suchbegriffs auf und, genau wie für die Kollokationsnetze, kann vom Nutzer spezifiziert werden, ob rechte oder linke Kollokationen berechnet werden sollen und in welchem Abstand die Kollokate zum Suchbegriff stehen. Die Kookkurrenzen können ferner nach Frequenz sortiert werden (entsprechend der Wörter, die in den meisten Wortpaaren auftreten) oder in alphabetischer Reihenfolge (unter Berücksichtigung von Groß- und Kleinschreibung) angezeigt werden. Durch einen Klick auf ein beliebiges Quadrat wird eine Suche für die Wortkombination gestartet und als Standardkonkordanz angezeigt. Zusätzlich zu den dynamisch berechneten Kookkurrenzmatrixen können zwei statische Kookkurrenzmatrixen für Orts- und Personennamen im Korpus historischer Zeitungen angezeigt werden. Die Visualisierung der Kookkurrenzmatrix baut auf Beispielen der JavaScript library d3 auf (https://d3js.org/).









.js