ニシキヘビってかわいいよね、実際みたことないけど。

無職がいよかん国でプログラミングとかの備忘録を書いてます。 一日一食たまごかけごはん。

日本語WordNet(sqlite版)の中身メモ

タイトルのまんまです。

表: pos_def …品詞名定義
列名 内容
pos text 品詞を表す小文字アルファベット1文字
lang text defの言語(‘eng’ or ‘jpn’)
def text posのフルネーム
表: link_def …synset同士の関係定義
列名 内容
link text synset間の関係を表す小文字アルファベット4文字
lang text defの言語(‘eng'のみ)
def text linkの説明
表: synset_def …synsetの定義説明
列名 内容
synset text 参照先:synset.synset_id
lang text defの言語(‘eng’ or ‘img’ or jpn' 未翻訳のものもある)
def text synsetの説明 langフィールドが'img'なら画像までのパス(ImageNet)
sid text 同一synsetで複数の説明がある場合or複数画像を指す場合の連番(多分)
表: synset_ex …synset内の単語を用いた例文
列名 内容
synset text 参照先:synset.synset_id
lang text defの言語
def text synset内の表層系をもちいた例文?
sid text 同一synsetで複数の説明がある場合の連番(多分)
表: synset …同義語集合定義
列名 内容
synset text 同義語集合のid 形式は \d{8}-[pos_def.posの値]
pos text 参照先:pos_def.pos
name text synsetの総称
src text ‘eng30'のみ (参考文献名 なのかな?)
表: synlink …synset同士の関係を表現
列名 内容
synset1 text 参照先:synset_def.synset_id
synset2 text 参照先:synset_def.synset_id
link text 参照先:link_def.link
synset1がsynset2に対してどういった関係なのかを表す
src text ‘eng30'のみ
表: ancestor …synsetの親子関係定義

メモ: 再帰クエリを書かずに済ますために閉包テーブルを採用してるっぽい

列名 内容
synset1 text 参照先:synset_def.synset_id 子同義語集合
synset2 text 参照先:synset_def.synset_id 親同義語集合
hops int 親から子までの経由エッジ数
表: sense …synsetに含まれる単語を表現する連関テーブル
列名 内容
synset text 参照先: synset.synset_id
wordid integer 参照先: word.wordid
lang text ‘eng’ or ‘jpn’
rank text 0 or null 用途不明 langが'jpn'だとnull
lexid integer nullあり 最大59 なんだろ… langが'jpn'だとnull
freq integer なにかの出現頻度? langが'jpn'だとnull
src text langが'eng'なら ‘eng-30’
langが'jpn'なら ‘hand’ ‘mlsn’ ‘mono’ ‘multi’ のうちどれか
表: word …見出し語定義
列名 内容
wordid integer 単語(lemma)を一意に表すID 主キー制約付き
lang text lemmaの言語 ‘eng’ or ‘jpn’
lemma text 単語名(見出し語)
pron text たぶん発音 いまは null しかない
pos text 参照:pos_def.pos
表: variant …中身が空っぽテーブル (表名と列構造から察するに,表記ゆれと単語との連関テーブル?)

データベースを見ただけじゃ用途不明なので, あとでなにか文献でもあたる.

列名 内容
varid integer
wordid integer
lang text
lemma text
vartype text
表: xlink …synsetがxrefとどういった関係になっているかを表すテーブル

メモ: EAVっぽい

列名 内容
synset text 参照: synset.synset_id
resource text ‘sumo’ のみ
(「Suggested Upper Merged Ontology」 の略)
xref text synsetと関連するデータ いまは単語のみが入ってる
misc text 「miscellaneous(雑多な)」の省略形?
いまのところ包含関係を表す記号のみが格納されている
‘=’ ‘∈’ ‘≠’ ‘⊂’ ‘⊃’ のどれか
confidence text null のみ
メモ
  • よく参照される表の synset、link、wordid、lemma にはインデックスづけされているため、大体の用途ではそのまんま使える。

  • synlink.synset2にはインデックスがついてないので注意
    ……といっても、「synset2 = ‘あるid’ AND link = 下位語」 をしたかったら 「synset1 = ‘あるid’ AND link = 上位語」 でできるので無問題。

  • 参照制約がついてないので、気になるならつける。

  • 英語の定義文および、「"」でくくられた英語の例文を「; 」で連結したものがsynset_def.def内に存在する。
    synsetを条件とした定義文取得時に冗長な情報がとれてしまうことと、データ容量的に、消したほうがよさ気?

つかわせていただいたもの

日本語ワードネット(version 1.1)© 2009-2011 NICT,2012-2015 Francis Bond and 2016-2017 Francis Bond, Takayuki Kuribayashi