日本語WordNet(sqlite版)の中身メモ
タイトルのまんまです。
表: pos_def …品詞名定義
列名 | 型 | 内容 |
---|---|---|
pos | text | 品詞を表す小文字アルファベット1文字 |
lang | text | defの言語(‘eng’ or ‘jpn’) |
def | text | posのフルネーム |
表: link_def …synset同士の関係定義
列名 | 型 | 内容 |
---|---|---|
link | text | synset間の関係を表す小文字アルファベット4文字 |
lang | text | defの言語(‘eng'のみ) |
def | text | linkの説明 |
表: synset_def …synsetの定義説明
列名 | 型 | 内容 |
---|---|---|
synset | text | 参照先:synset.synset_id |
lang | text | defの言語(‘eng’ or ‘img’ or jpn' 未翻訳のものもある) |
def | text | synsetの説明 langフィールドが'img'なら画像までのパス(ImageNet) |
sid | text | 同一synsetで複数の説明がある場合or複数画像を指す場合の連番(多分) |
表: synset_ex …synset内の単語を用いた例文
列名 | 型 | 内容 |
---|---|---|
synset | text | 参照先:synset.synset_id |
lang | text | defの言語 |
def | text | synset内の表層系をもちいた例文? |
sid | text | 同一synsetで複数の説明がある場合の連番(多分) |
表: synset …同義語集合定義
列名 | 型 | 内容 |
---|---|---|
synset | text | 同義語集合のid 形式は \d{8}-[pos_def.posの値] |
pos | text | 参照先:pos_def.pos |
name | text | synsetの総称 |
src | text | ‘eng30'のみ (参考文献名 なのかな?) |
表: synlink …synset同士の関係を表現
列名 | 型 | 内容 |
---|---|---|
synset1 | text | 参照先:synset_def.synset_id |
synset2 | text | 参照先:synset_def.synset_id |
link | text | 参照先:link_def.link synset1がsynset2に対してどういった関係なのかを表す |
src | text | ‘eng30'のみ |
表: ancestor …synsetの親子関係定義
メモ: 再帰クエリを書かずに済ますために閉包テーブルを採用してるっぽい
列名 | 型 | 内容 |
---|---|---|
synset1 | text | 参照先:synset_def.synset_id 子同義語集合 |
synset2 | text | 参照先:synset_def.synset_id 親同義語集合 |
hops | int | 親から子までの経由エッジ数 |
表: sense …synsetに含まれる単語を表現する連関テーブル
列名 | 型 | 内容 |
---|---|---|
synset | text | 参照先: synset.synset_id |
wordid | integer | 参照先: word.wordid |
lang | text | ‘eng’ or ‘jpn’ |
rank | text | 0 or null 用途不明 langが'jpn'だとnull |
lexid | integer | nullあり 最大59 なんだろ… langが'jpn'だとnull |
freq | integer | なにかの出現頻度? langが'jpn'だとnull |
src | text | langが'eng'なら ‘eng-30’ langが'jpn'なら ‘hand’ ‘mlsn’ ‘mono’ ‘multi’ のうちどれか |
表: word …見出し語定義
列名 | 型 | 内容 |
---|---|---|
wordid | integer | 単語(lemma)を一意に表すID 主キー制約付き |
lang | text | lemmaの言語 ‘eng’ or ‘jpn’ |
lemma | text | 単語名(見出し語) |
pron | text | たぶん発音 いまは null しかない |
pos | text | 参照:pos_def.pos |
表: variant …中身が空っぽテーブル (表名と列構造から察するに,表記ゆれと単語との連関テーブル?)
データベースを見ただけじゃ用途不明なので, あとでなにか文献でもあたる.
列名 | 型 | 内容 |
---|---|---|
varid | integer | |
wordid | integer | |
lang | text | |
lemma | text | |
vartype | text |
表: xlink …synsetがxrefとどういった関係になっているかを表すテーブル
メモ: EAVっぽい
列名 | 型 | 内容 |
---|---|---|
synset | text | 参照: synset.synset_id |
resource | text | ‘sumo’ のみ (「Suggested Upper Merged Ontology」 の略) |
xref | text | synsetと関連するデータ いまは単語のみが入ってる |
misc | text | 「miscellaneous(雑多な)」の省略形? いまのところ包含関係を表す記号のみが格納されている ‘=’ ‘∈’ ‘≠’ ‘⊂’ ‘⊃’ のどれか |
confidence | text | null のみ |
メモ
よく参照される表の synset、link、wordid、lemma にはインデックスづけされているため、大体の用途ではそのまんま使える。
synlink.synset2にはインデックスがついてないので注意
……といっても、「synset2 = ‘あるid’ AND link = 下位語」 をしたかったら 「synset1 = ‘あるid’ AND link = 上位語」 でできるので無問題。参照制約がついてないので、気になるならつける。
英語の定義文および、「"」でくくられた英語の例文を「; 」で連結したものがsynset_def.def内に存在する。
synsetを条件とした定義文取得時に冗長な情報がとれてしまうことと、データ容量的に、消したほうがよさ気?
つかわせていただいたもの