日々を綴る。

主に日報。研究の話が多め。

4月17日 sun

おやすみした。

明日からまた1週間頑張る


`今までのメモたちとか

 

2016/4/16

NeuralNetwork, DeepLearning系の言語モデル

  • 言語モデルの枠組みで、各単語をNN内の隠れ層や写像行列を通して変換させるようにして、学習させる
  • 学習された隠れ層や写像行列が各単語の分散表現として使える
  • Recurrent NN:繰り返し、前の状態を入力するので、単語の周辺情報を広く考慮させることができる

Named entity recognition

  • 固有表現抽出
  • 計算機を用いた自然言語処理技術の一つであり、固有名詞(人名、地名など)や日付、時間表現などを抽出する技術

2016/4/15

skip-gram

  • 単語から文脈中の一単語を推定する
  • NNの隠れ層の出力を取り出す手法で、入力データの特徴を低次元で表現した隠れ層を取り出す

skipgram with negative sampling

  • 適当に選んだk個を「正しくない回答」として逆向きの学習をさせる
  • 高速化のためのテク

collaborative Filtering

  • 協調フィルタリング
  • 多くのユーザの好みを用いて自動的に推論を行う
  • あるユーザとの好みの類似した他のユーザの情報を用いて、おすすめ商品を出すなど
  • 「相関分析」を応用する方法が一番シンプルかつ古典的である

word embeddings

  • distributed word representation(分散表現)
  • 計算機で単語を扱うために単語をどのように表現するか
  • 単語ベクトル(単語に連続値ベクトルを割り当てる)

n-gram言語モデル

  • 単語の表層から得られる情報を利用
  • 過去の文脈(n-1個の単語)から、次に辞書中の各単語がどのくらいの確率で出てくるかを出力するモデル
  • 単語の特徴を表現した単語ベクトルの学習
  • 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア」の出現回数, ...) = (1,1,1,0,...)

2016/4/8

Realized Varience

  • Realized volatility と同義
  • Volatility: 為替相場などの予想変動率
  • 日中に高頻度で観測されたリターンの 2乗値の和として計算され、ボラティリティの推定値

2016/4/7

Semantic Link Network

  • semantic properties(factors, tags) 一緒に組み合わさる
  • semantic networkの中で関連付けることと密接に関係している
  • semantic node, semantic link, reasouning rules から成る
  • SLNは、人間の知識を表現するよりも、オブジェクトの存在の中の関係を示すものである- http://www.knowledgegrid.net/~H.Zhuge/SLN.htm

論文のよみかた

コーパス

  • 自然言語の文章を楮化し、大規模に集積したもの

TF-IDF

  • 文書中の単語に関する重み
  • 情報検索、文章ようやくの分野で利用
  • Term Frequency Inverse Document Frequency(単語の出現頻度、逆文書頻度)

LDA

  • Latent Dirichlet Allocation(潜在的ディリクレ配分法)
  • 文書中の単語の「トピック」を確率的に求める
  • 単語→表面的、トピック→潜在的

2016/4/6

オントロジー

  • 人とコンピュータ上のプログラムが相互に理解したり、人と人が認識を合わせて合意形成したりするための基準、内容を指す
  • 例:「家」という単語を検索→建物の家なのか、ほげ家という一族なのかを表すのかをいコンテキストで読み取って処理する
  • https://thinkit.co.jp/story/2010/09/29/1777