もっと詳しく

3つの要点✔️ 世界20ヵ国以上の360万件の観光レビューと約5万件の観光サービスやアトラクションの説明文に対して事前学習を実行✔️ WordPieceトークナイザーを使用したBERT-Baseアーキテクチャ+BERT-Baseと同じ語彙サイズでクローリングした観光特有の語彙を用いて1MステップでTourBERTをゼロから学習✔️ 定量的および定性的な評価により、全てのタスクでBERT-Baseを上回る結果が得られたTourBERT: A pretrained language model for the tourism industrywritten by Veronika Arefieva, Roman Egger(Submitted on 19 Jan 2022 (v1), last revised 19 May 2022 (this version, v3))Comments: Published on arxiv.Subjects:  Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)code:  本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  はじめにBERT(Bidirectional Encoder Representations from Transformers)は、Googleが2018年に発表して以来最も重要な自然言語モデルであり、事前学習とファインチューニングにより、テキスト分類・質問応答・感情分析・要約などの多数のタスクを実行することができます。加えて、BERTの事前学習時に大規模なドメイン固有のコーパスで事前学習することが有効であることが既存研究で明らかになっており、金融分野(FinBERT)、医療分野(Clinical BERT)、生物医学分野(BioBERT)、生物医学とコンピュータサイエンス分野(SciBERT)など、様々なBERTの派生モデルが開発されてきました。