語言分析與資料科學

重複文本偵測

text reuse 可以用 textreuse 來練習。

> library(textreuse)
> dir <- system.file("extdata/legal", package = "textreuse")
> corpus <- TextReuseCorpus(dir = dir, 
    meta = list(title = "Civil procedure"),
    tokenizer = tokenize_ngrams, n = 7)

> coprus
TextReuseCorpus
Number of documents: 3 
hash_func : hash_string 
title : Civil procedure 
tokenizer : tokenize_ngrams

Previous文本真實性 Next資料科學報告與部署

Last updated 4 years ago