文本分類的6類方法
2025-11-29
一、中文分詞: 針對(duì)中文文本分類時(shí),很關(guān)鍵的一個(gè)技術(shù)就是中文分詞。特征粒度為詞粒度遠(yuǎn)遠(yuǎn)好于字粒度,其大部分分類算法不考慮詞序信息,基于字粒度的損失了過多的n-gram信息。下面簡單總結(jié)一下中文分詞技術(shù):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法[1]。 1,基于字符串匹配的分詞方法: 過程:這是一種基于詞典的中文分詞,核心是首先建立統(tǒng)一的詞典表,當(dāng)需要對(duì)一個(gè)句子進(jìn)行分詞時(shí)...