知行编程网知行编程网  2022-12-11 19:00 知行编程网 隐藏边栏  7 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于Python中Tf-idf文本特征的提取的相关知识,包括文本提取,以及文本特征这些编程知识,希望对大家有参考作用。

Python中Tf-idf文本特征的提取


说明

1、TF-IDF是如果这个词或词组在文章中出现的概率很高,而在其他文章中很少出现,那么就认为它具有很好的类别判别能力,适合分类。

2. 提取文本特征以评估单词对文档集合或语料库中文档的重要性。


实例

def tfidf_demo():
    """
    用tfidf的方法进行文本特征提取
    :return:
    """
    # 1.将中文文本进行分词
    data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
            "如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # print(data_new)
    # 2.实例化一个转换器类
    transfer = TfidfVectorizer(stop_words=["一种", '因为'])
    # 3.调用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_new:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None


本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享