这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。
在拿到自然语言语料之后,并不能直接用来分析,需要先进行数据清洗的工作。
通常而言,英文语料的清洗包括如下步骤:
相较于英文语料,中文文本规范化需要额外处理繁简转换和全角/半角的问题。
因此,中文语料的情绪大体包括如下步骤:
其中,中文分词和去除停用词在之前(第7天)的学习中已经掌握。
中文语料文本规范化可以通过HanLP中的CharTable实现。
print(CharTable.convert('deadlind並沒有提高你的效率,只是給了你交一堆Trash上去的勇氣'))deadlind并没有提高你的效率,只是给了你交一堆trash上去的勇气
变形标准化在不同的应用场景中各不相同,例如,我在分析直播间弹幕时,就出现了大量的不同长度的“IGGGGGG”、“爬爬爬”、“!!!”等,因此我将超过2个或3个的相同数字、标点符号、英文字母或汉字统一替换为2个或3个,Python实现代码如下:
# 标点符号/特殊符号词典 # 将大于等于2个连续的相同标点符号均替换为1个 # 将大于等于3个连续的中文汉字均替换为3个 # 将大于等于3个连续的英文字母均替换为3个学习参考文献:知乎·优达学城回答的“自然语言处理时,通常的文本清理流程是什么?”;《自然语言处理入门》(何晗):2.10.2
Xiaohu:事先猜到了T1会拿到佐伊和EZ的阵容,所以选择冲阵! 战胜T1后,RNG的中路选手Xiaohu接受了韩文流媒体的采访,以下是具体采访内容: Q:非常恭喜你们拿下这局比赛,Faker选手和Xiaohu选手也是久违的再次相遇,非常好奇你们是怎么准备的呢? Xiaohu:事先猜到了T1会拿到佐伊和EZ的Poke阵容,所以选择了一套冲阵。 Q:T1拿到了一套Poke流阵容,你们拿到了一个适合开团的阵容,风格是不同的,你们当时觉得你们如何发挥才能将阵容优势最大化? Xiaohu:我们的阵容在游戏初期非常脆弱的,我们要渡过前期,等狐狸的永霜和卡莎的神话装。然后再去找到更好的开团时机,游戏就会对我们比较有利。 Q:今天你带了净化,是为什么呢? Xiaohu:之前在排位遇到过很多次佐伊和狐狸的对局,我也会选择净化对线点燃,我本来以为比赛里佐伊不会带点燃,但是昨天caPs带了,所以我今天带了净化,不然会很吃亏。