这样分析的好处:英雄联盟LP?

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。

在拿到自然语言语料之后,并不能直接用来分析,需要先进行数据清洗的工作。

通常而言,英文语料的清洗包括如下步骤:

  1. 文本规范化(Normalization),将文本中所有的字母统一转换为大写或小写,如不需要标点符号也可以过滤掉文本中的标点符号。
  2. 英文语料分词(Tokenization),将文本拆分为无法再分拆的符号。
  3. 去除停用词(Stop Word),去除文本中没有意义的停用词

相较于英文语料,中文文本规范化需要额外处理繁简转换和全角/半角的问题。

因此,中文语料的情绪大体包括如下步骤:

  1. 文本规范化(Normalization):将全角字符转换为半角字符、将繁体字转换为简体字、将中文语料中包含的英文大小写统一

其中,中文分词和去除停用词在之前(第7天)的学习中已经掌握。

中文语料文本规范化可以通过HanLP中的CharTable实现。

print(CharTable.convert('deadlind並沒有提高你的效率,只是給了你交一堆Trash上去的勇氣'))
deadlind并没有提高你的效率,只是给了你交一堆trash上去的勇气

变形标准化在不同的应用场景中各不相同,例如,我在分析直播间弹幕时,就出现了大量的不同长度的“IGGGGGG”、“爬爬爬”、“!!!”等,因此我将超过2个或3个的相同数字、标点符号、英文字母或汉字统一替换为2个或3个,Python实现代码如下:

# 标点符号/特殊符号词典 # 将大于等于2个连续的相同标点符号均替换为1个 # 将大于等于3个连续的中文汉字均替换为3个 # 将大于等于3个连续的英文字母均替换为3个

学习参考文献:知乎·优达学城回答的“自然语言处理时,通常的文本清理流程是什么?”;《自然语言处理入门》(何晗):2.10.2

Xiaohu:事先猜到了T1会拿到佐伊和EZ的阵容,所以选择冲阵! 战胜T1后,RNG的中路选手Xiaohu接受了韩文流媒体的采访,以下是具体采访内容: Q:非常恭喜你们拿下这局比赛,Faker选手和Xiaohu选手也是久违的再次相遇,非常好奇你们是怎么准备的呢? Xiaohu:事先猜到了T1会拿到佐伊和EZ的Poke阵容,所以选择了一套冲阵。 Q:T1拿到了一套Poke流阵容,你们拿到了一个适合开团的阵容,风格是不同的,你们当时觉得你们如何发挥才能将阵容优势最大化? Xiaohu:我们的阵容在游戏初期非常脆弱的,我们要渡过前期,等狐狸的永霜和卡莎的神话装。然后再去找到更好的开团时机,游戏就会对我们比较有利。 Q:今天你带了净化,是为什么呢? Xiaohu:之前在排位遇到过很多次佐伊和狐狸的对局,我也会选择净化对线点燃,我本来以为比赛里佐伊不会带点燃,但是昨天caPs带了,所以我今天带了净化,不然会很吃亏。

我要回帖

更多关于 英雄联盟最佳设置 的文章

 

随机推荐