第一步就是数据采集部分,可以使用数据采集工具进行数据采集,也可以用python进行数据爬取,获得评论数据并存入本地
(1)机械压缩去词的思想 例如“非常好非常好非常好非常好非常好非常好非常好非常好” 以及“好呀好呀好呀好呀好呀好呀好呀好呀” 这一类是存在连续重复的语料,也是最常见的较长的无意义语料。是需要删除的。 (2)机械压缩去词处理的语料结构 机械压缩去词实际上要处理的语料就是语料中有连续累赘重复的部分,从一般的评论偏好角度来讲,一般人制造无意义的连续重复只会在开头或者结尾进行。 (3)机械压缩去词处理过程的连续累赘重复的判断及压缩规则的阐述 连续累赘重复的判断可通过建立两个存放国际字符的列表来完成,先放一个列表,再放第二个列表,一个个读取国际字符,并按照不同情况,将其放入第一或第二个列表或触发压缩判断,若得出重复则压缩去除。 规则1:如果读入的字符与第一个列表的第一个字符相同,而第二个列表没有任何放入的国际字符,则将这个字符放入第二个列表中。 规则2:如果读入的字符与第一个列表的第一个字符相同,而第二个列表也有国际字符,则触发压缩判断,若得出重复,则进行压缩去除,清空第二个列表。 规则3:如果读入的字符与第一个列表的第一个字符相同,而第二个列表也有国际字符,则触发压缩判断,若得出不重复,则清空两个列表,把读入的这个字符放入第一个列表第一个位置。 规则4:如果读入的字符与第一个列表的第一个字符不相同,触发压缩判断,如果得出重复且列表所含国际字符数且大于等于2,则进行压缩去除,清空两个列表,把读入的这个放入第一个列表第一个位置。 规则5:如果读入的字符与第一个列表的第一个字符不相同,触发压缩判断。若得出不重复且第二个列表没有放入国际字符,则继续在第一个列表放入国际字符。 规则 6:如果读入的字符与第一个列表的第一个字符不相同,触发压缩判断,若得出不重复且第二个列表已放入国际字符,则继续在第二个列表放入国际字符。 规则7:读完所有国际字符后,触发压缩判断,对第一个列表以及第二个列表有意义部分进行比较,若得出重复,则进行压缩去除。 (4)机械压缩去词处理操作流程 根据上述规则,可以完成对开头连续重复的处理。也可以对处理过的文本再进行一次结尾连续重复的机械压缩去词,算法思想是相近的,只是从尾部开始读词。 2.3 短句删除 (1)短句删除的原因及思想 完成机械压缩去词处理后,则进行最后的预处理步骤:短句删除。要删除掉过短的评论文本数据,以去除掉没有意义的评论,例如, 1)原本就过短的评论文本。 2)经机械压缩去词处理后过短的评论文本。 (2)保留的评论的字数下限的确定 可以结合特定语料来确定,一般4~8个国际字符都是较为合理的下限。
进行中文文本挖掘时,首先应对文本分词,即将连续的字序列按照一定的规范重新组合成词序列的过程。 采用Python中的中文分词包“jieba”(结巴分词),对TXT文档中的商品评论数据进行中文分词。“结巴分词”提供分词、词性标注、未登录词识别,支持用户词典等功能。
基于collections库统计出高频词,并制作出词云图