十分钟搭建一个满足毕设要求的文本情感分析系统

钚莣初音 · 发表于 2023-1-17 15:51:55

摘要
本系统基于机器学习方法进行文本情感分析研究，实现对语言文本的情感分析，数据集有中英文共64475条数据，包括高兴、伤心、恶心、生气、害怕、惊讶等6中情感，分析准确率在98%以上。
先看一段demo

https://www.zhihu.com/video/1585308419980025857
1、实验流程
实验流程图：

实验流程图

具体而言，数据预处理过程包括数据清洗、分词、去停用词等；word2vec将文本训练成词向量形式；机器学习算法训练，将数据集以7:3比例划分训练集和验证集，训练集用于训练模型，验证集用于下一步骤模型验证，来测试模型效果，使用混淆矩阵、精准率、召回率、F1值来验证模型性能。
2、代码实现
先来看看数据集的样子

每一行是一条数据

前面的数据是情感标签，分别为高兴0、伤心1、恶心2、生气3、害怕4、惊讶5
首先导入需要的工具包，各工具包用途注释已经给出
from Segment_ import * #zhcnSegment自己编写的数据预处理模块，包含分词等功能
import pandas as pd # pandas、csv、numpy是读取文件或处理数组等工具包
import csv
import numpy as np
import time # 获取时间
from sklearn import svm # sklearn工具包导入支持向量机算法
from sklearn.model_selection import train_test_split #从sklearn工具包导入数据集划分工具
from sklearn.metrics import f1_score,confusion_matrix #从sklearn工具包导入评价指标：混淆矩阵和f1值
from classification_utilities import display_cm #给混淆矩阵加表头
import joblib #储存或调用模型时使用
import multiprocessing #多进程模块
import PySimpleGUI as sg #gui工具包
import gensim # 从gensim工具包中导入Word2Vec工具包
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import warnings #忽略告警
warnings.filterwarnings(action=&#39;ignore&#39;, category=UserWarning, module=&#39;gensim&#39;)  1、数据预处理
def read_data():
wds = Seg()
# 分词后的数据集存放在data文件夹中data.seg.txt里
target = codecs.open(&#39;./data/data.seg.txt&#39;, &#39;w&#39;, encoding=&#39;utf8&#39;)
# 待分词文档导入
with open(&#39;./data/data.txt&#39;,encoding=&#39;utf8&#39;) as f:
      lineNum = 1
      line = f.readline()
      # 逐行进行分词处理
      while line:
         seg_list = wds.cut(line, cut_all=False)
         line_seg = &#39; &#39;.join(seg_list)
         target.writelines(line_seg)
         lineNum = lineNum + 1
         line = f.readline()
      f.close()
      target.close()2、训练word2vec
先定义返回特征词向量和构建文档词向量两个函数
# 返回特征词向量
def getWordVecs(wordList, model):
vecs = []
for word in wordList:
      word = word.replace(&#39;\n&#39;, &#39;&#39;)
      try:
         vecs.append(model[word])
      except KeyError:
         continue
return np.array(vecs, dtype=&#39;float&#39;)
# 构建文档词向量
def buildVecs(filename, model):
fileVecs = []
with codecs.open(filename, &#39;rb&#39;, encoding=&#39;utf-8&#39;) as contents:
      for line in contents:
         wordList = line.split(&#39; &#39;)
         vecs = getWordVecs(wordList, model)
         if len(vecs) > 0:
            vecsArray = sum(np.array(vecs)) / len(vecs)  # mean
            fileVecs.append(vecsArray)
return fileVecs训练word2vec
# inp为输入语料, outp1 为输出模型, outp2为原始c版本word2vec的vector格式的模型
fdir = &#39;./data/&#39;
inp = fdir + &#39;data.seg.txt&#39;
outpbi = fdir + &#39;data.seg.text.bin&#39;
outp1 = fdir + &#39;data.seg.text.model&#39;
outp2 = fdir + &#39;data.seg.text.vector&#39;
# 训练skip-gram模型
model = Word2Vec(LineSentence(inp), size=100, window=5, min_count=5,
               workers=multiprocessing.cpu_count())
# 保存模型
model.wv.save_word2vec_format(outpbi, binary=True)
model.save(outp1)
model.wv.save_word2vec_format(outp2, binary=False)根据上面的模型得到本数据集的文本向量
inp22 = fdir + &#39;data.seg.text.vector&#39;
model22 = gensim.models.KeyedVectors.load_word2vec_format(inp22, binary=False)
Input22 = buildVecs(fdir + &#39;data.seg.txt&#39;, model22)
f = codecs.open(&#39;./data/data.seg.txt&#39;, mode=&#39;r&#39;, encoding=&#39;utf-8&#39;)
line = f.readlines()
data = pd.concat([df_y, df_x], axis=1)
# 将结果保存在data.csv文件里面
data.to_csv(fdir + &#39;data.csv&#39;)下面就是机器学习训练和验证过程了
def classification_():
# 读取数据
df = pd.read_csv(&#39;./data/word2vec.csv&#39;)
# 读取标签
y = df.iloc[:, 1]
# 标签对应的情感
labels = [&#39;joy&#39;, &#39;sadness&#39;, &#39;disgust&#39;, &#39;anger&#39;, &#39;fear&#39;, &#39;surprise&#39;, ]
# 读取数据
x = df.iloc[:, 2:]
# 将训练集划分训练、验证两部分
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
print(&#39;支持向量机....&#39;)
clf = svm.SVC(C=100, probability=True)
clf.fit(X_train, y_train)
joblib.dump(clf, &#34;model.m&#34;)
print(&#39;混淆矩阵&#39;)
cv_conf = confusion_matrix(y_test, clf.predict(X_test))
display_cm(cv_conf, labels, display_metrics=True, hide_zeros=False)
micro_f1 = f1_score(y_test, clf.predict(X_test), average=&#39;micro&#39;)
macro_f1 = f1_score(y_test, clf.predict(X_test), average=&#39;macro&#39;)
print(&#39;macro_f1&#39;, macro_f1)
print(&#39;micro_f1&#39;, micro_f1)
print(&#39;准确率: %.2f&#39; % clf.score(x, y))
print(&#39;..................................&#39;)

实验结果

识别效果不错

单条文本的识别
def predict_(a):
inp = &#39;./data/data.seg.text.vector&#39;
model = gensim.models.KeyedVectors.load_word2vec_format(inp, binary=False)
wds = Seg()
seg_list = wds.cut(a, cut_all=False)
line_seg = &#39; &#39;.join(seg_list)
line_seg = line_seg.split(&#39; &#39;)
vecs = getWordVecs(line_seg, model)
if len(vecs) > 0:
      vecsArray = sum(np.array(vecs)) / len(vecs)  # mean
      clf = joblib.load(&#34;model.m&#34;)
      vecsArray = vecsArray.reshape(1, 100)
      kk = clf.predict(vecsArray)
      if kk == [0]:
         return &#34;表达开心&#34;
      if kk == [1]:
         return &#34;表达伤心&#34;
      if kk == [2]:
         return &#34;表达恶心&#34;
      if kk == [3]:
         return &#34;表达生气&#34;
      if kk == [4]:
         return &#34;表达害怕&#34;
      if kk == [5]:
         return &#34;表达惊喜&#34;
else:
      return &#34;表达中性情感&#34;算法部分到这就可以结束了，后面是可视化界面搭建的过程，我使用的是PySimpleGUI工具包，理由只有一个，那就是简单好用，两三个小时就能从零到入门，缺点就是界面太丑了，只能是能用，话不多说，直接看代码吧
主窗口的搭建：
def make_window(theme):
sg.theme(theme)
# 菜单栏
menu_def = [[&#39;Help&#39;, [&#39;About...&#39;, [&#39;你好&#39;]]], ]
# 主界面之一：文本识别界面
News_detection = [
      [sg.Menu(menu_def, tearoff=True)],
      [sg.Text(&#39;&#39;)],
      [sg.Multiline(s=(60, 20), key=&#39;_INPUT_news_&#39;, expand_x=True)],
      [sg.Text(&#39;&#39;)],
      [sg.Text(&#39;&#39;, s=(12)), sg.Text(&#39;识别结果：&#39;, font=(&#34;Helvetica&#34;, 15)),
      sg.Text(&#39;    &#39;, key=&#39;_OUTPUT_news_&#39;, font=(&#34;Helvetica&#34;, 15))],
      [sg.Text(&#39;&#39;)],
      [sg.Text(&#39;&#39;, s=(12)), sg.Button(&#39;识别&#39;, font=(&#34;Helvetica&#34;, 15)), sg.Text(&#39;&#39;, s=(10)),
      sg.Button(&#39;清空&#39;, font=(&#34;Helvetica&#34;, 15)),
      sg.Text(&#39;&#39;, s=(4))],
      [sg.Text(&#39;&#39;)],
      [sg.Sizegrip()]
]
# 主界面之二：文本识别内容的管理，可以查看自己识别的内容
News_management = [
      [sg.Table(values=read_table_data(&#39;./data/table_data.csv&#39;)[1:][:], headings=[&#39;文本内容&#39;, &#39;识别时间&#39;, &#39;识别结果&#39;],
               max_col_width=30,
               auto_size_columns=True,
               display_row_numbers=False,
               justification=&#39;center&#39;,
               num_rows=20,
               alternating_row_color=&#39;LightGrey&#39;,
               key=&#39;-TABLE_de-&#39;,
               selected_row_colors=&#39;red on yellow&#39;,
               enable_events=True,
               expand_x=True,
               expand_y=True,
               vertical_scroll_only=False,
               enable_click_events=True,  # Comment out to not enable header and other clicks
               )
      ],

      [sg.Button(&#39;删除选中的结果&#39;, font=(&#34;Helvetica&#34;, 15)), sg.Button(&#39;查看识别结果&#39;, font=(&#34;Helvetica&#34;, 15))],
      [sg.Sizegrip()]
]
empty = []
layout = [[sg.MenubarCustom(menu_def, key=&#39;-MENU-&#39;, font=&#39;Courier 15&#39;, tearoff=True)],
            [sg.Text(&#39;中英文情感识别系统&#39;, size=(50, 1), justification=&#39;center&#39;, font=(&#34;Helvetica&#34;, 16),
                     relief=sg.RELIEF_RIDGE, k=&#39;-TEXT HEADING-&#39;, enable_events=True, expand_x=True)]]
layout += [[sg.TabGroup([[
      sg.Tab(&#39; 文本识别 &#39;, News_detection),
      sg.Tab(&#39;                                                    &#39;, empty),
      sg.Tab(&#39; 结果管理  &#39;, News_management,element_justification=&#34;right&#34;,)]],
                        expand_x=True, expand_y=True,font=(&#34;Helvetica&#34;, 16)),

]]
window = sg.Window(&#39;中英文情感识别系统&#39;, layout,
                     right_click_menu_tearoff=True, grab_anywhere=True, resizable=True, margins=(0, 0),
                     use_custom_titlebar=True, finalize=True, keep_on_top=True)
window.set_min_size(window.size)
return window界面中的功能函数：
def main():
window = make_window(sg.theme())
while True:
      event, values = window.read(timeout=100)
      if event in (None, &#39;Exit&#39;):
         print(&#34;[LOG] Clicked Exit!&#34;)
         break
      elif event == &#39;识别&#39;:
         kk = predict_(values[&#39;_INPUT_news_&#39;])
         time2 = time.strftime(&#39;%Y-%m-%d %H:%M:%S&#39;)
         newuser = [values[&#39;_INPUT_news_&#39;], time2, kk]
         with open(&#39;./data/table_data.csv&#39;, &#39;a&#39;, newline=&#39;&#39;) as studentDetailsCSV:
            writer = csv.writer(studentDetailsCSV, dialect=&#39;excel&#39;)
            writer.writerow(newuser)
         window[&#39;_OUTPUT_news_&#39;].update(kk)
         window[&#34;-TABLE_de-&#34;].update(values=read_table_data(&#39;./data/table_data.csv&#39;)[1:][:])
      elif event == &#39;清空&#39;:
         window[&#39;_OUTPUT_news_&#39;].update(&#39; &#39;)
         window[&#39;_INPUT_news_&#39;].update(&#39;&#39;)
      elif event == &#39;查看识别结果&#39;:
         window[&#34;-TABLE_de-&#34;].update(values=read_table_data(&#39;./data/table_data.csv&#39;)[1:][:])
      elif event == &#39;删除选中的结果&#39;:
         data = pd.read_csv(&#39;./data/table_data.csv&#39;, encoding=&#39;gbk&#39;)
         data.drop(data.index[int(values[&#39;-TABLE_de-&#39;][0])], inplace=True)
         # 如果想要保存新的csv文件，则为
         data.to_csv(&#34;./data/table_data.csv&#34;, index=None, encoding=&#34;gbk&#34;)
         window[&#34;-TABLE_de-&#34;].update(values=read_table_data(&#39;./data/table_data.csv&#39;)[1:][:])
window.close()
exit(0)3、总结展望
在深度学习方法bert、transform方法大杀四方的时候，机器学习方法、word2vec似乎用的人很少了，但是就效果而言，传统方法也不是一无是处，深度学习是机器学习中的一种方法，了解基本的机器学习流程，对深度学习一样有帮助。

鑫源谢雄 · 发表于 2023-1-17 15:52:21

您好，请问这个数据集来源于哪里呀[蹲][拜托][拜托][抱抱]

十分钟搭建一个满足毕设要求的文本情感分析系统

浏览过的版块