European Wild Horse(Tarpan),欧洲野马于1877年灭绝。 在这里是自主实现的中文细粒度情感分析程序,能够给出词语、句子、段落的具体得分。
2021/02/26 更新
- 🆕 新增百度对评论的分析结果,新增百度情感倾向试用结果。
- 🔧 新增和修改词典。
2021/02/24 更新
- 🆕 新版的情感得分程序基本完成,增加情感倾向值。
- 🆕 更新情感词典。
2021/02/01 更新
- ⚡ 优化代码,整改文件读取。
- 🆕 增加stanford本地分词和依存关系程序,见:https://github.com/sekift/tarpan-nlp 。
- 🆕 着手编码新版的情感得分程序。
2019/05/29 首发
- 🎉 基本功能搭建,旧版情感得分程序完成。
- 🎉 句子依存关系仅从网站处获得。
查看doc目录下的:"ChnSentiCorp情感分析酒店评论"目录
文件说明:
-
negall.txt 标记为负面的文档,一行一条评论
-
negall-goop-result.txt 旧版情感得分对负面文档的分析结果,格式为:行数|总得分|部分得分|情感词语|原句
-
negall-comp-result.txt 新版情感得分对负面文档的分析结果,格式为:行数|正倾向|负倾向|总得分|原句|部分得分|情感词语
-
negall-baidu-result.txt 百度对负面文档的情感倾向结果,格式为:行数|正向倾向|负向倾向|置信区间|原句
-
negall-baidu-comp-diff.txt 百度与本程序对负面文档分析对比,格式为:行数|百度正向|百度负向|百度置信度|本程序正向|本程序负向
-
posall.txt 标记为正面的文档,一行一条评论
-
posall-goop-result.txt 旧版情感得分对正面文档的分析结果,格式为:行数|总得分|部分得分|情感词语|原句
-
posall-comp-result.txt 新版情感得分对正面文档的分析结果,格式为:行数|正倾向|负倾向|总得分|原句|部分得分|情感词语
-
posall-baidu-result.txt 百度对正面文档的情感倾向结果,格式为:行数|正向倾向|负向倾向|置信区间|原句
-
posall-baidu-comp-diff.txt 百度与本程序对正面文档分析对比,格式为:行数|百度正向|百度负向|百度置信度|本程序正向|本程序负向
1、正面评论对比
总条数:1018 | 正面倾向 | 负面倾向 |
---|---|---|
百度分析平均值 | 0.795496 | 0.204504 |
本程序新版平均值 | 0.758896 | 0.23908 |
差 | 0.0366 | -0.03458 |
均方差 | 11.33469 | 11.2074 |
本程序旧版平均值 | 0.755621 | 0.244378 |
2、负面评论对比
总条数:1628 | 正面倾向 | 负面倾向 |
---|---|---|
百度分析平均值 | 0.032041 | 0.967958 |
本程序新版平均值 | 0.333064 | 0.665693 |
差 | -0.301023 | 0.302266 |
均方差 | 15.57135 | 15.5491 |
本程序旧版平均值 | 0.308675 | 0.691324 |
结论:在正面上两者相差不到,但负面上相差较大,不过我觉得是百度倾向过重了。
百度情感倾向也有不少错误的情况,具体请看doc下的《百度情感倾向试用结果》文档。
🔗 相关项目:https://github.com/sekift/tarpan-nlp
现在用在歌词情感分析上,参考项目:https://github.com/sekift/quelili 。
- 无法识别反话,某些词识别不足,得分有所偏差。