高薪招聘兼职AI讲师和AI助教!
加入高端数字货币投资者群!
数据来源:今日头条客户端
数据格式:
_!__!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,
之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词
分类code与名称:
民生故事news_story文化文化news_culture娱乐娱乐news_entertainment体育体育news_sports财经财经news_finance房产房产news_house汽车汽车news_car教育教育news_edu科技科技news_tech军事军事news_military旅游旅游news_travel国际国际news_world证券股票stock农业三农news_agriculture电竞游戏news_game
数据规模:
共条,分布于15个分类中。
采集时间:
年05月
实验结果:
以0.70..15做分割。欢迎提交你使用本数据集的实验结果~
以上Acc较低的原因:
1,数据不均衡,部分类目数据太少
2,部分分类之间本身模棱两可,例如故事、文化、旅行
详见text-classxxxx内代码
后续可以优化的地方:
1,更多的数据
2,更全的分类
因为分类不全,例如缺少美食等,导致实际使用时,分哪里都不对的情况出现。
3,更均衡的分类数据
4,引入正文