最新今日头条新闻文本分类数据集git

高薪招聘兼职AI讲师和AI助教!

加入高端数字货币投资者群!

数据来源:今日头条客户端

数据格式:

_!__!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,

之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

分类code与名称:

民生故事news_story文化文化news_culture娱乐娱乐news_entertainment体育体育news_sports财经财经news_finance房产房产news_house汽车汽车news_car教育教育news_edu科技科技news_tech军事军事news_military旅游旅游news_travel国际国际news_world证券股票stock农业三农news_agriculture电竞游戏news_game

数据规模:

共条,分布于15个分类中。

采集时间:

年05月

实验结果:

以0.70..15做分割。欢迎提交你使用本数据集的实验结果~

以上Acc较低的原因:

1,数据不均衡,部分类目数据太少

2,部分分类之间本身模棱两可,例如故事、文化、旅行

详见text-classxxxx内代码

后续可以优化的地方:

1,更多的数据

2,更全的分类

因为分类不全,例如缺少美食等,导致实际使用时,分哪里都不对的情况出现。

3,更均衡的分类数据

4,引入正文

原文链接:







































北京哪家医院治白癜风最好
北京中科白癜风医院坑不坑



转载请注明:http://www.gyaguoo.com/jczz/1816.html

  • 上一篇文章:
  •   
  • 下一篇文章: