在深圳巨头总部集群最昂贵的工地上,某知名手机品牌的新总部已开工!6月29日,在vivo深圳总部项目启动现场,深圳新千亿投资项目首批163个项目启动,总投资约1351.1亿元,今年计划投资约282.4亿元元。vivo创始人兼CEO沉巍在接受深…
大家好,今天小编关注到一个比较有意思的话题,就是关于人工智能分词处理的问题,于是小编就整理了1个相关介绍人工智能分词处理的解答,让我们一起看看吧。
第一:主题和意义
你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。
当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。 因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。
第二:语料收集
个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:1、标签关键词 2、关键词词频,词频决定关键词的显示大小。
语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。当然你可以从任何途径和资源活动要表现的语料。
第三:分词和关键词抽取
当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词。
如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。
少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。
到此,以上就是小编对于人工智能分词处理的问题就介绍到这了,希望介绍关于人工智能分词处理的1点解答对大家有用。