|
发表于 2018-7-7 19:19:49
|
显示全部楼层
|
人工智能 自动写文章
中国吸猫网独家发布,首先,文本数据中的结构信息量很小。严格来说,除了关于“标题”,“文本”,“注释”结构的一般信息外,只有结构可能是文本数据中不常见的一些结构,源文本的结构这种区别和可以比这更为普遍。为什么要在意中构造信息?
不想往下读的直接戳这里 ---》》》
由于结构表示信息量是使用算法还是业务规则,因此可以建议基于结构化信息开发策略,例如策略“记住长羽绒羽绒服的所有颜色”是指使用“颜色”和“风格”的两种“风格”结构信息。但是,如果你不能用策略来开发信息的结构,那么在项目的描述中,所以自由文字就是说“长羽绒服蓝色”,这样的数据库结构化这不是信息。参考这篇文章:
其次,文本内容中的信息量是不确定的。文本数据具有不构造,内容不确定,这种不确定性是可能的,特别是不同的用户可以描述二手商品的相同部分非常不同,内容和金额在说明中反映,文字长度等有很大差异。相同的两个项目,即项目描述中显示的内容,不一定显示在另一个项目上。由于这种差异,可能难以将文本数据用作稳定可靠的数据源,尤其是在明显的ugc的情况下。
同样,自由文本有超过歧义的问题。 歧义理解是自然语言处理中的一个重要研究课题,但它也影响我们在推荐系统歧义中使用文本数据。如果你解释一下手机,例如,用户会写“卖iphone 6 1并去芯片购买iphone 7”所以一对人认为非常清楚的话是0xcfcd 2,是的,之后就是机器它可能引起了很大的困扰手机是iphone 6还是iphone 7?在这种情况下保证推荐系统准确性的方法是一个问题。
|
, , ,
|