训练ai是件大事,恒已经有成熟的技术,是系统根据现在的时间给出的最优技术方案。
但恒创掌握的数据其实并没有度娘腾达这些成立很久的互联网公司多。
头条软件也才运营半年罢了,目前用户还没破千万,而且也只是新闻类软件,最好的训练数据其实是包含用户信息的数据。
比如评论、贴吧讨论、前世的自媒体时代产生的大量文章。
但现在这些都没有。
不过也有办法解决,恒的解决方案也比较简单,那就是使用书籍训练。
从人类诞生到现在数千年产生的所有文字数据来训练ai。
新技术的最大优点就是一种类人逻辑算法,最基础的架构仿生人类思维,随后投入任何数据都在增加知识宽度。
并不是前世那种靠着无数文字垒砌,计算前后文字字符出现概率等等。
因为参观团就要到公司了,在这之前最好将ai助手也安装在手机内,这样才能带来更大震撼,让合作伙伴更有信心。
恒这几天也参与到训练ai当中。
公司总部还没有完善,软件工程师们目前还在老大厦工作,这并不会影响训练ai的度,ai就在服务器里面,不停投入数据就行了。
恒叫来杨程,公开版权的电子图书数据已经用的差不多了,现在到了网络小说产生的数据。
接下来还有论文数据库的数据。
“买断的小说现在有多少,爱阅小说书库一共多少本书?”恒问道。
杨程有些疑惑恒怎么关心起小说,他想了想回道:“字数达到百万的差不多四五万本吧,每天有近万作者日更新ooo字以上。”
爱阅小说前期展比较困难,多数都是走的买断路线。
再加上当初投资囧系列电影赚了不少钱,都花在了小说上。
这倒是方便恒使用这些数据训练ai了。
数据量还不够多,恒说道:“和陈总谈一谈吧,把启点收购了,我们需要他们小说书库用来训练小说。”
记得前世再过两年,启点的团队也会和陈天荞的管理团队生冲突,最后带着一批人出走成立了新的网站,现在应该也有不少矛盾了。
去年陈天荞修改作者合同,想要掌控小说的更多版权话语权,也让不少作者出走。
现在应该还是有希望收购小说网站。
陈天荞和他有些矛盾,不过在利益面前这都不是事儿。
当初陈总还在媒体面前说,恒身价多少,和他比?
现在不过一年过去,再看当年他说的话,已经成为陈总的污点之一了。