你要找这些,总得知道到哪里去找论文索引,知道到哪里去找开放资源,如果这些不够,要购买的话,到领域期刊去收集数据。

        开放的数据收集完,如果需要,再联系综合部去找领域期刊收购他们完整数据库的使用权。

        我预计需要确保至少500亿的tokens,来确保专业深度。

        确定数据之后要对数据进行清洗吧,要去除噪声重复以及具有偏见的内容。

        一些文本也许很热门,有超多引用或者下载,但实际上内容并无价值,这也需要大家来判断。

        这是数据阶段要做的工作,在模型开发和训练阶段,你们可以直接用深红来训练,不需要从头开发,直接让工作人员协助你们基于现有模型进行训练。

        如果训练结果不满意,需要对模型调整,那么你们可以先自己试试看,有什么不懂的,你们发邮件给我,我安排时间来为大家提出解答。

        我的目的是,希望大家能够开放出一个,足够中立客观专业的模型,外界在使用的时候,丢任何一个社会议题给它,它都能给出足够专业的解答。

        如果足够好的话,我会考虑把它卖给微博,成为微博社会议题的独立客观第三方意见。

        所以,各位,你们的工作很有意义。”

        内容未完,下一页继续阅读