科技入侵现代全文阅读_第273章群星闪耀大模型 (11 / 12)-文窗小说

        你要找这些，总得知道到哪里去找论文索引，知道到哪里去找开放资源，如果这些不够，要购买的话，到领域期刊去收集数据。

        开放的数据收集完，如果需要，再联系综合部去找领域期刊收购他们完整数据库的使用权。

        我预计需要确保至少500亿的tokens，来确保专业深度。

        确定数据之后要对数据进行清洗吧，要去除噪声重复以及具有偏见的内容。

        一些文本也许很热门，有超多引用或者下载，但实际上内容并无价值，这也需要大家来判断。

        这是数据阶段要做的工作，在模型开发和训练阶段，你们可以直接用深红来训练，不需要从头开发，直接让工作人员协助你们基于现有模型进行训练。

        如果训练结果不满意，需要对模型调整，那么你们可以先自己试试看，有什么不懂的，你们发邮件给我，我安排时间来为大家提出解答。

        我的目的是，希望大家能够开放出一个，足够中立客观专业的模型，外界在使用的时候，丢任何一个社会议题给它，它都能给出足够专业的解答。

        如果足够好的话，我会考虑把它卖给微博，成为微博社会议题的独立客观第三方意见。

        所以，各位，你们的工作很有意义。”

        内容未完，下一页继续阅读

第273章 群星闪耀大模型 (11 / 12)

第273章群星闪耀大模型 (11 / 12)