DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
codeFest2018比赛的冠军解决方案——自然语言处理/计算机视觉/机器学习

codeFest2018比赛的冠军解决方案——自然语言处理/计算机视觉/机器学习

2018/09/28 15:44:163,542
#机器学习#比赛
全球最大(最挣钱)的十大开源企业

全球最大(最挣钱)的十大开源企业

自从Hadoop生态发展以来,基于开源软件提供服务的盈利公司也越来越多。大家这才发现,开源不仅不会削弱企业竞争力,还可以带来生态,增强企业的竞争力。本文总结全球最挣钱的十大开源公司供大家参考。

2021/11/02 21:34:153,538
#开源
如何对向量大模型(embedding models)进行微调?几行代码实现相关原理

如何对向量大模型(embedding models)进行微调?几行代码实现相关原理

大语言模型是通过收集少量专门数据对模型的部分权重进行更新后得到一个比通用模型更加专业的模型。但是,当前大家讨论较多的都是语言模型的微调,对于嵌入模型(或者向量大模型)的微调讨论较少。Modal团队的工作人员发布了一个博客,详细介绍了向量大模型的微调工作,本文将其翻译之后提供给大家(原文:https://modal.com/blog/fine-tuning-embeddings )。

2024/07/21 17:08:453,534
#bge#RAG
SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!

SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展,Cerebras新发布了一个超大规模的文本数据集SlimPajama,SlimPajama可以作为大语言模型的训练数据集,具有很高的质量。除了SlimPajama数据集外,Cerebras此次还开源了处理原始数据的脚本,包括去重和预处理部分。官方认为,这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:023,533
#大模型训练#大规模数据集
122

122

221

2020/03/23 17:20:353,524
忆寺巷

忆寺巷

我出生在一个不大不小的南方城市,那里纵横着大大小小的巷子,而通往我记忆深处的是寺巷子。

2017/04/13 21:48:573,518
#散文#随笔
CentOS搭建SVN服务器及使用Eclipse连接SVN服务器

CentOS搭建SVN服务器及使用Eclipse连接SVN服务器

SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS、CVS,它采用了分支管理系统,它的设计目标就是取代CVS。互联网上很多版本控制服务已从CVS迁移到Subversion。说得简单一点SVN就是用于多个人共同开发同一个项目,共用资源的目的。

2017/09/01 15:47:583,513
#开发#版本管理
Linux权限管理之基本权限

Linux权限管理之基本权限

Linux权限管理之基本权限

2016-03-24 21:38:323,510
#Linux
AI系统中(机器学习算法)导致偏差的原因总结

AI系统中(机器学习算法)导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展的很快。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

2021/11/07 22:31:253,501
#AI系统#算法偏差
2018年7月份以来最好的机器学习的Github库和Reddit帖子

2018年7月份以来最好的机器学习的Github库和Reddit帖子

这是来自AnalyticsVidhya的Pranav Dar的帖子

2018/09/18 11:08:073,498
#机器学习
强化学习的数学基础之马尔可夫链(Markov Chain)

强化学习的数学基础之马尔可夫链(Markov Chain)

马尔可夫链(Markov Chain)是由马尔可夫性质推导出来的一种重要的概率模型。马尔科夫链是一种离散时间的随机过程,作为现实世界的统计模型,有很多应用。在热力学、统计力学、排队理论、金融领域等都有重要的应用价值。 作为一种离散时间的随机过程,与其对应的模型是马尔可夫过程(Markov Process),这是一种连续时间随机过程的模型。本节将主要介绍马尔科夫链。

2022/09/27 16:45:213,493
#强化学习#强化学习系列教程
机器学习项目流程清单

机器学习项目流程清单

从问题定义,到数据获取以及模型选择调参,这篇博客指出了每个过程中需要注意的问题

2018/03/16 21:54:333,485
#数据挖掘#机器学习
梯度下降、牛顿法、拟牛顿法详细介绍

梯度下降、牛顿法、拟牛顿法详细介绍

梯度下降、牛顿法、拟牛顿法详细介绍

2018/03/31 17:53:573,483
#拟牛顿法详细介绍#梯度下降
Java读取和操作上G文本数据

Java读取和操作上G文本数据

在处理文本时,经常遇到超过1g存储的数据,直接简单的读取,可能遇到java空间不足的问题,为解决此问题,可将大文本数据按照行进行切分为很多块,并将每一块存储为一个文本

2016-04-06 21:30:433,455
#java#文本挖掘
端到端(end-to-end)学习

端到端(end-to-end)学习

端到端(end-to-end)学习

2019/03/27 21:20:373,452
#端到端(end-to-end)学习
大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型(Large Language Model,LLM)是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主,现在则基本上转成了Transformer的架构。尽管如此,Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇,主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:333,445
#LLM#RNN
线性数据结构之跳跃列表(Skip List)详解及其Java实现

线性数据结构之跳跃列表(Skip List)详解及其Java实现

数据结构中,自平衡二叉查找树搜索效率高,但是需要通过旋转和变色维护平衡。而列表虽然简单,但是对元素的查找需要比对列表中的每个元素,查找速度较慢。为了兼顾列表的简单易用,并提高查找效率,跳跃列表(Skip List)应运而生。

2018/10/31 11:18:483,439
#列表#数据结构
MySQL8授权用户远程连接失败,提示ERROR 1410 (42000): You are not allowed to create a user with GRANT

MySQL8授权用户远程连接失败,提示ERROR 1410 (42000): You are not allowed to create a user with GRANT

原来直接用root账户授权远程访问失败,最新的MySQL8不允许直接创建并授权用户远程访问权限,必须先让自己有GRANT权限,然后创建用户,再授权。

2022/07/31 12:55:023,374
#mysql
通过从零开始实现一个感知机模型,我学到了这些【转载】

通过从零开始实现一个感知机模型,我学到了这些【转载】

本文转自雷锋网,原文《通过从零开始实现一个感知机模型,我学到了这些》,作者:恒亮,文章转载已获授权。感知器(英语:Perceptron)是Frank Rosenblatt在1957年就职于Cornell航空实验室(Cornell Aeronautical Laboratory)时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。本文介绍了搭建感知机模型的基本操作也包含了作者的一些心得。

2017/03/14 10:04:253,367
#人工智能#感知机
Git的简介和使用

Git的简介和使用

Git是一个版本控制系统,用来追踪计算机文件的变化的工具,也是一个供多人使用的协同工具。它是一个分布式的版本控制系统,本文将简单介绍如何使用。

2018/04/05 09:51:363,365
#协作#编程
Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

在使用Dask进行两个dataframe的concatenate操作的时候抛出ValueError,本文记录这个错误以及解决方案。

2020/05/31 17:42:243,361
#dask#dataframe
模型中的参数和超参数

模型中的参数和超参数

模型中的参数和超参数

2019/03/27 21:20:133,354
#模型中的参数和超参数
 Keras框架下输出模型中间层学习到的表示的两种常用方式

Keras框架下输出模型中间层学习到的表示的两种常用方式

深度学习本质上是表示学习,它通过多层非线性神经网络模型从底层特征中学习出对具体任务而言更有效的高级抽象特征。针对一个具体的任务,我们往往会遇到这种情况:需要用一个模型学习出特征表示,然后将学习出的特征表示作为另一个模型的输入。这就要求我们会获取模型中间层的输出,下面以具体代码形式介绍两种具体方法。

2019/04/10 20:26:103,352
#Keras#中间层表示
hive数据操作

hive数据操作

hive的使用方法

2016-04-06 21:32:473,350
#hadoop#hive
上一页
1...121314...40
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • 阿里巴巴开源国内最大参数规模大语言模型——高达720亿参数规模的Qwen-72B发布!还有一个可以在手机上运行的18亿参数的Qwen-1.8B
  • 吴恩达联合OpenAI推出免费的面向开发者的ChatGPT Prompt工程课程——ChatGPT Prompt Engineering for Developers
  • 李开复创业公司零一万物开源迄今为止最长上下文大模型:Yi-6B和Yi-34B,支持200K超长上下文
  • ChatGPT颠覆更新!即将发布的ChatGPT新版本带来巨变,新界面和可以自定义GPT-4功能:可以对接私有数据与私有接口的个性化ChatGPT即将到来!
  • Java读取和操作上G文本数据
SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!
  • 深度学习的经典算法的论文、解读和代码实现
  • GPT-5可能是什么样?网友总结了Sam在达沃斯论坛中的几场演讲,抽取了Sam演讲中包含的GPT-5相关的内容