DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

在本周,HuggingFace最流行的十个大模型多模态模型占了4个,包括StabilityAI最新开源的文本生成视频大模型Stable Video Diffusion、Coqui最新的语音合成大模型XTTS第二代等都吸引了大量的关注多。而大语言模型中,谷歌开源了2022年就已经发布的Switch大模型,该模型号称参数可以达到上万亿,也是十分有意思。

2023/11/26 23:53:444,532
#HuggingFace#多模态大模型
为什么大语言模型的训练和推理要求比较高的精度,如FP32、FP16?浮点运算的精度概念详解

为什么大语言模型的训练和推理要求比较高的精度,如FP32、FP16?浮点运算的精度概念详解

在大语言模型的训练和应用中,计算精度是一个非常重要的概念,本文将详细解释关于大语言模型中FP32、FP16等精度概念,并说明为什么大语言模型的训练通常使用FP32精度。

2023/10/30 20:48:014,537
#FP16#FP32
使用深度学习(逻辑回归)处理图像识别的问题

使用深度学习(逻辑回归)处理图像识别的问题

本笔记是来自Neural Networks and Deep Learning课程第二周作业

2018/09/23 14:24:044,566
#图像处理#深度学习
月之暗面发布Kimi Claw:一个在云端拥有40G空间的24×7运行的OpenClaw,基于Kimi模型驱动

月之暗面发布Kimi Claw:一个在云端拥有40G空间的24×7运行的OpenClaw,基于Kimi模型驱动

就在刚才,Moonshot AI(Kimi 团队)推出了 Kimi Claw(目前为 Beta 版)。这项服务让普通用户无需本地安装或维护服务器,就能快速获得一个类似 OpenClaw 的云端 AI 助手,随时在线、具备长期记忆和实际执行能力。

2026/04/08 16:00:134,580
#AI助手#KimiClaw
最强SQL代码生成开源大模型发布:DefogAI开源超过gpt-3.5-turbo的SQL生成大模型SQLCoder,免费商用授权~

最强SQL代码生成开源大模型发布:DefogAI开源超过gpt-3.5-turbo的SQL生成大模型SQLCoder,免费商用授权~

SQLCoder 是 Defog 团队推出的一款前沿的语言模型,专门用于将自然语言问题转化为 SQL 查询。这是一个拥有150亿参数的模型,其性能略微超过了 gpt-3.5-turbo 在自然语言到 SQL 生成任务上,并且显著地超越了所有流行的开源模型。更令人震惊的是,尽管 SQLCoder 的大小只有 text-davinci-003 的十分之一,但其性能却远超后者。

2023/08/22 11:22:414,596
#SQLCoder#编程大模型
tf.nn.softmax_cross_entropy_with_logits函数

tf.nn.softmax_cross_entropy_with_logits函数

tf.nn.softmax_cross_entropy_with_logits函数

2019/03/27 21:17:484,614
#tensorflow#tf.nn.softmax_cross_entropy_with_logits函数
一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~

一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~

ChatGPT是最近半年多全球最火的产品。去年11月底发布之后,ChatGPT仅仅2个月时间就收获了1亿的月活。尽管在前几个月,ChatGPT是一枝独秀的存在,几乎没有任何可以与其竞争的产品与服务。然而在2023年7月份快结束的今天,市场上已经有相当多优秀的产品可供大家使用。

2023/07/23 22:41:014,645
#ChatGPT#在线聊天机器人
英伟达在GTC2024大会发布新AI算力芯片:NVIDIA新AI芯片B200的升级是什么?B200与H200对比,它对GPT-4训练和推理的影响是什么?

英伟达在GTC2024大会发布新AI算力芯片:NVIDIA新AI芯片B200的升级是什么?B200与H200对比,它对GPT-4训练和推理的影响是什么?

NVIDIA在2024年GPU技术大会(NVIDIA GPU Technology Conference,GTC)发布了全新的算力芯片和服务,即基于最新的Blackwell架构的算力芯片B200和GB200服务器。但是,大多数人对于NVIDIA芯片的升级只有数字的变化,本文将针对NVIDIA的GPU算力芯片做简单的介绍,并说明NVIDIA B200以及GB200的升级的地方。

2024/03/19 17:33:084,649
#GB200#H100
OpenAI开源GPT-2的子词标记化神器——tiktoken,一个超级快的(Byte Pair Encoder,BPE)字节对编码Python库

OpenAI开源GPT-2的子词标记化神器——tiktoken,一个超级快的(Byte Pair Encoder,BPE)字节对编码Python库

OpenAI在其官方GitHub上公开了一个最新的开源Python库:tiktoken,这个库主要是用力做字节对编码的。相比较HuggingFace的tokenizer,其速度提升了好几倍。

2022/12/16 21:11:164,658
#OpenAI#tokenizer
在线广告的紧凑分配方案(Optimal Online Assignment with Forecasts)

在线广告的紧凑分配方案(Optimal Online Assignment with Forecasts)

广告分配问题属于运筹中的优化问题。一般情况下,我们期望有个最大化收益,但同时需要保证合约的完成。因此,这是一个带不等式约束的最优化问题。由于广告数量和用户数量很多,因此,求解的难度很高。在这篇文章中,作者推导了原问题的拉格朗日函数的系数之间的关系,大大降低了求解的难度。这里将简要介绍原理和推导过程。

2019/02/28 15:59:054,659
#在线广告#展示广告
好消息~Kaggle提高了免费的GPU和内存等计算资源的使用额度!

好消息~Kaggle提高了免费的GPU和内存等计算资源的使用额度!

Kaggle是机器学习竞赛平台当之无愧的老大,除了提供了平台让企业和研究机构发布机器学习相关竞赛来让大家竞技和交流以外,他们还提供了免费的编程平台让大家使用免费的GPU和内存来训练模型和测试模型效果。而昨天,Kaggle升级了这些免费资源服务。

2022/10/20 21:50:414,668
#GPU#kaggle
基于PITF模型的个性化标签推荐

基于PITF模型的个性化标签推荐

本文是Steffen Rendle的Pairwise Interaction Tensor Factorization for Personalized Tag Recommendation的译文。

2016-05-08 11:09:474,704
#PITF#张量分解
MetaAI官宣开源编程大模型CodeLLaMA!基于LLaMA2微调!超越OpenAI的Codex,最高支持10万tokens输入!

MetaAI官宣开源编程大模型CodeLLaMA!基于LLaMA2微调!超越OpenAI的Codex,最高支持10万tokens输入!

MetaAI发布的LLaMA系列开源大语言模型已经是开源大模型领域最重要的力量了。相当多的所谓开源大模型都是基于这个模型微调得到。在上个月,LLaMA2发布,吸引了全球非常多的关注,也有相当多的后续模型基于LLaMA2进行优化。而今天MetaAI再次开源全新的编程大模型——CodeLLaMA系列,这是MetaAI第一次发布编程大模型,本次发布的CodeLLaMA共有9个版本,分别是CodeLLaMA系列、针对Python优化的CodeLLaMA-Python系列和针对指令优化的CodeLLaMA-Inst

2024/01/30 10:31:514,720
#CodeLLaMA#LLaMA2
beta分布的采样或抽样(java程序)

beta分布的采样或抽样(java程序)

beta分布采样

2017/05/12 15:47:044,727
#beta分布采样
重磅!Meta发布LLaMA2,最高700亿参数,在2万亿tokens上训练,各项得分远超第一代LLaMA~完全免费可商用!

重磅!Meta发布LLaMA2,最高700亿参数,在2万亿tokens上训练,各项得分远超第一代LLaMA~完全免费可商用!

LLaMA是由Meta开源的一个大语言模型,是最近几个月一系列开源模型的基础模型。包括著名的vicuna系列、LongChat系列等都是基于该模型微调得到。可以说,LLaMA的开源促进了大模型在开源界繁荣发展。而刚刚,微软官方宣布Azure上架LLaMA2模型!这意味着LLaMA2正式发布!

2023/07/19 00:45:164,736
#LLaMA#LLaMA2
爬虫聚焦——以新浪微博为例

爬虫聚焦——以新浪微博为例

学爬虫先学思想,思想掌握了,对应代码学习技术就so easy了~

2017/03/29 17:35:124,747
#思想#技术
Android开发入门基础

Android开发入门基础

Android是基于Linux的修改版本的移动操作系统。 大多数Android代码是在开源Apache许可证下发布的。本文将简单介绍Android开发入门知识。

2017/11/08 11:16:374,763
#Android#移动编程
HFUTUtils的使用

HFUTUtils的使用

HFUTUtils是一个工具程序集合,方便我们平时处理数据。针对文本处理的内容较多。使用起来非常简单。是本人平时使用Java处理数据时候写的工具,方便数据预处理的。

2017/05/31 19:52:204,766
#HFUTUtils#java
OpenAI最新的GPT-4V的多模态API接口是如何计算tokens的?这些计算逻辑背后透露了GPT-4V什么样的模型架构信息?

OpenAI最新的GPT-4V的多模态API接口是如何计算tokens的?这些计算逻辑背后透露了GPT-4V什么样的模型架构信息?

OpenAI在发布了多模态的GPT-4V(GPT-4 with Vision)的接口,可以实现图像理解的功能(`Image-to-Text`)。这是OpenAI的第一个多模态接口,在以前的接口中,OpenAI都是文本大模型,相关的费用计算都是按照输入输出的tokens计算,虽然与一个单词多少钱有一点差异,但是也算直观。而GPT-4V是一个图像理解的接口,这里的费用计算不像文本的tokens那么直观,那么这个接口的费用计算逻辑是什么?这个计算逻辑透露了什么样的模型架构信息?本文将介绍这个问题。

2023/11/07 16:10:244,810
#gpt-4-vision-preview#gpt-4-vision-preview费用计算
Spark源码分析之RDD下的KMeans

Spark源码分析之RDD下的KMeans

这篇博客主要介绍Spark源码中的KMeans部分,说的是RDD下的KMeans源码

2018/09/26 15:22:244,831
#scala#spark
重磅!第二代通义千问大模型开源,阿里巴巴一口气开源了30个不同参数规模的模型,其中Qwen1.5-72B仅次于GPT-4.

重磅!第二代通义千问大模型开源,阿里巴巴一口气开源了30个不同参数规模的模型,其中Qwen1.5-72B仅次于GPT-4.

今天阿里巴巴开源了他们家第二代的Qwen系列大语言模型(准确说是1.5代),从官方给出的测评结果看,Qwen1.5系列大模型相比较第一代有非常明显的进步,其中720亿参数规模版本的Qwen1.5-72B-Chat在各项评测结果中都非常接近GPT-4的模型,在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

2024/02/06 01:35:594,840
#Qwen#Qwen1.5
平衡二叉树之AVL树(Adelson-Velsky and Landis Tree)简介及Java实现

平衡二叉树之AVL树(Adelson-Velsky and Landis Tree)简介及Java实现

在前面的内容中,我们已经介绍了平衡二叉树。其中提到了AVL树,这是一种非常著名的平衡二叉树。这是第一个发明类似自平衡机制的二叉树数据结构。在AVL树中,任何节点的两个子树的高度最多相差一个。如果在任何时候它们相差多于一个,则重新平衡以恢复此属性。

2018/10/27 09:30:014,845
#二叉树#数据结构
Java类型转换中valueOf方法和parseInt方法的区别

Java类型转换中valueOf方法和parseInt方法的区别

在Java的类型转换中,我们经常会使用valueOf或者parseInt(parseFloat/parseDouble等)来转换。这二者有什么区别呢?这里简要介绍一下。

2019/08/17 17:13:264,857
#Java#编程
编程项目构建工具简介

编程项目构建工具简介

在进行编程操作的时候,我们常常会遇到很多与编程无关的项目管理工作,如下载依赖、编译源码、单元测试、项目部署等操作。一般的,小型项目我们可以手动实现这些操作,然而大型项目这些工作则相对复杂。构建工具是帮助我们实现一系列项目管理、测试和部署操作的工具。本文将对Java构建工具做简单介绍。

2017/09/05 16:09:104,867
#Ant#Gradle
上一页
1...313233...40
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • 阿里发布Qwen3小幅更新版本,放弃混合思考模式,发布全新的2个版本Qwen3-235B-A22B-2507模型,1/5的参数,性能直逼Kimi K2,推理模式版本评测结果接近o3
  • 个人网站申请免费ssl证书最靠谱的办法
  • 超越Cross-Entropy Loss(交叉熵损失)的新损失函数——PolyLoss简介
  • Bloomberg发布的最新的memray——Python内存分析器是什么?
  • origin绘图操作案例(1)
  • Simple Bench:一个专为“常识”而生的大模型评测基准
  • Embedding开源模型重磅玩家:北京智源人工智能研究院最新Embedding模型发布!登顶MTEB,免费商用授权!
  • 全球最强编程大模型升级:Anthropic发布Claude Sonnet 4.5!同时还有一波重磅工具更新:Claude Code支持保存状态等