科研团队: Devlin, Chang, Lee, and Toutanova
相关研究: 掩码语言模型(MLM)、双向变压器、编码器架构
研究概要: 这篇论文介绍了BERT模型,其通过掩码语言模型和双向变压器的预训练,显著提升了自然语言理解任务的性能。
科研团队: Radford and Narasimhan
相关研究: 解码器架构、自回归模型、下一个单词预测、GPT
研究概要: 该研究提出了GPT模型,通过生成预训练方法改善语言理解能力,使用自回归解码器进行下一个单词预测。
科研团队: Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer
相关研究: 编码器-解码器架构、去噪预训练、自然语言生成
研究概要: BART模型通过去噪预训练和序列到序列架构,在自然语言生成、翻译和理解任务中表现优异。
科研团队: Yang, Jin, Tang, Han, Feng, Jiang, Yin, and Hu
相关研究: LLM架构演变、预训练和微调数据、效率提升
研究概要: 这篇综述文章探讨了大型语言模型(LLM)的架构演变、预训练和微调方法,以及如何提升其效率。
科研团队: Dao, Fu, Ermon, Rudra, and Ré
相关研究: 快速注意力机制、内存效率、IO感知
研究概要: FlashAttention提出了一种快速且内存高效的注意力机制,通过IO感知优化性能。
科研团队: Geiping and Goldstein
相关研究: 掩码语言模型、单GPU训练、训练效率
研究概要: 该研究展示了如何在单个GPU上使用一天时间训练语言模型,从而显著提高训练效率。
科研团队: Hu, Shen, Wallis, Allen-Zhu, Li, L Wang, S Wang, and Chen
相关研究: 参数效率、微调、低秩适应
研究概要: LoRA模型通过低秩适应方法,提高了大型语言模型的参数效率和微调效果。
科研团队: Lialin, Deshpande, and Rumshisky
相关研究: 参数高效微调、前缀调整、适配器
研究概要: 本文介绍了参数高效微调方法,包括前缀调整和适配器技术,以优化大型语言模型的性能。
科研团队: Hoffmann, Borgeaud, Mensch, Buchatskaya, Cai, Rutherford, de Las Casas, Hendricks, Welbl, Clark, Hennigan, Noland, Millican, van den Driessche, Damoc, Guy, Osindero, Simonyan, Elsen, Rae, Vinyals, and Sifre
相关研究: Chinchilla模型、生成任务、线性缩放定律
研究概要: 该研究提出了Chinchilla模型,基于计算最优的原则,通过线性缩放定律优化生成任务的性能。
科研团队: Biderman, Schoelkopf, Anthony, Bradley, O’Brien, Hallahan, Khan, Purohit, Prashanth, Raff, Skowron, Sutawika, and van der Wal
相关研究: LLM套件、训练过程分析、架构改进
研究概要: Pythia是一套用于分析大型语言模型在训练和扩展过程中的工具,帮助研究者改进模型架构。
科研团队: Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe
相关研究: 人类反馈、强化学习、InstructGPT
研究概要: 该研究通过人类反馈和强化学习训练语言模型,使其更好地遵循指令,提出了InstructGPT模型。
科研团队: Yuntao, Saurav, Sandipan, Amanda, Jackson, Jones, Chen, Anna, Mirhoseini, McKinnon, Chen, Olsson, Olah, Hernandez, Drain, Ganguli, Li, Tran-Johnson, Perez, Kerr, Mueller, Ladish, Landau, Ndousse, Lukosuite, Lovitt, Sellitto, Elhage, Schiefer, Mercado, DasSarma, Lasenby, Larson, Ringer, Johnston, Kravec, El Showk, Fort, Lanham, Telleen-Lawton, Conerly, Henighan, Hume, Bowman, Hatfield-Dodds, Mann, Amodei, Joseph, McCandlish, Brown, Kaplan
相关研究: 人工智能对齐、无害系统、自我训练机制
研究概要: Constitutional AI通过人工智能反馈和自我训练机制,确保AI系统的无害性和对齐性。
科研团队: Wang, Kordi, Mishra, Liu, Smith, Khashabi, and Hajishirzi
相关研究: 自我指导、指令微调、LLM对齐
研究概要: Self-Instruct方法通过自我生成指令对语言模型进行微调,提升模型的对齐能力。
科研团队: Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, Lowe
相关研究: 指令对齐、人类反馈、InstructGPT
研究概要: InstructGPT通过与人类意图对齐和人类反馈训练,使模型更好地理解和执行指令。
科研团队: Zhou, Qiu, Zhou, Zhang, Hsiao, Chung, Le, and Devlin
相关研究: 简化对齐过程、模型效率
研究概要: LIMA
研究了简化对齐过程的方法,提高了模型的效率和效果。
科研团队: Peng, Yan, and Chen
相关研究: RNN和Transformer结合、性能优化
研究概要: RWKV模型结合了RNN和Transformer的优点,优化了模型性能。
科研团队: Yuan, Chan, and Wang
相关研究: 残差连接、模型架构创新
研究概要: ResiDual通过双重残差连接的创新架构,提升了Transformer模型的性能。
科研团队: Touvron, Lavril, Izacard, Martinet, Lachaux, Lacroix, Roziere, Goyal, Hambro, Azhar, Rodriguez, Joulin, Grave, and Lample
相关研究: 开源语言模型、高效架构
研究概要: LLaMA是一个开源且高效的基础语言模型,旨在提升模型性能和效率。
科研团队: Lee, Xu, Deshpande, Taylor, Jia, and Zhang
相关研究: 记忆力减轻、主动复习
研究概要: MixReview通过主动复习机制,减轻了大型语言模型的记忆负担,提升了模型的泛化能力。
科研团队: Dettmers, Pagnoni, Holtzman, and Zettlemoyer
相关研究: 量化、低秩适应、高效微调
研究概要: Q-LoRA提出了一种高效的量化语言模型微调方法,通过低秩适应优化模型性能。
科研团队: 中南大学李敏研究团队
相关研究: Gdataset 数据集、Cdataset 数据集、Ldataset 数据集、LRSSL 数据集、GCNs 框架、AdaDR
发布期刊: Bioinformatics, 2024.01
论文链接: Drug repositioning with adaptive graph convolutional networks
科研团队: 浙大侯廷军研究团队
相关研究: CrossDock2020 数据集、全局自回归、原子自回归、并行多尺度建模、SBMG。比最优技术快 8 倍
发布期刊: Nature Machine Intelligence, 2023.09
论文链接: ResGen is a pocket-aware 3D molecular generation model based on parallel multiscale modelling
https://www.science.org/doi/10.1126/science.adg7492)
科研团队: Google Research 的分支 Osmo 公司
相关研究: GS-LF 数据库、GNN、贝叶斯优化算法。在 53% 的化学分子、55% 的气味描述词判断中优于人类
发布期刊: Science, 2023.08
论文链接: A principal odor map unifies diverse tasks in olfactory perception
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10248027)
科研团队: 伦敦大学学院和 Moorfields 眼科医院的在读博士周玉昆等人
相关研究: 自监督学习、MEH-MIDAS 数据集、EyePACS 数据集、SL-ImageNet、SSL-ImageNet、SSL-Retinal。RETFound 模型预测 4 种疾病的性能均超越对比模型
发布期刊: Nature, 2023.08
论文链接: A foundation model for generalizable disease detection from retinal images
科研团队: 浙江大学的杨赓和徐凯臣课题组
相关研究: SVM 算法、机器学习、CNN、自适应矩估计算法。优化后的传感器能准确识别 6 种动态触摸模式
发布期刊: Advanced Science, 2023.09
论文链接: Machine Learning-Enabled Tactile Sensor Design for Dynamic Touch Decoding
https://cardiab.biomedcentral.com/articles/10.1186/s12933-023-01854-z)
科研团队: 加州大学团队
相关研究: nltk Twitter 语料库、多模态语音神经假体、脑机接口、深度学习模型、Cornell 电影语料库、合成语音算法、机器学习
发布期刊: Nature, 2023.08
论文链接: A high-performance neuroprosthesis for speech decoding and avatar control
https://www.nature.com/articles/s41591-023-02640-w)
科研团队: 美国阿贡国家实验室 Eliu A. Huerta 研究团队
相关研究: hMOFs 数据集、生成式 AI、GHP-MOFsassemble、MMPA、DiffLinker、CGCNN、GCMC
发布期刊: Nature, 2024.02
https://www.nature.com/articles/s41467-023-40756-2)
科研团队: 谷歌 DeepMind 研究团队
相关研究: GNoME 数据库、GNoME、SOTA GNN 模型、深度学习、Materials Project、OQMD、WBM、ICSD
发布期刊: Nature, 2023.11
科研团队: 德国马克思普朗克铁研究所的研究人员
相关研究: DNN、NLP。读取有关合金加工和测试方法的文本数据,有预测新元素的能力
发布期刊: Science Advances, 2023.08
论文链接: Enhancing corrosion-resistant alloy design through natural language processing and deep learning
科研团队: 中科院深圳先进院蔚鹏飞研究团队
相关研究: PAIR-R24M 数据集、双向迁移学习、非监督式学习、人工神经网络、身份识别模型。在多动物身份识别方面的准确率超过 90%
发布期刊: Nature Machine Intelligence, 2024.01
科研团队: 东京大学和千叶大学的研究人员
发布期刊: Plant Phenomics, 2023.09
科研团队: 京都大学的研究人员
相关研究: 卷积神经网络。CNN 模型可以对不同拍摄角度、时间和时期下得到的农田照片准确分析,得到稳定的产量预测结果
发布期刊: Plant Phenomics, 2023.07
论文链接: Deep Learning Enables Instant and Versatile Estimation of Rice Yield Using Ground-Based RGB Images
科研团队: 以色列特拉维夫大学的研究人员
相关研究: 机器学习模型、SVM、Basic、MFCC、Scattering network、神经网络模型、留一法交叉验证。识别准确率高达 99.7%、4-6 天时番茄尖叫声最大
发布期刊: Cell,2023.03
论文链接: Sounds emitted by plants under stress are airborne and informative
科研团队: 纽卡斯尔大学及费拉科学有限公司的研究人员
相关研究: 计算机视觉、深度学习、Mask-RCNN 算法、SORT 算法、CatBoost 算法。准确度可达 94%-100%
发布期刊: Nature, 2023.03
论文链接: Deep learning pose estimation for multi-cattle lameness detection
科研团队: 普林斯顿高等研究院研究团队
相关研究: PRIMO 算法、PCA、GRMHD。PRIMO 重建黑洞图像
发布期刊: The Astrophysical Journal Letters, 2023.04
论文链接: The Image of the M87 Black Hole Reconstructed with PRIMO
科研团队: 清华大学及美国西北大学研究团队
相关研究: Galsim、COSMOS、计算机视觉算法、CNN、Richardson-Lucy 算法、unrolled-ADMM 神经网络
发布期刊: 皇家天文学会月刊,2023.06
论文链接: Galaxy image deconvolution for weak gravitational lensing with unrolled plug-and-play ADMM
科研团队: 普林斯顿大学 Egemen Kolemen 研究团队
相关研究: OpenAI Gym 库、DNN、AI controller、EFIT、强化学习
发布期刊: Nature, 2024.02
论文链接: Avoiding fusion plasma tearing instability with deep reinforcement learning
科研团队: 北师大黄国和研究团队
相关研究: ERA5 数据集、月度风速数据、GCM、CNN、ECA-Net
发布期刊: ACS publications, 2024.01
科研团队: 东南大学自动化学院张金霞教授团队
相关研究: NAS、Knowledge Distillation、Normal cells、Reduction cells、DARTS、Teacher-Student 模式
发布期刊: Nature, 2024.03
科研团队: 中南大学柳建新研究团队
相关研究: SAR 数据集、机器学习模型、XGBR、LSTM
发布期刊: Journal of Environmental Management, 2024.02
论文链接: Machine learning-based techniques for land subsidence simulation in an urban area
科研团队: 成都理工大学刘瑞研究团队
相关研究: Sentinel-2 多光谱数据、NASADEM 数据、滑坡数据、GLFE、CNN、DSSA、DSC、DTL、Transformer、深度迁移学习。交并比提高了 1.91% - 24.42%,F1 提高了 1.26% - 18.54%
发布期刊: International Journal of Applied Earth Observation and Geoinformation, 2024.01
论文链接: A deep learning system for predicting time to progression of diabetic retinopathy
科研团队: 谷歌 DeepMind 与利物浦足球俱乐部
相关研究: Geometric deep learning、GNN、predictive model、generative model。射球机会提升 13%
发布期刊: Nature, 2024.03
科研团队: 清华大学电子工程系城市科学与计算研究中心、清华大学深圳国际研究生院深圳市泛在数据赋能重点实验室、鹏城实验室的研究人员
相关研究: GC 数据集、UCY 数据集、条件去噪扩散模型、SPDiff、GN、EGCL、LSTM、多帧推演训练算法。5% 训练数据量即可达到最优性能
发布期刊: Nature, 2024.02
论文链接: Social Physics Informed Diffusion Model for Crowd Simulation
科研团队: 英伟达研究团队
相关研究: 领域自适应技术、NVIDIA NeMo、domain-adapted retrieval models、RAG、supervised fine-tuning with domain-specific instructions、DAPT、SFT、Tevatron、LLM
发布期刊: Journals & Magazines, 2024.03
科研团队: 谷歌 DeepMind 研究团队
相关研究: neural language model、symbolic deduction engine、语言模型
发布期刊: Nature, 2024.01
论文链接: Solving olympiad geometry without human demonstrations
科研团队: 清华大学李勇研究团队
相关研究: 深度强化学习、human–artificial intelligence collaborative 框架、城市规划模型、策略网络、价值网络、GNN。在服务和生态指标上击败了 8 名专业人类规划师
发布期刊: Nature Computational Science, 2023.09
论文链接: Spatial planning of urban communities via deep reinforcement learning
科研团队: DeepMind 和威尼斯福斯卡里大学的研究人员
相关研究: I.PHI 数据集、Ithaca 模型、Kullback-Leibler 散度、交叉熵损失函数。文本修复工作的准确率达到 62%,时间归因误差在 30 年内,地域归因准确率达到 71%
发布期刊: Nature, 2020.03
论文链接: Restoring and attributing ancient texts using deep neural networks
For more, reach hyperai/awesome-ai4s.