Sophie Wu

Beauty always leads us to truth.

0%

北京最近很冷,中午吃完饭后一般会去附近的大望京公园散会儿步、晒晒太阳。两周前就留意到公园里有一种树的枝条呈金黄色,叶子掉光了,光秃秃的枝条像是被涂上了一层黄色的漆面,甚至有一次经过的时候听到几位路人在辩论这是不是人工涂上去的。

阅读全文 »

为什么人的血液是红色的?我们可能都知道这是因为血液中有红细胞,为人体各部分运送氧气。具体而言,红细胞具有血红蛋白,血红蛋白中含有铁元素,因而呈现红色,并且氧元素的携带与否还会影响血红蛋白红色的深浅,含氧血红蛋白和脱氧血红蛋白对红色光的吸收能力差异正是皮肤血氧仪的设计原理。

阅读全文 »

上段时间阅读了尤瓦尔·赫拉利的《人类简史》,在微信读书上阅读,留下了很多笔记和即兴的问题,最近有个人给我的一个问题留下了一条有意思的评论(见下图),也让我对当时提出的这个问题、提问的初衷以及这个问题本身的意义有一些思考。

阅读全文 »

今天中午偶然发现了一棵柏树的下端出现了很多松针样的叶子,乍一看以为可能是两棵树的叶片交织在一起而已,仔细一看十分惊奇,一个枝条上同时生长着典型的松树针状叶和柏树鳞状叶。赶紧拍了下来,回来查查原因。

阅读全文 »

《人类简史:从动物到上帝》是作者尤瓦尔·赫拉利 简史三部曲中的第一部(另外两部是《未来简史》和《今日简史》),这本书从演化生物学的角度分析了人类从地球上众多普通动物中脱颖而出的历程,“人类”这个不拘泥于国家和民族的关注对象反映出赫拉利对宏大叙事的追求。《人类简史》的核心并不是忠实、朴素地记录历史的细枝末节,而是从人类漫长的演化史上采撷重要的片段和现象,用以说明一些普适的历史法则和人生道理,因此这本书被定位成历史哲学更合适。

阅读全文 »

LLM的评估方法可分成如下四种:

  1. 任务特定指标(task-specific metrics):捕获语言生成中的某些方面,适用于特定任务。
    1. 文本摘要:主流的评估指标是ROUGE,将模型生成的文本与人工编写的参考摘要比较相似性。具体由3个指标构成,分别是召回率(Recall,匹配的unigram占参考摘要的比例)、精度(Precision,匹配的unigram占模型摘要的比例)和ROUGE(前两者的调和平均数)。
    2. 机器翻译:BLEU分数,衡量机器翻译与一组高质量人工翻译的接近程度。
阅读全文 »

本文第一部分列表展示LLM的主要功能和产品应用方向,第二部分结合文献综述chatbot这个方向的来龙去脉、相关知识。

阅读全文 »

基于大模型的产品、智能体主要包括如下几种类型:

  • 对话式服务
  • 工作流编排
  • 自主智能体
  • 多智能体协同:包含角色扮演
阅读全文 »

本文是一篇学习笔记,调研了关于提示工程(prompt engineering)的基础知识、常见提示方法以及应用场景,文末附加相关的在线学习资源。

阅读全文 »

语言就像思维的窗口,我们通常会根据别人说了什么来推测对方在想什么。但是擅长语言等于擅长思维吗?这是一个误解,尤其是大语言模型的出现让这种误解达到了高潮。图灵于1950年提出利用语言和思维之间的强相关,把语言作为思维的接口,用语言测试来检验机器类人思维的能力。图灵测试给公众造成一种印象,即如果一个人或机器擅长语言,那也就擅长思维(“good at language -> good at thought”),这是一种认知谬误。

本文结合近期文献,主要讨论如下问题:语言和思维之间是什么关系?大模型在何种程度上掌握了语言和思维?第一部分从认知神经科学的角度介绍人脑中分别负责语言和思维功能的脑网络及其分离关系;第二部分从形式语言和功能语言二分类的角度揭示大模型仅掌握形式语言,而功能语言是思维的重要环节。未来大模型要想具备思维,一个可能的发展方向是,模仿人脑中形式语言和功能语言分离加工的特征,通过不同的模块分别实现这两种语言能力,而非仅局限于擅长形式语言。

阅读全文 »