AI训练要尊重版权©️方,苹果打完“隐私牌”再出“道德牌”(ai训练系统)

AI训练要尊重版权©️方,苹果打完“隐私牌”再出“道德牌”(ai训练系统)

志在“超级智能”的Meta无疑成为了当下硅谷的“风暴眼”,AI科学家的“转会费”更是已经媲美足球『明星』️,其中最出名的莫过于以2亿美元💵身价加盟Meta的苹果基础模型团队负责人庞若鸣 (Ruoming Pang) 。

日前,苹果方面公开了庞若鸣在该公司的最后一份成果《Apple Intelligence Foundation Language Models – Tech Report 2025》,展示了他们在进入2025年后在基础模型领域的技术革新。

在这篇论文中显示,他们继续打磨端云协同的混合模型,使得30亿参数的端侧模型Apple On-Device内存占用降低约37.5%,使得iPhone在不增加内存的情况下,可以允许用户在运行端侧模型的同时打开更多应用。而云端的Apple Server模型则获得了“并行轨道混合专家”,让模型在保持智能水平的同时提升了效率与扩展能力。

除了关于模型本身的技术解析,苹果在这一论文中最大的亮点,莫过于Apple Intelligence的训练并未使用任何非法从网络抓取的数据。苹果方面强调其训练数据包括获得授权的数据、公开或开源数据集,以及通过Applebot网络爬虫抓取的公开信息。而对于明确反对数据抓取的出版商,则承诺不会抓取其内容。

要知道,随着美国的加州法院裁定AI初创企业Anthropic使用受版权©️保护的作品来训练AI大模型符合“合理使用原则”(fair use),解除了桎梏的AI厂商几乎就变成了“出笼猛虎”。合理使用原则在二十余年前曾经庇护了『互联网』产业,现在又轮到AI行业。

可是同样都是“合理使用”版权©️内容,在版权©️方的视角下,AI行业的破坏力显然更强,因为『互联网』萌芽时期的上世纪90年代和『互联网』高度发达的当下,社会信息化水平已经不可同日而语。一个最典型的例子就是扫描图书资源、并将其电子化的谷歌数字图书馆项目,『互联网』厂商最初想要合理使用版权©️内容都还需要花费一番功夫。

可随着『互联网』经济的发展,在信息交换效率快速提升的诱惑下,版权©️方纷纷开启了『数字化』转型,将自己的内容搬到『互联网』上。版权©️方这一操作固然会让内容得以传播到地球的各个角落,但同样也将其暴露在了AI厂商的爬虫面前。

但由于技术水平的巨大差异,版权©️方面对AI爬虫时几乎无计可施,可偏偏如今法院又站在了AI厂商这边。这时候苹果站出来与其他AI厂商划清界限,就成为了业界难得的清流,他们表示“我们将继续遵循最佳的伦理抓取实践,包括遵守广泛采用的robots.txt 协议,允许网页所有者选择是否让他们的内容被用于训练苹果的生成式基础模型。“

不仅如此,苹果还承诺网站方不需要担心拒绝Applebot会被“穿小鞋”,因为“网页所有者对Applebot可以访问哪些页面以及如何使用这些页面拥有细致的控制,同时这些页面仍然能出现在Siri和Spotlight的搜索结果中。”

显而易见的是,苹果的这一声明将会帮助他们在版权©️方面前赢得不少印象分。

然而在AI从业者看来,苹果的这个说法其实是在给自己开脱,并为其在AI领域可能要长期处于追赶状态打预防针。有一个业内人士才知道的秘密,是AI大模型相关技术之所以会在2023、2024年狂飙突进,并且大模型的性能实现了跨越式增长,其实是AI厂商一口气消化了『互联网』世界过去三十年积累的结果。

Common Crawl、The Pile、维基百科等公开或开源数据集,如今早已被AI厂商嚼成了“甘蔗渣”,苹果实际上强调的是使用了“获得授权的数据”。从某种意义上来说,苹果这篇论文中透露的“尊重出版商权益”是好事,可问题在于不是每一个出版商都愿意给予苹果尊重自己的机会。

在人类目前已有的开源数据集几乎都被应用于AI大模型的预训练后,苹果就只能指望各大出版商新产出的内容。那么哪些出版商会愿意其数据被抓取用于AI训练呢?

先来看看『互联网』内容平台,现在除了Reddit之外,全球主流平台几乎都有AI业务,比如马斯克的X有xAI,Instagram、Facebook、Thread是Meta旗下的产品,而YouTube背后则是谷歌。

传统出版商的情况更加复杂,由于AI助手从搜索引擎手中分走了流量,以及AI重新整合内容的特性,许多出版商对于AI重塑其新闻编辑和新闻采集的方式越来越感到不安。看到这里,有的朋友可能会有疑问了,因为新闻集团、Axel Springer、康泰纳仕和美联社等重量级新闻出版商不是与OpenAI达成了协议。

但OpenAI是OpenAI、苹果是苹果,两者不可混为一谈。这些因为作品被不问自取而感到愤怒的出版商,其实是不得不接受OpenAI的事后补偿。需要注意的是,随着谷歌以AI Mode为支点对谷歌搜索引擎进行改造,如今搜索市场已经变天。AI Mode的出现让用户无需点击链接即可获取所需信息,此举也被视为谷歌逐步降低对外部网站的引流力度。

AI Mode减少了用户对于网站的访问,进而就会降低出版商的广告变现能力。OpenAI则敏锐洞察到了搜索市场的“权力真空”,SearchGPT的出现给了出版商一个谷歌搜索的替代选项,但苹果现在可没有这个筹码,毕竟Spotlight作为搜索引擎都很勉强,更遑论AI搜索了。

缺乏获得授权数据筹码的情况下,公开数据又已经被消耗殆尽,所以苹果的这个声明似乎并不具备太多现实意义,而更像是一个“免责声明”。

特别声明:[AI训练要尊重版权©️方,苹果打完“隐私牌”再出“道德牌”(ai训练系统)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

刘銮雄16岁女儿出道,代言品牌走古风路线,身价50亿却独立低调(刘銮雄妻儿)

甘比身着自己设计的钩织马甲,搭配简约白裙,温婉中透着亲和力;刘秀桦则以一袭白色不对称长裙👗出镜,裙摆的褶皱设计藏着少女的灵动,颈间佩戴的钻石项链正是父亲早年所赠,却被她搭配得恰到好处—— 没有刻意炫耀的浮夸…

刘銮雄16岁女儿出道,代言品牌走古风路线,身价50亿却独立低调(刘銮雄妻儿)

张维伊背『董璇』同款女式包,网友看法不一(张维伊演员)

消息一出,评论区立刻分成“嗑糖派”和“反思派”,上演了一场关于“夫妻同款”的情感解读大戏。“这俩人连包都能撞上,真夫妻的细节也太甜了吧”、“感觉就是情侣款啊,用一样的东西超有爱的”,这类评论收获大量点赞,俨…

张维伊背『董璇』同款女式包,网友看法不一(张维伊演员)

SHE久违合体出镜,44 岁Selina停工备孕成槽点担当,又胖又老气(久违的合体是什么意思)

画面里,Ella一身牛仔工装,头戴巡演字样鸭舌帽🧢,活脱脱总导演模样;Hebe黑色极简T恤👕,素颜却白到发光,手里拿着笔记本📓,据说负责“歌单审美把关”;最边上的是Selina,宽松碎花衬衫、牛仔七分裤,齐耳短发…

SHE久违合体出镜,44 岁Selina停工备孕成槽点担当,又胖又老气(久违的合体是什么意思)

叶蒨文谈离开爱回家:尊重公司安排,未来仍渴望拍剧(叶文是谁)

她表示Candy这个角色陪伴自己走过了演艺生涯最重要的成长期:"每天在电视城拍戏,收工后去茶餐厅吃饭都会被街坊叫'Candy',这个角色让我积累了大量男性♂️观众缘。" 谈及近

叶蒨文谈离开爱回家:尊重公司安排,未来仍渴望拍剧(叶文是谁)

央视网出品《桃之夭夭》:“她”视角记录女性♀️多元人生 探寻生命灼灼其华(给我播放桃)

桃之夭夭》直面当代女性♀️关注的共同话题,在面对面访谈中呈现嘉宾们鲜为人知的多面人生:薛凯琪回溯与抑郁症抗争的日子,讲述如何实现自我重生的历程;赵蕊蕊分享褪去世界冠军的光环后,如何重新找寻自我价值,在文学领域开…

央视网出品《<strong>桃之夭夭</strong>》:“她”视角记录女性♀️多元人生 探寻生命灼灼其华(给我播放桃)