Or Lenchner
1.6K posts

Or Lenchner
@orlench
CEO, https://t.co/QOCLFrBfbI | keeping public data, public.
Israel Katılım Aralık 2012
744 Takip Edilen705 Takipçiler

נייס. מה זה אומר על bright data? כנראה שהיא שווה 2-4 מיליארד דולר.
כלכליסט-טק@Tecnology
חברת Tavily הישראלית במגעים מתקדמים למכירה ב-400 מיליון דולר | בלעדי calcal.ist/8bvu5zp4 @meirorbach
עברית


בחסות המהפכה
על רקע עליית הבינה המלאכותית, ברייט דאטה קופצת בהכנסות. החברה חצתה את 300 מיליון דולר בקצב הכנסות שנתי, נכון לרבעון האחרון, וצומחת במעל 50%. קצב ה-EBITDA השנתי של ברייט חצה את רף 100 מיליון דולר, נכון לרבעון האחרון.
ברייט דאטה הישראלית עוסקת בפיתוח כלים לקצירת מידע, היא מאפשרת לחברות שמפתחות AI לאסוף מידע מהרשת לאימון המודלים וגם כדי שהמודלים יוכלו לתת תשובות עדכניות למשתמשים. היתרון של ברייט הוא היכולת שלה לעקוף חסימות של כלים לא אנושיים מלקרוא אתרי אינטרנט , חסימות שהיו מונעים מהמודלים להגיע למידע.
לכתבה המלאה בתגובות
עברית

@doritsos חברה מדהימה ומצויינת - אבל! העלות לצערי מאוד גבוה ושולחת אותי להתפזר בין כמה חברות.
אין סיבה לקחת 1.35 דולר על 1000 בקשות חיפוש כאשר יש מתחרים שנותנים את אותו הדבר ב0.3-0.4.
כנ״ל בסקרייפינג.
עברית

@amitaiz @Cyburgerim אנחנו שומרים בערך 3 מיליארד עמודים ביום, מעל 400 מיליארד בינתיים, אבל לא מאונדקס כמנוע חיפוש. אתה יכול נגיד לקנות את כל העמודים של h&m שחיפשת שם, היסטורית ולהתחיל לברור מתוך זה :)
זה בעיקר לאימון מודלים ענקיים
עברית

@Cyburgerim אני *חושב* שברייט דאטה כן אבל עבור לקוחות משלמים.
נכון @orlench ?
עברית

הדף הפופולרי של היום:
כלכלה אוטרקית – ויקיפדיה share.google/9fVBZWJpA5NHAW…
עברית

@amitaiz ששששש, אם סמוטריץ' ישמע על זה הוא יקצץ ויעביר את התקציב לסטרוק
עברית

@shal3v אנחנו מסבירים את השיטות שלנו בשקיפות, פה למשל:
Bright Data’s Trust Center: Leading Ethical Web Data Collection share.google/u7VoFP7mjTEkql…

@liran_tal @DorShinar @PnL63962200 @barzik מה שbright להבנתי עושים זה להשתמש בתוספי דפדפן שמספקים להם תמונה די מלאה של האינטרנט. אני עם @PnL63962200, זה קרב אבוד.
עברית

@OmriRT זאת לא הנחה, אנחנו עושים סקרייפינג מאתרים שמשתמשים בקלאודפלייר ואין שום שינוי :)
את הדעה המשפטית שלי אתה מכיר היטב 😀
עברית

@orlench כן, זו גם ההנחה שלי. השאלה מה יהיה האפקט המשפטי לאורך זמן
עברית

אז יש כאן דיון אם אפשר בכלל לאתר ולחסום באופן מדויק קרולרים של LLM שאוספים מידע לצורך אימון. במקביל למאמץ הטכני, יש גם מאמץ משפטי מקביל, לפחות באירופה. הAI Act דורש ממפתחים של מודלים גדולים החל מעוד שבועיים לתעד את כל מקורות המידע לאימון ובמיוחד תוכן מוגן בזכות יוצרים >>
Ran Bar-Zik@barzik
קלאודפלייר, שהוא סםק הwaf (פיירוול לאתרי אינטרנט) מאפשר חסימה ל-LLM שסורקים אתרים ושואבים את תוכנם. זו תהיה גם הגדרה בברירת מחדל לדומיינים חדשים. זה... מעניין.
עברית

@danibauman2 @barzik זה זניח.. מדובר פה על אתרי תוכן, לא אתר איקומרס שהמחיר משתנה כל שעה וצריך לגשת שוב ושוב. באתרי תוכן אתה אוסף הכל פעם אחת ואז מידי פעם ניגש לבדוק אם יש תוספת. זה טראפיק נמוך שגם לא יחסם, וגם לא יהיה שווה יותר מגרוש וחצי ליצרן התוכן במידה והמודל יסכים לשלם
עברית

@meduplam חשוב לציין, שמהראשון ביולי, מתי שהם הכריזו על חסימה של הסקרייפרים כדיפולט, כלום לא קרה...אין חסימה בפועל.
המודל הזה שבור לא רק כי טכנית זה לא מתאפשר, אלא גם כי כל יצרן תוכן שהוא לא אימפריית תוכן, רק יפגע: או שיקבל גרוש וחצי, או שימחק מהאינטרנט החדש כי המודל לא יתייחס אליך.
עברית

חברת קלאודפלייר הכריזה בתחילת החודש על ״יום העצמאות לתוכן באינטרנט״.
על כך ש-AI מאיץ את הדעיכה של הווב הפתוח דיברנו פה כבר מספר פעמים:
היחס בין מספר הפעמים שבוטים אוטומטיים כמו של גוגל או OpenAI מבקרים, לבין מספר הביקורים האנושיים שמגיעים לאותו אתר, צונח במהירות.
ואם הצ׳אט בוט קורא את האתר שלי,
ומנסח מחדש תשובות עבור היוזרים שלו על סמך זה,
ואף יוזר כבר לא מבקר באתר שלי –
למה שאשתתף במשחק הזה בכלל?
הפיתרון של קלאודפלייר הוא שירות שחוסם בוטים של חברות AI.
כאלו שמבקרים (עושים crawling) באתר על מנת להוריד את התוכן,
ולצרף אותו לסט האימון של מודל שפה גדול.
אותו שירות עדיין יאפשר למשתמשים אנושיים רגילים להמשיך לבקר באתר,
לצרוך את התוכן,
ו(אולי) לצפות ולהקליק על פרסומות.
השירות הזה של קלאודפלייר הושק – והיה זמין בלחיצת כפתור – כבר לפני למעלה משנה.
ומעל מיליון לקוחות אכן בחרו להפעיל אותו.
החל מהראשון ביולי האחרון עם זאת –
התאריך עליו קלאודפלייר הכריזה בתור יום העצמאות של התוכן – השירות הזה גם יפעל בדיפולט.
לקוחות יוכלו לכבות אותו כמובן. אבל למה שיבחרו לעשות את זה?
המשמעות היא שמרבית התוכן באינטרנט –
מלבד בעלי אתרים שבאופן אקטיבי יבחרו לאפשר לבוטים של AI גישה לאתר שלהם – יהיה סגור בפני יצרניות ה-LLM.
מלבד אחת מהן: גוגל.
גוגל משתמשת באותו בוט גם כדי לבצע crawling לאתרי אינטרנט במטרה להכניס אותם לאינדקס החיפוש שלה,
וגם במטרה להכניס אותם לסט האימון של מודלי השפה הגדולים שלה.
הנימוק הוא שמודלי השפה של גוגל נכללים במסגרת תוצאות החיפוש, עם פיצ׳רים כמו AI Overviews או AI Mode.
מכיוון שבעלי האתרים עדיין רוצים להיכלל בתוצאות החיפוש של גוגל, הם מאפשרים לגוגל-בוט להוריד את התוכן שלהם.
זה משמש — לצד אינדקס החיפוש — גם לאימון של מודלי שפה גדולים.
כל זה שם את גוגל בעמדת יתרון אל מול כל יצרנית LLM אחרת:
קלאודפלייר למעשה בנתה חומה מסביב לתוכן באינטרנט הפתוח, והשאירה רק לגוגל את המפתחות.
קלאודפלייר מציעה שירות נוסף:
תשלום עבור crawl.
בעלי האתרים יוכלו לגבות כסף מחברות ה-AI.
בדומה לעסקאות שחברות גדולות כמו ניוז קורפ או רדיט עושות עם יצרניות המודלים הגדולות.
המוצר החדש יאפשר דמוקרטיזציה של המודל הזה -
כל אתר, בכל גודל, יוכל למכור - בצורה אוטומטית – גישה לתוכן שלו תמורת תשלום לכל ביקור.
זה יהיה מעניין לראות אם מכאן יתפתח המודל העסקי החדש שיאפשר לאינטרנט הפתוח להמשיך להתקיים.

עברית

@NavotV @tomer_balan אם כבר שאלת..למרות שלא תייגת!
נבות בחייאת הייתי אצלך בפודקאסט :) לא עושים סקרייפינג מאחורי לוג אין בשום פנים ואופן (החכמה זה לא לקבל את הלוגין בכלל)
עברית

@tomer_balan שנשאל את המנכ״ל? לדעתי אני צודק אבל אם אתה יודע אז אתה יודע.
עברית

@raz_kaplan חשבתי אנחנו חברים!
למה חינם? בוא קח קרדיט ממני. יש לך את המייל :)
גם הוצאנו MCP: @brightdata/mcp" target="_blank" rel="nofollow noopener">npmjs.com/package/@brigh…
עברית

מתייג בעלי תשובה פוטנציאליים
@mluggy @aloncarmel @alono88 @shemag8 @eytanlevit @rotempe4 @orlench @MS_BASE44
עברית

היי מומחים, יש המלצה על סקרייפר שמתחיל חינם ועובד טוב עם כלי וייב קודינג?
בגדול עם @base44 אבל לא אין בעיה לקרסר.
התחלתי עם @firecrawl אבל הוא מקרטע.
הסתכלתי על
@JinaAI_
crawl4ai
@scrapegraphai
דעתכם?
עברית








